由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 有没有什么R PACKAGE 能把web上的文本抓下来?
相关主题
咣,咣,咣,上书了!Quick R guide.5包子求助R编程问题。
[包子]老艾迪问个python的问题。Sr. Statistical & Scientific Programmer Needed
请问怎么从网上收集数据在R里install一个package,但不能用,是为啥?
R编程。R-package初级问题
请大侠指教,在R 里面run query的问题。紧急请教各位大牛一个关于R的问题
【R】how to scrape data from web pagesR怎样读文本文件
txt数据文档太大,如何提取到variable list?哪里可以拿到一只股票的历史价格 (转载)
如何让R读取一个empty csv 文件?求推荐好的CSV浏览器
相关话题的讨论汇总
话题: readlines话题: package话题: python话题: rpage话题: 抓下来
进入Statistics版参与讨论
1 (共1页)
d*******1
发帖数: 854
1
或者python什么的?
i********f
发帖数: 206
2
可以用PERL的LWP package
s*********e
发帖数: 1051
3
steal from page 23 in "data manangment with R"
> rpage = url(’http://www.r-project.org/main.shtml’,’r’)
> while(1){
+ l = readLines(rpage,1)
+ if(length(l) == 0)break;
+ if(regexpr(’has been released’,l) > -1){
+ ver = sub(’ + print(gsub(’^ *’,’’,ver))
+ break
+ }
+ }
c*******o
发帖数: 8869
4
说详细点, 你是说把URL输进SCAN就可以把网叶的text搞下来?

【在 s*********e 的大作中提到】
: steal from page 23 in "data manangment with R"
: > rpage = url(’http://www.r-project.org/main.shtml’,’r’)
: > while(1){
: + l = readLines(rpage,1)
: + if(length(l) == 0)break;
: + if(regexpr(’has been released’,l) > -1){
: + ver = sub(’: + print(gsub(’^ *’,’’,ver))
: + break
: + }

q**j
发帖数: 10612
5
python can do it. i forgot which module it is.

【在 d*******1 的大作中提到】
: 或者python什么的?
S******y
发帖数: 1123
6
How about spider.py ?
A*****n
发帖数: 243
7
urllib的urlopen, urlretrieve(python 2.6以下版本)

【在 q**j 的大作中提到】
: python can do it. i forgot which module it is.
l*********s
发帖数: 5409
8
python for sure
s*********e
发帖数: 1051
9
各位给的用PYTHON的建议太好了!
我应该先用PYTHON把网页读下来,然后存成R的支持格式,再读进R里面做分析,真方便!
我当时怎么就那么蠢呢?非要把网页直接读进R。
感谢大伙儿,我又长见识了!
g****u
发帖数: 1
10
You can use R package XML.
R*********r
发帖数: 225
11
R里面可以用readLines
> readLines('http://www.google.com')
[1] " charset=ISO-8859-1\">Google