有没有什么R PACKAGE 能把web上的文本抓下来? - Statistics版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Statistics版 - 有没有什么R PACKAGE 能把web上的文本抓下来?

相关主题
● 咣，咣，咣，上书了！Quick R guide.	● 5包子求助R编程问题。
● [包子］老艾迪问个python的问题。	● Sr. Statistical & Scientific Programmer Needed
● 请问怎么从网上收集数据	● 在R里install一个package,但不能用，是为啥？
● R编程。	● R-package初级问题
● 请大侠指教，在R 里面run query的问题。	● 紧急请教各位大牛一个关于R的问题
● 【R】how to scrape data from web pages	● R怎样读文本文件
● txt数据文档太大，如何提取到variable list？	● 哪里可以拿到一只股票的历史价格 (转载)
● 如何让R读取一个empty csv 文件？	● 求推荐好的CSV浏览器

相关话题的讨论汇总
话题: readlines话题: package话题: python话题: rpage话题: 抓下来

进入Statistics版参与讨论

1

(共1页)

d*******1 发帖数: 854	1 或者python什么的?
i********f 发帖数: 206	2 可以用PERL的LWP package
s*********e 发帖数: 1051	3 steal from page 23 in "data manangment with R" > rpage = url(’http://www.r-project.org/main.shtml’,’r’) > while(1){ + l = readLines(rpage,1) + if(length(l) == 0)break; + if(regexpr(’has been released’,l) > -1){ + ver = sub(’ + print(gsub(’^ *’,’’,ver)) + break + } + }
c*******o 发帖数: 8869	4 说详细点, 你是说把URL输进SCAN就可以把网叶的text搞下来？【在 s********e 的大作中提到】 : steal from page 23 in "data manangment with R" : > rpage = url(’http://www.r-project.org/main.shtml’,’r’) : > while(1){ : + l = readLines(rpage,1) : + if(length(l) == 0)break; : + if(regexpr(’has been released’,l) > -1){ : + ver = sub(’: + print(gsub(’^ ’,’’,ver)) : + break : + }
q**j 发帖数: 10612	5 python can do it. i forgot which module it is. 【在 d*******1 的大作中提到】 : 或者python什么的?
S******y 发帖数: 1123	6 How about spider.py ?
A*****n 发帖数: 243	7 urllib的urlopen, urlretrieve(python 2.6以下版本) 【在 q**j 的大作中提到】 : python can do it. i forgot which module it is.
l*********s 发帖数: 5409	8 python for sure
s*********e 发帖数: 1051	9 各位给的用PYTHON的建议太好了！我应该先用PYTHON把网页读下来，然后存成R的支持格式，再读进R里面做分析，真方便！我当时怎么就那么蠢呢？非要把网页直接读进R。感谢大伙儿，我又长见识了！
g****u 发帖数: 1	10 You can use R package XML.
R*********r 发帖数: 225	11 R里面可以用readLines > readLines('http://www.google.com') [1] " charset=ISO-8859-1\">Google 除非另有声明，本站内容采用Creative Commons BY-NC-SA 3.0协议进行许可，转载请注明来自未名观察 - 隐私政策2011-07-24 10:06:12由admin编辑