web scraping有啥方便的API或者框架不 - Programming版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - web scraping有啥方便的API或者框架不

相关主题
● 小白问网页scraping 的一个问题	● 请教一个Android的简单HTTP REST编程问题 (转载)
● 谁给说说Selenium？	● 请教一个语言选择的弱问题
● 求教Python的一个问题	● 菜鸟问题
● 如果没有api，有什么办法写网站客户端呢？	● Java可以自动填写webpage，然后submit吗？ (转载)
● 希拉里脸部加屎API	● 怎么可以取出网页中更新的内容 ?
● 离成功转码还有多远？	● 请问如何实现自动向网站提交数据的程序?
● 用VBA Macro作web page scraping的时候如何遍历page中的dropdown	● 请教，网页抓取、内容整理提取用什么做比较简单
● 写crawler	● 请问怎么写外挂啊?

相关话题的讨论汇总
话题: api话题: scraping话题: htmlunit话题: web话题: 框架

进入Programming版参与讨论

1

(共1页)

S**********e 发帖数: 503	1 就是从一些网站抓link分析然后下载点东西。我目前只知道用java和apache的 httpclient抓回网页然后分析文本,今天google到一个叫selenium的东西，好像能简化开发过程。不知道还有什么简单易用的？
c********l 发帖数: 8138	2 http://blogread.cn/it/article/874?f=hot1 http://blogread.cn/it/article/3958?f=sa http://blogread.cn/it/article/4086?f=sa http://www.searchtb.com/2011/01/an-introduction-to-crawler.html
g*****g 发帖数: 34805	3 htmlunit. 【在 S**********e 的大作中提到】 : 就是从一些网站抓link分析然后下载点东西。我目前只知道用java和apache的 : httpclient抓回网页然后分析文本,今天google到一个叫selenium的东西，好像能简化 : 开发过程。不知道还有什么简单易用的？
i**i 发帖数: 1500	4 https://github.com/cheeriojs/cheerio 很好用 http://phantomjs.org/ 没用过，比较牛。
c********l 发帖数: 8138	5 selenium内核就是htmlunit吧【在 g*****g 的大作中提到】 : htmlunit.
c********l 发帖数: 8138	6 phantomjs口碑相当不错【在 i**i 的大作中提到】 : https://github.com/cheeriojs/cheerio 很好用 : http://phantomjs.org/ 没用过，比较牛。
w****k 发帖数: 6244	7 scrapy + beautifulsoup4 in python 【在 S**********e 的大作中提到】 : 就是从一些网站抓link分析然后下载点东西。我目前只知道用java和apache的 : httpclient抓回网页然后分析文本,今天google到一个叫selenium的东西，好像能简化 : 开发过程。不知道还有什么简单易用的？
t**r 发帖数: 3428	8 赞，正打算找
c********l 发帖数: 8138	9 http://python.memect.com/?tag=textextraction 这里有一些text extract的东西，和web scrape不完全一样，但相关度很高
l****t 发帖数: 228	10 嗯动态页面或者很多交互的话phantomjs不错如果只是静态页面的话python beautifulsoup就可以搞定了【在 i**i 的大作中提到】 : https://github.com/cheeriojs/cheerio 很好用 : http://phantomjs.org/ 没用过，比较牛。

1

(共1页)

进入Programming版参与讨论

相关主题
● 请问怎么写外挂啊?	● 希拉里脸部加屎API
● 如何实现将网页内容自动存取？	● 离成功转码还有多远？
● 从网上读取数据，然后在本地计算用什么语言合适？	● 用VBA Macro作web page scraping的时候如何遍历page中的dropdown
● 一个网页点击link和copy link address再打开得到不同结果	● 写crawler
● 小白问网页scraping 的一个问题	● 请教一个Android的简单HTTP REST编程问题 (转载)
● 谁给说说Selenium？	● 请教一个语言选择的弱问题
● 求教Python的一个问题	● 菜鸟问题
● 如果没有api，有什么办法写网站客户端呢？	● Java可以自动填写webpage，然后submit吗？ (转载)

相关话题的讨论汇总
话题: api话题: scraping话题: htmlunit话题: web话题: 框架

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)