由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - web scraping有啥方便的API或者框架不
相关主题
小白问网页scraping 的一个问题请教一个Android的简单HTTP REST编程问题 (转载)
谁给说说Selenium?请教一个语言选择的弱问题
求教Python的一个问题菜鸟问题
如果没有api,有什么办法写网站客户端呢?Java可以自动填写webpage,然后submit吗? (转载)
希拉里脸部加屎API怎么可以取出网页中更新的内容 ?
离成功转码还有多远?请问如何实现自动向网站提交数据的程序?
用VBA Macro作web page scraping的时候如何遍历page中的dropdown请教,网页抓取、内容整理提取用什么做比较简单
写crawler请问怎么写外挂啊?
相关话题的讨论汇总
话题: api话题: scraping话题: htmlunit话题: web话题: 框架
进入Programming版参与讨论
1 (共1页)
S**********e
发帖数: 503
1
就是从一些网站抓link分析然后下载点东西。我目前只知道用java和apache的
httpclient抓回网页然后分析文本,今天google到一个叫selenium的东西,好像能简化
开发过程。不知道还有什么简单易用的?
c********l
发帖数: 8138
g*****g
发帖数: 34805
3
htmlunit.

【在 S**********e 的大作中提到】
: 就是从一些网站抓link分析然后下载点东西。我目前只知道用java和apache的
: httpclient抓回网页然后分析文本,今天google到一个叫selenium的东西,好像能简化
: 开发过程。不知道还有什么简单易用的?

i**i
发帖数: 1500
c********l
发帖数: 8138
5
selenium内核就是htmlunit吧

【在 g*****g 的大作中提到】
: htmlunit.
c********l
发帖数: 8138
6
phantomjs口碑相当不错

【在 i**i 的大作中提到】
: https://github.com/cheeriojs/cheerio 很好用
: http://phantomjs.org/ 没用过,比较牛。

w****k
发帖数: 6244
7
scrapy + beautifulsoup4 in python

【在 S**********e 的大作中提到】
: 就是从一些网站抓link分析然后下载点东西。我目前只知道用java和apache的
: httpclient抓回网页然后分析文本,今天google到一个叫selenium的东西,好像能简化
: 开发过程。不知道还有什么简单易用的?

t**r
发帖数: 3428
8
赞,正打算找
c********l
发帖数: 8138
9
http://python.memect.com/?tag=textextraction
这里有一些text extract的东西,和web scrape不完全一样,但相关度很高
l****t
发帖数: 228
10
嗯 动态页面 或者很多交互的话phantomjs不错
如果只是静态页面的话python beautifulsoup就可以搞定了

【在 i**i 的大作中提到】
: https://github.com/cheeriojs/cheerio 很好用
: http://phantomjs.org/ 没用过,比较牛。

1 (共1页)
进入Programming版参与讨论
相关主题
请问怎么写外挂啊?希拉里脸部加屎API
如何实现将网页内容自动存取?离成功转码还有多远?
从网上读取数据,然后在本地计算用什么语言合适?用VBA Macro作web page scraping的时候如何遍历page中的dropdown
一个网页点击link和copy link address再打开得到不同结果写crawler
小白问网页scraping 的一个问题请教一个Android的简单HTTP REST编程问题 (转载)
谁给说说Selenium?请教一个语言选择的弱问题
求教Python的一个问题菜鸟问题
如果没有api,有什么办法写网站客户端呢?Java可以自动填写webpage,然后submit吗? (转载)
相关话题的讨论汇总
话题: api话题: scraping话题: htmlunit话题: web话题: 框架