S**********e 发帖数: 503 | 1 就是从一些网站抓link分析然后下载点东西。我目前只知道用java和apache的
httpclient抓回网页然后分析文本,今天google到一个叫selenium的东西,好像能简化
开发过程。不知道还有什么简单易用的? |
c********l 发帖数: 8138 | |
g*****g 发帖数: 34805 | 3 htmlunit.
【在 S**********e 的大作中提到】 : 就是从一些网站抓link分析然后下载点东西。我目前只知道用java和apache的 : httpclient抓回网页然后分析文本,今天google到一个叫selenium的东西,好像能简化 : 开发过程。不知道还有什么简单易用的?
|
i**i 发帖数: 1500 | |
c********l 发帖数: 8138 | 5 selenium内核就是htmlunit吧
【在 g*****g 的大作中提到】 : htmlunit.
|
c********l 发帖数: 8138 | |
w****k 发帖数: 6244 | 7 scrapy + beautifulsoup4 in python
【在 S**********e 的大作中提到】 : 就是从一些网站抓link分析然后下载点东西。我目前只知道用java和apache的 : httpclient抓回网页然后分析文本,今天google到一个叫selenium的东西,好像能简化 : 开发过程。不知道还有什么简单易用的?
|
t**r 发帖数: 3428 | |
c********l 发帖数: 8138 | 9 http://python.memect.com/?tag=textextraction
这里有一些text extract的东西,和web scrape不完全一样,但相关度很高 |
l****t 发帖数: 228 | 10 嗯 动态页面 或者很多交互的话phantomjs不错
如果只是静态页面的话python beautifulsoup就可以搞定了
【在 i**i 的大作中提到】 : https://github.com/cheeriojs/cheerio 很好用 : http://phantomjs.org/ 没用过,比较牛。
|