w****k 发帖数: 6244 | 1 不同网站,不同页面,结构不同,需要不同的parser。
一个个肉眼看,然后写parser,这么搞搞死掉啊 |
A*******t 发帖数: 443 | 2 jsoup
【在 w****k 的大作中提到】 : 不同网站,不同页面,结构不同,需要不同的parser。 : 一个个肉眼看,然后写parser,这么搞搞死掉啊
|
n******1 发帖数: 3756 | |
w****k 发帖数: 6244 | 4 还是不可避免要自己定义怎么提取每个页面的内容
turn unstructred data into structured
真是很繁琐
【在 n******1 的大作中提到】 : Apache Nutch
|
c****e 发帖数: 1453 | 5 You have no way to get away with that. Try to write code to support your own
template.
【在 w****k 的大作中提到】 : 还是不可避免要自己定义怎么提取每个页面的内容 : turn unstructred data into structured : 真是很繁琐
|
l*******s 发帖数: 1258 | 6 try Connotate,很好很强大,不懂编程也能拿来用,有GUI的。
就是有点贵 |
c******o 发帖数: 1277 | 7 好的网页都是遵守SEO (search engine optimization) 的。 |
m******t 发帖数: 635 | 8 这两天新鲜出炉的, 据说是流行的python crawler Scrapy的前端,哪位先试试?
Portia is a tool for visually scraping web sites without any programming
knowledge. Just annotate web pages with a point and click editor to indicate
what data you want to extract, and portia will learn how to scrape similar
pages from the site.
Portia has a web based UI served by a Twisted server, so you can install it
on almost any modern platform.
在github上面
https://github.com/scrapinghub/portia |
l**********n 发帖数: 8443 | |