写crawler - Programming版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - 写crawler

... ?

相关主题
● 用VBA Macro作web page scraping的时候如何遍历page中的dropdown	● 请问哪里有python的code example
● 小白问网页scraping 的一个问题	● Guido on Python AsyncIO (1/23/2014)
● 那位大侠介绍一下python的webcrawler吧	● 请教Regular Expression,
● 在带有ajax的页面做screen scrape	● 谁给说说Selenium？
● 如何下载网络页面，不包含 ,
● web scraping有啥方便的API或者框架不
● Bing就这水平？还是洗洗睡了吧	● 买不到iPhone 6/6+的同学看过来 (转载)
● 想写个适用于移动设备显示的书名查询页面，把书名检索送到	● Scrape别人网站做自己的服务违法吗
● 如果没有api，有什么办法写网站客户端呢？	● 离成功转码还有多远？

相关话题的讨论汇总
话题: crawler话题: portia话题: parser话题: web话题: try

进入Programming版参与讨论

1

(共1页)

w****k 发帖数: 6244	1 不同网站，不同页面，结构不同，需要不同的parser。一个个肉眼看，然后写parser，这么搞搞死掉啊
A*******t 发帖数: 443	2 jsoup 【在 w****k 的大作中提到】 : 不同网站，不同页面，结构不同，需要不同的parser。 : 一个个肉眼看，然后写parser，这么搞搞死掉啊
n******1 发帖数: 3756	3 Apache Nutch
w****k 发帖数: 6244	4 还是不可避免要自己定义怎么提取每个页面的内容 turn unstructred data into structured 真是很繁琐【在 n******1 的大作中提到】 : Apache Nutch
c****e 发帖数: 1453	5 You have no way to get away with that. Try to write code to support your own template. 【在 w****k 的大作中提到】 : 还是不可避免要自己定义怎么提取每个页面的内容 : turn unstructred data into structured : 真是很繁琐
l*******s 发帖数: 1258	6 try Connotate，很好很强大，不懂编程也能拿来用，有GUI的。就是有点贵
c******o 发帖数: 1277	7 好的网页都是遵守SEO (search engine optimization) 的。
m******t 发帖数: 635	8 这两天新鲜出炉的, 据说是流行的python crawler Scrapy的前端,哪位先试试？ Portia is a tool for visually scraping web sites without any programming knowledge. Just annotate web pages with a point and click editor to indicate what data you want to extract, and portia will learn how to scrape similar pages from the site. Portia has a web based UI served by a Twisted server, so you can install it on almost any modern platform. 在github上面 https://github.com/scrapinghub/portia
l**********n 发帖数: 8443	9 Event-driven HTML5 Parser in Javascript http://dinhe.net/~aredridel/projects/js/html5/

1

(共1页)

进入Programming版参与讨论

... ?

相关主题
● 离成功转码还有多远？	● 如何下载网络页面，不包含 ,
● Smart Parser/Compiler Development	● Bing就这水平？还是洗洗睡了吧
● 问个spring的问题	● 想写个适用于移动设备显示的书名查询页面，把书名检索送到
● 贡献一下：本版上搜集的 Google 面试题 (转载)	● 如果没有api，有什么办法写网站客户端呢？
● 用VBA Macro作web page scraping的时候如何遍历page中的dropdown	● 请问哪里有python的code example
● 小白问网页scraping 的一个问题	● Guido on Python AsyncIO (1/23/2014)
● 那位大侠介绍一下python的webcrawler吧	● 请教Regular Expression,
● 在带有ajax的页面做screen scrape	● 谁给说说Selenium？

相关话题的讨论汇总
话题: crawler话题: portia话题: parser话题: web话题: try

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)