由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 写crawler
... ?
相关主题
用VBA Macro作web page scraping的时候如何遍历page中的dropdown请问哪里有python的code example
小白问网页scraping 的一个问题Guido on Python AsyncIO (1/23/2014)
那位大侠介绍一下python的webcrawler吧请教Regular Expression,
在带有ajax的页面做screen scrape谁给说说Selenium?
如何下载网络页面,不包含,
web scraping有啥方便的API或者框架不
Bing就这水平?还是洗洗睡了吧买不到iPhone 6/6+的同学看过来 (转载)
想写个适用于移动设备显示的书名查询页面,把书名检索送到Scrape别人网站 做自己的服务 违法吗
如果没有api,有什么办法写网站客户端呢?离成功转码还有多远?
相关话题的讨论汇总
话题: crawler话题: portia话题: parser话题: web话题: try
进入Programming版参与讨论
1 (共1页)
w****k
发帖数: 6244
1
不同网站,不同页面,结构不同,需要不同的parser。
一个个肉眼看,然后写parser,这么搞搞死掉啊
A*******t
发帖数: 443
2
jsoup

【在 w****k 的大作中提到】
: 不同网站,不同页面,结构不同,需要不同的parser。
: 一个个肉眼看,然后写parser,这么搞搞死掉啊

n******1
发帖数: 3756
3
Apache Nutch
w****k
发帖数: 6244
4
还是不可避免要自己定义怎么提取每个页面的内容
turn unstructred data into structured
真是很繁琐

【在 n******1 的大作中提到】
: Apache Nutch
c****e
发帖数: 1453
5
You have no way to get away with that. Try to write code to support your own
template.

【在 w****k 的大作中提到】
: 还是不可避免要自己定义怎么提取每个页面的内容
: turn unstructred data into structured
: 真是很繁琐

l*******s
发帖数: 1258
6
try Connotate,很好很强大,不懂编程也能拿来用,有GUI的。
就是有点贵
c******o
发帖数: 1277
7
好的网页都是遵守SEO (search engine optimization) 的。
m******t
发帖数: 635
8
这两天新鲜出炉的, 据说是流行的python crawler Scrapy的前端,哪位先试试?
Portia is a tool for visually scraping web sites without any programming
knowledge. Just annotate web pages with a point and click editor to indicate
what data you want to extract, and portia will learn how to scrape similar
pages from the site.
Portia has a web based UI served by a Twisted server, so you can install it
on almost any modern platform.
在github上面
https://github.com/scrapinghub/portia
l**********n
发帖数: 8443
9
Event-driven HTML5 Parser in Javascript
http://dinhe.net/~aredridel/projects/js/html5/
1 (共1页)
进入Programming版参与讨论
... ?
相关主题
离成功转码还有多远?如何下载网络页面,不包含,
Smart Parser/Compiler DevelopmentBing就这水平?还是洗洗睡了吧
问个spring的问题想写个适用于移动设备显示的书名查询页面,把书名检索送到
贡献一下:本版上搜集的 Google 面试题 (转载)如果没有api,有什么办法写网站客户端呢?
用VBA Macro作web page scraping的时候如何遍历page中的dropdown请问哪里有python的code example
小白问网页scraping 的一个问题Guido on Python AsyncIO (1/23/2014)
那位大侠介绍一下python的webcrawler吧请教Regular Expression,
在带有ajax的页面做screen scrape谁给说说Selenium?
相关话题的讨论汇总
话题: crawler话题: portia话题: parser话题: web话题: try