由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Java版 - 问个 crawler 的问题
相关主题
我也想问个crawler的问题[请教]用java 做网爬虫, 有那些现成的工具比较方便?
web application一定要掌握javascript和ajax吗求思路:怎么快速收集全美主要research school 的教授名单? (转载)
请教获取URL地址的问题有谁编译过Saxon
Core Java2 Notes (2)anybody interested in AJAX conference in SF this May?
how to run Java on Linux?下月那个AJAX Experience conference
open source java programs/tools databaseRandom thoughts on Javascript
NutchAJAX: simple question on parameter passing
htmlunit及多线程问题AJAX or javascript forum recommendation?
相关话题的讨论汇总
话题: url话题: option话题: html话题: release话题: date
进入Java版参与讨论
1 (共1页)
t*********e
发帖数: 630
1
想从这个网站上抓些东西,网址:
http://www.allmusic.com/advanced-search
这个 URL 所在的页面,默认没有数据库里的东西。选择左边的 "Release Date", 比
如 2011, 右边就出现所有 2011 年发行的专辑和歌手。想写个小 crawler 把所有的歌
名都爬出来,但是上面的 URL 无法作为起始 URL,因为它不包括那个 release date
filtering 的参数。
我的问题是,如何从 HTML source, 得到一个 URL,它包括选择日期参数后所在起始页
面的完整 URL,这样,小爬虫就可以从这个页面开始。
我想大约应该是:
http://www.allmusic.com/advanced-search?start-date=2011
但这个不对。请熟悉 HTML/Script, 前端开发的帮忙看看,这个起始 URL 应该是什么
? Thanks.
z****e
发帖数: 54598
2
text
这个tag
z****e
发帖数: 54598
3
但是如果你要parse js的话
就比较麻烦了
上面那个tag是纯粹的html
t*********e
发帖数: 630
4
就手工分析那个 html 页面,得到起始 URL,就可以了。
比如这个 URL:
http://www.allmusic.com/song/one-oclock-jump-mt0003113821
有了这个后,上面有很多 links, 爬虫就可以从这里开始。但这个不是个好的入口,这
是某个歌手的入口。
http://www.allmusic.com/advanced-search 是个好的入口,按年代过滤,但问题是,默认情况下,这个页面上为空,爬虫没法开始爬。访问者手工选择左边 frame 的年代,比如 2010, 右边 frame 就出现 2010 开始歌曲的初始页面。如果手工获得这个页面,程序就可以开始了。就是那个年代的参数怎么加到 http://www.allmusic.com/advanced-search 里面? 通过手工分析这个为空 html 页面,应该就可以 figure out 这个完整的初始链接? 不是很熟悉这个。

【在 z****e 的大作中提到】
: 但是如果你要parse js的话
: 就比较麻烦了
: 上面那个tag是纯粹的html

t*********e
发帖数: 630
5
这是 release date 相关的 html:

Release Date




选择一个年份,这个年份怎么跟主 URL 连起来,然后向服务器发送请求?
h**n
发帖数: 36
6
去看看什么叫做endpoint吧
j******n
发帖数: 871
7
昨晚打牌跟你聊了之后问了下,原来不是那么简单,
要分deep web 和js rich 两种,
如果单纯form based的deep web好办点。
刚才看了你的那个site,应该是js rich的。
你楼上找出html部分没用,你要触发event,如果ajax 你要看ajax code部分去哪里。
之后应该就简单了,因为就是预先计算可能的值填到参数部分,如果是年份,也不过一
百多个值。
你先看看这个吧。有点概念。
https://dl.dropboxusercontent.com/u/1788176/deepweb_part_201113.pdf
后边帮不到你了,找ajax的其实也不难,你那个页面,一万多行,你自己慢慢找吧,我
看着头痛,没那动力和功夫。
祝你好运。
1 (共1页)
进入Java版参与讨论
相关主题
AJAX or javascript forum recommendation?how to run Java on Linux?
Converge of languages and design patternopen source java programs/tools database
AJAX collectionNutch
再请问版主一个随机读取文件的问题htmlunit及多线程问题
我也想问个crawler的问题[请教]用java 做网爬虫, 有那些现成的工具比较方便?
web application一定要掌握javascript和ajax吗求思路:怎么快速收集全美主要research school 的教授名单? (转载)
请教获取URL地址的问题有谁编译过Saxon
Core Java2 Notes (2)anybody interested in AJAX conference in SF this May?
相关话题的讨论汇总
话题: url话题: option话题: html话题: release话题: date