r*****e 发帖数: 4598 | 1 【 以下文字转载自 LosAngeles 讨论区 】
发信人: roselle (蔷薇), 信区: LosAngeles
标 题: 优秀程序员请进
发信站: BBS 未名空间站 (Tue Jun 25 03:13:01 2013, 美东)
请问有没有专门在网上抓取数据的程序尼? 每个subpage的格式都是一样的 但是手动
的每页都要手动点开 然后收集信息 感觉很麻烦 虽然数据量也不算大 对懒人来说还是
有点。。。
如果有程序可以的话 可以报个价先 |
p****x 发帖数: 707 | 2 这个不难吧。把网页存为XML的。找匹配的TAG。只是个想法,没有程序。
【在 r*****e 的大作中提到】 : 【 以下文字转载自 LosAngeles 讨论区 】 : 发信人: roselle (蔷薇), 信区: LosAngeles : 标 题: 优秀程序员请进 : 发信站: BBS 未名空间站 (Tue Jun 25 03:13:01 2013, 美东) : 请问有没有专门在网上抓取数据的程序尼? 每个subpage的格式都是一样的 但是手动 : 的每页都要手动点开 然后收集信息 感觉很麻烦 虽然数据量也不算大 对懒人来说还是 : 有点。。。 : 如果有程序可以的话 可以报个价先
|
A***l 发帖数: 461 | 3 scripted language就可以了,根本不需要优秀程序员,找个会ruby的。
【在 r*****e 的大作中提到】 : 【 以下文字转载自 LosAngeles 讨论区 】 : 发信人: roselle (蔷薇), 信区: LosAngeles : 标 题: 优秀程序员请进 : 发信站: BBS 未名空间站 (Tue Jun 25 03:13:01 2013, 美东) : 请问有没有专门在网上抓取数据的程序尼? 每个subpage的格式都是一样的 但是手动 : 的每页都要手动点开 然后收集信息 感觉很麻烦 虽然数据量也不算大 对懒人来说还是 : 有点。。。 : 如果有程序可以的话 可以报个价先
|
H******9 发帖数: 8087 | 4 开源的程序有很多做这个的啊
【在 r*****e 的大作中提到】 : 【 以下文字转载自 LosAngeles 讨论区 】 : 发信人: roselle (蔷薇), 信区: LosAngeles : 标 题: 优秀程序员请进 : 发信站: BBS 未名空间站 (Tue Jun 25 03:13:01 2013, 美东) : 请问有没有专门在网上抓取数据的程序尼? 每个subpage的格式都是一样的 但是手动 : 的每页都要手动点开 然后收集信息 感觉很麻烦 虽然数据量也不算大 对懒人来说还是 : 有点。。。 : 如果有程序可以的话 可以报个价先
|
r*****e 发帖数: 4598 | 5 【 以下文字转载自 LosAngeles 讨论区 】
发信人: roselle (蔷薇), 信区: LosAngeles
标 题: 优秀程序员请进
发信站: BBS 未名空间站 (Tue Jun 25 03:13:01 2013, 美东)
请问有没有专门在网上抓取数据的程序尼? 每个subpage的格式都是一样的 但是手动
的每页都要手动点开 然后收集信息 感觉很麻烦 虽然数据量也不算大 对懒人来说还是
有点。。。
如果有程序可以的话 可以报个价先 |
p****x 发帖数: 707 | 6 这个不难吧。把网页存为XML的。找匹配的TAG。只是个想法,没有程序。
【在 r*****e 的大作中提到】 : 【 以下文字转载自 LosAngeles 讨论区 】 : 发信人: roselle (蔷薇), 信区: LosAngeles : 标 题: 优秀程序员请进 : 发信站: BBS 未名空间站 (Tue Jun 25 03:13:01 2013, 美东) : 请问有没有专门在网上抓取数据的程序尼? 每个subpage的格式都是一样的 但是手动 : 的每页都要手动点开 然后收集信息 感觉很麻烦 虽然数据量也不算大 对懒人来说还是 : 有点。。。 : 如果有程序可以的话 可以报个价先
|
A***l 发帖数: 461 | 7 scripted language就可以了,根本不需要优秀程序员,找个会ruby的。
【在 r*****e 的大作中提到】 : 【 以下文字转载自 LosAngeles 讨论区 】 : 发信人: roselle (蔷薇), 信区: LosAngeles : 标 题: 优秀程序员请进 : 发信站: BBS 未名空间站 (Tue Jun 25 03:13:01 2013, 美东) : 请问有没有专门在网上抓取数据的程序尼? 每个subpage的格式都是一样的 但是手动 : 的每页都要手动点开 然后收集信息 感觉很麻烦 虽然数据量也不算大 对懒人来说还是 : 有点。。。 : 如果有程序可以的话 可以报个价先
|
H******9 发帖数: 8087 | 8 开源的程序有很多做这个的啊
【在 r*****e 的大作中提到】 : 【 以下文字转载自 LosAngeles 讨论区 】 : 发信人: roselle (蔷薇), 信区: LosAngeles : 标 题: 优秀程序员请进 : 发信站: BBS 未名空间站 (Tue Jun 25 03:13:01 2013, 美东) : 请问有没有专门在网上抓取数据的程序尼? 每个subpage的格式都是一样的 但是手动 : 的每页都要手动点开 然后收集信息 感觉很麻烦 虽然数据量也不算大 对懒人来说还是 : 有点。。。 : 如果有程序可以的话 可以报个价先
|
a*f 发帖数: 1790 | 9 我做了很多抓web data的程序,你要抓什么站点里面的数据,那些链接要crawling, 要
什么格式可以M我 |
c**t 发帖数: 2744 | 10 Very simple script. You should be able to find a lot of sample code in
python/R/Java/.Net |