由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 那位大侠介绍一下python的webcrawler吧
相关主题
写crawler请问哪有用python处理文本或者html的code
请问Python初学者怎么学python能检查出space是一个还是两个吗?
请问哪里有python的code exampleparsing file in node: js or python ?
python+ beautifulsoup 爬网页怎么那么复杂?Extrapolation in Python?
问个用python scratch yelp html 数据的问题啥脚本可以进行网页操作?
有一点我不同意公孙大神说的为什么我认为 Python 3 没有前途?(zz)
python 正则表达式请教python download pdf
做web服务的语言Re: USER_AGENT: python-requests/2.18.4
相关话题的讨论汇总
话题: webcrawler话题: python话题: 大侠话题: 那位
进入Programming版参与讨论
1 (共1页)
T*****u
发帖数: 7103
1
谢谢了
z****e
发帖数: 54598
2
web crawler就是一概念
你怎么impl跟语言本身没有关系
理论上你随便选一个高级语言
都可以搞定
e*****t
发帖数: 1005
3
理论上,你用打孔机打孔都可以实现。hiahia
乐高都能搭个图灵机。

【在 z****e 的大作中提到】
: web crawler就是一概念
: 你怎么impl跟语言本身没有关系
: 理论上你随便选一个高级语言
: 都可以搞定

z****e
发帖数: 54598
4
ibm帮元首屠杀犹太人时候就是做打孔机的

【在 e*****t 的大作中提到】
: 理论上,你用打孔机打孔都可以实现。hiahia
: 乐高都能搭个图灵机。

e*****e
发帖数: 543
5
是啊,在某local IBM office见过,还有个什么卡片排序的东东。

【在 z****e 的大作中提到】
: ibm帮元首屠杀犹太人时候就是做打孔机的
w****k
发帖数: 6244
6
scrapy, beautifulsoup, requests

【在 T*****u 的大作中提到】
: 谢谢了
p**o
发帖数: 3409
7
用requests或者urllib2裸写,用BeautifulSoup或者lxml或者正则来parse
或者用scrapy这样的framework
新手建议从裸写开始

【在 T*****u 的大作中提到】
: 谢谢了
T*****u
发帖数: 7103
8
Thanks for sharing. Can you specify more details?

【在 p**o 的大作中提到】
: 用requests或者urllib2裸写,用BeautifulSoup或者lxml或者正则来parse
: 或者用scrapy这样的framework
: 新手建议从裸写开始

T*****u
发帖数: 7103
9
牛人,我不懂才问的。问细节的时候回答概念,问概念的时候回答细节,我们新手跟不
上啊。

【在 z****e 的大作中提到】
: web crawler就是一概念
: 你怎么impl跟语言本身没有关系
: 理论上你随便选一个高级语言
: 都可以搞定

p**o
发帖数: 3409
10
just google the keywords

【在 T*****u 的大作中提到】
: Thanks for sharing. Can you specify more details?
z****e
发帖数: 54598
11
你应该了解一下html和http这些东西
webcrawler无非是代替你人工发送request给某一个url,然后把得到的html这些给存起来
再从html中找到url,再发送,如此循环的一个过程
无非就这点东西,不算啥rocket science
大部分高级语言都有现成的类库帮你做这几步

【在 T*****u 的大作中提到】
: 牛人,我不懂才问的。问细节的时候回答概念,问概念的时候回答细节,我们新手跟不
: 上啊。

T*****u
发帖数: 7103
12
谢谢,much better...

起来

【在 z****e 的大作中提到】
: 你应该了解一下html和http这些东西
: webcrawler无非是代替你人工发送request给某一个url,然后把得到的html这些给存起来
: 再从html中找到url,再发送,如此循环的一个过程
: 无非就这点东西,不算啥rocket science
: 大部分高级语言都有现成的类库帮你做这几步

1 (共1页)
进入Programming版参与讨论
相关主题
Re: USER_AGENT: python-requests/2.18.4问个用python scratch yelp html 数据的问题
perl webcrawler needed to download google trend data有一点我不同意公孙大神说的
请教html中的hrefpython 正则表达式请教
同主题转寄 (转载)做web服务的语言
写crawler请问哪有用python处理文本或者html的code
请问Python初学者怎么学python能检查出space是一个还是两个吗?
请问哪里有python的code exampleparsing file in node: js or python ?
python+ beautifulsoup 爬网页怎么那么复杂?Extrapolation in Python?
相关话题的讨论汇总
话题: webcrawler话题: python话题: 大侠话题: 那位