那位大侠介绍一下python的webcrawler吧 - Programming版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - 那位大侠介绍一下python的webcrawler吧

相关主题
● 写crawler	● 请问哪有用python处理文本或者html的code
● 请问Python初学者怎么学	● python能检查出space是一个还是两个吗？
● 请问哪里有python的code example	● parsing file in node: js or python ?
● python+ beautifulsoup 爬网页怎么那么复杂？	● Extrapolation in Python?
● 问个用python scratch yelp html 数据的问题	● 啥脚本可以进行网页操作？
● 有一点我不同意公孙大神说的	● 为什么我认为 Python 3 没有前途？(zz)
● python 正则表达式请教	● python download pdf
● 做web服务的语言	● Re: USER_AGENT: python-requests/2.18.4

相关话题的讨论汇总
话题: webcrawler话题: python话题: 大侠话题: 那位

进入Programming版参与讨论

1

(共1页)

T*****u 发帖数: 7103	1 谢谢了
z****e 发帖数: 54598	2 web crawler就是一概念你怎么impl跟语言本身没有关系理论上你随便选一个高级语言都可以搞定
e*****t 发帖数: 1005	3 理论上，你用打孔机打孔都可以实现。hiahia 乐高都能搭个图灵机。【在 z****e 的大作中提到】 : web crawler就是一概念 : 你怎么impl跟语言本身没有关系 : 理论上你随便选一个高级语言 : 都可以搞定
z****e 发帖数: 54598	4 ibm帮元首屠杀犹太人时候就是做打孔机的【在 e*****t 的大作中提到】 : 理论上，你用打孔机打孔都可以实现。hiahia : 乐高都能搭个图灵机。
e*****e 发帖数: 543	5 是啊，在某local IBM office见过，还有个什么卡片排序的东东。【在 z****e 的大作中提到】 : ibm帮元首屠杀犹太人时候就是做打孔机的
w****k 发帖数: 6244	6 scrapy, beautifulsoup, requests 【在 T*****u 的大作中提到】 : 谢谢了
p**o 发帖数: 3409	7 用requests或者urllib2裸写，用BeautifulSoup或者lxml或者正则来parse 或者用scrapy这样的framework 新手建议从裸写开始【在 T*****u 的大作中提到】 : 谢谢了
T*****u 发帖数: 7103	8 Thanks for sharing. Can you specify more details? 【在 p**o 的大作中提到】 : 用requests或者urllib2裸写，用BeautifulSoup或者lxml或者正则来parse : 或者用scrapy这样的framework : 新手建议从裸写开始
T*****u 发帖数: 7103	9 牛人，我不懂才问的。问细节的时候回答概念，问概念的时候回答细节，我们新手跟不上啊。【在 z****e 的大作中提到】 : web crawler就是一概念 : 你怎么impl跟语言本身没有关系 : 理论上你随便选一个高级语言 : 都可以搞定
p**o 发帖数: 3409	10 just google the keywords 【在 T*****u 的大作中提到】 : Thanks for sharing. Can you specify more details?
z****e 发帖数: 54598	11 你应该了解一下html和http这些东西 webcrawler无非是代替你人工发送request给某一个url，然后把得到的html这些给存起来再从html中找到url，再发送，如此循环的一个过程无非就这点东西，不算啥rocket science 大部分高级语言都有现成的类库帮你做这几步【在 T*****u 的大作中提到】 : 牛人，我不懂才问的。问细节的时候回答概念，问概念的时候回答细节，我们新手跟不 : 上啊。
T*****u 发帖数: 7103	12 谢谢，much better... 起来【在 z****e 的大作中提到】 : 你应该了解一下html和http这些东西 : webcrawler无非是代替你人工发送request给某一个url，然后把得到的html这些给存起来 : 再从html中找到url，再发送，如此循环的一个过程 : 无非就这点东西，不算啥rocket science : 大部分高级语言都有现成的类库帮你做这几步

1

(共1页)

进入Programming版参与讨论

相关主题
● Re: USER_AGENT: python-requests/2.18.4	● 问个用python scratch yelp html 数据的问题
● perl webcrawler needed to download google trend data	● 有一点我不同意公孙大神说的
● 请教html中的href	● python 正则表达式请教
● 同主题转寄 (转载)	● 做web服务的语言
● 写crawler	● 请问哪有用python处理文本或者html的code
● 请问Python初学者怎么学	● python能检查出space是一个还是两个吗？
● 请问哪里有python的code example	● parsing file in node: js or python ?
● python+ beautifulsoup 爬网页怎么那么复杂？	● Extrapolation in Python?

相关话题的讨论汇总
话题: webcrawler话题: python话题: 大侠话题: 那位

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)