T*****u 发帖数: 7103 | |
z****e 发帖数: 54598 | 2 web crawler就是一概念
你怎么impl跟语言本身没有关系
理论上你随便选一个高级语言
都可以搞定 |
e*****t 发帖数: 1005 | 3 理论上,你用打孔机打孔都可以实现。hiahia
乐高都能搭个图灵机。
【在 z****e 的大作中提到】 : web crawler就是一概念 : 你怎么impl跟语言本身没有关系 : 理论上你随便选一个高级语言 : 都可以搞定
|
z****e 发帖数: 54598 | 4 ibm帮元首屠杀犹太人时候就是做打孔机的
【在 e*****t 的大作中提到】 : 理论上,你用打孔机打孔都可以实现。hiahia : 乐高都能搭个图灵机。
|
e*****e 发帖数: 543 | 5 是啊,在某local IBM office见过,还有个什么卡片排序的东东。
【在 z****e 的大作中提到】 : ibm帮元首屠杀犹太人时候就是做打孔机的
|
w****k 发帖数: 6244 | 6 scrapy, beautifulsoup, requests
【在 T*****u 的大作中提到】 : 谢谢了
|
p**o 发帖数: 3409 | 7 用requests或者urllib2裸写,用BeautifulSoup或者lxml或者正则来parse
或者用scrapy这样的framework
新手建议从裸写开始
【在 T*****u 的大作中提到】 : 谢谢了
|
T*****u 发帖数: 7103 | 8 Thanks for sharing. Can you specify more details?
【在 p**o 的大作中提到】 : 用requests或者urllib2裸写,用BeautifulSoup或者lxml或者正则来parse : 或者用scrapy这样的framework : 新手建议从裸写开始
|
T*****u 发帖数: 7103 | 9 牛人,我不懂才问的。问细节的时候回答概念,问概念的时候回答细节,我们新手跟不
上啊。
【在 z****e 的大作中提到】 : web crawler就是一概念 : 你怎么impl跟语言本身没有关系 : 理论上你随便选一个高级语言 : 都可以搞定
|
p**o 发帖数: 3409 | 10 just google the keywords
【在 T*****u 的大作中提到】 : Thanks for sharing. Can you specify more details?
|
z****e 发帖数: 54598 | 11 你应该了解一下html和http这些东西
webcrawler无非是代替你人工发送request给某一个url,然后把得到的html这些给存起来
再从html中找到url,再发送,如此循环的一个过程
无非就这点东西,不算啥rocket science
大部分高级语言都有现成的类库帮你做这几步
【在 T*****u 的大作中提到】 : 牛人,我不懂才问的。问细节的时候回答概念,问概念的时候回答细节,我们新手跟不 : 上啊。
|
T*****u 发帖数: 7103 | 12 谢谢,much better...
起来
【在 z****e 的大作中提到】 : 你应该了解一下html和http这些东西 : webcrawler无非是代替你人工发送request给某一个url,然后把得到的html这些给存起来 : 再从html中找到url,再发送,如此循环的一个过程 : 无非就这点东西,不算啥rocket science : 大部分高级语言都有现成的类库帮你做这几步
|