由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Linux版 - 求推荐一个容易用的crawler
相关主题
是win骑在lin上的用户多,还是lin骑在win上的多?发现elementary OS做的不错啊
做web server哪个distro比较好?ubuntu 8.04+ t61 dock的问题
装了Ubunto以后还要装Python或者Linux吗Ubuntu 9.04alpha 有 Ext4,据说感觉到快,hehe
关于arch linux的问题请问有没有自动发送IP地址的程序
python来爬网,有何好的tutorial ?firefox开始崩溃了。。。
只要世界上有几百个版本,linux就永远没有戏开机直接kernel panic会是什么原因?
Anyone used these distros?有没有比wget好一点的全站下载工具?
virtualbox + ubuntu 12.04LTS bug菜鸟 wget 问题求教
相关话题的讨论汇总
话题: python话题: crawler话题: firefox话题: ubuntu话题: 网站
进入Linux版参与讨论
1 (共1页)
F****3
发帖数: 1504
1
小弟是文科生,请问能推荐一个比较强大有比较无脑的web crawler吗?
谢谢!
w***g
发帖数: 5958
2
如果想大规模crawl还是算了。

【在 F****3 的大作中提到】
: 小弟是文科生,请问能推荐一个比较强大有比较无脑的web crawler吗?
: 谢谢!

F****3
发帖数: 1504
3
就crawl一个相对简单的help 文档网站。网站速度超慢,实在受不了啊。。。
谢谢!
S*A
发帖数: 7142
4
如果是简单一两级的连接,可以用 wget。
稍微复杂点可以用 Python 自己写,其中那个 curl 的 Python
binding 非常好用。多个连接并发爬效率很高代码也简单。感觉
比 urllib 好用多了。
w***g
发帖数: 5958
5
crawler最恶心的是crawler trap,遇上一个你就完蛋了。这个很难做好。

【在 S*A 的大作中提到】
: 如果是简单一两级的连接,可以用 wget。
: 稍微复杂点可以用 Python 自己写,其中那个 curl 的 Python
: binding 非常好用。多个连接并发爬效率很高代码也简单。感觉
: 比 urllib 好用多了。

F****3
发帖数: 1504
6
谢谢楼上几位大哥,请问哪里有模板或者已经写好的code吗?我的python水平是入门级
的,从头编写可能目前项目来不及。将来肯定要从基础学起的。
网站应该没有spider trap,因为比较专业。没有人吃饱了饭呢没事做看那东西。
谢谢提示curl,perl里面好像有

【在 S*A 的大作中提到】
: 如果是简单一两级的连接,可以用 wget。
: 稍微复杂点可以用 Python 自己写,其中那个 curl 的 Python
: binding 非常好用。多个连接并发爬效率很高代码也简单。感觉
: 比 urllib 好用多了。

S*A
发帖数: 7142
7
那个也很简单对付,关键步骤拿个 firefox + python binding
过了就好了。唯一真正不能过的是那种恶心看图认字的,
那个就要真人了。

【在 w***g 的大作中提到】
: crawler最恶心的是crawler trap,遇上一个你就完蛋了。这个很难做好。
S*A
发帖数: 7142
8
如果不要编程的话,建议你还是看看 wget 的手册
争取用 wget 拿下来吧。wget 有很多隐晦功能下载
网页的,可以指定什么样子的自动爬下来。

【在 F****3 的大作中提到】
: 谢谢楼上几位大哥,请问哪里有模板或者已经写好的code吗?我的python水平是入门级
: 的,从头编写可能目前项目来不及。将来肯定要从基础学起的。
: 网站应该没有spider trap,因为比较专业。没有人吃饱了饭呢没事做看那东西。
: 谢谢提示curl,perl里面好像有

F****3
发帖数: 1504
9
谢谢你的建议,小弟已经在用了。跑起来不错!
估计是网站内容太枯燥,没人爬。
另外,firefox + python binding是不是就可以骗过网站,号称自己是用的firefox浏
览器,而agent不会显示是python或者perl? 有几个专业网站都说只能用IE接入,FF不
行。。。
谢谢!

【在 S*A 的大作中提到】
: 那个也很简单对付,关键步骤拿个 firefox + python binding
: 过了就好了。唯一真正不能过的是那种恶心看图认字的,
: 那个就要真人了。

S*A
发帖数: 7142
10
不是号称是 Firefox, 就是 firefox,只不过跑在后台或者 VNC 里面的
窗口。这样例如 gmail, facebook 这种有比较复杂的 javascript 的网
页也可以对付。
IE 可以写 VB script。

【在 F****3 的大作中提到】
: 谢谢你的建议,小弟已经在用了。跑起来不错!
: 估计是网站内容太枯燥,没人爬。
: 另外,firefox + python binding是不是就可以骗过网站,号称自己是用的firefox浏
: 览器,而agent不会显示是python或者perl? 有几个专业网站都说只能用IE接入,FF不
: 行。。。
: 谢谢!

相关主题
只要世界上有几百个版本,linux就永远没有戏发现elementary OS做的不错啊
Anyone used these distros?ubuntu 8.04+ t61 dock的问题
virtualbox + ubuntu 12.04LTS bugUbuntu 9.04alpha 有 Ext4,据说感觉到快,hehe
进入Linux版参与讨论
F****3
发帖数: 1504
11
谢谢SSA兄!
请问像这样的网站
http://www.sciencedirect.com/science/journal/01651765
最好用什么东西爬呢?主要想保存pdf文件。
我查了一下,请问你指的python+firefox binding是不是PyXPCOM?能推荐几个相关的
包或者api之类的东西吗?是不是有firefox的python包?
问的问题有点白,不好意思哈!

【在 S*A 的大作中提到】
: 不是号称是 Firefox, 就是 firefox,只不过跑在后台或者 VNC 里面的
: 窗口。这样例如 gmail, facebook 这种有比较复杂的 javascript 的网
: 页也可以对付。
: IE 可以写 VB script。

c*********3
发帖数: 197
12
这样的网站有监测。搞不好要被封IP的。

【在 F****3 的大作中提到】
: 谢谢SSA兄!
: 请问像这样的网站
: http://www.sciencedirect.com/science/journal/01651765
: 最好用什么东西爬呢?主要想保存pdf文件。
: 我查了一下,请问你指的python+firefox binding是不是PyXPCOM?能推荐几个相关的
: 包或者api之类的东西吗?是不是有firefox的python包?
: 问的问题有点白,不好意思哈!

S*A
发帖数: 7142
13
不解。这个网站不是要钱才能下 PDF 吗?
你要确保手动可以下载才能考虑自动下载。
PyXPCOM 可以用,但是要找到合适的能用的版本不容易。
特别是那些整合能力比较弱的 Distro。 Fedora 系列以前对这个
支持不错。其他的 Distro 都没有可以直接用的。
FC 最近不再提供了。最近比较好用的是 Selenium
+ selenium python binding.

【在 F****3 的大作中提到】
: 谢谢SSA兄!
: 请问像这样的网站
: http://www.sciencedirect.com/science/journal/01651765
: 最好用什么东西爬呢?主要想保存pdf文件。
: 我查了一下,请问你指的python+firefox binding是不是PyXPCOM?能推荐几个相关的
: 包或者api之类的东西吗?是不是有firefox的python包?
: 问的问题有点白,不好意思哈!

F****3
发帖数: 1504
14
好深奥啊!这方面有实用的书籍或者网站介绍吗?老是问有点不好意思。。。
在学校可以免费下载,我就自己看不给别人,应该没问题吧?(再说,这种东西有谁吃
饱了饭看这玩意儿?)
我用的是Ubuntu是不是比较难实现?我CS的同学说Federa和Ubuntu的区别是很理论的,
一般实际运用没有什么区别。看来运用层面也有区别啊!

【在 S*A 的大作中提到】
: 不解。这个网站不是要钱才能下 PDF 吗?
: 你要确保手动可以下载才能考虑自动下载。
: PyXPCOM 可以用,但是要找到合适的能用的版本不容易。
: 特别是那些整合能力比较弱的 Distro。 Fedora 系列以前对这个
: 支持不错。其他的 Distro 都没有可以直接用的。
: FC 最近不再提供了。最近比较好用的是 Selenium
: + selenium python binding.

S*A
发帖数: 7142
15
这个估计用不着那种 firefox 来跑吧。
我看就直接用 pycurl 就应该可以下了。
Firefox 是用来对付例如 gmail Facebook 这种嵌套 javascript
特别深的网页。网页是通过很多段 javascript 分别逐步加载
出来的,如果没有比较完善的 javascript 和 UI 支持,根本
调不到你看的网页。
如果你要用个人登录的就不要这么搞了,容易被人追查。
我以前用 EC2 来爬,被封了就换个 IP 段继续爬。
Ubuntu 从来就是没有过可以用的 64位的 python xpcom。
Ubuntu 的包相互版本不兼容,最后没有可以用的 python + xpcom。
这个只有 Fedora 提供过可以直接装上去就用的。
Ubuntu 的整合能力是比较弱。
你就直接用那个 selenium + python 就好啦,那个基本上可以
装上就用,对版本依赖相对低些。

【在 F****3 的大作中提到】
: 好深奥啊!这方面有实用的书籍或者网站介绍吗?老是问有点不好意思。。。
: 在学校可以免费下载,我就自己看不给别人,应该没问题吧?(再说,这种东西有谁吃
: 饱了饭看这玩意儿?)
: 我用的是Ubuntu是不是比较难实现?我CS的同学说Federa和Ubuntu的区别是很理论的,
: 一般实际运用没有什么区别。看来运用层面也有区别啊!

F****3
发帖数: 1504
16
太好了,谢谢草虫大哥赐教!小弟按照意思去研究一下!收益匪浅!

【在 S*A 的大作中提到】
: 这个估计用不着那种 firefox 来跑吧。
: 我看就直接用 pycurl 就应该可以下了。
: Firefox 是用来对付例如 gmail Facebook 这种嵌套 javascript
: 特别深的网页。网页是通过很多段 javascript 分别逐步加载
: 出来的,如果没有比较完善的 javascript 和 UI 支持,根本
: 调不到你看的网页。
: 如果你要用个人登录的就不要这么搞了,容易被人追查。
: 我以前用 EC2 来爬,被封了就换个 IP 段继续爬。
: Ubuntu 从来就是没有过可以用的 64位的 python xpcom。
: Ubuntu 的包相互版本不兼容,最后没有可以用的 python + xpcom。

b*******r
发帖数: 713
17
有个叫 Aaron Swartz 的牛人干过你这样的事

【在 F****3 的大作中提到】
: 谢谢SSA兄!
: 请问像这样的网站
: http://www.sciencedirect.com/science/journal/01651765
: 最好用什么东西爬呢?主要想保存pdf文件。
: 我查了一下,请问你指的python+firefox binding是不是PyXPCOM?能推荐几个相关的
: 包或者api之类的东西吗?是不是有firefox的python包?
: 问的问题有点白,不好意思哈!

c*****m
发帖数: 1160
18
teleport
1 (共1页)
进入Linux版参与讨论
相关主题
菜鸟 wget 问题求教python来爬网,有何好的tutorial ?
怎样把snoop的结果抽出来(假设已变成hexadecimal and ASCII format)?只要世界上有几百个版本,linux就永远没有戏
做个调查。大家都用什么linux distro?Anyone used these distros?
请问我应该安装哪个linux的dist?virtualbox + ubuntu 12.04LTS bug
是win骑在lin上的用户多,还是lin骑在win上的多?发现elementary OS做的不错啊
做web server哪个distro比较好?ubuntu 8.04+ t61 dock的问题
装了Ubunto以后还要装Python或者Linux吗Ubuntu 9.04alpha 有 Ext4,据说感觉到快,hehe
关于arch linux的问题请问有没有自动发送IP地址的程序
相关话题的讨论汇总
话题: python话题: crawler话题: firefox话题: ubuntu话题: 网站