b*****e 发帖数: 762 | 1 就是有好多网站都能把另一个网站的信息汇总,比如amazon上商品的成交价格。但是如
果ip固定或者ip数量很少的话,
amazon很容易就看出来并且把他们给禁掉了。他们是如何实现的呢? |
l****g 发帖数: 1922 | 2 用代理吧.
你是怎么确定 amazon会禁别人呢? 是自己想的? 还是你被禁了? |
b*****e 发帖数: 762 | 3 我只是举个例子而已。我猜也是可能的阿。比如你架个固定ip的服务器。然后你写个脚
本每8个小时把amazon上面全部的
商品的价格都扫一遍。你看看amazon会禁你不会。但是用代理就要维护一个动态的代理
池,然后才能保证有足够的ip资源
对吧?
【在 l****g 的大作中提到】 : 用代理吧. : 你是怎么确定 amazon会禁别人呢? 是自己想的? 还是你被禁了?
|
w*******s 发帖数: 940 | 4 理论上说,应该是动态分配ip吧?amazon把那段ip全封掉?
【在 b*****e 的大作中提到】 : 我只是举个例子而已。我猜也是可能的阿。比如你架个固定ip的服务器。然后你写个脚 : 本每8个小时把amazon上面全部的 : 商品的价格都扫一遍。你看看amazon会禁你不会。但是用代理就要维护一个动态的代理 : 池,然后才能保证有足够的ip资源 : 对吧?
|
b*****e 发帖数: 762 | 5 他可以限制你阿。限制从这个ip发出的请求的应答数,或者给你验证码之类的。
【在 w*******s 的大作中提到】 : 理论上说,应该是动态分配ip吧?amazon把那段ip全封掉?
|
l****g 发帖数: 1922 | 6 amazon有数据库api
这个应该不会封, 我有个网站
虽然没有扫所有商品的,
只扫一些指定商品, 但是 是 每 5分钟扫一次,
到目前,还没有被封,也没有用代理.
所以我也不知道amazon会不会禁, 但是我感觉他们可能服务器比较猛
而且禁了对他们也没有什么好处, 所以我猜可能不会禁,
或者他们的容忍度很大 ...
ebiz版有个人, 抓 staple的商品信息, 他说他是用代理,
代理池是手工维护的. |
l****g 发帖数: 1922 | 7 我大概扫 几百件商品 每5分钟一次
已经扫了三个月了
还在工作 |
b*****e 发帖数: 762 | 8 原来这位大哥真的是在扫amazon的阿。失敬失敬。我只是随便举个例子哦。你不要慌张
LOL
继续扫哦继续扫。。。 我只是想问问有没有什么好的办法。请问你是用自己的服务器
吗?还是用那写godaddy什么的?
【在 l****g 的大作中提到】 : 我大概扫 几百件商品 每5分钟一次 : 已经扫了三个月了 : 还在工作
|
d*******3 发帖数: 6550 | 9 amazon不会封的,就这点流量,占不了总流量的多少,没必要封。而且你采集他信息相
当于帮他做宣传,他开心还来不及呢。 |
d********g 发帖数: 10550 | 10 Amazon有API,在每日上限内使用就没事
裸爬网页当然不能像发起总攻那样抓,你得有节制,否则被当做DoS
爬虫可以上代理,也有技巧,否则被当做DDoS
高效安全的爬虫都是各家网站包括google的看家本领,基本上没有什么途径参考,只能
自己领悟。开源的可以看下思想,但大多数和自己的需要相差太远,改还不如自己写
【在 b*****e 的大作中提到】 : 就是有好多网站都能把另一个网站的信息汇总,比如amazon上商品的成交价格。但是如 : 果ip固定或者ip数量很少的话, : amazon很容易就看出来并且把他们给禁掉了。他们是如何实现的呢?
|
d********g 发帖数: 10550 | 11 Amazon全部商品你知道有多少吗?就是全用API,不考虑查询次数限制,怕流量和速度
也受不,更别说裸爬了
代理这个原理说起来倒也不难,代理源可以从别的网站上每天自动抓,回来测速排序然
后放到爬虫程序代理池。实际做起来考虑的东西会多很多,一开始效率也不会很高,都
是慢慢改进
【在 b*****e 的大作中提到】 : 我只是举个例子而已。我猜也是可能的阿。比如你架个固定ip的服务器。然后你写个脚 : 本每8个小时把amazon上面全部的 : 商品的价格都扫一遍。你看看amazon会禁你不会。但是用代理就要维护一个动态的代理 : 池,然后才能保证有足够的ip资源 : 对吧?
|