由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
BuildingWeb版 - 那种数据搜集网站是如何实现多ip的?
相关主题
共享100M带宽的这种主机托管准备在美国租用机房,麻烦大家推荐一下。
怎么让google尽早搜索到自己的网页?怎么建一个网上商店?
自动搜索互连网信息的技术成熟吗大家能帮我给点建议么?
为啥有人注册了域名指向我的网站?貌似还在用爬虫抓取如何让自己的网站抓取网页信息?(嵌套浏览器?)
关于从bbs定期检索搜集特定内容的帖子一问暂时缺货的定单货款怎么处理?
再问服务器选择remote API 's output?
网站被DoS攻击该怎么办???急问有关pop3的问题
我建立的免费HOSTING空间 www.allokhost.comHow to add guest book?
相关话题的讨论汇总
话题: amazon话题: ip话题: 代理话题: 网站话题: 商品
进入BuildingWeb版参与讨论
1 (共1页)
b*****e
发帖数: 762
1
就是有好多网站都能把另一个网站的信息汇总,比如amazon上商品的成交价格。但是如
果ip固定或者ip数量很少的话,
amazon很容易就看出来并且把他们给禁掉了。他们是如何实现的呢?
l****g
发帖数: 1922
2
用代理吧.
你是怎么确定 amazon会禁别人呢? 是自己想的? 还是你被禁了?
b*****e
发帖数: 762
3
我只是举个例子而已。我猜也是可能的阿。比如你架个固定ip的服务器。然后你写个脚
本每8个小时把amazon上面全部的
商品的价格都扫一遍。你看看amazon会禁你不会。但是用代理就要维护一个动态的代理
池,然后才能保证有足够的ip资源
对吧?

【在 l****g 的大作中提到】
: 用代理吧.
: 你是怎么确定 amazon会禁别人呢? 是自己想的? 还是你被禁了?

w*******s
发帖数: 940
4
理论上说,应该是动态分配ip吧?amazon把那段ip全封掉?

【在 b*****e 的大作中提到】
: 我只是举个例子而已。我猜也是可能的阿。比如你架个固定ip的服务器。然后你写个脚
: 本每8个小时把amazon上面全部的
: 商品的价格都扫一遍。你看看amazon会禁你不会。但是用代理就要维护一个动态的代理
: 池,然后才能保证有足够的ip资源
: 对吧?

b*****e
发帖数: 762
5
他可以限制你阿。限制从这个ip发出的请求的应答数,或者给你验证码之类的。

【在 w*******s 的大作中提到】
: 理论上说,应该是动态分配ip吧?amazon把那段ip全封掉?
l****g
发帖数: 1922
6
amazon有数据库api
这个应该不会封, 我有个网站
虽然没有扫所有商品的,
只扫一些指定商品, 但是 是 每 5分钟扫一次,
到目前,还没有被封,也没有用代理.
所以我也不知道amazon会不会禁, 但是我感觉他们可能服务器比较猛
而且禁了对他们也没有什么好处, 所以我猜可能不会禁,
或者他们的容忍度很大 ...
ebiz版有个人, 抓 staple的商品信息, 他说他是用代理,
代理池是手工维护的.
l****g
发帖数: 1922
7
我大概扫 几百件商品 每5分钟一次
已经扫了三个月了
还在工作
b*****e
发帖数: 762
8
原来这位大哥真的是在扫amazon的阿。失敬失敬。我只是随便举个例子哦。你不要慌张
LOL
继续扫哦继续扫。。。 我只是想问问有没有什么好的办法。请问你是用自己的服务器
吗?还是用那写godaddy什么的?

【在 l****g 的大作中提到】
: 我大概扫 几百件商品 每5分钟一次
: 已经扫了三个月了
: 还在工作

d*******3
发帖数: 6550
9
amazon不会封的,就这点流量,占不了总流量的多少,没必要封。而且你采集他信息相
当于帮他做宣传,他开心还来不及呢。
d********g
发帖数: 10550
10
Amazon有API,在每日上限内使用就没事
裸爬网页当然不能像发起总攻那样抓,你得有节制,否则被当做DoS
爬虫可以上代理,也有技巧,否则被当做DDoS
高效安全的爬虫都是各家网站包括google的看家本领,基本上没有什么途径参考,只能
自己领悟。开源的可以看下思想,但大多数和自己的需要相差太远,改还不如自己写

【在 b*****e 的大作中提到】
: 就是有好多网站都能把另一个网站的信息汇总,比如amazon上商品的成交价格。但是如
: 果ip固定或者ip数量很少的话,
: amazon很容易就看出来并且把他们给禁掉了。他们是如何实现的呢?

d********g
发帖数: 10550
11
Amazon全部商品你知道有多少吗?就是全用API,不考虑查询次数限制,怕流量和速度
也受不,更别说裸爬了
代理这个原理说起来倒也不难,代理源可以从别的网站上每天自动抓,回来测速排序然
后放到爬虫程序代理池。实际做起来考虑的东西会多很多,一开始效率也不会很高,都
是慢慢改进

【在 b*****e 的大作中提到】
: 我只是举个例子而已。我猜也是可能的阿。比如你架个固定ip的服务器。然后你写个脚
: 本每8个小时把amazon上面全部的
: 商品的价格都扫一遍。你看看amazon会禁你不会。但是用代理就要维护一个动态的代理
: 池,然后才能保证有足够的ip资源
: 对吧?

1 (共1页)
进入BuildingWeb版参与讨论
相关主题
How to add guest book?关于从bbs定期检索搜集特定内容的帖子一问
急...请教:各位听说过自动保存news group Thread的软件吗?再问服务器选择
Help with ASP 网站被DoS攻击该怎么办???
在CGI程序中有何好方法返回HTML我建立的免费HOSTING空间 www.allokhost.com
共享100M带宽的这种主机托管准备在美国租用机房,麻烦大家推荐一下。
怎么让google尽早搜索到自己的网页?怎么建一个网上商店?
自动搜索互连网信息的技术成熟吗大家能帮我给点建议么?
为啥有人注册了域名指向我的网站?貌似还在用爬虫抓取如何让自己的网站抓取网页信息?(嵌套浏览器?)
相关话题的讨论汇总
话题: amazon话题: ip话题: 代理话题: 网站话题: 商品