由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - 一些需要登录才能看的信息,web crawl 的时候,如果headers 有
相关主题
HTTP Error 403 (转载)[包子]digital forensics的面试题
问一个关于python web crawling 的问题, 内有代码同时申请h1b和OPT Extension ,打了SEVIS的电话
gmail信箱不work?this question is nice
现在网站登录一次,每个新tab都能识别,是怎么做的?how many ways can you paint a cube using 3 colors?
请教个wget获取要密码登录的http页面的问题 (转载)Amazon电面问题求大牛解答
问一个关于网络的问题,大家不要笑话这个题咋做?
要爬虫一个网页,搜索一次关键词能有100页搜索结果Bloomberg 电面
网页爬虫的时候,用requests, get 爬url 时,能有什么参数设定有人做facebook的first or last这道题吗?
相关话题的讨论汇总
话题: headers话题: 登录话题: crawl话题: url话题: 信息
进入JobHunting版参与讨论
1 (共1页)
o****g
发帖数: 174
1
一些需要登录才能看的信息,web crawl 的时候,如果headers 有了cookies, UA, IP
这些信息是否也能crawl 到?
一些网站如douban.com 它的一些信息是需要登录才能看到,当在python 里用scrapy,
requests 进行web crawling 的时候,如果我们登录了douban, 然后又把登录都得到的
cookies, UA, ip 这些信息放在headers里,是不是就能在python web crawl 的时候在
python 代码里crawl 到需要登录才能看到了信息了?或者要得到哪些信息才能在代码
里得到登录才能看到的html ?
requests:
import requests
url = 'SOME URL'
headers = {
'cookie':'cookies1'
'User-Agent': 'My User Agent 1.0',
'From': '[email protected]' # This is another valid field
}
response = requests.get(url, headers=headers)
scrapy:
def start_requests(self):
headers = {'cookies': 'cookie','User-Agent': 'Mozilla/5.0 (Windows NT 10
.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.85 Safari
/537.36'}
for i,url in enumerate(self.start_urls):
yield Request(url,cookies={'over18':'1'}, callback=self.parse_item,
headers=headers)
o****g
发帖数: 174
2

IP
,
看了一下,似乎要模拟登录。对于weixin.sogou.com 这种要扫描二维码才能登录的,
怎么模拟登录?

【在 o****g 的大作中提到】
: 一些需要登录才能看的信息,web crawl 的时候,如果headers 有了cookies, UA, IP
: 这些信息是否也能crawl 到?
: 一些网站如douban.com 它的一些信息是需要登录才能看到,当在python 里用scrapy,
: requests 进行web crawling 的时候,如果我们登录了douban, 然后又把登录都得到的
: cookies, UA, ip 这些信息放在headers里,是不是就能在python web crawl 的时候在
: python 代码里crawl 到需要登录才能看到了信息了?或者要得到哪些信息才能在代码
: 里得到登录才能看到的html ?
: requests:
: import requests
: url = 'SOME URL'

1 (共1页)
进入JobHunting版参与讨论
相关主题
有人做facebook的first or last这道题吗?请教个wget获取要密码登录的http页面的问题 (转载)
贡献一个MS onsite面试题问一个关于网络的问题,大家不要笑话
enumerate all unique paths of robot要爬虫一个网页,搜索一次关键词能有100页搜索结果
Exposed上一道string permutation的题网页爬虫的时候,用requests, get 爬url 时,能有什么参数设定
HTTP Error 403 (转载)[包子]digital forensics的面试题
问一个关于python web crawling 的问题, 内有代码同时申请h1b和OPT Extension ,打了SEVIS的电话
gmail信箱不work?this question is nice
现在网站登录一次,每个新tab都能识别,是怎么做的?how many ways can you paint a cube using 3 colors?
相关话题的讨论汇总
话题: headers话题: 登录话题: crawl话题: url话题: 信息