一些需要登录才能看的信息，web crawl 的时候，如果headers 有 - JobHunting版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

JobHunting版 - 一些需要登录才能看的信息，web crawl 的时候，如果headers 有

相关主题
● HTTP Error 403 (转载)	● [包子]digital forensics的面试题
● 问一个关于python web crawling 的问题, 内有代码	● 同时申请h1b和OPT Extension ，打了SEVIS的电话
● gmail信箱不work?	● this question is nice
● 现在网站登录一次，每个新tab都能识别，是怎么做的？	● how many ways can you paint a cube using 3 colors?
● 请教个wget获取要密码登录的http页面的问题 (转载)	● Amazon电面问题求大牛解答
● 问一个关于网络的问题，大家不要笑话	● 这个题咋做？
● 要爬虫一个网页，搜索一次关键词能有100页搜索结果	● Bloomberg 电面
● 网页爬虫的时候，用requests, get 爬url 时，能有什么参数设定	● 有人做facebook的first or last这道题吗？

相关话题的讨论汇总
话题: headers话题: 登录话题: crawl话题: url话题: 信息

进入JobHunting版参与讨论

(共1页)

o****g
发帖数: 174

一些需要登录才能看的信息，web crawl 的时候，如果headers 有了cookies, UA, IP
这些信息是否也能crawl 到？
一些网站如douban.com 它的一些信息是需要登录才能看到，当在python 里用scrapy,
requests 进行web crawling 的时候，如果我们登录了douban, 然后又把登录都得到的
cookies, UA, ip 这些信息放在headers里，是不是就能在python web crawl 的时候在
python 代码里crawl 到需要登录才能看到了信息了？或者要得到哪些信息才能在代码
里得到登录才能看到的html ?
requests:
import requests
url = 'SOME URL'
headers = {
'cookie':'cookies1'
'User-Agent': 'My User Agent 1.0',
'From': '[email protected]' # This is another valid field
}
response = requests.get(url, headers=headers)
scrapy:
def start_requests(self):
headers = {'cookies': 'cookie','User-Agent': 'Mozilla/5.0 (Windows NT 10
.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.85 Safari
/537.36'}
for i,url in enumerate(self.start_urls):
yield Request(url,cookies={'over18':'1'}, callback=self.parse_item,
headers=headers)

o****g
发帖数: 174

IP
,
看了一下，似乎要模拟登录。对于weixin.sogou.com 这种要扫描二维码才能登录的，
怎么模拟登录？

【在 o****g 的大作中提到】

: 一些需要登录才能看的信息，web crawl 的时候，如果headers 有了cookies, UA, IP
: 这些信息是否也能crawl 到？
: 一些网站如douban.com 它的一些信息是需要登录才能看到，当在python 里用scrapy,
: requests 进行web crawling 的时候，如果我们登录了douban, 然后又把登录都得到的
: cookies, UA, ip 这些信息放在headers里，是不是就能在python web crawl 的时候在
: python 代码里crawl 到需要登录才能看到了信息了？或者要得到哪些信息才能在代码
: 里得到登录才能看到的html ?
: requests:
: import requests
: url = 'SOME URL'

(共1页)

进入JobHunting版参与讨论

相关主题
● 有人做facebook的first or last这道题吗？	● 请教个wget获取要密码登录的http页面的问题 (转载)
● 贡献一个MS onsite面试题	● 问一个关于网络的问题，大家不要笑话
● enumerate all unique paths of robot	● 要爬虫一个网页，搜索一次关键词能有100页搜索结果
● Exposed上一道string permutation的题	● 网页爬虫的时候，用requests, get 爬url 时，能有什么参数设定
● HTTP Error 403 (转载)	● [包子]digital forensics的面试题
● 问一个关于python web crawling 的问题, 内有代码	● 同时申请h1b和OPT Extension ，打了SEVIS的电话
● gmail信箱不work?	● this question is nice
● 现在网站登录一次，每个新tab都能识别，是怎么做的？	● how many ways can you paint a cube using 3 colors?

相关话题的讨论汇总
话题: headers话题: 登录话题: crawl话题: url话题: 信息

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天