o****g 发帖数: 174 | 1 一些需要登录才能看的信息,web crawl 的时候,如果headers 有了cookies, UA, IP
这些信息是否也能crawl 到?
一些网站如douban.com 它的一些信息是需要登录才能看到,当在python 里用scrapy,
requests 进行web crawling 的时候,如果我们登录了douban, 然后又把登录都得到的
cookies, UA, ip 这些信息放在headers里,是不是就能在python web crawl 的时候在
python 代码里crawl 到需要登录才能看到了信息了?或者要得到哪些信息才能在代码
里得到登录才能看到的html ?
requests:
import requests
url = 'SOME URL'
headers = {
'cookie':'cookies1'
'User-Agent': 'My User Agent 1.0',
'From': '[email protected]' # This is another valid field
}
response = requests.get(url, headers=headers)
scrapy:
def start_requests(self):
headers = {'cookies': 'cookie','User-Agent': 'Mozilla/5.0 (Windows NT 10
.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.85 Safari
/537.36'}
for i,url in enumerate(self.start_urls):
yield Request(url,cookies={'over18':'1'}, callback=self.parse_item,
headers=headers) | o****g 发帖数: 174 | 2
IP
,
看了一下,似乎要模拟登录。对于weixin.sogou.com 这种要扫描二维码才能登录的,
怎么模拟登录?
【在 o****g 的大作中提到】 : 一些需要登录才能看的信息,web crawl 的时候,如果headers 有了cookies, UA, IP : 这些信息是否也能crawl 到? : 一些网站如douban.com 它的一些信息是需要登录才能看到,当在python 里用scrapy, : requests 进行web crawling 的时候,如果我们登录了douban, 然后又把登录都得到的 : cookies, UA, ip 这些信息放在headers里,是不是就能在python web crawl 的时候在 : python 代码里crawl 到需要登录才能看到了信息了?或者要得到哪些信息才能在代码 : 里得到登录才能看到的html ? : requests: : import requests : url = 'SOME URL'
|
|