o****g 发帖数: 174 | 1 要用python web crawling 搜狗微信。http://weixin.sogou.com 这个网站。
对于某个关键词,想找到某一定时间段,如一天内提到的文章。后来发现网站上有一个
filter, 可以限制时间段。现实在url 里是一个tsn 的参数,可以等于1,2,3,4.
但是发现如果在python 里直接用这个url crawl 往往结果是一堆乱码。如果去掉tsn
前面的"&"并且在搜索keyword里加上一个date,就会有结果。如果不加"&", 但是
keyword里不加date得到的html 不是乱码,但是没有结果。
具体的代码如下:
searchcontent=keyword
searchcontent=quote(searchcontent)
time_total=[]
sogou_search_url='http://weixin.sogou.com/weixin?type=2&ie=utf8&query='+searchcontent+'tsn='+str(timeframe)+'&ft=&et=&interation=&wxid=&usip='
if sogou_search_url is not None:
pages = requests.get(sogou_search_url, headers = cc_headers1, proxies=
urllib.request.getproxies(),)
soup = BeautifulSoup(pages.text, 'html.parser')
我用beautifulsoup 想爬虫那个web的html. python 3.6. 感觉是url有问题。谁知道怎
么改吗?
多谢。 |
o****g 发帖数: 174 | |
x********9 发帖数: 208 | |
o****g 发帖数: 174 | 4
paypal 行吗?我是认真的。我的微信里没有钱。最近有点疲惫。
【在 x********9 的大作中提到】 : 包子有啥用 : 微信红包还有点用
|
a****i 发帖数: 1182 | 5 http://weixin.sogou.com/weixin?type=2&ie=utf8&query=trump&ft=&et=&interation=&wxid=&usip=
在浏览器里显示没问题
【在 o****g 的大作中提到】 : 要用python web crawling 搜狗微信。http://weixin.sogou.com 这个网站。 : 对于某个关键词,想找到某一定时间段,如一天内提到的文章。后来发现网站上有一个 : filter, 可以限制时间段。现实在url 里是一个tsn 的参数,可以等于1,2,3,4. : 但是发现如果在python 里直接用这个url crawl 往往结果是一堆乱码。如果去掉tsn : 前面的"&"并且在搜索keyword里加上一个date,就会有结果。如果不加"&", 但是 : keyword里不加date得到的html 不是乱码,但是没有结果。 : 具体的代码如下: : searchcontent=keyword : searchcontent=quote(searchcontent) : time_total=[]
|
o****g 发帖数: 174 | |
o****g 发帖数: 174 | |
a****i 发帖数: 1182 | 8 你要看看 weixin.sogou.com 的api啊
怎么样过滤时间
【在 o****g 的大作中提到】 : 你好,多谢回复。 : 我试了一下,如果在url 里加入tsn 参数,再贴在browser 里,搜索直接跳到weixin. : sogou.com : 下面这个链接 : http://weixin.sogou.com/weixin?type=2&ie=utf8&query=trump&tsn=1&ft=&et=&interation=&wxid=&usip= : 如果url 里没有tsn 参数,把链接贴在browser 里,能有搜索结果,但不是某个 : tiemframe 的。 : 下面这个链接 : http://weixin.sogou.com/weixin?type=2&ie=utf8&query=trump&ft=&et=&interation=&wxid=&usip= : 问题出在tsn 参数上。
|
w****u 发帖数: 3147 | 9 url.encode?查查cookie header |