由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - 问一个关于python web crawling 的问题, 内有代码
相关主题
网页爬虫的时候,用requests, get 爬url 时,能有什么参数设定找工作也蛮欢乐了,一个SDET职位的很奇葩的问题
有没有可能爬虫(crawl)wechat?这里有 google 的人吗?问个问题
一些需要登录才能看的信息,web crawl 的时候,如果headers 有龟板主题
python的list和array是一个东西?com上搜索关键字
HTTP Error 403 (转载)要爬虫一个网页,搜索一次关键词能有100页搜索结果
[包子]digital forensics的面试题急!! (H1B Transfer)
求教SE/SD/programmer的HR过滤简历的keyword我把offer搞黄了
准备不好面试就是会悲剧请问Columbus, OH 附近3小时车程内有哪些公司,谢谢了?
相关话题的讨论汇总
话题: url话题: tsn话题: python话题: crawling
进入JobHunting版参与讨论
1 (共1页)
o****g
发帖数: 174
1
要用python web crawling 搜狗微信。http://weixin.sogou.com 这个网站。
对于某个关键词,想找到某一定时间段,如一天内提到的文章。后来发现网站上有一个
filter, 可以限制时间段。现实在url 里是一个tsn 的参数,可以等于1,2,3,4.
但是发现如果在python 里直接用这个url crawl 往往结果是一堆乱码。如果去掉tsn
前面的"&"并且在搜索keyword里加上一个date,就会有结果。如果不加"&", 但是
keyword里不加date得到的html 不是乱码,但是没有结果。
具体的代码如下:
searchcontent=keyword
searchcontent=quote(searchcontent)
time_total=[]

sogou_search_url='http://weixin.sogou.com/weixin?type=2&ie=utf8&query='+searchcontent+'tsn='+str(timeframe)+'&ft=&et=&interation=&wxid=&usip='

if sogou_search_url is not None:
pages = requests.get(sogou_search_url, headers = cc_headers1, proxies=
urllib.request.getproxies(),)
soup = BeautifulSoup(pages.text, 'html.parser')

我用beautifulsoup 想爬虫那个web的html. python 3.6. 感觉是url有问题。谁知道怎
么改吗?
多谢。
o****g
发帖数: 174
2
谁给解答一下,有包子。谢谢。
x********9
发帖数: 208
3
包子有啥用
微信红包还有点用
o****g
发帖数: 174
4

paypal 行吗?我是认真的。我的微信里没有钱。最近有点疲惫。

【在 x********9 的大作中提到】
: 包子有啥用
: 微信红包还有点用

a****i
发帖数: 1182
5
http://weixin.sogou.com/weixin?type=2&ie=utf8&query=trump&ft=&et=&interation=&wxid=&usip=
在浏览器里显示没问题

【在 o****g 的大作中提到】
: 要用python web crawling 搜狗微信。http://weixin.sogou.com 这个网站。
: 对于某个关键词,想找到某一定时间段,如一天内提到的文章。后来发现网站上有一个
: filter, 可以限制时间段。现实在url 里是一个tsn 的参数,可以等于1,2,3,4.
: 但是发现如果在python 里直接用这个url crawl 往往结果是一堆乱码。如果去掉tsn
: 前面的"&"并且在搜索keyword里加上一个date,就会有结果。如果不加"&", 但是
: keyword里不加date得到的html 不是乱码,但是没有结果。
: 具体的代码如下:
: searchcontent=keyword
: searchcontent=quote(searchcontent)
: time_total=[]

o****g
发帖数: 174
6
你好,多谢回复。
我试了一下,如果在url 里加入tsn 参数,再贴在browser 里,搜索直接跳到weixin.
sogou.com
下面这个链接
http://weixin.sogou.com/weixin?type=2&ie=utf8&query=trump&tsn=1&ft=&et=&interation=&wxid=&usip=
如果url 里没有tsn 参数,把链接贴在browser 里,能有搜索结果,但不是某个
tiemframe 的。
下面这个链接
http://weixin.sogou.com/weixin?type=2&ie=utf8&query=trump&ft=&et=&interation=&wxid=&usip=
问题出在tsn 参数上。
我再去看看。谢谢。

【在 a****i 的大作中提到】
: http://weixin.sogou.com/weixin?type=2&ie=utf8&query=trump&ft=&et=&interation=&wxid=&usip=
: 在浏览器里显示没问题

o****g
发帖数: 174
7
试一下只用query 这个参数的连接也有结果
http://weixin.sogou.com/weixin?type=2&ie=utf8&query=trump
但是加上tsn 参数就不行。
http://weixin.sogou.com/weixin?type=2&ie=utf8&query=trump&tsn=1
又跳转。
tsn 代表一个filter. 加filter 跳转说明了什么。
如何在python 代码里自动化 filter搜索?

【在 o****g 的大作中提到】
: 你好,多谢回复。
: 我试了一下,如果在url 里加入tsn 参数,再贴在browser 里,搜索直接跳到weixin.
: sogou.com
: 下面这个链接
: http://weixin.sogou.com/weixin?type=2&ie=utf8&query=trump&tsn=1&ft=&et=&interation=&wxid=&usip=
: 如果url 里没有tsn 参数,把链接贴在browser 里,能有搜索结果,但不是某个
: tiemframe 的。
: 下面这个链接
: http://weixin.sogou.com/weixin?type=2&ie=utf8&query=trump&ft=&et=&interation=&wxid=&usip=
: 问题出在tsn 参数上。

a****i
发帖数: 1182
8
你要看看 weixin.sogou.com 的api啊
怎么样过滤时间

【在 o****g 的大作中提到】
: 你好,多谢回复。
: 我试了一下,如果在url 里加入tsn 参数,再贴在browser 里,搜索直接跳到weixin.
: sogou.com
: 下面这个链接
: http://weixin.sogou.com/weixin?type=2&ie=utf8&query=trump&tsn=1&ft=&et=&interation=&wxid=&usip=
: 如果url 里没有tsn 参数,把链接贴在browser 里,能有搜索结果,但不是某个
: tiemframe 的。
: 下面这个链接
: http://weixin.sogou.com/weixin?type=2&ie=utf8&query=trump&ft=&et=&interation=&wxid=&usip=
: 问题出在tsn 参数上。

w****u
发帖数: 3147
9
url.encode?查查cookie header
1 (共1页)
进入JobHunting版参与讨论
相关主题
请问Columbus, OH 附近3小时车程内有哪些公司,谢谢了?HTTP Error 403 (转载)
发包子问问题:拿到一个Offer,办H1B还来得及吗?[包子]digital forensics的面试题
HM的email,帮忙分析到底有没有戏求教SE/SD/programmer的HR过滤简历的keyword
关于今年的H1B以及审理的更新与问题准备不好面试就是会悲剧
网页爬虫的时候,用requests, get 爬url 时,能有什么参数设定找工作也蛮欢乐了,一个SDET职位的很奇葩的问题
有没有可能爬虫(crawl)wechat?这里有 google 的人吗?问个问题
一些需要登录才能看的信息,web crawl 的时候,如果headers 有龟板主题
python的list和array是一个东西?com上搜索关键字
相关话题的讨论汇总
话题: url话题: tsn话题: python话题: crawling