问一个关于python web crawling 的问题, 内有代码 - JobHunting版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

JobHunting版 - 问一个关于python web crawling 的问题, 内有代码

相关主题
● 网页爬虫的时候，用requests, get 爬url 时，能有什么参数设定	● 找工作也蛮欢乐了，一个SDET职位的很奇葩的问题
● 有没有可能爬虫(crawl)wechat?	● 这里有 google 的人吗？问个问题
● 一些需要登录才能看的信息，web crawl 的时候，如果headers 有	● 龟板主题
● python的list和array是一个东西？	● com上搜索关键字
● HTTP Error 403 (转载)	● 要爬虫一个网页，搜索一次关键词能有100页搜索结果
● [包子]digital forensics的面试题	● 急！！（H1B Transfer)
● 求教SE/SD/programmer的HR过滤简历的keyword	● 我把offer搞黄了
● 准备不好面试就是会悲剧	● 请问Columbus, OH 附近3小时车程内有哪些公司，谢谢了?

相关话题的讨论汇总
话题: url话题: tsn话题: python话题: crawling

进入JobHunting版参与讨论

1

(共1页)

o****g 发帖数: 174	1 要用python web crawling 搜狗微信。http://weixin.sogou.com 这个网站。对于某个关键词，想找到某一定时间段，如一天内提到的文章。后来发现网站上有一个 filter, 可以限制时间段。现实在url 里是一个tsn 的参数，可以等于1,2,3,4. 但是发现如果在python 里直接用这个url crawl 往往结果是一堆乱码。如果去掉tsn 前面的"&"并且在搜索keyword里加上一个date,就会有结果。如果不加"&", 但是 keyword里不加date得到的html 不是乱码，但是没有结果。具体的代码如下: searchcontent=keyword searchcontent=quote(searchcontent) time_total=[] sogou_search_url='http://weixin.sogou.com/weixin?type=2&ie=utf8&query='+searchcontent+'tsn='+str(timeframe)+'&ft=&et=&interation=&wxid=&usip=' if sogou_search_url is not None: pages = requests.get(sogou_search_url, headers = cc_headers1, proxies= urllib.request.getproxies(),) soup = BeautifulSoup(pages.text, 'html.parser') 我用beautifulsoup 想爬虫那个web的html. python 3.6. 感觉是url有问题。谁知道怎么改吗？多谢。
o****g 发帖数: 174	2 谁给解答一下，有包子。谢谢。
x********9 发帖数: 208	3 包子有啥用微信红包还有点用
o****g 发帖数: 174	4 paypal 行吗？我是认真的。我的微信里没有钱。最近有点疲惫。【在 x********9 的大作中提到】 : 包子有啥用 : 微信红包还有点用
a****i 发帖数: 1182	5 http://weixin.sogou.com/weixin?type=2&ie=utf8&query=trump&ft=&et=&interation=&wxid=&usip= 在浏览器里显示没问题【在 o****g 的大作中提到】 : 要用python web crawling 搜狗微信。http://weixin.sogou.com 这个网站。 : 对于某个关键词，想找到某一定时间段，如一天内提到的文章。后来发现网站上有一个 : filter, 可以限制时间段。现实在url 里是一个tsn 的参数，可以等于1,2,3,4. : 但是发现如果在python 里直接用这个url crawl 往往结果是一堆乱码。如果去掉tsn : 前面的"&"并且在搜索keyword里加上一个date,就会有结果。如果不加"&", 但是 : keyword里不加date得到的html 不是乱码，但是没有结果。 : 具体的代码如下: : searchcontent=keyword : searchcontent=quote(searchcontent) : time_total=[]
o****g 发帖数: 174	6 你好，多谢回复。我试了一下，如果在url 里加入tsn 参数，再贴在browser 里，搜索直接跳到weixin. sogou.com 下面这个链接 http://weixin.sogou.com/weixin?type=2&ie=utf8&query=trump&tsn=1&ft=&et=&interation=&wxid=&usip= 如果url 里没有tsn 参数，把链接贴在browser 里，能有搜索结果，但不是某个 tiemframe 的。下面这个链接 http://weixin.sogou.com/weixin?type=2&ie=utf8&query=trump&ft=&et=&interation=&wxid=&usip= 问题出在tsn 参数上。我再去看看。谢谢。【在 a****i 的大作中提到】 : http://weixin.sogou.com/weixin?type=2&ie=utf8&query=trump&ft=&et=&interation=&wxid=&usip= : 在浏览器里显示没问题
o****g 发帖数: 174	7 试一下只用query 这个参数的连接也有结果 http://weixin.sogou.com/weixin?type=2&ie=utf8&query=trump 但是加上tsn 参数就不行。 http://weixin.sogou.com/weixin?type=2&ie=utf8&query=trump&tsn=1 又跳转。 tsn 代表一个filter. 加filter 跳转说明了什么。如何在python 代码里自动化 filter搜索？【在 o****g 的大作中提到】 : 你好，多谢回复。 : 我试了一下，如果在url 里加入tsn 参数，再贴在browser 里，搜索直接跳到weixin. : sogou.com : 下面这个链接 : http://weixin.sogou.com/weixin?type=2&ie=utf8&query=trump&tsn=1&ft=&et=&interation=&wxid=&usip= : 如果url 里没有tsn 参数，把链接贴在browser 里，能有搜索结果，但不是某个 : tiemframe 的。 : 下面这个链接 : http://weixin.sogou.com/weixin?type=2&ie=utf8&query=trump&ft=&et=&interation=&wxid=&usip= : 问题出在tsn 参数上。
a****i 发帖数: 1182	8 你要看看 weixin.sogou.com 的api啊怎么样过滤时间【在 o****g 的大作中提到】 : 你好，多谢回复。 : 我试了一下，如果在url 里加入tsn 参数，再贴在browser 里，搜索直接跳到weixin. : sogou.com : 下面这个链接 : http://weixin.sogou.com/weixin?type=2&ie=utf8&query=trump&tsn=1&ft=&et=&interation=&wxid=&usip= : 如果url 里没有tsn 参数，把链接贴在browser 里，能有搜索结果，但不是某个 : tiemframe 的。 : 下面这个链接 : http://weixin.sogou.com/weixin?type=2&ie=utf8&query=trump&ft=&et=&interation=&wxid=&usip= : 问题出在tsn 参数上。
w****u 发帖数: 3147	9 url.encode?查查cookie header

1

(共1页)

进入JobHunting版参与讨论

相关主题
● 请问Columbus, OH 附近3小时车程内有哪些公司，谢谢了?	● HTTP Error 403 (转载)
● 发包子问问题：拿到一个Offer，办H1B还来得及吗？	● [包子]digital forensics的面试题
● HM的email,帮忙分析到底有没有戏	● 求教SE/SD/programmer的HR过滤简历的keyword
● 关于今年的H1B以及审理的更新与问题	● 准备不好面试就是会悲剧
● 网页爬虫的时候，用requests, get 爬url 时，能有什么参数设定	● 找工作也蛮欢乐了，一个SDET职位的很奇葩的问题
● 有没有可能爬虫(crawl)wechat?	● 这里有 google 的人吗？问个问题
● 一些需要登录才能看的信息，web crawl 的时候，如果headers 有	● 龟板主题
● python的list和array是一个东西？	● com上搜索关键字

相关话题的讨论汇总
话题: url话题: tsn话题: python话题: crawling

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)