由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
BuildingWeb版 - 问个用php抓网页的问题
相关主题
有关web content的copyright (转载)请教
怎么设置可以看到CODE?网页的Form中Post的问题 (转载)
请教一个问题:在点浏览器back按钮的时候,问一个不知在哪里可以问的问题:怎么把这个网页整体打出来
测试网页浏览器兼容性的好工具网页显示的奇怪问题 (转载)
怎么在浏览器里把网页的背景音关掉?问个 403 Forbidden的问题
如何让自己的网站抓取网页信息?(嵌套浏览器?)问个IE 如果击活其它网站cookie的问题?
如果想网页嵌入mp3播放问个perl Mechanize问题
为啥"no-cache"对某些版本的IE不起作用?问个网页背景的问题
相关话题的讨论汇总
话题: 网页话题: 抓下来话题: php话题: source话题: 问个
进入BuildingWeb版参与讨论
1 (共1页)
p*******t
发帖数: 501
1
【 以下文字转载自 Programming 讨论区 】
发信人: prescient (星辰大海), 信区: Programming
标 题: 问个用php抓网页的问题
发信站: BBS 未名空间站 (Mon Apr 25 14:38:42 2011, 美东)
我想从下面这个网站抓网页:
http://community.giffgaff.com/
但是发现,从浏览器窗口看到的网页和source code,跟我用php抓下来的网页和source
code不一样,而且有比较大的区别。请问有什么比较简单的方法能把网页原样抓下来
么?
比如这个网页
http://community.giffgaff.com/t5/user/viewprofilepage/user-id/9
抓下来的和browser里面看到的就不一样
l****g
发帖数: 1922
2
不知道你用的是什么 fetch工具
python里面 urllib 的 函数,可以设定浏览器 操作系统等
就是说告诉我服务器 我是firefox或者 ie
而不是,“我是个程序”
不知道有没有可能是这个原因,因为我前一段抓google的,只有改了才能抓回来
p*******t
发帖数: 501
3
恩,发现就是这个原因
谢谢了!

【在 l****g 的大作中提到】
: 不知道你用的是什么 fetch工具
: python里面 urllib 的 函数,可以设定浏览器 操作系统等
: 就是说告诉我服务器 我是firefox或者 ie
: 而不是,“我是个程序”
: 不知道有没有可能是这个原因,因为我前一段抓google的,只有改了才能抓回来

j*****4
发帖数: 283
4
什么叫“抓”网页?
1 (共1页)
进入BuildingWeb版参与讨论
相关主题
问个网页背景的问题怎么在浏览器里把网页的背景音关掉?
问个建网页的菜鸟问题如何让自己的网站抓取网页信息?(嵌套浏览器?)
新手弱弱的问个网页中插入图片的问题如果想网页嵌入mp3播放
问个初级问题为啥"no-cache"对某些版本的IE不起作用?
有关web content的copyright (转载)请教
怎么设置可以看到CODE?网页的Form中Post的问题 (转载)
请教一个问题:在点浏览器back按钮的时候,问一个不知在哪里可以问的问题:怎么把这个网页整体打出来
测试网页浏览器兼容性的好工具网页显示的奇怪问题 (转载)
相关话题的讨论汇总
话题: 网页话题: 抓下来话题: php话题: source话题: 问个