由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 怎么可以取出网页中更新的内容 ?
相关主题
Smart Parser/Compiler Development从网上读取数据,然后在本地计算用什么语言合适?
请教一个语言选择的弱问题一个网页点击link和copy link address再打开得到不同结果
菜鸟问题怎么写个程序实现自动登录然后下载文件
Java可以自动填写webpage,然后submit吗? (转载)请教大牛一个关于htmlunit的问题。
请问如何实现自动向网站提交数据的程序?自动填写网上若干个“contact me” form的小程序?
请教,网页抓取、内容整理提取用什么做比较简单web scraping有啥方便的API或者框架不
请问怎么写外挂啊?[转载] servlet调用sql 访问oracle的问题
如何实现将网页内容自动存取?why use template?
相关话题的讨论汇总
话题: html话题: 内容话题: 取出话题: 页面话题: parser
进入Programming版参与讨论
1 (共1页)
d**s
发帖数: 920
1
向大家请教一个问题:
我们想从网上收集一些材料, 可大部分的页面既有很多不变的东西(如,栏目分类,menu,
等等), 还有一些不断更新的内容(举例来说, mitbbs的首页). 我们先把一个页面的
source 拿下来, 可有什么好的办法可以从source中把页面中更新的内容取出来 ?
我们试了用unix diff, 效果不好.
有没有什么建议呢 ?
g*****g
发帖数: 34805
2
diff is not gonna work, you need some html parser that can
reconstruct html doc into a hierarchy tree, it's much easier
to compare from there.

menu,

【在 d**s 的大作中提到】
: 向大家请教一个问题:
: 我们想从网上收集一些材料, 可大部分的页面既有很多不变的东西(如,栏目分类,menu,
: 等等), 还有一些不断更新的内容(举例来说, mitbbs的首页). 我们先把一个页面的
: source 拿下来, 可有什么好的办法可以从source中把页面中更新的内容取出来 ?
: 我们试了用unix diff, 效果不好.
: 有没有什么建议呢 ?

d**s
发帖数: 920
3
Thanks.
Any suggestions for html parser ?

【在 g*****g 的大作中提到】
: diff is not gonna work, you need some html parser that can
: reconstruct html doc into a hierarchy tree, it's much easier
: to compare from there.
:
: menu,

g*****g
发帖数: 34805
4
I use htmlUnit in java, which's pretty good.

【在 d**s 的大作中提到】
: Thanks.
: Any suggestions for html parser ?

d**s
发帖数: 920
5
Are there any standalone htmlParse utility so that I can run it as a
separate program.? I am not good at java, and my other programs were
developed in Python.

【在 g*****g 的大作中提到】
: I use htmlUnit in java, which's pretty good.
1 (共1页)
进入Programming版参与讨论
相关主题
why use template?请问如何实现自动向网站提交数据的程序?
问一下这个cast在java里是怎么work的请教,网页抓取、内容整理提取用什么做比较简单
C++ cast 小结请问怎么写外挂啊?
dynamic_cast operator in C++如何实现将网页内容自动存取?
Smart Parser/Compiler Development从网上读取数据,然后在本地计算用什么语言合适?
请教一个语言选择的弱问题一个网页点击link和copy link address再打开得到不同结果
菜鸟问题怎么写个程序实现自动登录然后下载文件
Java可以自动填写webpage,然后submit吗? (转载)请教大牛一个关于htmlunit的问题。
相关话题的讨论汇总
话题: html话题: 内容话题: 取出话题: 页面话题: parser