推荐个html parser的库？ - Programming版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - 推荐个html parser的库？

相关主题
● Smart Parser/Compiler Development	● 有点挠头
● 请教一个parser的问题	● andriod 编程问题
● 谁知道如何调试yacc程序？	● php DOM parse 中文乱码问题 (转载)
● [合集] 被perl雷到了，sed, awk, cygwin, native以及其他	● How to Parsing function in haskell?
● LISP is better than XML, but worse is better？	● parsing bibliography and sorting (转载)
● 王垠对google的看法 (转载)	● 问java api的问题
● 有没有这样的blind JSON parser	● parsing file in node: js or python ?
● 哎，本来想从讨论中学些东西	● 问个XPath的问题

相关话题的讨论汇总
话题: html话题: parser话题: 内容话题: dom话题: parse

进入Programming版参与讨论

(共1页)

ET
发帖数: 10701

想要把一个链接里的文章的主要内容给提取出来。
比如这个链接：
http://www.nbcnews.com/politics/2016-election/outsider-left-out
我只需要新闻的主要内容。其它html页面，广告什么或者其它链接一概不需要。
语言不限，python， php， javascript，我都能处理。
使用过一些现成的api，效果都不是太好。
这个湾区日报似乎是自己parse的，还不错。当然他能控制文章来源，也许和这个也有
关系。

p**2
发帖数: 613

regex根据class自己拼不难吧？

【在 ET 的大作中提到】

: 想要把一个链接里的文章的主要内容给提取出来。
: 比如这个链接：
: http://www.nbcnews.com/politics/2016-election/outsider-left-out
: 我只需要新闻的主要内容。其它html页面，广告什么或者其它链接一概不需要。
: 语言不限，python， php， javascript，我都能处理。
: 使用过一些现成的api，效果都不是太好。
: 这个湾区日报似乎是自己parse的，还不错。当然他能控制文章来源，也许和这个也有
: 关系。

d******e
发帖数: 2265

各种soup不行？

【在 ET 的大作中提到】

ET
发帖数: 10701

python下beautuflsoup似乎不能分别主要内容和其它的广告等内容

【在 d******e 的大作中提到】

: 各种soup不行？

ET
发帖数: 10701

有些难度。看看quora里pocket 应用的parser作者这么说的：
https://www.quora.com/Whats-the-best-method-to-extract-article-
HTML-documents#!n=24

【在 p**2 的大作中提到】

: regex根据class自己拼不难吧？

j*a
发帖数: 14423

js可以做没什么依赖
var parser = new DOMParser();
var doc = parser.parseFromString(result, "text/html");
$('table tr', doc).each(function() {
});

【在 ET 的大作中提到】

p**2
发帖数: 613

你的意思是不是放虫出去抓，
抓下来的内容根据dd来定义新闻内容的雷同，
差别大的留下来？
如果是那样
这个俺没做过，比较高达上，
如果你搞定了，也给俺说说，
让俺学习学习。
如果只是特定网站，比如抓所有的CNN的新闻，
那很简单，一般都有rss，就算直接从页面上也很容易。

【在 ET 的大作中提到】

: 有些难度。看看quora里pocket 应用的parser作者这么说的：
: https://www.quora.com/Whats-the-best-method-to-extract-article-
: HTML-documents#!n=24

ET
发帖数: 10701

没那么复杂。就如wanqu。co一样，给个link，抓主要内容。

【在 p**2 的大作中提到】

: 你的意思是不是放虫出去抓，
: 抓下来的内容根据dd来定义新闻内容的雷同，
: 差别大的留下来？
: 如果是那样
: 这个俺没做过，比较高达上，
: 如果你搞定了，也给俺说说，
: 让俺学习学习。
: 如果只是特定网站，比如抓所有的CNN的新闻，
: 那很简单，一般都有rss，就算直接从页面上也很容易。

w********m
发帖数: 1137

爬虫都是体力活。
先上个jquery抓抓试试。

p**2
发帖数: 613

页面排版啥的都不确定？
只能靠common sense或者自建库filter？

【在 ET 的大作中提到】

: 没那么复杂。就如wanqu。co一样，给个link，抓主要内容。

相关主题
● 王垠对google的看法 (转载)	● 有点挠头
● 有没有这样的blind JSON parser	● andriod 编程问题
● 哎，本来想从讨论中学些东西	● php DOM parse 中文乱码问题 (转载)
进入Programming版参与讨论

n*w
发帖数: 3393

. net 上我用agile HTML。用XPath。我的情况还不错。

【在 ET 的大作中提到】

p**2
发帖数: 613

你用XPATH是预定义了，这个很简单。
感觉ET要的是自动识别，
我个人感觉要么别人有现成的常见识别list，
要么就要自己训练程序做自动识别，
一开始必然没法完美。

【在 n*w 的大作中提到】

: . net 上我用agile HTML。用XPath。我的情况还不错。

n*****t
发帖数: 22014

一般都是固定几个网站吧，随便给个都能抓出来，这牛鞭大法了

【在 p**2 的大作中提到】

: 你用XPATH是预定义了，这个很简单。
: 感觉ET要的是自动识别，
: 我个人感觉要么别人有现成的常见识别list，
: 要么就要自己训练程序做自动识别，
: 一开始必然没法完美。

m***i
发帖数: 2480

scrapy selectors
or 从 google cache parse

【在 ET 的大作中提到】

m*****u
发帖数: 1342

I think you meant DOM processing. It's not very straight foward. I worked on
something like that about a year ago.
https://github.com/major1xu/webapp

【在 ET 的大作中提到】

p**2
发帖数: 613

其实还好，就是safari的那个阅读模式，
实际操练起来8，9不离十不难，
做到完美很难。

【在 n*****t 的大作中提到】

: 一般都是固定几个网站吧，随便给个都能抓出来，这牛鞭大法了

ET
发帖数: 10701

p**2
发帖数: 613

regex根据class自己拼不难吧？

【在 ET 的大作中提到】

d******e
发帖数: 2265

各种soup不行？

【在 ET 的大作中提到】

ET
发帖数: 10701

python下beautuflsoup似乎不能分别主要内容和其它的广告等内容

【在 d******e 的大作中提到】

: 各种soup不行？

相关主题
● How to Parsing function in haskell?	● parsing file in node: js or python ?
● parsing bibliography and sorting (转载)	● 问个XPath的问题
● 问java api的问题	● 如何从html文件里提出中文
进入Programming版参与讨论

ET
发帖数: 10701

有些难度。看看quora里pocket 应用的parser作者这么说的：
https://www.quora.com/Whats-the-best-method-to-extract-article-
HTML-documents#!n=24

【在 p**2 的大作中提到】

: regex根据class自己拼不难吧？

j*a
发帖数: 14423

js可以做没什么依赖
var parser = new DOMParser();
var doc = parser.parseFromString(result, "text/html");
$('table tr', doc).each(function() {
});

【在 ET 的大作中提到】

p**2
发帖数: 613

: 有些难度。看看quora里pocket 应用的parser作者这么说的：
: https://www.quora.com/Whats-the-best-method-to-extract-article-
: HTML-documents#!n=24

ET
发帖数: 10701

没那么复杂。就如wanqu。co一样，给个link，抓主要内容。

【在 p**2 的大作中提到】

w********m
发帖数: 1137

爬虫都是体力活。
先上个jquery抓抓试试。

p**2
发帖数: 613

页面排版啥的都不确定？
只能靠common sense或者自建库filter？

【在 ET 的大作中提到】

: 没那么复杂。就如wanqu。co一样，给个link，抓主要内容。

n*w
发帖数: 3393

. net 上我用agile HTML。用XPath。我的情况还不错。

【在 ET 的大作中提到】

p**2
发帖数: 613

: . net 上我用agile HTML。用XPath。我的情况还不错。

n*****t
发帖数: 22014

一般都是固定几个网站吧，随便给个都能抓出来，这牛鞭大法了

【在 p**2 的大作中提到】

m***i
发帖数: 2480

scrapy selectors
or 从 google cache parse

【在 ET 的大作中提到】

相关主题
● 在线等...Java怎么读XPath?	● 请教一个parser的问题
● 有没有对xml文件进行类似sql直观查询的工具？ (转载)	● 谁知道如何调试yacc程序？
● Smart Parser/Compiler Development	● [合集] 被perl雷到了，sed, awk, cygwin, native以及其他
进入Programming版参与讨论

m*****u
发帖数: 1342

I think you meant DOM processing. It's not very straight foward. I worked on
something like that about a year ago.
https://github.com/major1xu/webapp

【在 ET 的大作中提到】

p**2
发帖数: 613

其实还好，就是safari的那个阅读模式，
实际操练起来8，9不离十不难，
做到完美很难。

【在 n*****t 的大作中提到】

: 一般都是固定几个网站吧，随便给个都能抓出来，这牛鞭大法了

ET
发帖数: 10701

我最后用了node module
https://github.com/luin/readability
它是基于readiblity 开源项目出来的。
我之前直接用readability的api，但是一call多了，就出错误。

【在 p**2 的大作中提到】

: 其实还好，就是safari的那个阅读模式，
: 实际操练起来8，9不离十不难，
: 做到完美很难。

d*******r
发帖数: 3299

抓取分析成功率高不，都能抓取哪些网站?

【在 ET 的大作中提到】

: 我最后用了node module
: https://github.com/luin/readability
: 它是基于readiblity 开源项目出来的。
: 我之前直接用readability的api，但是一call多了，就出错误。

p**r
发帖数: 5853

刚看了下，貌似还行，
支持一页多篇文章的抓取吗？

【在 ET 的大作中提到】

: 我最后用了node module
: https://github.com/luin/readability
: 它是基于readiblity 开源项目出来的。
: 我之前直接用readability的api，但是一call多了，就出错误。

r********r
发帖数: 208

如果用Java, 可以考虑用Jsoup去分析内容。我试过，感觉还不错。
谁有更好的？

ET
发帖数: 10701

比如小说？
这个readbility还是很有名的一个项目。

【在 p**r 的大作中提到】

: 刚看了下，貌似还行，
: 支持一页多篇文章的抓取吗？

w****k
发帖数: 6244

Boilerpipe
Dragnet
Readability

【在 ET 的大作中提到】

p**r
发帖数: 5853

比如说一页面里面包含了多个作者的观点，
每个观点都单独一篇文章，这也是比较常见的。

【在 ET 的大作中提到】

: 比如小说？
: 这个readbility还是很有名的一个项目。

w****k
发帖数: 6244

我以前写过个算法可以搞这个
比如一篇博客下面很多评论
博客带评论一起提取出来
后来跳槽代码不知道扔哪里了

【在 p**r 的大作中提到】

: 刚看了下，貌似还行，
: 支持一页多篇文章的抓取吗？

相关主题
● [合集] 被perl雷到了，sed, awk, cygwin, native以及其他	● 有没有这样的blind JSON parser
● LISP is better than XML, but worse is better？	● 哎，本来想从讨论中学些东西
● 王垠对google的看法 (转载)	● 有点挠头
进入Programming版参与讨论

p**r
发帖数: 5853

如果是对固定源，这个不难。
难的是泛源，因为你都不知道对方是什么，能否说说你算法的原理？
我以前做过的方法：
在抓内容之前，先看metadata，
然后根据metadata再抓各类tag里的内容，
然后根据doc distance between metadata and content的最小差异，
来决定抓那部分内容，这样基本可以做到不抓错。

【在 w****k 的大作中提到】

: 我以前写过个算法可以搞这个
: 比如一篇博客下面很多评论
: 博客带评论一起提取出来
: 后来跳槽代码不知道扔哪里了

e*******o
发帖数: 2

斧頭幫學術水平也不錯

【在 p**r 的大作中提到】

: 如果是对固定源，这个不难。
: 难的是泛源，因为你都不知道对方是什么，能否说说你算法的原理？
: 我以前做过的方法：
: 在抓内容之前，先看metadata，
: 然后根据metadata再抓各类tag里的内容，
: 然后根据doc distance between metadata and content的最小差异，
: 来决定抓那部分内容，这样基本可以做到不抓错。

w****k
发帖数: 6244

是general的
算法利用几个因素
1. 主文章，这个用boilerpipe搞定
2. 评论，评论的html dom结构是重复的。
然后里面有日期，有作者名字等
所以先找出所有重复性的dom结构，再看这个div里面有没有日期等元素来决定它是不是
个评论。这里用了一点机器学习算法来score
是就把内容提取出来

【在 p**r 的大作中提到】

p**r
发帖数: 5853

学习收藏了，
找时间看看你提到boilerpipe，目前对这没概念。
机器学习算法score，能否展开说说，或者给个link？

【在 w****k 的大作中提到】

: 是general的
: 算法利用几个因素
: 1. 主文章，这个用boilerpipe搞定
: 2. 评论，评论的html dom结构是重复的。
: 然后里面有日期，有作者名字等
: 所以先找出所有重复性的dom结构，再看这个div里面有没有日期等元素来决定它是不是
: 个评论。这里用了一点机器学习算法来score
: 是就把内容提取出来

ET
发帖数: 10701

then just check this one out
https://github.com/seomoz/dragnet

【在 p**r 的大作中提到】

: 学习收藏了，
: 找时间看看你提到boilerpipe，目前对这没概念。
: 机器学习算法score，能否展开说说，或者给个link？

p**2
发帖数: 613

好，多谢，收藏了，看过之后再来请教。

【在 ET 的大作中提到】

: then just check this one out
: https://github.com/seomoz/dragnet

(共1页)

进入Programming版参与讨论

相关主题
● 问个XPath的问题	● LISP is better than XML, but worse is better？
● 如何从html文件里提出中文	● 王垠对google的看法 (转载)
● 在线等...Java怎么读XPath?	● 有没有这样的blind JSON parser
● 有没有对xml文件进行类似sql直观查询的工具？ (转载)	● 哎，本来想从讨论中学些东西
● Smart Parser/Compiler Development	● 有点挠头
● 请教一个parser的问题	● andriod 编程问题
● 谁知道如何调试yacc程序？	● php DOM parse 中文乱码问题 (转载)
● [合集] 被perl雷到了，sed, awk, cygwin, native以及其他	● How to Parsing function in haskell?

相关话题的讨论汇总
话题: html话题: parser话题: 内容话题: dom话题: parse

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天