由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 推荐个html parser的库?
相关主题
Smart Parser/Compiler Development有点挠头
请教一个parser的问题andriod 编程问题
谁知道如何调试yacc程序?php DOM parse 中文乱码问题 (转载)
[合集] 被perl雷到了,sed, awk, cygwin, native以及其他How to Parsing function in haskell?
LISP is better than XML, but worse is better?parsing bibliography and sorting (转载)
王垠对google的看法 (转载)问java api的问题
有没有这样的blind JSON parserparsing file in node: js or python ?
哎,本来想从讨论中学些东西问个XPath的问题
相关话题的讨论汇总
话题: html话题: parser话题: 内容话题: dom话题: parse
进入Programming版参与讨论
1 (共1页)
ET
发帖数: 10701
1
想要把一个链接里的文章的主要内容给提取出来。
比如这个链接:
http://www.nbcnews.com/politics/2016-election/outsider-left-out
我只需要新闻的主要内容。其它html页面,广告什么或者其它链接一概不需要。
语言不限,python, php, javascript, 我都能处理。
使用过一些现成的api,效果都不 是太好。
这个湾区日报似乎是自己parse的,还不错。当然他能控制文章来源,也许和这个也有
关系。
p**2
发帖数: 613
2
regex根据class自己拼不难吧?

【在 ET 的大作中提到】
: 想要把一个链接里的文章的主要内容给提取出来。
: 比如这个链接:
: http://www.nbcnews.com/politics/2016-election/outsider-left-out
: 我只需要新闻的主要内容。其它html页面,广告什么或者其它链接一概不需要。
: 语言不限,python, php, javascript, 我都能处理。
: 使用过一些现成的api,效果都不 是太好。
: 这个湾区日报似乎是自己parse的,还不错。当然他能控制文章来源,也许和这个也有
: 关系。

d******e
发帖数: 2265
3
各种soup不行?

【在 ET 的大作中提到】
: 想要把一个链接里的文章的主要内容给提取出来。
: 比如这个链接:
: http://www.nbcnews.com/politics/2016-election/outsider-left-out
: 我只需要新闻的主要内容。其它html页面,广告什么或者其它链接一概不需要。
: 语言不限,python, php, javascript, 我都能处理。
: 使用过一些现成的api,效果都不 是太好。
: 这个湾区日报似乎是自己parse的,还不错。当然他能控制文章来源,也许和这个也有
: 关系。

ET
发帖数: 10701
4
python下beautuflsoup似乎不能分别主要内容和其它的广告等内容

【在 d******e 的大作中提到】
: 各种soup不行?
ET
发帖数: 10701
5
有些难度。看看quora里pocket 应用的parser作者这么说的:
https://www.quora.com/Whats-the-best-method-to-extract-article-
HTML-documents#!n=24

【在 p**2 的大作中提到】
: regex根据class自己拼不难吧?
j*a
发帖数: 14423
6
js可以做 没什么依赖
var parser = new DOMParser();
var doc = parser.parseFromString(result, "text/html");
$('table tr', doc).each(function() {
});

【在 ET 的大作中提到】
: 想要把一个链接里的文章的主要内容给提取出来。
: 比如这个链接:
: http://www.nbcnews.com/politics/2016-election/outsider-left-out
: 我只需要新闻的主要内容。其它html页面,广告什么或者其它链接一概不需要。
: 语言不限,python, php, javascript, 我都能处理。
: 使用过一些现成的api,效果都不 是太好。
: 这个湾区日报似乎是自己parse的,还不错。当然他能控制文章来源,也许和这个也有
: 关系。

p**2
发帖数: 613
7
你的意思是不是放虫出去抓,
抓下来的内容根据dd来定义新闻内容的雷同,
差别大的留下来?
如果是那样
这个俺没做过,比较高达上,
如果你搞定了,也给俺说说,
让俺学习学习。
如果只是特定网站,比如抓所有的CNN的新闻,
那很简单,一般都有rss,就算直接从页面上也很容易。

【在 ET 的大作中提到】
: 有些难度。看看quora里pocket 应用的parser作者这么说的:
: https://www.quora.com/Whats-the-best-method-to-extract-article-
: HTML-documents#!n=24

ET
发帖数: 10701
8
没那么复杂。 就如wanqu。co一样,给个link, 抓主要内容。

【在 p**2 的大作中提到】
: 你的意思是不是放虫出去抓,
: 抓下来的内容根据dd来定义新闻内容的雷同,
: 差别大的留下来?
: 如果是那样
: 这个俺没做过,比较高达上,
: 如果你搞定了,也给俺说说,
: 让俺学习学习。
: 如果只是特定网站,比如抓所有的CNN的新闻,
: 那很简单,一般都有rss,就算直接从页面上也很容易。

w********m
发帖数: 1137
9
爬虫都是体力活。
先上个jquery抓抓试试。
p**2
发帖数: 613
10
页面排版啥的都不确定?
只能靠common sense或者自建库filter?

【在 ET 的大作中提到】
: 没那么复杂。 就如wanqu。co一样,给个link, 抓主要内容。
相关主题
王垠对google的看法 (转载)有点挠头
有没有这样的blind JSON parserandriod 编程问题
哎,本来想从讨论中学些东西php DOM parse 中文乱码问题 (转载)
进入Programming版参与讨论
n*w
发帖数: 3393
11
. net 上我用agile HTML。用XPath。我的情况还不错。

【在 ET 的大作中提到】
: 想要把一个链接里的文章的主要内容给提取出来。
: 比如这个链接:
: http://www.nbcnews.com/politics/2016-election/outsider-left-out
: 我只需要新闻的主要内容。其它html页面,广告什么或者其它链接一概不需要。
: 语言不限,python, php, javascript, 我都能处理。
: 使用过一些现成的api,效果都不 是太好。
: 这个湾区日报似乎是自己parse的,还不错。当然他能控制文章来源,也许和这个也有
: 关系。

p**2
发帖数: 613
12
你用XPATH是预定义了,这个很简单。
感觉ET要的是自动识别,
我个人感觉要么别人有现成的常见识别list,
要么就要自己训练程序做自动识别,
一开始必然没法完美。

【在 n*w 的大作中提到】
: . net 上我用agile HTML。用XPath。我的情况还不错。
n*****t
发帖数: 22014
13
一般都是固定几个网站吧,随便给个都能抓出来,这牛鞭大法了

【在 p**2 的大作中提到】
: 你用XPATH是预定义了,这个很简单。
: 感觉ET要的是自动识别,
: 我个人感觉要么别人有现成的常见识别list,
: 要么就要自己训练程序做自动识别,
: 一开始必然没法完美。

m***i
发帖数: 2480
14
scrapy selectors
or 从 google cache parse

【在 ET 的大作中提到】
: 想要把一个链接里的文章的主要内容给提取出来。
: 比如这个链接:
: http://www.nbcnews.com/politics/2016-election/outsider-left-out
: 我只需要新闻的主要内容。其它html页面,广告什么或者其它链接一概不需要。
: 语言不限,python, php, javascript, 我都能处理。
: 使用过一些现成的api,效果都不 是太好。
: 这个湾区日报似乎是自己parse的,还不错。当然他能控制文章来源,也许和这个也有
: 关系。

m*****u
发帖数: 1342
15
I think you meant DOM processing. It's not very straight foward. I worked on
something like that about a year ago.
https://github.com/major1xu/webapp

【在 ET 的大作中提到】
: 想要把一个链接里的文章的主要内容给提取出来。
: 比如这个链接:
: http://www.nbcnews.com/politics/2016-election/outsider-left-out
: 我只需要新闻的主要内容。其它html页面,广告什么或者其它链接一概不需要。
: 语言不限,python, php, javascript, 我都能处理。
: 使用过一些现成的api,效果都不 是太好。
: 这个湾区日报似乎是自己parse的,还不错。当然他能控制文章来源,也许和这个也有
: 关系。

p**2
发帖数: 613
16
其实还好,就是safari的那个阅读模式,
实际操练起来8,9不离十不难,
做到完美很难。

【在 n*****t 的大作中提到】
: 一般都是固定几个网站吧,随便给个都能抓出来,这牛鞭大法了
ET
发帖数: 10701
17
想要把一个链接里的文章的主要内容给提取出来。
比如这个链接:
http://www.nbcnews.com/politics/2016-election/outsider-left-out
我只需要新闻的主要内容。其它html页面,广告什么或者其它链接一概不需要。
语言不限,python, php, javascript, 我都能处理。
使用过一些现成的api,效果都不 是太好。
这个湾区日报似乎是自己parse的,还不错。当然他能控制文章来源,也许和这个也有
关系。
p**2
发帖数: 613
18
regex根据class自己拼不难吧?

【在 ET 的大作中提到】
: 想要把一个链接里的文章的主要内容给提取出来。
: 比如这个链接:
: http://www.nbcnews.com/politics/2016-election/outsider-left-out
: 我只需要新闻的主要内容。其它html页面,广告什么或者其它链接一概不需要。
: 语言不限,python, php, javascript, 我都能处理。
: 使用过一些现成的api,效果都不 是太好。
: 这个湾区日报似乎是自己parse的,还不错。当然他能控制文章来源,也许和这个也有
: 关系。

d******e
发帖数: 2265
19
各种soup不行?

【在 ET 的大作中提到】
: 想要把一个链接里的文章的主要内容给提取出来。
: 比如这个链接:
: http://www.nbcnews.com/politics/2016-election/outsider-left-out
: 我只需要新闻的主要内容。其它html页面,广告什么或者其它链接一概不需要。
: 语言不限,python, php, javascript, 我都能处理。
: 使用过一些现成的api,效果都不 是太好。
: 这个湾区日报似乎是自己parse的,还不错。当然他能控制文章来源,也许和这个也有
: 关系。

ET
发帖数: 10701
20
python下beautuflsoup似乎不能分别主要内容和其它的广告等内容

【在 d******e 的大作中提到】
: 各种soup不行?
相关主题
How to Parsing function in haskell?parsing file in node: js or python ?
parsing bibliography and sorting (转载)问个XPath的问题
问java api的问题如何从html文件里提出中文
进入Programming版参与讨论
ET
发帖数: 10701
21
有些难度。看看quora里pocket 应用的parser作者这么说的:
https://www.quora.com/Whats-the-best-method-to-extract-article-
HTML-documents#!n=24

【在 p**2 的大作中提到】
: regex根据class自己拼不难吧?
j*a
发帖数: 14423
22
js可以做 没什么依赖
var parser = new DOMParser();
var doc = parser.parseFromString(result, "text/html");
$('table tr', doc).each(function() {
});

【在 ET 的大作中提到】
: 想要把一个链接里的文章的主要内容给提取出来。
: 比如这个链接:
: http://www.nbcnews.com/politics/2016-election/outsider-left-out
: 我只需要新闻的主要内容。其它html页面,广告什么或者其它链接一概不需要。
: 语言不限,python, php, javascript, 我都能处理。
: 使用过一些现成的api,效果都不 是太好。
: 这个湾区日报似乎是自己parse的,还不错。当然他能控制文章来源,也许和这个也有
: 关系。

p**2
发帖数: 613
23
你的意思是不是放虫出去抓,
抓下来的内容根据dd来定义新闻内容的雷同,
差别大的留下来?
如果是那样
这个俺没做过,比较高达上,
如果你搞定了,也给俺说说,
让俺学习学习。
如果只是特定网站,比如抓所有的CNN的新闻,
那很简单,一般都有rss,就算直接从页面上也很容易。

【在 ET 的大作中提到】
: 有些难度。看看quora里pocket 应用的parser作者这么说的:
: https://www.quora.com/Whats-the-best-method-to-extract-article-
: HTML-documents#!n=24

ET
发帖数: 10701
24
没那么复杂。 就如wanqu。co一样,给个link, 抓主要内容。

【在 p**2 的大作中提到】
: 你的意思是不是放虫出去抓,
: 抓下来的内容根据dd来定义新闻内容的雷同,
: 差别大的留下来?
: 如果是那样
: 这个俺没做过,比较高达上,
: 如果你搞定了,也给俺说说,
: 让俺学习学习。
: 如果只是特定网站,比如抓所有的CNN的新闻,
: 那很简单,一般都有rss,就算直接从页面上也很容易。

w********m
发帖数: 1137
25
爬虫都是体力活。
先上个jquery抓抓试试。
p**2
发帖数: 613
26
页面排版啥的都不确定?
只能靠common sense或者自建库filter?

【在 ET 的大作中提到】
: 没那么复杂。 就如wanqu。co一样,给个link, 抓主要内容。
n*w
发帖数: 3393
27
. net 上我用agile HTML。用XPath。我的情况还不错。

【在 ET 的大作中提到】
: 想要把一个链接里的文章的主要内容给提取出来。
: 比如这个链接:
: http://www.nbcnews.com/politics/2016-election/outsider-left-out
: 我只需要新闻的主要内容。其它html页面,广告什么或者其它链接一概不需要。
: 语言不限,python, php, javascript, 我都能处理。
: 使用过一些现成的api,效果都不 是太好。
: 这个湾区日报似乎是自己parse的,还不错。当然他能控制文章来源,也许和这个也有
: 关系。

p**2
发帖数: 613
28
你用XPATH是预定义了,这个很简单。
感觉ET要的是自动识别,
我个人感觉要么别人有现成的常见识别list,
要么就要自己训练程序做自动识别,
一开始必然没法完美。

【在 n*w 的大作中提到】
: . net 上我用agile HTML。用XPath。我的情况还不错。
n*****t
发帖数: 22014
29
一般都是固定几个网站吧,随便给个都能抓出来,这牛鞭大法了

【在 p**2 的大作中提到】
: 你用XPATH是预定义了,这个很简单。
: 感觉ET要的是自动识别,
: 我个人感觉要么别人有现成的常见识别list,
: 要么就要自己训练程序做自动识别,
: 一开始必然没法完美。

m***i
发帖数: 2480
30
scrapy selectors
or 从 google cache parse

【在 ET 的大作中提到】
: 想要把一个链接里的文章的主要内容给提取出来。
: 比如这个链接:
: http://www.nbcnews.com/politics/2016-election/outsider-left-out
: 我只需要新闻的主要内容。其它html页面,广告什么或者其它链接一概不需要。
: 语言不限,python, php, javascript, 我都能处理。
: 使用过一些现成的api,效果都不 是太好。
: 这个湾区日报似乎是自己parse的,还不错。当然他能控制文章来源,也许和这个也有
: 关系。

相关主题
在线等...Java怎么读XPath?请教一个parser的问题
有没有对xml文件进行类似sql直观查询的工具? (转载)谁知道如何调试yacc程序?
Smart Parser/Compiler Development[合集] 被perl雷到了,sed, awk, cygwin, native以及其他
进入Programming版参与讨论
m*****u
发帖数: 1342
31
I think you meant DOM processing. It's not very straight foward. I worked on
something like that about a year ago.
https://github.com/major1xu/webapp

【在 ET 的大作中提到】
: 想要把一个链接里的文章的主要内容给提取出来。
: 比如这个链接:
: http://www.nbcnews.com/politics/2016-election/outsider-left-out
: 我只需要新闻的主要内容。其它html页面,广告什么或者其它链接一概不需要。
: 语言不限,python, php, javascript, 我都能处理。
: 使用过一些现成的api,效果都不 是太好。
: 这个湾区日报似乎是自己parse的,还不错。当然他能控制文章来源,也许和这个也有
: 关系。

p**2
发帖数: 613
32
其实还好,就是safari的那个阅读模式,
实际操练起来8,9不离十不难,
做到完美很难。

【在 n*****t 的大作中提到】
: 一般都是固定几个网站吧,随便给个都能抓出来,这牛鞭大法了
ET
发帖数: 10701
33
我最后用了node module
https://github.com/luin/readability
它是基于readiblity 开源项目出来的。
我之前直接用readability的api, 但是一call多了,就出错误。

【在 p**2 的大作中提到】
: 其实还好,就是safari的那个阅读模式,
: 实际操练起来8,9不离十不难,
: 做到完美很难。

d*******r
发帖数: 3299
34
抓取分析成功率高不,都能抓取哪些网站?

【在 ET 的大作中提到】
: 我最后用了node module
: https://github.com/luin/readability
: 它是基于readiblity 开源项目出来的。
: 我之前直接用readability的api, 但是一call多了,就出错误。

p**r
发帖数: 5853
35
刚看了下,貌似还行,
支持一页多篇文章的抓取吗?

【在 ET 的大作中提到】
: 我最后用了node module
: https://github.com/luin/readability
: 它是基于readiblity 开源项目出来的。
: 我之前直接用readability的api, 但是一call多了,就出错误。

r********r
发帖数: 208
36
如果用Java, 可以考虑用Jsoup去分析内容。我试过,感觉还不错。
谁有更好的?
ET
发帖数: 10701
37
比如小说?
这个readbility还是很有名的一个项目。

【在 p**r 的大作中提到】
: 刚看了下,貌似还行,
: 支持一页多篇文章的抓取吗?

w****k
发帖数: 6244
38
Boilerpipe
Dragnet
Readability

【在 ET 的大作中提到】
: 想要把一个链接里的文章的主要内容给提取出来。
: 比如这个链接:
: http://www.nbcnews.com/politics/2016-election/outsider-left-out
: 我只需要新闻的主要内容。其它html页面,广告什么或者其它链接一概不需要。
: 语言不限,python, php, javascript, 我都能处理。
: 使用过一些现成的api,效果都不 是太好。
: 这个湾区日报似乎是自己parse的,还不错。当然他能控制文章来源,也许和这个也有
: 关系。

p**r
发帖数: 5853
39
比如说一页面里面包含了多个作者的观点,
每个观点都单独一篇文章,这也是比较常见的。

【在 ET 的大作中提到】
: 比如小说?
: 这个readbility还是很有名的一个项目。

w****k
发帖数: 6244
40
我以前写过个算法 可以搞这个
比如一篇博客 下面很多评论
博客带评论一起提取出来
后来跳槽 代码不知道扔哪里了

【在 p**r 的大作中提到】
: 刚看了下,貌似还行,
: 支持一页多篇文章的抓取吗?

相关主题
[合集] 被perl雷到了,sed, awk, cygwin, native以及其他有没有这样的blind JSON parser
LISP is better than XML, but worse is better?哎,本来想从讨论中学些东西
王垠对google的看法 (转载)有点挠头
进入Programming版参与讨论
p**r
发帖数: 5853
41
如果是对固定源,这个不难。
难的是泛源,因为你都不知道对方是什么,能否说说你算法的原理?
我以前做过的方法:
在抓内容之前,先看metadata,
然后根据metadata再抓各类tag里的内容,
然后根据doc distance between metadata and content的最小差异,
来决定抓那部分内容,这样基本可以做到不抓错。

【在 w****k 的大作中提到】
: 我以前写过个算法 可以搞这个
: 比如一篇博客 下面很多评论
: 博客带评论一起提取出来
: 后来跳槽 代码不知道扔哪里了

e*******o
发帖数: 2
42
斧頭幫學術水平也不錯

【在 p**r 的大作中提到】
: 如果是对固定源,这个不难。
: 难的是泛源,因为你都不知道对方是什么,能否说说你算法的原理?
: 我以前做过的方法:
: 在抓内容之前,先看metadata,
: 然后根据metadata再抓各类tag里的内容,
: 然后根据doc distance between metadata and content的最小差异,
: 来决定抓那部分内容,这样基本可以做到不抓错。

w****k
发帖数: 6244
43
是general的
算法利用几个因素
1. 主文章,这个用boilerpipe搞定
2. 评论,评论的html dom结构是重复的。
然后里面有日期,有作者名字等
所以先找出所有重复性的dom结构,再看这个div里面有没有日期等元素来决定它是不是
个评论。这里用了一点机器学习算法来score
是就把内容提取出来

【在 p**r 的大作中提到】
: 如果是对固定源,这个不难。
: 难的是泛源,因为你都不知道对方是什么,能否说说你算法的原理?
: 我以前做过的方法:
: 在抓内容之前,先看metadata,
: 然后根据metadata再抓各类tag里的内容,
: 然后根据doc distance between metadata and content的最小差异,
: 来决定抓那部分内容,这样基本可以做到不抓错。

p**r
发帖数: 5853
44
学习收藏了,
找时间看看你提到boilerpipe,目前对这没概念。
机器学习算法score,能否展开说说,或者给个link?

【在 w****k 的大作中提到】
: 是general的
: 算法利用几个因素
: 1. 主文章,这个用boilerpipe搞定
: 2. 评论,评论的html dom结构是重复的。
: 然后里面有日期,有作者名字等
: 所以先找出所有重复性的dom结构,再看这个div里面有没有日期等元素来决定它是不是
: 个评论。这里用了一点机器学习算法来score
: 是就把内容提取出来

ET
发帖数: 10701
45
then just check this one out
https://github.com/seomoz/dragnet

【在 p**r 的大作中提到】
: 学习收藏了,
: 找时间看看你提到boilerpipe,目前对这没概念。
: 机器学习算法score,能否展开说说,或者给个link?

p**2
发帖数: 613
46
好,多谢,收藏了,看过之后再来请教。

【在 ET 的大作中提到】
: then just check this one out
: https://github.com/seomoz/dragnet

1 (共1页)
进入Programming版参与讨论
相关主题
问个XPath的问题LISP is better than XML, but worse is better?
如何从html文件里提出中文王垠对google的看法 (转载)
在线等...Java怎么读XPath?有没有这样的blind JSON parser
有没有对xml文件进行类似sql直观查询的工具? (转载)哎,本来想从讨论中学些东西
Smart Parser/Compiler Development有点挠头
请教一个parser的问题andriod 编程问题
谁知道如何调试yacc程序?php DOM parse 中文乱码问题 (转载)
[合集] 被perl雷到了,sed, awk, cygwin, native以及其他How to Parsing function in haskell?
相关话题的讨论汇总
话题: html话题: parser话题: 内容话题: dom话题: parse