ET 发帖数: 10701 | 1 想要把一个链接里的文章的主要内容给提取出来。
比如这个链接:
http://www.nbcnews.com/politics/2016-election/outsider-left-out
我只需要新闻的主要内容。其它html页面,广告什么或者其它链接一概不需要。
语言不限,python, php, javascript, 我都能处理。
使用过一些现成的api,效果都不 是太好。
这个湾区日报似乎是自己parse的,还不错。当然他能控制文章来源,也许和这个也有
关系。 |
p**2 发帖数: 613 | 2 regex根据class自己拼不难吧?
【在 ET 的大作中提到】 : 想要把一个链接里的文章的主要内容给提取出来。 : 比如这个链接: : http://www.nbcnews.com/politics/2016-election/outsider-left-out : 我只需要新闻的主要内容。其它html页面,广告什么或者其它链接一概不需要。 : 语言不限,python, php, javascript, 我都能处理。 : 使用过一些现成的api,效果都不 是太好。 : 这个湾区日报似乎是自己parse的,还不错。当然他能控制文章来源,也许和这个也有 : 关系。
|
d******e 发帖数: 2265 | 3 各种soup不行?
【在 ET 的大作中提到】 : 想要把一个链接里的文章的主要内容给提取出来。 : 比如这个链接: : http://www.nbcnews.com/politics/2016-election/outsider-left-out : 我只需要新闻的主要内容。其它html页面,广告什么或者其它链接一概不需要。 : 语言不限,python, php, javascript, 我都能处理。 : 使用过一些现成的api,效果都不 是太好。 : 这个湾区日报似乎是自己parse的,还不错。当然他能控制文章来源,也许和这个也有 : 关系。
|
ET 发帖数: 10701 | 4 python下beautuflsoup似乎不能分别主要内容和其它的广告等内容
【在 d******e 的大作中提到】 : 各种soup不行?
|
ET 发帖数: 10701 | 5 有些难度。看看quora里pocket 应用的parser作者这么说的:
https://www.quora.com/Whats-the-best-method-to-extract-article-
HTML-documents#!n=24
【在 p**2 的大作中提到】 : regex根据class自己拼不难吧?
|
j*a 发帖数: 14423 | 6 js可以做 没什么依赖
var parser = new DOMParser();
var doc = parser.parseFromString(result, "text/html");
$('table tr', doc).each(function() {
});
【在 ET 的大作中提到】 : 想要把一个链接里的文章的主要内容给提取出来。 : 比如这个链接: : http://www.nbcnews.com/politics/2016-election/outsider-left-out : 我只需要新闻的主要内容。其它html页面,广告什么或者其它链接一概不需要。 : 语言不限,python, php, javascript, 我都能处理。 : 使用过一些现成的api,效果都不 是太好。 : 这个湾区日报似乎是自己parse的,还不错。当然他能控制文章来源,也许和这个也有 : 关系。
|
p**2 发帖数: 613 | 7 你的意思是不是放虫出去抓,
抓下来的内容根据dd来定义新闻内容的雷同,
差别大的留下来?
如果是那样
这个俺没做过,比较高达上,
如果你搞定了,也给俺说说,
让俺学习学习。
如果只是特定网站,比如抓所有的CNN的新闻,
那很简单,一般都有rss,就算直接从页面上也很容易。
【在 ET 的大作中提到】 : 有些难度。看看quora里pocket 应用的parser作者这么说的: : https://www.quora.com/Whats-the-best-method-to-extract-article- : HTML-documents#!n=24
|
ET 发帖数: 10701 | 8 没那么复杂。 就如wanqu。co一样,给个link, 抓主要内容。
【在 p**2 的大作中提到】 : 你的意思是不是放虫出去抓, : 抓下来的内容根据dd来定义新闻内容的雷同, : 差别大的留下来? : 如果是那样 : 这个俺没做过,比较高达上, : 如果你搞定了,也给俺说说, : 让俺学习学习。 : 如果只是特定网站,比如抓所有的CNN的新闻, : 那很简单,一般都有rss,就算直接从页面上也很容易。
|
w********m 发帖数: 1137 | |
p**2 发帖数: 613 | 10 页面排版啥的都不确定?
只能靠common sense或者自建库filter?
【在 ET 的大作中提到】 : 没那么复杂。 就如wanqu。co一样,给个link, 抓主要内容。
|
|
|
n*w 发帖数: 3393 | 11 . net 上我用agile HTML。用XPath。我的情况还不错。
【在 ET 的大作中提到】 : 想要把一个链接里的文章的主要内容给提取出来。 : 比如这个链接: : http://www.nbcnews.com/politics/2016-election/outsider-left-out : 我只需要新闻的主要内容。其它html页面,广告什么或者其它链接一概不需要。 : 语言不限,python, php, javascript, 我都能处理。 : 使用过一些现成的api,效果都不 是太好。 : 这个湾区日报似乎是自己parse的,还不错。当然他能控制文章来源,也许和这个也有 : 关系。
|
p**2 发帖数: 613 | 12 你用XPATH是预定义了,这个很简单。
感觉ET要的是自动识别,
我个人感觉要么别人有现成的常见识别list,
要么就要自己训练程序做自动识别,
一开始必然没法完美。
【在 n*w 的大作中提到】 : . net 上我用agile HTML。用XPath。我的情况还不错。
|
n*****t 发帖数: 22014 | 13 一般都是固定几个网站吧,随便给个都能抓出来,这牛鞭大法了
【在 p**2 的大作中提到】 : 你用XPATH是预定义了,这个很简单。 : 感觉ET要的是自动识别, : 我个人感觉要么别人有现成的常见识别list, : 要么就要自己训练程序做自动识别, : 一开始必然没法完美。
|
m***i 发帖数: 2480 | 14 scrapy selectors
or 从 google cache parse
【在 ET 的大作中提到】 : 想要把一个链接里的文章的主要内容给提取出来。 : 比如这个链接: : http://www.nbcnews.com/politics/2016-election/outsider-left-out : 我只需要新闻的主要内容。其它html页面,广告什么或者其它链接一概不需要。 : 语言不限,python, php, javascript, 我都能处理。 : 使用过一些现成的api,效果都不 是太好。 : 这个湾区日报似乎是自己parse的,还不错。当然他能控制文章来源,也许和这个也有 : 关系。
|
m*****u 发帖数: 1342 | 15 I think you meant DOM processing. It's not very straight foward. I worked on
something like that about a year ago.
https://github.com/major1xu/webapp
【在 ET 的大作中提到】 : 想要把一个链接里的文章的主要内容给提取出来。 : 比如这个链接: : http://www.nbcnews.com/politics/2016-election/outsider-left-out : 我只需要新闻的主要内容。其它html页面,广告什么或者其它链接一概不需要。 : 语言不限,python, php, javascript, 我都能处理。 : 使用过一些现成的api,效果都不 是太好。 : 这个湾区日报似乎是自己parse的,还不错。当然他能控制文章来源,也许和这个也有 : 关系。
|
p**2 发帖数: 613 | 16 其实还好,就是safari的那个阅读模式,
实际操练起来8,9不离十不难,
做到完美很难。
【在 n*****t 的大作中提到】 : 一般都是固定几个网站吧,随便给个都能抓出来,这牛鞭大法了
|
ET 发帖数: 10701 | 17 想要把一个链接里的文章的主要内容给提取出来。
比如这个链接:
http://www.nbcnews.com/politics/2016-election/outsider-left-out
我只需要新闻的主要内容。其它html页面,广告什么或者其它链接一概不需要。
语言不限,python, php, javascript, 我都能处理。
使用过一些现成的api,效果都不 是太好。
这个湾区日报似乎是自己parse的,还不错。当然他能控制文章来源,也许和这个也有
关系。 |
p**2 发帖数: 613 | 18 regex根据class自己拼不难吧?
【在 ET 的大作中提到】 : 想要把一个链接里的文章的主要内容给提取出来。 : 比如这个链接: : http://www.nbcnews.com/politics/2016-election/outsider-left-out : 我只需要新闻的主要内容。其它html页面,广告什么或者其它链接一概不需要。 : 语言不限,python, php, javascript, 我都能处理。 : 使用过一些现成的api,效果都不 是太好。 : 这个湾区日报似乎是自己parse的,还不错。当然他能控制文章来源,也许和这个也有 : 关系。
|
d******e 发帖数: 2265 | 19 各种soup不行?
【在 ET 的大作中提到】 : 想要把一个链接里的文章的主要内容给提取出来。 : 比如这个链接: : http://www.nbcnews.com/politics/2016-election/outsider-left-out : 我只需要新闻的主要内容。其它html页面,广告什么或者其它链接一概不需要。 : 语言不限,python, php, javascript, 我都能处理。 : 使用过一些现成的api,效果都不 是太好。 : 这个湾区日报似乎是自己parse的,还不错。当然他能控制文章来源,也许和这个也有 : 关系。
|
ET 发帖数: 10701 | 20 python下beautuflsoup似乎不能分别主要内容和其它的广告等内容
【在 d******e 的大作中提到】 : 各种soup不行?
|
|
|
ET 发帖数: 10701 | 21 有些难度。看看quora里pocket 应用的parser作者这么说的:
https://www.quora.com/Whats-the-best-method-to-extract-article-
HTML-documents#!n=24
【在 p**2 的大作中提到】 : regex根据class自己拼不难吧?
|
j*a 发帖数: 14423 | 22 js可以做 没什么依赖
var parser = new DOMParser();
var doc = parser.parseFromString(result, "text/html");
$('table tr', doc).each(function() {
});
【在 ET 的大作中提到】 : 想要把一个链接里的文章的主要内容给提取出来。 : 比如这个链接: : http://www.nbcnews.com/politics/2016-election/outsider-left-out : 我只需要新闻的主要内容。其它html页面,广告什么或者其它链接一概不需要。 : 语言不限,python, php, javascript, 我都能处理。 : 使用过一些现成的api,效果都不 是太好。 : 这个湾区日报似乎是自己parse的,还不错。当然他能控制文章来源,也许和这个也有 : 关系。
|
p**2 发帖数: 613 | 23 你的意思是不是放虫出去抓,
抓下来的内容根据dd来定义新闻内容的雷同,
差别大的留下来?
如果是那样
这个俺没做过,比较高达上,
如果你搞定了,也给俺说说,
让俺学习学习。
如果只是特定网站,比如抓所有的CNN的新闻,
那很简单,一般都有rss,就算直接从页面上也很容易。
【在 ET 的大作中提到】 : 有些难度。看看quora里pocket 应用的parser作者这么说的: : https://www.quora.com/Whats-the-best-method-to-extract-article- : HTML-documents#!n=24
|
ET 发帖数: 10701 | 24 没那么复杂。 就如wanqu。co一样,给个link, 抓主要内容。
【在 p**2 的大作中提到】 : 你的意思是不是放虫出去抓, : 抓下来的内容根据dd来定义新闻内容的雷同, : 差别大的留下来? : 如果是那样 : 这个俺没做过,比较高达上, : 如果你搞定了,也给俺说说, : 让俺学习学习。 : 如果只是特定网站,比如抓所有的CNN的新闻, : 那很简单,一般都有rss,就算直接从页面上也很容易。
|
w********m 发帖数: 1137 | 25 爬虫都是体力活。
先上个jquery抓抓试试。 |
p**2 发帖数: 613 | 26 页面排版啥的都不确定?
只能靠common sense或者自建库filter?
【在 ET 的大作中提到】 : 没那么复杂。 就如wanqu。co一样,给个link, 抓主要内容。
|
n*w 发帖数: 3393 | 27 . net 上我用agile HTML。用XPath。我的情况还不错。
【在 ET 的大作中提到】 : 想要把一个链接里的文章的主要内容给提取出来。 : 比如这个链接: : http://www.nbcnews.com/politics/2016-election/outsider-left-out : 我只需要新闻的主要内容。其它html页面,广告什么或者其它链接一概不需要。 : 语言不限,python, php, javascript, 我都能处理。 : 使用过一些现成的api,效果都不 是太好。 : 这个湾区日报似乎是自己parse的,还不错。当然他能控制文章来源,也许和这个也有 : 关系。
|
p**2 发帖数: 613 | 28 你用XPATH是预定义了,这个很简单。
感觉ET要的是自动识别,
我个人感觉要么别人有现成的常见识别list,
要么就要自己训练程序做自动识别,
一开始必然没法完美。
【在 n*w 的大作中提到】 : . net 上我用agile HTML。用XPath。我的情况还不错。
|
n*****t 发帖数: 22014 | 29 一般都是固定几个网站吧,随便给个都能抓出来,这牛鞭大法了
【在 p**2 的大作中提到】 : 你用XPATH是预定义了,这个很简单。 : 感觉ET要的是自动识别, : 我个人感觉要么别人有现成的常见识别list, : 要么就要自己训练程序做自动识别, : 一开始必然没法完美。
|
m***i 发帖数: 2480 | 30 scrapy selectors
or 从 google cache parse
【在 ET 的大作中提到】 : 想要把一个链接里的文章的主要内容给提取出来。 : 比如这个链接: : http://www.nbcnews.com/politics/2016-election/outsider-left-out : 我只需要新闻的主要内容。其它html页面,广告什么或者其它链接一概不需要。 : 语言不限,python, php, javascript, 我都能处理。 : 使用过一些现成的api,效果都不 是太好。 : 这个湾区日报似乎是自己parse的,还不错。当然他能控制文章来源,也许和这个也有 : 关系。
|
|
|
m*****u 发帖数: 1342 | 31 I think you meant DOM processing. It's not very straight foward. I worked on
something like that about a year ago.
https://github.com/major1xu/webapp
【在 ET 的大作中提到】 : 想要把一个链接里的文章的主要内容给提取出来。 : 比如这个链接: : http://www.nbcnews.com/politics/2016-election/outsider-left-out : 我只需要新闻的主要内容。其它html页面,广告什么或者其它链接一概不需要。 : 语言不限,python, php, javascript, 我都能处理。 : 使用过一些现成的api,效果都不 是太好。 : 这个湾区日报似乎是自己parse的,还不错。当然他能控制文章来源,也许和这个也有 : 关系。
|
p**2 发帖数: 613 | 32 其实还好,就是safari的那个阅读模式,
实际操练起来8,9不离十不难,
做到完美很难。
【在 n*****t 的大作中提到】 : 一般都是固定几个网站吧,随便给个都能抓出来,这牛鞭大法了
|
ET 发帖数: 10701 | 33 我最后用了node module
https://github.com/luin/readability
它是基于readiblity 开源项目出来的。
我之前直接用readability的api, 但是一call多了,就出错误。
【在 p**2 的大作中提到】 : 其实还好,就是safari的那个阅读模式, : 实际操练起来8,9不离十不难, : 做到完美很难。
|
d*******r 发帖数: 3299 | 34 抓取分析成功率高不,都能抓取哪些网站?
【在 ET 的大作中提到】 : 我最后用了node module : https://github.com/luin/readability : 它是基于readiblity 开源项目出来的。 : 我之前直接用readability的api, 但是一call多了,就出错误。
|
p**r 发帖数: 5853 | 35 刚看了下,貌似还行,
支持一页多篇文章的抓取吗?
【在 ET 的大作中提到】 : 我最后用了node module : https://github.com/luin/readability : 它是基于readiblity 开源项目出来的。 : 我之前直接用readability的api, 但是一call多了,就出错误。
|
r********r 发帖数: 208 | 36 如果用Java, 可以考虑用Jsoup去分析内容。我试过,感觉还不错。
谁有更好的? |
ET 发帖数: 10701 | 37 比如小说?
这个readbility还是很有名的一个项目。
【在 p**r 的大作中提到】 : 刚看了下,貌似还行, : 支持一页多篇文章的抓取吗?
|
w****k 发帖数: 6244 | 38 Boilerpipe
Dragnet
Readability
【在 ET 的大作中提到】 : 想要把一个链接里的文章的主要内容给提取出来。 : 比如这个链接: : http://www.nbcnews.com/politics/2016-election/outsider-left-out : 我只需要新闻的主要内容。其它html页面,广告什么或者其它链接一概不需要。 : 语言不限,python, php, javascript, 我都能处理。 : 使用过一些现成的api,效果都不 是太好。 : 这个湾区日报似乎是自己parse的,还不错。当然他能控制文章来源,也许和这个也有 : 关系。
|
p**r 发帖数: 5853 | 39 比如说一页面里面包含了多个作者的观点,
每个观点都单独一篇文章,这也是比较常见的。
【在 ET 的大作中提到】 : 比如小说? : 这个readbility还是很有名的一个项目。
|
w****k 发帖数: 6244 | 40 我以前写过个算法 可以搞这个
比如一篇博客 下面很多评论
博客带评论一起提取出来
后来跳槽 代码不知道扔哪里了
【在 p**r 的大作中提到】 : 刚看了下,貌似还行, : 支持一页多篇文章的抓取吗?
|
|
|
p**r 发帖数: 5853 | 41 如果是对固定源,这个不难。
难的是泛源,因为你都不知道对方是什么,能否说说你算法的原理?
我以前做过的方法:
在抓内容之前,先看metadata,
然后根据metadata再抓各类tag里的内容,
然后根据doc distance between metadata and content的最小差异,
来决定抓那部分内容,这样基本可以做到不抓错。
【在 w****k 的大作中提到】 : 我以前写过个算法 可以搞这个 : 比如一篇博客 下面很多评论 : 博客带评论一起提取出来 : 后来跳槽 代码不知道扔哪里了
|
e*******o 发帖数: 2 | 42 斧頭幫學術水平也不錯
【在 p**r 的大作中提到】 : 如果是对固定源,这个不难。 : 难的是泛源,因为你都不知道对方是什么,能否说说你算法的原理? : 我以前做过的方法: : 在抓内容之前,先看metadata, : 然后根据metadata再抓各类tag里的内容, : 然后根据doc distance between metadata and content的最小差异, : 来决定抓那部分内容,这样基本可以做到不抓错。
|
w****k 发帖数: 6244 | 43 是general的
算法利用几个因素
1. 主文章,这个用boilerpipe搞定
2. 评论,评论的html dom结构是重复的。
然后里面有日期,有作者名字等
所以先找出所有重复性的dom结构,再看这个div里面有没有日期等元素来决定它是不是
个评论。这里用了一点机器学习算法来score
是就把内容提取出来
【在 p**r 的大作中提到】 : 如果是对固定源,这个不难。 : 难的是泛源,因为你都不知道对方是什么,能否说说你算法的原理? : 我以前做过的方法: : 在抓内容之前,先看metadata, : 然后根据metadata再抓各类tag里的内容, : 然后根据doc distance between metadata and content的最小差异, : 来决定抓那部分内容,这样基本可以做到不抓错。
|
p**r 发帖数: 5853 | 44 学习收藏了,
找时间看看你提到boilerpipe,目前对这没概念。
机器学习算法score,能否展开说说,或者给个link?
【在 w****k 的大作中提到】 : 是general的 : 算法利用几个因素 : 1. 主文章,这个用boilerpipe搞定 : 2. 评论,评论的html dom结构是重复的。 : 然后里面有日期,有作者名字等 : 所以先找出所有重复性的dom结构,再看这个div里面有没有日期等元素来决定它是不是 : 个评论。这里用了一点机器学习算法来score : 是就把内容提取出来
|
ET 发帖数: 10701 | 45 then just check this one out
https://github.com/seomoz/dragnet
【在 p**r 的大作中提到】 : 学习收藏了, : 找时间看看你提到boilerpipe,目前对这没概念。 : 机器学习算法score,能否展开说说,或者给个link?
|
p**2 发帖数: 613 | 46 好,多谢,收藏了,看过之后再来请教。
【在 ET 的大作中提到】 : then just check this one out : https://github.com/seomoz/dragnet
|