由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
CS版 - [转载] 有没有人用过Nutch?
相关主题
fetching PDF articles on journals websites请大家帮忙:新手如何学习网络抓取数据?
问nutch设置有没有人用过Nutch?
请问哪里有比较好的spider代码下载?[转载] 有没有人用过Nutch?
问个傻问题 (转载)Nutch
python的general问题Nutch vs Lucene
Why it is constant time for accessing array's element?做了个job search网站
设想一下代的网络搜索技术是谁伪造了唐骏的简历
dict.cn 的词库是crawl到的吗? (转载)脸家系统设计,web crawler, 机器之间不能通信。 (转载)
相关话题的讨论汇总
话题: nutch话题: htm话题: html
进入CS版参与讨论
1 (共1页)
c***o
发帖数: 61
1
【 以下文字转载自 BuildingWeb 讨论区 】
【 原文由 csfoo 所发表 】
我只想用它来检索documents (.doc/.pdf/etc.)而非htm/html,但是如果我在
crawl-urlfilter.txt里面将htm/html skip掉是不行的,因为crawler根本就得不到
足够的link信息。是不是先crawl/fetch,之后在index的时候再将htm/html去掉呢?
应该怎样处理?谢谢!
1 (共1页)
进入CS版参与讨论
相关主题
脸家系统设计,web crawler, 机器之间不能通信。 (转载)python的general问题
How to tell if Nutch works properly?Why it is constant time for accessing array's element?
有多少人看过这个talk?设想一下代的网络搜索技术
Re: 整死Google并不是那么难 (转载)dict.cn 的词库是crawl到的吗? (转载)
fetching PDF articles on journals websites请大家帮忙:新手如何学习网络抓取数据?
问nutch设置有没有人用过Nutch?
请问哪里有比较好的spider代码下载?[转载] 有没有人用过Nutch?
问个傻问题 (转载)Nutch
相关话题的讨论汇总
话题: nutch话题: htm话题: html