关于termdocs的讨论汇总 - 话题女王

全部话题 - 话题: termdocs

t*g
发帖数: 1758

That's my director's idea. He thinks that'll be faster. Basically I'm
comparing two indices tokenized by two tokenizor.
But I think I found the way to implement it.
I take each Term can use TermDocs td = reader.termDocs(t) to get
TermDocs. Then int docNum=td.doc() to get a doc number. Is this doc number luceneid? Can I use this id to get the rest of
the fields?

need to open an index file and go through all the search keys?

a*****o
发帖数: 209

来自主题: History版 - 脍炙《通鉴》

很有意思的实验。
分析词频的实现楼主可以尝试一下Lucenehttp://lucene.apache.org/core/，非常成熟的开源全文检索系统。它处理文本时建立反向索引，用来进行文本检索的效率远远超过任何基于数据库查询的方法。它建立索引速度也非常快，它的主页上说"over 95GB/hour on modern hardware"。楼主说过通鉴大约两百多万字，那么全文10M左右，在预处理的时候按照章节分割成不同的documents，然后用Lucene建立索引可以说应该是非常迅速的。
在建立的索引基础上，词频分析以及其他更复杂的分析可以一劳永逸地实现，既可以通
过Lucene API(e.g., http://lucene.apache.org/core/old_versioned_docs/versions/3_0_2/api/all/org/apache/lucene/index/TermDocs.html#freq()), 也可以通过一些索引查看工具比如Lukehttp://code.google.com/p/luke/。
Lucene可以方便地扩展到处理中文，中科院... 阅读全帖

c*****1
发帖数: 3240

来自主题: History版 - [合集] 脍炙《通鉴》

☆─────────────────────────────────────☆
kzeng (寱语·无味赛百味) 于 (Sun Sep 23 01:21:31 2012, 美东) 提到:
（这是一篇关于很枯燥的技术，很枯燥的历史文本，和不太枯燥的统计的 blog）
看过一篇关于《全宋词》词频统计文章，挺有趣的，想用类似的方法处理一下《资治通
鉴》，所以就趁周末花了几个小时作了一下。
词是长短句，统计两个字组成的词频比较合适，《通鉴》是古文，文字结构不同，所以
我统计了单字频，两字词词频，三字词词频，四字词词频，和五字词词频。同时也记录
各个统计单位（字或词）出现的卷数。《通鉴》294卷，从三家分晋到五代结束共共
1362年，所以卷数可以作为时间的度量。
《全宋词》的词频是用 R 作的。R 虽然是不错的统计软件，也是我的最爱之一，但是
R 并不适合作文本分析，更不适合来作数据库操作。所以就用了 C# 和 Kdb +3.0。 C#
用来分析文本，.Net 是懒人的福音，并且多线程运算非常简单，能够大大提升文本处
理速度，Kdb+用来储存数据，它差不多是性能最好的 in-memor... 阅读全帖

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天