万佛，请推荐word frequency tool？ (转载) - Linux版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Linux版 - 万佛，请推荐word frequency tool？ (转载)

相关主题
● /dev/mapper/VG0-LV0和/dev/VG0/LV0是一回事吧？	● 讨论：linux终端下的表格数据处理？
● Unix/Linux 命令行如何去除文本的重复行	● 包子求助：ubuntu的grub找不到centos
● 请麻烦推荐好的 Weblog analyzer tools (offline).	● 请帮忙看看为什么没空间了？
● 请教个fedora磁盘空间的问题。	● Using losetup to create loopback block device problem
● 如何恢复rm删除的文件？	● 紧急求助lvm分区毁坏的问题
● 硬盘空间问题	● ubuntu的版本号好难记啊
● "no root device found"	● G家的SRE算是用Linux比较前沿的吧？
● self test: awk question	● how to install amsn in ubuntu 9.04?

相关话题的讨论汇总
话题: frequency话题: word话题: text话题: 万佛话题: tool

进入Linux版参与讨论

1

(共1页)

G**Y 发帖数: 33224	1 【以下文字转载自 PhotoGear 讨论区】发信人: GGYY (唧唧歪歪), 信区: PhotoGear 标题: 万佛，请推荐word frequency tool？发信站: BBS 未名空间站 (Thu Dec 16 00:24:04 2010, 美东) MS Word 和 Acrobat PDF 的，统计一片文章里，词汇频率的工具。谢谢。
S*A 发帖数: 7142	2 Available Packages Name : wf Arch : x86_64 Version : 0.41 Release : 4.fc12 Size : 17 k Repo : fedora Summary : Simple word frequency counter URL : http://www.async.com.br/~marcelo/wf/ License : GPLv2 Description : wf scans a text file and counts the frequency of words through the : whole text. 然后就是如何把 text 提取出来了，这个应该很简单。有 pdf2txt 之类的。实在不行 acrobat 可以 save as text.
x**m 发帖数: 941	3 我有个利用tr, sed和uniq -c这个参数的用法。大家看看有没有什么问题。 cat TEXT_FILE \| tr '[:upper:]' '[:lower:]' \| sed "s/don't/do not/" \| tr -cs '[:lower:][:upper:]' '[\n*]' \| sort \| uniq -c \| sort -nr \| less 先把大写字母变小写，然后替换特别的缩写，继续把每个词变成一行，按字母表排序，统计字频，根据字频再排序。已知的问题是添加很多sed处理一些缩写，否则don't会被分成don和t, it's会被分成it 和s。上次去Google面试SRE被问到写个程序来实现这个功能的时候我给了这个解法，但是好像面试那人不太喜欢。
a****9 发帖数: 418	4 google是不是喜欢别人回答用mapreduce的wordcount来作 cs it 【在 x*m 的大作中提到】 : 我有个利用tr, sed和uniq -c这个参数的用法。大家看看有没有什么问题。 : cat TEXT_FILE \| tr '[:upper:]' '[:lower:]' \| sed "s/don't/do not/" \| tr -cs : '[:lower:][:upper:]' '[\n]' \| sort \| uniq -c \| sort -nr \| less : 先把大写字母变小写，然后替换特别的缩写，继续把每个词变成一行，按字母表排序， : 统计字频，根据字频再排序。 : 已知的问题是添加很多sed处理一些缩写，否则don't会被分成don和t, it's会被分成it : 和s。上次去Google面试SRE被问到写个程序来实现这个功能的时候我给了这个解法，但 : 是好像面试那人不太喜欢。
x**m 发帖数: 941	5 没有用过mapreduce.
J********a 发帖数: 5208	6 mapreduce 不过就是 cat INPUT \| mapper \| sort \| reducer > output 只不过 mapper/sort/reducer都是分布的。【在 x**m 的大作中提到】 : 没有用过mapreduce.

1

(共1页)

进入Linux版参与讨论

相关主题
● how to install amsn in ubuntu 9.04?	● 如何恢复rm删除的文件？
● kompoZer bug?	● 硬盘空间问题
● 你们觉得应该容忍不公开源码的软件在linux上存在吗？	● "no root device found"
● dog fart git.	● self test: awk question
● /dev/mapper/VG0-LV0和/dev/VG0/LV0是一回事吧？	● 讨论：linux终端下的表格数据处理？
● Unix/Linux 命令行如何去除文本的重复行	● 包子求助：ubuntu的grub找不到centos
● 请麻烦推荐好的 Weblog analyzer tools (offline).	● 请帮忙看看为什么没空间了？
● 请教个fedora磁盘空间的问题。	● Using losetup to create loopback block device problem

相关话题的讨论汇总
话题: frequency话题: word话题: text话题: 万佛话题: tool

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)