由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Linux版 - 万佛,请推荐word frequency tool? (转载)
相关主题
/dev/mapper/VG0-LV0和/dev/VG0/LV0是一回事吧?讨论:linux终端下的表格数据处理?
Unix/Linux 命令行如何去除文本的重复行包子求助:ubuntu的grub找不到centos
请麻烦推荐好的 Weblog analyzer tools (offline).请帮忙看看为什么没空间了?
请教个fedora磁盘空间的问题。Using losetup to create loopback block device problem
如何恢复rm删除的文件?紧急求助lvm分区毁坏的问题
硬盘空间问题ubuntu的版本号好难记啊
"no root device found"G家的SRE算是用Linux比较前沿的吧?
self test: awk questionhow to install amsn in ubuntu 9.04?
相关话题的讨论汇总
话题: frequency话题: word话题: text话题: 万佛话题: tool
进入Linux版参与讨论
1 (共1页)
G**Y
发帖数: 33224
1
【 以下文字转载自 PhotoGear 讨论区 】
发信人: GGYY (唧唧歪歪), 信区: PhotoGear
标 题: 万佛,请推荐word frequency tool?
发信站: BBS 未名空间站 (Thu Dec 16 00:24:04 2010, 美东)
MS Word

Acrobat PDF
的,
统计一片文章里,词汇频率的工具。
谢谢。
S*A
发帖数: 7142
2
Available Packages
Name : wf
Arch : x86_64
Version : 0.41
Release : 4.fc12
Size : 17 k
Repo : fedora
Summary : Simple word frequency counter
URL : http://www.async.com.br/~marcelo/wf/
License : GPLv2
Description : wf scans a text file and counts the frequency of words through
the
: whole text.
然后就是如何把 text 提取出来了,这个应该很简单。
有 pdf2txt 之类的。实在不行 acrobat 可以 save as text.
x**m
发帖数: 941
3
我有个利用tr, sed和uniq -c这个参数的用法。大家看看有没有什么问题。
cat TEXT_FILE | tr '[:upper:]' '[:lower:]' | sed "s/don't/do not/" | tr -cs
'[:lower:][:upper:]' '[\n*]' | sort | uniq -c | sort -nr | less
先把大写字母变小写,然后替换特别的缩写,继续把每个词变成一行,按字母表排序,
统计字频,根据字频再排序。
已知的问题是添加很多sed处理一些缩写,否则don't会被分成don和t, it's会被分成it
和s。上次去Google面试SRE被问到写个程序来实现这个功能的时候我给了这个解法,但
是好像面试那人不太喜欢。
a****9
发帖数: 418
4
google是不是喜欢别人回答用mapreduce的wordcount来作

cs
it

【在 x**m 的大作中提到】
: 我有个利用tr, sed和uniq -c这个参数的用法。大家看看有没有什么问题。
: cat TEXT_FILE | tr '[:upper:]' '[:lower:]' | sed "s/don't/do not/" | tr -cs
: '[:lower:][:upper:]' '[\n*]' | sort | uniq -c | sort -nr | less
: 先把大写字母变小写,然后替换特别的缩写,继续把每个词变成一行,按字母表排序,
: 统计字频,根据字频再排序。
: 已知的问题是添加很多sed处理一些缩写,否则don't会被分成don和t, it's会被分成it
: 和s。上次去Google面试SRE被问到写个程序来实现这个功能的时候我给了这个解法,但
: 是好像面试那人不太喜欢。

x**m
发帖数: 941
5
没有用过mapreduce.
J********a
发帖数: 5208
6
mapreduce 不过就是
cat INPUT | mapper | sort | reducer > output
只不过 mapper/sort/reducer都是分布的。

【在 x**m 的大作中提到】
: 没有用过mapreduce.
1 (共1页)
进入Linux版参与讨论
相关主题
how to install amsn in ubuntu 9.04?如何恢复rm删除的文件?
kompoZer bug?硬盘空间问题
你们觉得应该容忍不公开源码的软件在linux上存在吗?"no root device found"
dog fart git.self test: awk question
/dev/mapper/VG0-LV0和/dev/VG0/LV0是一回事吧?讨论:linux终端下的表格数据处理?
Unix/Linux 命令行如何去除文本的重复行包子求助:ubuntu的grub找不到centos
请麻烦推荐好的 Weblog analyzer tools (offline).请帮忙看看为什么没空间了?
请教个fedora磁盘空间的问题。Using losetup to create loopback block device problem
相关话题的讨论汇总
话题: frequency话题: word话题: text话题: 万佛话题: tool