G***G 发帖数: 16778 | 1 如何编写一个小程序,实现文本的单词抓取。
比如:一段文本
He looked at the girl sitting next to him, then he realized that he loved
her.
He pulled her close and kissed her beneath a blanket of stars, wondering how
on earth he'd been lucky enough to find her.
希望能把所有的单词都抓出来
he look at the ....
如果是复数,要换成原型,比如star
动词ed,动词ing等页要变成原型,比如 look, sit
不规则动词的过去式,不规则的名词复数等也要变换。
网上有这样的代码吗?请推荐。 |
m**********j 发帖数: 8645 | 2 你打算付多少钱?
her.
how
【在 G***G 的大作中提到】 : 如何编写一个小程序,实现文本的单词抓取。 : 比如:一段文本 : He looked at the girl sitting next to him, then he realized that he loved : her. : He pulled her close and kissed her beneath a blanket of stars, wondering how : on earth he'd been lucky enough to find her. : 希望能把所有的单词都抓出来 : he look at the .... : 如果是复数,要换成原型,比如star : 动词ed,动词ing等页要变成原型,比如 look, sit
|
y*f 发帖数: 2202 | 3 你要干吗。
her.
how
【在 G***G 的大作中提到】 : 如何编写一个小程序,实现文本的单词抓取。 : 比如:一段文本 : He looked at the girl sitting next to him, then he realized that he loved : her. : He pulled her close and kissed her beneath a blanket of stars, wondering how : on earth he'd been lucky enough to find her. : 希望能把所有的单词都抓出来 : he look at the .... : 如果是复数,要换成原型,比如star : 动词ed,动词ing等页要变成原型,比如 look, sit
|
s******s 发帖数: 2721 | 4 getting tokens is easy, stemming is harder.
her.
how
【在 G***G 的大作中提到】 : 如何编写一个小程序,实现文本的单词抓取。 : 比如:一段文本 : He looked at the girl sitting next to him, then he realized that he loved : her. : He pulled her close and kissed her beneath a blanket of stars, wondering how : on earth he'd been lucky enough to find her. : 希望能把所有的单词都抓出来 : he look at the .... : 如果是复数,要换成原型,比如star : 动词ed,动词ing等页要变成原型,比如 look, sit
|
p*****p 发帖数: 19331 | 5 改推荐信
【在 y*f 的大作中提到】 : 你要干吗。 : : her. : how
|
G***G 发帖数: 16778 | 6 对。网上有这样的数据库吗,可以stemming。
【在 s******s 的大作中提到】 : getting tokens is easy, stemming is harder. : : her. : how
|
s******s 发帖数: 2721 | 7 http://xapian.org/docs/stemming.html
you can try wordnet
【在 G***G 的大作中提到】 : 对。网上有这样的数据库吗,可以stemming。
|
kc 发帖数: 3169 | 8 第一个学期C语言的作业。
how
【在 G***G 的大作中提到】 : 如何编写一个小程序,实现文本的单词抓取。 : 比如:一段文本 : He looked at the girl sitting next to him, then he realized that he loved : her. : He pulled her close and kissed her beneath a blanket of stars, wondering how : on earth he'd been lucky enough to find her. : 希望能把所有的单词都抓出来 : he look at the .... : 如果是复数,要换成原型,比如star : 动词ed,动词ing等页要变成原型,比如 look, sit
|
v********e 发帖数: 1985 | 9 What are you trying to do? start another google? this is what basically
google search engine does in the first couple steps. |
G***G 发帖数: 16778 | 10 不是。我想做一个单词记忆器。把每天看过的网页里的所有单词都挖出来
然后 变成 原型。
然后 过滤掉自己已经掌握的单词,
就是每天要背的生单词了。
【在 p*****p 的大作中提到】 : 改推荐信
|
|
|
G***G 发帖数: 16778 | 11 谢谢。我现在就是用的wordnet,但是它不全。
【在 s******s 的大作中提到】 : http://xapian.org/docs/stemming.html : you can try wordnet
|
G***G 发帖数: 16778 | 12 牛。
你是用什么算法来
变换名词复数为原型的?
【在 kc 的大作中提到】 : 第一个学期C语言的作业。 : : how
|
m**********j 发帖数: 8645 | 13 没用。
多看c-span
【在 G***G 的大作中提到】 : 不是。我想做一个单词记忆器。把每天看过的网页里的所有单词都挖出来 : 然后 变成 原型。 : 然后 过滤掉自己已经掌握的单词, : 就是每天要背的生单词了。
|
kc 发帖数: 3169 | 14 别人帮我做的。。。不记得了。。。
【在 G***G 的大作中提到】 : 牛。 : 你是用什么算法来 : 变换名词复数为原型的?
|
G***G 发帖数: 16778 | 15 你们老师怎么布置这个题目?
你的程序单词转换准确率高吗?
全吗?
【在 kc 的大作中提到】 : 别人帮我做的。。。不记得了。。。
|
kc 发帖数: 3169 | 16 我程序早没了。 我记得就是把单词跟词典对比。 反正又不要求performance。
【在 G***G 的大作中提到】 : 你们老师怎么布置这个题目? : 你的程序单词转换准确率高吗? : 全吗?
|
G***G 发帖数: 16778 | 17 我也是用的词典对比法。
关键是哪儿有全的
单词变换的词典?
比如 stars -》 star
一个一个的手输入吗?
【在 kc 的大作中提到】 : 我程序早没了。 我记得就是把单词跟词典对比。 反正又不要求performance。
|
D******r 发帖数: 5237 | 18 这个是典型的regular expression应用啊,任何支持regex的语言都可以,
网上应该也有online的,呆会儿我去找找。你付多少钱 |
m**********j 发帖数: 8645 | 19 俺第一帖就问过了。
直接被楼主无视。
【在 D******r 的大作中提到】 : 这个是典型的regular expression应用啊,任何支持regex的语言都可以, : 网上应该也有online的,呆会儿我去找找。你付多少钱
|
G***G 发帖数: 16778 | 20 我这是自己学英语用,不商品化的。
【在 D******r 的大作中提到】 : 这个是典型的regular expression应用啊,任何支持regex的语言都可以, : 网上应该也有online的,呆会儿我去找找。你付多少钱
|
|
|
D******r 发帖数: 5237 | |
F***Q 发帖数: 6599 | 22
her.
how
only a few lines in perl:
#### BEGIN OF readit.pl SCRIPT ####
#!/usr/bin/perl
require("variation.pl");
@words=split(/[\s,.;:]+/,join(/ /,<>));
print join(" ",map {defined($V{$_})?$V{$_}:$_} @words);
#### END OF readit.pl SCRIPT ####
#### BEGIN OF variations.pl SCRIPT ####
%V={};
$V{'sitting'}='sit';
$V{'looked'}='look';
## you can add more
#### END OF variations.pl SCRIPT ####
to run it
perl readit.pl < text.txt
you get:
He look at the girl sit next to me then he realized that he loved her He
pulled her close and kissed her beneath a blanket of stars wondering how on
earth he'd been lucky enough to find her
(notice I only replaced sitting and looked, you should build a lib
easily from a dictionary)
【在 G***G 的大作中提到】 : 如何编写一个小程序,实现文本的单词抓取。 : 比如:一段文本 : He looked at the girl sitting next to him, then he realized that he loved : her. : He pulled her close and kissed her beneath a blanket of stars, wondering how : on earth he'd been lucky enough to find her. : 希望能把所有的单词都抓出来 : he look at the .... : 如果是复数,要换成原型,比如star : 动词ed,动词ing等页要变成原型,比如 look, sit
|
D******r 发帖数: 5237 | 23 你这个不现实,怎么可能让人一个个把所有单词可能的变形都输进去。还是
得用现成的词典
【在 F***Q 的大作中提到】 : : her. : how : only a few lines in perl: : #### BEGIN OF readit.pl SCRIPT #### : #!/usr/bin/perl : require("variation.pl"); : @words=split(/[\s,.;:]+/,join(/ /,<>)); : print join(" ",map {defined($V{$_})?$V{$_}:$_} @words); : #### END OF readit.pl SCRIPT ####
|
F***Q 发帖数: 6599 | 24
怎么可能会让人一个一个输呢?那个variation.pl就是一个text file,当然是用另外
一个脚本通过字典生成了
【在 D******r 的大作中提到】 : 你这个不现实,怎么可能让人一个个把所有单词可能的变形都输进去。还是 : 得用现成的词典
|
D******r 发帖数: 5237 | 25 这个通过字典生成才是主要工作,你没给code啊。不过楼主小气的很,我给了答案
连包子都没一个,支持你不给
【在 F***Q 的大作中提到】 : : 怎么可能会让人一个一个输呢?那个variation.pl就是一个text file,当然是用另外 : 一个脚本通过字典生成了
|
F***Q 发帖数: 6599 | 26
obviously
【在 D******r 的大作中提到】 : 这个通过字典生成才是主要工作,你没给code啊。不过楼主小气的很,我给了答案 : 连包子都没一个,支持你不给
|