S******y 发帖数: 1123 | 1 最近对TextMining很感兴趣,读了一些有关论文。 我忍不住也开了一个Text Mining
的个人Blog。
欢迎广大群众,同学来参观访问以下网址 -
http://timothy-textmining.com/
也顺便链接了本版大侠的博客网址。
欢迎批评指正 :-) |
D*********2 发帖数: 535 | |
w*****e 发帖数: 806 | 3 红 楼 梦~~ zan....
thanks for sharing... |
l*********s 发帖数: 5409 | |
T****n 发帖数: 2195 | 5 哈哈哈,真有意思。
弱弱的问,注册个这样的网站要交费吗? 听说CS的学生可以挂在自己实验室的服务器
上,一直不太懂。
【在 S******y 的大作中提到】 : 最近对TextMining很感兴趣,读了一些有关论文。 我忍不住也开了一个Text Mining : 的个人Blog。 : 欢迎广大群众,同学来参观访问以下网址 - : http://timothy-textmining.com/ : 也顺便链接了本版大侠的博客网址。 : 欢迎批评指正 :-)
|
o****o 发帖数: 8077 | 6 very nice, up!
【在 S******y 的大作中提到】 : 最近对TextMining很感兴趣,读了一些有关论文。 我忍不住也开了一个Text Mining : 的个人Blog。 : 欢迎广大群众,同学来参观访问以下网址 - : http://timothy-textmining.com/ : 也顺便链接了本版大侠的博客网址。 : 欢迎批评指正 :-)
|
A*******s 发帖数: 3942 | 7 very cool...
besides of oloolo and wensui Liu's blog, i also think dapangmao's blog is
very readable.
【在 S******y 的大作中提到】 : 最近对TextMining很感兴趣,读了一些有关论文。 我忍不住也开了一个Text Mining : 的个人Blog。 : 欢迎广大群众,同学来参观访问以下网址 - : http://timothy-textmining.com/ : 也顺便链接了本版大侠的博客网址。 : 欢迎批评指正 :-)
|
S******y 发帖数: 1123 | 8 Thanks for input/feedback!
Will add his blog to the links!
blog is
【在 A*******s 的大作中提到】 : very cool... : besides of oloolo and wensui Liu's blog, i also think dapangmao's blog is : very readable.
|
l*******s 发帖数: 1258 | 9 关于红楼们后40回的比较
其实学界认为 就是高鹗写的
当时很多人续写 高本写得最好
另外 红楼梦版本众多 什么脂砚斋版本、列宁格勒本、程甲本、程乙本等
有的版本 甚至就是不存在后40回
ps:bolg不能回复,所以我就回复到这里了。
楼主用NLP工具处理,请问用的是什么中文分词软件?
毕竟红楼梦是中文 涉及到中文的NLP 第一步就是分词
现在比较好的是用CRF做的分词软件,但是用的training data都来自现代汉语
红楼梦跟现代汉语多少有些区别 因此想问楼主 有没有用合适的corpus重新train一个
model用来做分词? |
S******y 发帖数: 1123 | 10 Thanks for your comments/feedback! lingandcs!
I really appreciate it!
At this preliminary stage, I am just measuring usage of certain single
auxiliary words across chapters, and then run some statistical
testings. I am going to update my website over the weekend with my
new findings (such as word usage charts across chapters)! Please come
back to visit my website often for updates!
The next step, I am going to do collocation analysis(bigrams and
trigrams etc.). NLTK can do that. But I will definitely look into CRF
做的分词软件!
PS> Thanks for reminding! I really need to add commenting capability
to my blog :--)
【在 l*******s 的大作中提到】 : 关于红楼们后40回的比较 : 其实学界认为 就是高鹗写的 : 当时很多人续写 高本写得最好 : 另外 红楼梦版本众多 什么脂砚斋版本、列宁格勒本、程甲本、程乙本等 : 有的版本 甚至就是不存在后40回 : ps:bolg不能回复,所以我就回复到这里了。 : 楼主用NLP工具处理,请问用的是什么中文分词软件? : 毕竟红楼梦是中文 涉及到中文的NLP 第一步就是分词 : 现在比较好的是用CRF做的分词软件,但是用的training data都来自现代汉语 : 红楼梦跟现代汉语多少有些区别 因此想问楼主 有没有用合适的corpus重新train一个
|
|
|
l*******s 发帖数: 1258 | |
b**********a 发帖数: 930 | 12 请问Text Mining和data ming有什么区别?是不是用information minin包含更广泛意
义? |
D******n 发帖数: 2836 | 13 text is text
data is data
at least data>>text.
【在 b**********a 的大作中提到】 : 请问Text Mining和data ming有什么区别?是不是用information minin包含更广泛意 : 义?
|
o****o 发帖数: 8077 | 14 typically ppl refer data mining as mining the structured data, but text
mining as those dealing with unstructured text data
【在 b**********a 的大作中提到】 : 请问Text Mining和data ming有什么区别?是不是用information minin包含更广泛意 : 义?
|
S******y 发帖数: 1123 | 15 Thanks for sharing this link! lingandcs!
There are a lot of good stuff there. I will be reading them this
weekend :-)
【在 l*******s 的大作中提到】 : 基于CRF的分词软件,这里推荐一个: : http://bcmi.sjtu.edu.cn/~zhaohai/#Software : I like NLTK!
|
d*******o 发帖数: 493 | 16 千年之谜,一朝得解。
不懂text mining,顶一个,加关注。 |
A*******s 发帖数: 3942 | 17 我觉得即使lz搞出来让学界信服的结果,估计也不会被主流文学界的承认。这群文科生
估计不会care理工科的人搞的玩意。前几年某CS的教授证明了中国象棋一个常见的和棋
其实有一方是必胜的,结果中国象棋界没一个人在乎... |
S******y 发帖数: 1123 | 18 Thanks for your reply post. Actuaries!
I just do this out of curiosity and for fun too :--) |
x********a 发帖数: 57 | 19 佩服楼主
我记得二十多年以前,有人带着几个学生做过, 方法不知道
结论是前八十回和后四十回在一些常用词和虚词是不同的。 |