由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 我也开了一个Text Mining 的个人Blog
相关主题
请推荐一个NLP的data setAny good Text Mining conference in 2011?
Text-mining 紅樓夢 - update(1)请问有人用过SAS Text Mining吗?
SAS Text Miner请问NATURAL LANGUAGE PROCESSING,或者说TEXT MINING里面哪个方向找工作最方便
请教熟悉NLP的朋友:怎么找到phrase【请教】关于Text mining
NLP problem - How to distinguish these two kinds of texts??Text Mining question, Please help
问个resume的问题 (转载)Job Opening: Clinical Data Manager (In-house, Irvine based)
any one has experience for text mining?8-Weekend Data Science Bootcamp (Summer 2016)
Anybody here works on Text Mining ?转行做SAS Programmer/Modeler/data scientist之类可行性
相关话题的讨论汇总
话题: text话题: blog话题: mining话题: data话题: sharing
进入Statistics版参与讨论
1 (共1页)
S******y
发帖数: 1123
1
最近对TextMining很感兴趣,读了一些有关论文。 我忍不住也开了一个Text Mining
的个人Blog。
欢迎广大群众,同学来参观访问以下网址 -
http://timothy-textmining.com/
也顺便链接了本版大侠的博客网址。
欢迎批评指正 :-)
D*********2
发帖数: 535
2
thanks for sharing.
w*****e
发帖数: 806
3
红 楼 梦~~ zan....
thanks for sharing...
l*********s
发帖数: 5409
4
study
T****n
发帖数: 2195
5
哈哈哈,真有意思。
弱弱的问,注册个这样的网站要交费吗? 听说CS的学生可以挂在自己实验室的服务器
上,一直不太懂。

【在 S******y 的大作中提到】
: 最近对TextMining很感兴趣,读了一些有关论文。 我忍不住也开了一个Text Mining
: 的个人Blog。
: 欢迎广大群众,同学来参观访问以下网址 -
: http://timothy-textmining.com/
: 也顺便链接了本版大侠的博客网址。
: 欢迎批评指正 :-)

o****o
发帖数: 8077
6
very nice, up!

【在 S******y 的大作中提到】
: 最近对TextMining很感兴趣,读了一些有关论文。 我忍不住也开了一个Text Mining
: 的个人Blog。
: 欢迎广大群众,同学来参观访问以下网址 -
: http://timothy-textmining.com/
: 也顺便链接了本版大侠的博客网址。
: 欢迎批评指正 :-)

A*******s
发帖数: 3942
7
very cool...
besides of oloolo and wensui Liu's blog, i also think dapangmao's blog is
very readable.

【在 S******y 的大作中提到】
: 最近对TextMining很感兴趣,读了一些有关论文。 我忍不住也开了一个Text Mining
: 的个人Blog。
: 欢迎广大群众,同学来参观访问以下网址 -
: http://timothy-textmining.com/
: 也顺便链接了本版大侠的博客网址。
: 欢迎批评指正 :-)

S******y
发帖数: 1123
8
Thanks for input/feedback!
Will add his blog to the links!

blog is

【在 A*******s 的大作中提到】
: very cool...
: besides of oloolo and wensui Liu's blog, i also think dapangmao's blog is
: very readable.

l*******s
发帖数: 1258
9
关于红楼们后40回的比较
其实学界认为 就是高鹗写的
当时很多人续写 高本写得最好
另外 红楼梦版本众多 什么脂砚斋版本、列宁格勒本、程甲本、程乙本等
有的版本 甚至就是不存在后40回
ps:bolg不能回复,所以我就回复到这里了。
楼主用NLP工具处理,请问用的是什么中文分词软件?
毕竟红楼梦是中文 涉及到中文的NLP 第一步就是分词
现在比较好的是用CRF做的分词软件,但是用的training data都来自现代汉语
红楼梦跟现代汉语多少有些区别 因此想问楼主 有没有用合适的corpus重新train一个
model用来做分词?
S******y
发帖数: 1123
10
Thanks for your comments/feedback! lingandcs!
I really appreciate it!
At this preliminary stage, I am just measuring usage of certain single
auxiliary words across chapters, and then run some statistical
testings. I am going to update my website over the weekend with my
new findings (such as word usage charts across chapters)! Please come
back to visit my website often for updates!
The next step, I am going to do collocation analysis(bigrams and
trigrams etc.). NLTK can do that. But I will definitely look into CRF
做的分词软件!
PS> Thanks for reminding! I really need to add commenting capability
to my blog :--)

【在 l*******s 的大作中提到】
: 关于红楼们后40回的比较
: 其实学界认为 就是高鹗写的
: 当时很多人续写 高本写得最好
: 另外 红楼梦版本众多 什么脂砚斋版本、列宁格勒本、程甲本、程乙本等
: 有的版本 甚至就是不存在后40回
: ps:bolg不能回复,所以我就回复到这里了。
: 楼主用NLP工具处理,请问用的是什么中文分词软件?
: 毕竟红楼梦是中文 涉及到中文的NLP 第一步就是分词
: 现在比较好的是用CRF做的分词软件,但是用的training data都来自现代汉语
: 红楼梦跟现代汉语多少有些区别 因此想问楼主 有没有用合适的corpus重新train一个

相关主题
问个resume的问题 (转载)Any good Text Mining conference in 2011?
any one has experience for text mining?请问有人用过SAS Text Mining吗?
Anybody here works on Text Mining ?请问NATURAL LANGUAGE PROCESSING,或者说TEXT MINING里面哪个方向找工作最方便
进入Statistics版参与讨论
l*******s
发帖数: 1258
11
基于CRF的分词软件,这里推荐一个:
http://bcmi.sjtu.edu.cn/~zhaohai/#Software
I like NLTK!
b**********a
发帖数: 930
12
请问Text Mining和data ming有什么区别?是不是用information minin包含更广泛意
义?
D******n
发帖数: 2836
13
text is text
data is data
at least data>>text.

【在 b**********a 的大作中提到】
: 请问Text Mining和data ming有什么区别?是不是用information minin包含更广泛意
: 义?

o****o
发帖数: 8077
14
typically ppl refer data mining as mining the structured data, but text
mining as those dealing with unstructured text data

【在 b**********a 的大作中提到】
: 请问Text Mining和data ming有什么区别?是不是用information minin包含更广泛意
: 义?

S******y
发帖数: 1123
15
Thanks for sharing this link! lingandcs!
There are a lot of good stuff there. I will be reading them this
weekend :-)

【在 l*******s 的大作中提到】
: 基于CRF的分词软件,这里推荐一个:
: http://bcmi.sjtu.edu.cn/~zhaohai/#Software
: I like NLTK!

d*******o
发帖数: 493
16
千年之谜,一朝得解。
不懂text mining,顶一个,加关注。
A*******s
发帖数: 3942
17
我觉得即使lz搞出来让学界信服的结果,估计也不会被主流文学界的承认。这群文科生
估计不会care理工科的人搞的玩意。前几年某CS的教授证明了中国象棋一个常见的和棋
其实有一方是必胜的,结果中国象棋界没一个人在乎...
S******y
发帖数: 1123
18
Thanks for your reply post. Actuaries!
I just do this out of curiosity and for fun too :--)
x********a
发帖数: 57
19
佩服楼主
我记得二十多年以前,有人带着几个学生做过, 方法不知道
结论是前八十回和后四十回在一些常用词和虚词是不同的。
1 (共1页)
进入Statistics版参与讨论
相关主题
转行做SAS Programmer/Modeler/data scientist之类可行性NLP problem - How to distinguish these two kinds of texts??
Entry-Level Assistant Actuarial Analyst问个resume的问题 (转载)
统计背景如何找保险公司any one has experience for text mining?
精算和risk analysisAnybody here works on Text Mining ?
请推荐一个NLP的data setAny good Text Mining conference in 2011?
Text-mining 紅樓夢 - update(1)请问有人用过SAS Text Mining吗?
SAS Text Miner请问NATURAL LANGUAGE PROCESSING,或者说TEXT MINING里面哪个方向找工作最方便
请教熟悉NLP的朋友:怎么找到phrase【请教】关于Text mining
相关话题的讨论汇总
话题: text话题: blog话题: mining话题: data话题: sharing