【请教】关于Text mining - Statistics版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Statistics版 - 【请教】关于Text mining

相关主题
● 请问有人用过SAS Text Mining吗?	● 请教SAS BASE 70题里的第42题
● Text Mining question, Please help	● 怎么把文本文件(TEXT)转到SAS
● how to fuzzy match in SAS?	● 我也开了一个Text Mining 的个人Blog
● any one has experience for text mining?	● Text-mining 紅樓夢 - update（1）
● Anybody here works on Text Mining ?	● 3d scatterplot 在R, SAS,或者Matlab怎么把图上面的点给label一下啊？
● SAS Text Miner	● #刚考完SAS BASE，问其中的一个题目#
● 问一下SAS base 42题	● 一道SAS BASE 请教
● Any good Text Mining conference in 2011?	● 求助: SAS BASE (70题) 第45题

相关话题的讨论汇总
话题: text话题: mining话题: record话题: 关于话题: typo

进入Statistics版参与讨论

1

(共1页)

m******u 发帖数: 277	1 比如一些medical record数据库，里面的记录很杂乱，有不同的拼写方式、甚至还有 typo。不知道大家是否有过text mining的经验。可否指点一二? 多谢啦~~~ 好像SAS有soundex function不知道效果怎么样?
Y****a 发帖数: 243	2 你的目的是什么呢？找出相近的拼写（cluster）还是看哪几样药经常同时被开出去？
m******u 发帖数: 277	3 谢谢越嘉的关心~ 目的是找到和key word相近的record，比如找出哪些BB的eye exam有hemorrhage～那么要找"hemorrhage"相关的记录~~~有些record可能有缩写或者typo 昨天看了SAS COMPGED的功能是通过比较给出一个score，是按照字母添加、减去、调换的操作数来给定的...score越小相似度越大，但是如果"hemorrhage"出现在一个很长的 sentence里面，这个score就会很大，反而找不出来了... 唉~~ Real life data is soooo messy.... 【在 Y****a 的大作中提到】 : 你的目的是什么呢？ : 找出相近的拼写（cluster）还是看哪几样药经常同时被开出去？
l******m 发帖数: 111	4 how about using "perl regular expressions"
m******u 发帖数: 277	5 Thanks to LX's suggestion~ Besides the method of "evaluate the distance between the strings", how may I sort out the possible matched key word buried in one sentence? 【在 l******m 的大作中提到】 : how about using "perl regular expressions"
Y****a 发帖数: 243	6 笨办法要不要？通常text mining的步骤， 1. 把一句话或者一个record中的单词或词组拆分开 2. 清理stop words， such as 'a','an','of','to' etc. 3. stemming, 统一时态，比如，‘bagan’，beginning变成‘begin’ 统一单复数。这一步一般的text mining软件里有function可以完成。这一步也是correct缩写，简写，typo的步骤，不过这些需要你自己keep一个list。 4. whatever analysis you want to do，cluster，association，frequency，。。。。。 5. summarize finding
m******u 发帖数: 277	7 wow，还是有蛮多细节需要考虑的喔~谢谢YueJia啊~~ 【在 Y****a 的大作中提到】 : 笨办法要不要？ : 通常text mining的步骤， : 1. 把一句话或者一个record中的单词或词组拆分开 : 2. 清理stop words， such as 'a','an','of','to' etc. : 3. stemming, 统一时态，比如，‘bagan’，beginning变成‘begin’ : 统一单复数。这一步一般的text mining软件里有function可以完成。 : 这一步也是correct缩写，简写，typo的步骤，不过这些需要你自己keep一个list。 : 4. whatever analysis you want to do，cluster，association，frequency，。。。 : 。。 : 5. summarize finding

1

(共1页)

进入Statistics版参与讨论

相关主题
● 求助: SAS BASE (70题) 第45题	● Anybody here works on Text Mining ?
● 请问NATURAL LANGUAGE PROCESSING，或者说TEXT MINING里面哪个方向找工作最方便	● SAS Text Miner
● 怎么用SAS transpose这两dataset呀？	● 问一下SAS base 42题
● Another SAS perl question	● Any good Text Mining conference in 2011?
● 请问有人用过SAS Text Mining吗?	● 请教SAS BASE 70题里的第42题
● Text Mining question, Please help	● 怎么把文本文件(TEXT)转到SAS
● how to fuzzy match in SAS?	● 我也开了一个Text Mining 的个人Blog
● any one has experience for text mining?	● Text-mining 紅樓夢 - update（1）

相关话题的讨论汇总
话题: text话题: mining话题: record话题: 关于话题: typo

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)