m******u 发帖数: 277 | 1 比如一些medical record数据库,里面的记录很杂乱,有不同的拼写方式、甚至还有
typo。不知道大家是否有过text mining的经验。可否指点一二? 多谢啦~~~
好像SAS有soundex function不知道效果怎么样? |
Y****a 发帖数: 243 | 2 你的目的是什么呢?
找出相近的拼写(cluster) 还是看哪几样药经常同时被开出去? |
m******u 发帖数: 277 | 3 谢谢越嘉的关心~
目的是找到和key word相近的record,比如找出哪些BB的eye exam有hemorrhage~那么
要找"hemorrhage"相关的记录~~~有些record可能有缩写或者typo
昨天看了SAS COMPGED的功能是通过比较给出一个score,是按照字母添加、减去、调换
的操作数来给定的...score越小相似度越大,但是如果"hemorrhage"出现在一个很长的
sentence里面,这个score就会很大,反而找不出来了...
唉~~ Real life data is soooo messy....
【在 Y****a 的大作中提到】 : 你的目的是什么呢? : 找出相近的拼写(cluster) 还是看哪几样药经常同时被开出去?
|
l******m 发帖数: 111 | 4 how about using "perl regular expressions" |
m******u 发帖数: 277 | 5 Thanks to LX's suggestion~
Besides the method of "evaluate the distance between the strings", how may I
sort out the possible matched key word buried in one sentence?
【在 l******m 的大作中提到】 : how about using "perl regular expressions"
|
Y****a 发帖数: 243 | 6 笨办法要不要?
通常text mining的步骤,
1. 把一句话或者一个record中的单词或词组拆分开
2. 清理stop words, such as 'a','an','of','to' etc.
3. stemming, 统一时态,比如,‘bagan’,beginning变成‘begin’
统一单复数。这一步一般的text mining软件里有function可以完成。
这一步也是correct缩写,简写,typo的步骤,不过这些需要你自己keep一个list。
4. whatever analysis you want to do,cluster,association,frequency,。。。
。。
5. summarize finding |
m******u 发帖数: 277 | 7 wow,还是有蛮多细节需要考虑的喔~谢谢YueJia啊~~
【在 Y****a 的大作中提到】 : 笨办法要不要? : 通常text mining的步骤, : 1. 把一句话或者一个record中的单词或词组拆分开 : 2. 清理stop words, such as 'a','an','of','to' etc. : 3. stemming, 统一时态,比如,‘bagan’,beginning变成‘begin’ : 统一单复数。这一步一般的text mining软件里有function可以完成。 : 这一步也是correct缩写,简写,typo的步骤,不过这些需要你自己keep一个list。 : 4. whatever analysis you want to do,cluster,association,frequency,。。。 : 。。 : 5. summarize finding
|