由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 【请教】关于Text mining
相关主题
请问有人用过SAS Text Mining吗?请教SAS BASE 70题里的第42题
Text Mining question, Please help怎么把文本文件(TEXT)转到SAS
how to fuzzy match in SAS?我也开了一个Text Mining 的个人Blog
any one has experience for text mining?Text-mining 紅樓夢 - update(1)
Anybody here works on Text Mining ?3d scatterplot 在R, SAS,或者Matlab怎么把图上面的点给label一下啊?
SAS Text Miner#刚考完SAS BASE,问其中的一个题目#
问一下SAS base 42题一道SAS BASE 请教
Any good Text Mining conference in 2011?求助: SAS BASE (70题) 第45题
相关话题的讨论汇总
话题: text话题: mining话题: record话题: 关于话题: typo
进入Statistics版参与讨论
1 (共1页)
m******u
发帖数: 277
1
比如一些medical record数据库,里面的记录很杂乱,有不同的拼写方式、甚至还有
typo。不知道大家是否有过text mining的经验。可否指点一二? 多谢啦~~~
好像SAS有soundex function不知道效果怎么样?
Y****a
发帖数: 243
2
你的目的是什么呢?
找出相近的拼写(cluster) 还是看哪几样药经常同时被开出去?
m******u
发帖数: 277
3
谢谢越嘉的关心~
目的是找到和key word相近的record,比如找出哪些BB的eye exam有hemorrhage~那么
要找"hemorrhage"相关的记录~~~有些record可能有缩写或者typo
昨天看了SAS COMPGED的功能是通过比较给出一个score,是按照字母添加、减去、调换
的操作数来给定的...score越小相似度越大,但是如果"hemorrhage"出现在一个很长的
sentence里面,这个score就会很大,反而找不出来了...
唉~~ Real life data is soooo messy....

【在 Y****a 的大作中提到】
: 你的目的是什么呢?
: 找出相近的拼写(cluster) 还是看哪几样药经常同时被开出去?

l******m
发帖数: 111
4
how about using "perl regular expressions"
m******u
发帖数: 277
5
Thanks to LX's suggestion~
Besides the method of "evaluate the distance between the strings", how may I
sort out the possible matched key word buried in one sentence?

【在 l******m 的大作中提到】
: how about using "perl regular expressions"
Y****a
发帖数: 243
6
笨办法要不要?
通常text mining的步骤,
1. 把一句话或者一个record中的单词或词组拆分开
2. 清理stop words, such as 'a','an','of','to' etc.
3. stemming, 统一时态,比如,‘bagan’,beginning变成‘begin’
统一单复数。这一步一般的text mining软件里有function可以完成。
这一步也是correct缩写,简写,typo的步骤,不过这些需要你自己keep一个list。
4. whatever analysis you want to do,cluster,association,frequency,。。。
。。
5. summarize finding
m******u
发帖数: 277
7
wow,还是有蛮多细节需要考虑的喔~谢谢YueJia啊~~

【在 Y****a 的大作中提到】
: 笨办法要不要?
: 通常text mining的步骤,
: 1. 把一句话或者一个record中的单词或词组拆分开
: 2. 清理stop words, such as 'a','an','of','to' etc.
: 3. stemming, 统一时态,比如,‘bagan’,beginning变成‘begin’
: 统一单复数。这一步一般的text mining软件里有function可以完成。
: 这一步也是correct缩写,简写,typo的步骤,不过这些需要你自己keep一个list。
: 4. whatever analysis you want to do,cluster,association,frequency,。。。
: 。。
: 5. summarize finding

1 (共1页)
进入Statistics版参与讨论
相关主题
求助: SAS BASE (70题) 第45题Anybody here works on Text Mining ?
请问NATURAL LANGUAGE PROCESSING,或者说TEXT MINING里面哪个方向找工作最方便SAS Text Miner
怎么用SAS transpose这两dataset呀?问一下SAS base 42题
Another SAS perl questionAny good Text Mining conference in 2011?
请问有人用过SAS Text Mining吗?请教SAS BASE 70题里的第42题
Text Mining question, Please help怎么把文本文件(TEXT)转到SAS
how to fuzzy match in SAS?我也开了一个Text Mining 的个人Blog
any one has experience for text mining?Text-mining 紅樓夢 - update(1)
相关话题的讨论汇总
话题: text话题: mining话题: record话题: 关于话题: typo