由买买提看人间百态

topics

全部话题 - 话题: grep
首页 上页 1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)
c***c
发帖数: 21374
1
% (tr ' ' '\n' | sort | uniq -c | awk '{print $2"#"$1}') <
c***c
发帖数: 21374
2
不需要循环。
把一篇文章(email)里面所有的词出现的次数都列出来,一行命令就够了。
l***y
发帖数: 4671
3
引文中出现的 Thallium 怎么办?一人猜是铊中毒,十个人回复说不可能,你这么一查
,十一封信说是铊中毒。
text mining 要是真这么简单就好办了。
m********5
发帖数: 17667
4
一看就是会用两句命令的WSN, 以为 text mining 这么简单
至于为何不简单, 以上各位大侠已经说的很清楚了
c***c
发帖数: 21374
5
引文有特征,类似At 02:16 PM 5/7/2013, you wrote 之类的,有一定的特征,可以不读
他说的那个程序肯定不可能是更复杂的了。就是一个词频统计。我觉得即使在95年,也
肯定有这样的库存在,直接用就可以了。
统计出现频率最高的词,然后再去email里面找这个词,一看前后文,就知道是is还省
is not了。
l********u
发帖数: 910
6
很搞笑
一会儿说求救信是贝写的、一会儿说他不知道用thallium作关键词
大哥,他能写那个信的话、还看不懂回信吗?
Thallium这个词我怀疑他刚开始确实不懂。(大部分人都不知为何物啦)但这词后面都
有个poisoning的词。联系上下文就知道是指中毒了。而且若干封信都有这玩意,两下
就应该引起注意,拿本牛津字典来查查thallium到底是啥了。
况且他们发信的时候,已经有循中毒思考过,也有不少回信问及heavy metal
poisoning, 虽未必个个直指thallium,但poisoning是首要考虑。
这时候看到频繁有人说一个生僻的东西,肯定很容易引起注意。

问题是小贝咋知道要用 Thallium 来当关键字?另外,你这个命令得不出建议是铊中毒
的 email 的数量。两个原因:一封 email 里有可能 Thallium 出现在多行........
l********u
发帖数: 910
7
肯定不是一上来就统一词频
应该是大致看了,发现thallium poisoning提的挺频繁,但又不知thallium为何物。后
来弄清楚了是某化学物了,就想这么多信看也看不完,不如写两行script统计下。
他这说的30%有很多情况,有些reply的也可能算入。不得而知了。但84封,是直接有诊
断为thallium中毒的。
了解过那些一手资料,就知贝无可疑之处啦。那些人纯故意混淆视听的了。

问题是小贝咋知道要用 Thallium 来当关键字?另外,你这个命令得不出建议是铊中毒
的 email 的数量。两个原因:一封 email 里有可能 Thallium 出现在多行........
r***n
发帖数: 553
8
但是如果要查看所有的emails呢?
其实script是什么方法都有啦、五花八门
很多很复杂的任务,都可以一行搞定
只是看水平、看愿不愿意这么搞
如果水平不够,到时候反而花更多时间想程序就不值——而且容易出错
D******l
发帖数: 832
9
还text min ing你们是炫耀自己懂得多么。日常生活里自己估计数字都那么严谨
的么需要做误差分析的么,还以为写论文哪。
l********u
发帖数: 910
10
铊粉就爱搞这招 ,故意混淆视听

还text mining你们是炫耀自己懂得多么。日常生活里自己估计数字都那么严谨的
么需要做误差分析的么,还以为写论文哪。
l***y
发帖数: 4671
11
UCLA 上统计了 1500+ email,铊中毒的八十几封,要想有一半概率看到 Thallium 这
个词,需要看 log(0.5)/log((1500-80)/1500) = 12.6 封信。
这个远不算频繁啊。
我觉得,铊中毒这个结论是 Xin Li 做出的。小贝不太可能通过读信或者统计来发现铊
中毒。他的工作可能是在得知铊中毒这个结论后,通过统计 email 来验证这个结论。
而且他的 code 看来写错了,以至于统计结果比真实结果大了快一个数量级。
l***y
发帖数: 4671
12
是因为有机缘,正在做这方面的工作(text mining of clinical records),觉得有
必要科普一下 text mining:如果不是先验地知道铊中毒这个可能性,小贝是不可能靠
写个程序来筛选出这个结论的。
哪怕专业做这个方向的资深 researcher,给这 1500 封信,做一个算法来筛选可能的
诊断,使得铊中毒这个选项的排名足够靠前(top 5 or top 10)以至于能够引起注意
,我觉得都是相当困难的一个 project。
l***y
发帖数: 4671
13
那啥,知之为知之哈。
w********n
发帖数: 70
14
用text mining找到铊的可能性很小,如果真的只有84个人提到铊,而他描述的又很接
近重金属中毒的话,我觉得找到'神经炎'和'重金属中毒'的可能性远远大于找到'铊中
毒'
r***n
发帖数: 553
15
你知道你的问题出在哪吗?
他们不是什么text mining!太自以为是了。
人家不是做研究、写论文。
人家肯定读过信的。不是一上来就统计词频。
糊涂成这样,做什么研究啊?
r***n
发帖数: 553
16
Mine 个庇Ning 啊
r***n
发帖数: 553
17
少自以为是了
这高人多的是
装什么牛逼啊
r***n
发帖数: 553
18
根本不是什么text mining
要多脑残才认为"铊中毒"是靠所谓text mining发现的
事实上读了几封信就知道个大概了
统计词频纯属验证阶段
绝对无可能靠什么统计获知铊中毒
l***y
发帖数: 4671
19
不是简单的词频统计,那样没意义。必须有一个字典来定义关键词,并且给每个关键词
所相关的概念(比如说 症状、病因、病理,等等)做 annotation,然后根据
annotation 来给这些关键词分配权重,最后再做加权的词频统计。还需要定义这些词
间的所属关系,也就是 ontological network。这样才能把相关词的权重加和在一起。
这还是最简单的筛选方式。这些关键词字典和 annotation databases 都是近二十年来
陆续出现的。95 年时哪里有这些资源?比如说,这个领域最重要的资源库,Gene
Ontology,是 98 年才开始筹建。没有 annotation databases,程序如何知道一个词
是否和想要回答的问题有关系?
所以一听小贝的描述就知道纯属扯淡。不信的话,你来写个程序,统计一下某个主题下
的帖子里认为孙维是凶手的帖子的总量,就知道具体操作起来难点在哪里了。光是定义
个同义词字典(孙维,孙铊,铊公主,blah blah)就不是个简单的任务。

不读
w********n
发帖数: 70
20
扯吧,假如读信的话,有几百封说是重金属中毒呢?如果有几百封说是神经炎呢?为啥
三千封信里的其他可能性都忽略了,就单单挑出了铊呢?
D******l
发帖数: 832
21
有人就喜欢显摆,还什么科普,以为就他一个人搞 挖掘的
人脑是活的
开始几个人把信读几封采样,讨论一下,可能信中提到铊中毒,threshold就基本定了
,优先检索了。
贝也就放出铊中毒的比例,不代表没检索过重金属和其他神经炎
而且检索到铊中毒,发现有权威教授的信权重就大多了,其他什么都可以排后。
都机械成什么样子了,按他这意思得把所有医学字典里出现的词都当关键词查一遍才能
决定。
他的project不完成,排出来优先来,病人都没法诊断了,这工作太伟大了。
r***n
发帖数: 553
22
3000个毛啊
每天几十封而已
2-3000封是3、4个月下来
第一天就有人说是铊中毒了
你有没有资料啊
l***y
发帖数: 4671
23
读几封信可以知道大概?我前面给出统计了,大约每 18 封信有一封相关,这个频率,
要读多少封信才能意识到铊中毒的重要性?
还统计词频呢。你接触过这个领域么?没有的话,就要虚心。
这么说吧,每封信的词频的前 100 在概率上基本上都是一样的,而且这个 Top 词频由
语言本身决定的,再往下由 media & context 决定,再往下才跟所讨论内容有关。这
年头,想当然还又敢信口开河的人太多了。你先看看英文 Top 100 的词频统计再告诉
我词频统计是如何能找出铊中毒的。
Top 100 in TV & movies:
a · about · all · and · are · as · at · back · be · because · been
· but · can · can't · come · could · did · didn't · do · don't ·
for · from · get · go · going · good · got · had · have · he · her
· here · he's · hey · him · his · how... 阅读全帖
r***n
发帖数: 553
24
太同意了
而且那信是每天几十封
有些估计短的、认真写的不会太多
按那"科普"的做法
得三个月后收集3000封信再统计。。。
g******t
发帖数: 18158
25
没错,就是一群人讨论分析一堆信件,过程中使用了一些基本的text mining技术而以
,并不是只准使用text mining,不准使用人的智力,经验来参与判断
当年卡斯帕罗夫曾指责IBM的深蓝和他下棋的时候,幕后有国际象棋大师帮助电脑做判
断。如果是真的,那就是作弊了,因为公开声称是人和电脑的较量,电脑那头不能加上
人力。但是在找病因过程中人力加电脑技术并不是作弊,人是主导,电脑是工具,尽一
切力量找出病因是目的
w********n
发帖数: 70
26
'有人说'和有多大比例的人说,有本质区别。
假如说第一天收了五十封,五封说铊中毒,五封说铬中毒,五封说神经系统疾病,十封
说重金属中毒,还有剩下的说其他可能性,你能确定就是铊中毒?
l***y
发帖数: 4671
27
这就是我的结论啊:小贝根本不可能通过写程序来找出铊中毒。这个是大活人(而且还
是有专业背景的人)阅读信件的结果,而这个大活人,我认为是 Xin Li。
h****i
发帖数: 1674
28
你这个正好解释了他为何认定高比例说铊中毒
贝傻不应该是罪过
g******t
发帖数: 18158
29
你做学问钻牛角尖里去了,人比你想象的要聪敏,并不是仅仅看词频,还可以看到信件
整体传递的信息。你听说过text mining,也应该听说过 pattern recognition,几十
封信看下来,大概就知道个几个合理的pattern,有些无关的杂音自动能过滤掉,结合
发信人的背景,找出几种可能性比较高的病因

been
·
g******t
发帖数: 18158
30
他们之间谁该得到更多的credit我不清楚,刚才也许没看清你的观点,不好意思。我觉
得是多人合作的结果,过程中利用一些电脑技术
c******k
发帖数: 8998
31
从email里面搜索关键词的确不麻烦,这个没啥好争的,随便写个小程序就出来了。
大不了统计所有词的出现频率,也不麻烦。
r***n
发帖数: 553
32
正解
Thumbs up
l***y
发帖数: 4671
33
我之所以介入这个讨论,是有点儿看不惯小贝的吹牛和抢别人的 credit。把铊中毒这
个诊断筛选出来的,看来是 Xin Li。而小贝为了抢 Xin Li 的 credit,搞出这么个神
奇软件来,不需要 Xin Li 的工作,也能把铊中毒确定为最重要的诊断意见。
真当做这个领域的都懒的理他,可以任他胡说啊?
至于他的贡献,我在别的帖子里说了,在整个互联网求救的过程中,他的贡献是最大的
,最关键的。但这是个 team work,也要给别人应得的 credit。
g******t
发帖数: 18158
34

这个我同意 :)
c******k
发帖数: 8998
35
95年的力学系大三学生只怕没这么高的编程水平吧。我觉得可能就是普通的统计词频,
排序看看,常见词汇自然就去掉了,看到几个不常见的再反过来搜索全文。
l***y
发帖数: 4671
36
pattern recognition 不是这么做的。。。这个是语义学范畴,即便在规范严格的英语
(比如说 abstracts in literature)中都相当难做,错误率很高。目前看来,机器识
别还是远远没法给人脑相比。所以还是那个结论:人读的,不是软件读的。软件的作用
就是统计支持一下人读的结果。结果还给统计错了。
再说一下用活人来读的正确率:IPA 号称雇佣的有专业背景的人来读的文献;我几年前
贴过我的统计,他们的库里将近一半读错了。海量阅读专业性质的文字,可靠性是有限
的。
w********n
发帖数: 70
37
如果他找到五种可能性最大的病因就不奇怪了,奇怪的是,他怎么能排除其他所有病因
,坚持是铊的。
l***y
发帖数: 4671
38
铊这个词的词频在那些 email 里应该是倒数的吧。
最简单的是用 posterior odds:email 里每个词的词频除以标准词频表里的词频,然
后排序;幸运的话,Thallium 能进前 100。
g******t
发帖数: 18158
39
我没看过那些信,如果其他病因的信噪比太低,症状不那么符合,这个病因显得鹤立鸡
群,症状完全符合,而且给这个病因的人有相关背景经验和良好的声望,那么他就可能
会因此做出结论。
他还有可能犯错,但是他蒙对了
e******e
发帖数: 3472
40
脑子坏了才text mining,都急成那样了还不把信读一遍?text mining那是确定铊中毒
之后的事,显摆吹个小牛而已
l***y
发帖数: 4671
41
你肯定是你自己的研究领域的高人,这个我毫不怀疑。但说到 scripting,还是多保留
保留吧。
s*****r
发帖数: 43070
42
这些词没多大意义,专有名词最有用

been
·
g******t
发帖数: 18158
43
没错,不管搞什么研究,都不能忘记common sense。那些与病因无关的非医学非专业词
汇在分析的时候本来就该给一个low weight,或者打入另册,另作分析
w********n
发帖数: 70
44
我也没看过,所以只是凭common sense分析,因为很多文章说过朱令的症状和神经炎,
重金属中毒的症状都很接近。所以我猜回信里面提到这两条的一定不少。
假如病者是我最关心的人,那我认为最重要的事不是一定要求医生查某一种原因(比如
铊),而是把所有可能性都查一遍,生怕有遗漏。我相信大部分人应该也是类似的做法。
m*******l
发帖数: 12782
45
用循环的都是菜鸟
m**********r
发帖数: 887
46
Most likely Xiehe already tested "神经炎,重金属中毒" but did not work.

法。
w********n
发帖数: 70
47
只是用这两个举例子而已,既然有3000封信,我猜肯定还有各种咱们平常人听都没听过
的病因。如果是我的亲人,那么只要一种病因有超过十几个人提出来,那我就会要求医
生做检查,即使全查不现实,那我也会要求他们尽量多查几种。我自己作为一个医学的
外行,是绝不会自己读完信件,然后自己找出最可能的一种,只要求医生查这一种的。
m**********r
发帖数: 887
48
Is it possible to analysis the orignial emails again? that's the ultimate
way to find it out.
w********n
发帖数: 70
49
据说UCLA的网站上有,不知道谁知道怎么下载?我想周末看看。
p**l
发帖数: 616
50
看你这个长篇大论就想起一个笑话, 有香皂工厂老有生产出没有香皂的空盒子, 找了个
千老博士后拉起一个十几人的攻关小组,综合采用了机械、微电子、自动化、X射线探
测等技术,花了几百万,成功解决了问题, 结果有民工找了台风扇猛吹,空皂盒自然会
被吹走
有的人真的是读书读傻掉了.
首页 上页 1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)