s*i 发帖数: 388 | 1 相信这里做AI和NLP的人不少,大家来讨论一下ibm的算法?
我抛个砖:
估计watson对各类百科全书先作了个indexing , 当然是很smart的inverted index, 就是把
答案和问题反着作index, 然后作inference。
每个类别的问题可以允许watson prune掉大部分的knowledgebase, 然后作inference.
我感觉这个算法应该更类似于 information retrieval, 再加一点点first order logic, 或
者某种 bayesian 的变种。
大家讨论讨论,明天就比赛拉!而且我估计watson会再接再厉拿第一,人脑对这种死板问题的的检
索速度不可能比得上计算机。
【 以下文字转载自 Military2 讨论区 】
发信人: vuse (vuse), 信区: Military2
标 题: IBM超级电脑沃森即将与人类冠军上演人机大战
发信站: BBS 未名空间站 (Sat Feb 12 17:01:41 2011, 美东)
IBM超级电脑沃森即将与人类冠军上演人机大战
http://www.sina.com.cn 2011年02月12日 07:48 新浪科技 官方微博
“沃森”超级计算机“大脑”的一部分,研究人员正在旁边房间中测试“危险边缘”模
拟平台
“沃森”练习赛中险胜《危险边缘》冠军选手
新浪科技讯 北京时间2月12日消息,在IBM的超级电脑“深蓝”击败世界国际象棋
冠军加里·卡斯帕罗夫过去近15年之后,这个美国电脑业先锋又推出超级电脑“沃森”
,再次向人类的冠军发出挑战,并将于2月14日上演人机大战的好戏。
超级电脑“沃森”以IBM创始人托马斯·沃森的名字命名,将于下周在电视智力竞
赛节目《危险边缘》(Jeopardy)上与两位人类冠军选手——肯·詹宁斯和布拉德·鲁特
展开对决,此次人机大战共分两场比试,为期3天。1997年,国际象棋冠军卡斯帕罗夫
接受IBM“深蓝”的挑战,与他下了6盘棋并最终败北。
詹宁斯曾创下连续74场赢得比赛的纪录,鲁特在比赛中共拿到325万美元奖金,都
是一等一的高手。据估计,在与“沃森”的较量中,二人都要使出浑身解数,甚至可能
出现手忙脚乱的局面。在1月于纽约州北部的IBM研究总部举行的一场练习赛中,“沃森
”与这两位人类选手均全部答对所有15个问题,但在所获奖金数量方面,“沃森”略胜
一筹。
《危险边缘》于1964年首次登陆美国荧屏,通过涉及地理、政治、历史、体育和娱
乐等领域的一系列问题考验选手的知识面。与传统游戏设置有所不同的是,选手面对的
是答案,需要给出与这个答案相对应的问题。在1月举行的练习赛中,其中一个线索是
:“影片《琪琪》让他得以拥有自己的成名曲《Thank Heaven for Little Girls》。
”以大型电脑显示器形象亮相的“沃森”抢在詹宁斯和鲁特之前,触发抢答器,用其模
拟声音给出“谁是莫里斯·切瓦力亚?”这个正确答案。每答对一个问题,选手可获得
1美元奖金,游戏结束时奖金最高者便是胜者。回答错误则相应扣除奖金。
“沃森”在比赛时并未接入互联网,利用多个算法应对游戏中的挑战。它的反应速
度惊人,能够很快给出它认为的正确答案。对于自己认为的正确答案,“沃森”会赋予
其一个有关确定程度的百分比。具体到“谁是莫里斯·切瓦力亚?”这个问题,“沃森
”给出的百分比为98%。它相信这位法国低吟歌手的名字就是正确答案。
研制能够与《危险边缘》选手一较高下的超级电脑所具有的复杂性超过参加象棋比
赛的“深蓝”,参与这一项目科学家面临着更大挑战。IBM研究团队成员埃里克·布朗
自2006年以来便参与研制“沃森”,他在接受法国媒体采访时表示:“我们可以直接在
电脑上玩国际象棋。下国际象棋所涉及的几乎都是数学运算。你可以考虑所有可能性,
几乎就是各种选择的一个闭集。”
《危险边缘》的比赛涉及到自然语言的使用,电脑因此面临着一系列问题。布朗说
:“问题是用语言陈述的,提问的方式无穷无尽,包括使用反话、模棱两可的话、谜语
和双关语,这显然不是电脑的长处。人们最初采取的做法可能就是创建一个巨型数据库
,但这种方式并不恰当。”
参与《危险边缘》的问答比赛绝不像搜索网络那么简单。布朗说:“虽然谷歌和‘
沃森’具有一定的相似性,但它们解决的是两个不同的问题。借助于网络搜索,你只需
要用键盘输入一些信息,搜索引擎便会提供1000万个或者50万个与你所输入信息相匹配
的网页。但如果搜索精确信息,例如《危险边缘》的答案,你就必须浏览这些文件并从
中找出自己寻找的答案。”
“沃森”采用被IBM称之为“问题解答”的技术处理《危险边缘》的线索,收集证
据并进行分析,而后对最有可能的答案按照可信程度进行评比,最后给出自己认定的答
案。此次人机大战将于14日上演,冠军可获得100万美元奖金,亚军可获得30万美元奖
金,季军的奖金则为20万美元。IBM计划将全部奖金捐给慈善组织,詹宁斯和鲁特则计
划将一半奖金捐给慈善组织。(孝文) |
D***r 发帖数: 7511 | 2 so speech recognition is also involved in?
this technology is still very vulnerable so far
, 就是把
logic, 或
板问题的的检
【在 s*i 的大作中提到】 : 相信这里做AI和NLP的人不少,大家来讨论一下ibm的算法? : 我抛个砖: : 估计watson对各类百科全书先作了个indexing , 当然是很smart的inverted index, 就是把 : 答案和问题反着作index, 然后作inference。 : 每个类别的问题可以允许watson prune掉大部分的knowledgebase, 然后作inference. : 我感觉这个算法应该更类似于 information retrieval, 再加一点点first order logic, 或 : 者某种 bayesian 的变种。 : 大家讨论讨论,明天就比赛拉!而且我估计watson会再接再厉拿第一,人脑对这种死板问题的的检 : 索速度不可能比得上计算机。 : 【 以下文字转载自 Military2 讨论区 】
|
t**a 发帖数: 1865 | 3 Text input. No speech recognition
【在 D***r 的大作中提到】 : so speech recognition is also involved in? : this technology is still very vulnerable so far : : , 就是把 : logic, 或 : 板问题的的检
|
s*i 发帖数: 388 | 4 this is not the core algorithm, a basic OCR could recognize the words on
screen.
the core is the backend reasoning algorithm.
【在 D***r 的大作中提到】 : so speech recognition is also involved in? : this technology is still very vulnerable so far : : , 就是把 : logic, 或 : 板问题的的检
|
D***r 发帖数: 7511 | 5 I don't think they really parse the sentences though. probably they just use
key words and some basic structures (N-grams etc.) to comprehend the
questions.
【在 s*i 的大作中提到】 : this is not the core algorithm, a basic OCR could recognize the words on : screen. : the core is the backend reasoning algorithm.
|
s*i 发帖数: 388 | 6 n gram can only do the strict matching, and cannot capture the semantics.
but keyword is definitely what they r using to identify candidates.
use
【在 D***r 的大作中提到】 : I don't think they really parse the sentences though. probably they just use : key words and some basic structures (N-grams etc.) to comprehend the : questions.
|
s*i 发帖数: 388 | 7 n gram can only do the strict matching, and cannot capture the semantics.
but keyword is definitely what they r using to identify candidates.
use
【在 D***r 的大作中提到】 : I don't think they really parse the sentences though. probably they just use : key words and some basic structures (N-grams etc.) to comprehend the : questions.
|
d*****u 发帖数: 17243 | 8 N-grams can be modified so that words with similar meanings or syntactic
categories are also considered, not just the exact match.
in fact some people argue this is how humans learn language too.
【在 s*i 的大作中提到】 : n gram can only do the strict matching, and cannot capture the semantics. : but keyword is definitely what they r using to identify candidates. : : use
|
s*i 发帖数: 388 | 9 interesting. could u send me a paper about this? thanks.
【在 d*****u 的大作中提到】 : N-grams can be modified so that words with similar meanings or syntactic : categories are also considered, not just the exact match. : in fact some people argue this is how humans learn language too.
|
z***l 发帖数: 256 | 10 Not text input. Speech recognition first.
【在 t**a 的大作中提到】 : Text input. No speech recognition
|
t**a 发帖数: 1865 | 11 Please watch the day 1 show where Alex explained how Watson would work.
Watson is "deaf" and doesn't utilize speech recognition.
See
http://en.wikipedia.org/wiki/Watson_%28artificial_intelligence_
【在 z***l 的大作中提到】 : Not text input. Speech recognition first.
|
z***l 发帖数: 256 | 12 Thanks, I am wrong.
【在 t**a 的大作中提到】 : Please watch the day 1 show where Alex explained how Watson would work. : Watson is "deaf" and doesn't utilize speech recognition. : See : http://en.wikipedia.org/wiki/Watson_%28artificial_intelligence_
|