如何看待斯坦福 SQuAD 挑战赛？ - Postdoc版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Postdoc版 - 如何看待斯坦福 SQuAD 挑战赛？

相关主题
● 遇到过于刁难的审稿人，该向主编申述还是撤稿呢？？？ (转载)	● NLP/Data mining positions at UTHealth at Houston
● 海归前，评论下我的三任老板，以此纪念10年的海外生活	● 长期Accenture（埃森哲）内推
● NIH博后有什么优势？	● 斯坦福属于南加州还是北加州啊?
● 同一套数据，发多篇文章，应该怎么处理？	● Postdoc salary: NIH Minimums as of 03/27/2009
● 一个老板根据我原来做的东西发了好多文章都没加我名字	● postdoc不能拿H1签证么？
● 请问文章可以发表在新闻媒体上吗？	● 斯坦福一个韩国博士后死了（中国老板，有Science文章） (转载)
● <转> 论与极品老板的关系---基于恋爱模型的完全解决方案	● 加州湾区的博士后1年4万是什么水平啊
● 我这样没问题吧？	● 斯坦福博士后的签证类型？

相关话题的讨论汇总
话题: 模型话题: net话题: benchmark话题: squad话题: 研究者

进入Postdoc版参与讨论

(共1页)

s*****n
发帖数: 15

只要有一个得到广泛承认的benchmark，分数一定会被刷上去（是否能满分另论）。
benchmark的设立本来是为了方便研究者比较算法表现的优劣的，研究者提出有意义有
创新性的模型/算法之后用公认的benchmark验证自己模型/算法的有效性，既能增强工
作的意义也能提高其他研究者对其的认同，这就像学校设立奖学金奖励学有所长的人。
但是由于benchmark第一带来的各种收益（或者说噱头？），也一定会有人去不断地刷
榜（并不是不是说这样不好），类比于深谙奖学金评奖规则而精准获奖的同学。我们不
能达到这样结果的模型/人不强，只是觉得其实际意义没有宣传的那么大。我预感会有
回答深度解析微软的R-Net（实际上R-Net出了一年了）和阿里的SLAQ，这两个模型确实
有精妙的地方，在attention层级结构的构造和实现中值得学习，可以说attention这个
简单又直观的机制自2015年以来在NLP领域发挥了突出的作用。
SLAQ模型结构
R-Net模型结构相比于越来越复杂的模型（见上图），我更期待有更简单直观的模型能
够再阅读理解中取得不错的成绩，并且为NLP提供一些新的火花。

(共1页)

进入Postdoc版参与讨论

相关主题
● 斯坦福博士后的签证类型？	● 一个老板根据我原来做的东西发了好多文章都没加我名字
● J1签证延期，回国后，再来美国可以签另一个单位么？	● 请问文章可以发表在新闻媒体上吗？
● 推荐一个综述吧~~ 关于NLP模型的。	● <转> 论与极品老板的关系---基于恋爱模型的完全解决方案
● 出身清华姚班，斯坦福博士毕业，她的毕业论文成了「爆款」	● 我这样没问题吧？
● 遇到过于刁难的审稿人，该向主编申述还是撤稿呢？？？ (转载)	● NLP/Data mining positions at UTHealth at Houston
● 海归前，评论下我的三任老板，以此纪念10年的海外生活	● 长期Accenture（埃森哲）内推
● NIH博后有什么优势？	● 斯坦福属于南加州还是北加州啊?
● 同一套数据，发多篇文章，应该怎么处理？	● Postdoc salary: NIH Minimums as of 03/27/2009

相关话题的讨论汇总
话题: 模型话题: net话题: benchmark话题: squad话题: 研究者

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天