c***s 发帖数: 70028 | 1 今天上午,2014年度汉字出炉,“法”字在7000多条词中脱颖而出,荣膺年度汉字,“反腐”为年度国内词,“失”和“马航”为国际字和国际词。
此外,“依法治国”也成为年度中国媒体十大流行语榜首词。
“汉语盘点2014”活动由国家语言资源监测与研究中心、商务印书馆和人民网联合举办,除了年度字词、中国媒体十大流行语外,还发布了十大新词语和十大网络用语,“APEC蓝、暖男、萌萌哒、挖掘机哪家强”等热词榜上有名。
法:以法治为议题给民众吃定心丸 人民网舆情监测室秘书长祝华新认为,十八届四中全会以法治为主要议题,十八大以来中央理性反腐、八项规定让党风政风焕然一新,现在的公权力、本届政府执政力度是前所未有,引起了法治和人治的争论。
四中全会在全面深化改革、有那么多紧迫的社会经济政治问题需要解决的情况下,把法治列入首轮议程,给民众吃了一颗定心丸,就是要确保各项改革在法治的轨道上推进。
新一轮改革大潮目标锁定,国家治理体系和治理能力的现代化,法治就是其中的一个重要内容。
怎么获得?
12亿字次语料中人机挑选
“汉语盘点”自2006年以来已连续举办9届。今天上午发布的年度国内字、国内词、国际字、国际词,民... 阅读全帖 |
|
c***s 发帖数: 70028 | 2 汪涵的语言天赋极高,我们可以明确感受到他精通上海话、粤语、湖北话、四川话等多种方言。有人统计过,汪涵在节目里秀过不下20种方言。这种用方言“套近乎”的主持风格,让汪涵成为无数人的“老乡”。
汪涵在与身边很多朋友的孩子交流时发现,不管这些孩子是哪里人,他们大多听不懂也不会说自己的家乡话。“现在很多孩子只会说普通话和英文了,我觉得很可惜,因为每种方言都代表了一种地域文化。”
每一种方言都是一个知识体系,消亡一种方言,就是消亡一种知识体系。“全世界现存6000多种语言。但是随着全球化和城镇化,这些乡音正以每两周消亡一种的速度在减少,而乡音背后的文化基因也在被我们不自觉或者不自知地剪断,这个非常可怕!”
“普通话可以让你走得更远,可以让你走得更方便,但是方言,可以让你不要忘记你从哪里出发,普通话让你交流极其顺畅,而方言让你感受到无限的温暖。”
在他四十岁生日的时候,他就开始思考将来与这个世界告别时的身份到底是什么,不是明星,也不是节目主持人,他更希望等那一天到来时,人们记住他的是,一个语言保护者。
汪涵:四十不惑的四种身份
方言代言人
放眼国内,没有哪个主持人像汪涵一样,身上的地域标签如此强烈... 阅读全帖 |
|
m***r 发帖数: 359 | 3 机器学习日报 2015-03-12
@好东西传送门 出品, 过刊见
http://ml.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅机器学习日报
更好看的HTML版
http://ml.memect.com/archive/2015-03-12/short.html
1) 【中英文维基百科语料上的Word2Vec实验】 by @52nlp
关键词:自然语言处理, 主题模型
中英文维基百科语料上的Word2Vec实验: 最近利用gensim word2vec模块在中英文维基
百科语料上分别测试了一下word2vec,记录一下实验的过程,欢迎观摩 [1]
[1] http://www.52nlp.cn/?p=8198
2) 【extreme learning machines】 by @黄广斌-ELM
关键词:算法, 资源, PDF, 教育网站, 神经网络
ELM的主要目的是使机器学习同时达到高准确度,较少的人工干预和实时学习。和过去
几十年传统的神经网络算法和理论信条相反,ELM理论显示隐层节点很重要但许多种神
经网... 阅读全帖 |
|
m***r 发帖数: 359 | 4 机器学习日报 2015-03-12
@好东西传送门 出品, 过刊见
http://ml.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅机器学习日报
更好看的HTML版
http://ml.memect.com/archive/2015-03-12/short.html
1) 【中英文维基百科语料上的Word2Vec实验】 by @52nlp
关键词:自然语言处理, 主题模型
中英文维基百科语料上的Word2Vec实验: 最近利用gensim word2vec模块在中英文维基
百科语料上分别测试了一下word2vec,记录一下实验的过程,欢迎观摩 [1]
[1] http://www.52nlp.cn/?p=8198
2) 【extreme learning machines】 by @黄广斌-ELM
关键词:算法, 资源, PDF, 教育网站, 神经网络
ELM的主要目的是使机器学习同时达到高准确度,较少的人工干预和实时学习。和过去
几十年传统的神经网络算法和理论信条相反,ELM理论显示隐层节点很重要但许多种神
经网... 阅读全帖 |
|
f***o 发帖数: 883 | 5 国家语言资源监测与研究中心以新浪、网易和搜狐三家网站公布的名博列表中的用户发
布的博客帖为调查对象,对1728个博客用户2011年全年发布的共计20万个博客帖进行了
多角度的调查和分析。结果显示,男性和女性在字词使用上都有所不同。从数据可以看
出,男性用户的博客帖关心的话题更多与政治、社会等相关;而女性更关心生活、情感
、娱乐类话题。
“伤不起” 为去年年度词
国家语言资源监测与研究中心表示,从媒体用语、教材用语等多个角度分析,“伤
不起”一词成为了2011年国内年度词,而国内年度字为“控”。与之对应的是,去年国
际年度词为“欧债危机”,国际年度字为“债”。
据了解,2011年从国家语言资源监测语料库中提取出新词语594条。其中三字词语
最多,占51.68%。三字词语比例持续占优势,与近几年多用热门格式造词有关。2011年
持续了2010年的“××门、××族、××哥、××体、微××”格式,其中“××体、
微××”特别活跃,如咆哮体、淘宝体、宝黛体、撑腰体、高铁体以及最近出现的“舌
尖体”,还有微电影、微访谈、微小说、微生活、微招聘等。594条新词语中有一些是
字母词,如“CDI(综合发... 阅读全帖 |
|
o***s 发帖数: 42149 | 6 《新闻联播》播出画面
昨日,中国传媒大学有声媒体语言监测与研究中心发布“2011媒体关注度十大榜单”。《新闻联播》作为中国媒体中的一个独特视窗,本次发布予以特别关注,从品牌、影视剧、高校、成语4个类别列出十大榜单。
据悉,本次发布是国内首次利用现代语言监测技术形成媒体关注度榜单,范围覆盖报纸、广播、电视和网络,在海量的动态流通语料库中,经过统计、计算,自动提取候选,最后人工确认得到,榜单及其排序完全依据客观数据。
本次十大榜单提取的语料来源于国家语言资源监测语料库2011年1月1日——12月10日的语料,约10亿字。内容包括6家主流报纸,26家电台、电视台的节目转写文本以及2个门户网站的网络新闻,共计1230987个文本。
《新闻联播》最关注十大榜单
十大品牌
1.波音 2.苹果 3.吉利 4.空客 5.谷歌 6.联想 7.海信 8.微软 9.丰田 10.诺基亚
十大影视剧
1.《辛亥革命》 2.《农奴泪》 3.《杨善洲》 4.《妈妈咪呀》 5.《郭明义》6.《四世同堂》 7.《唐山大地震》 8.《飞天》 9.《建国大业》 10.《精卫传奇》
十大高校
1.清华大学 2.北京大学 3.... 阅读全帖 |
|
c***s 发帖数: 70028 | 7 汪涵发起了一项方言调查计划,他出资465万元,用5-10年的时间,组织10支调查研究团队,对湖南53个调查地的方言进行搜集研究,用声像方式保存方言资料,进行数据库整理后捐给湖南省博物馆。
2009年9月21日,北京,汉唐乐府学术与文化产业论坛上汪涵担任主持人。 东方IC 资料
澎湃新闻7月10日报道(记者 彭玮)“方言离我们的生活很近,它消亡的速度令我们很惊。”7月9日,澎湃新闻记者见到湖南卫视主持人汪涵的时候,他正在化妆前等待拍摄一组广告,他的左眼充血得厉害,却还是瞪大着眼睛,道出每十天消亡一种方言的近与惊。
日前,他发起了一项方言调查“響應”计划,由他一人出资465万元,该计划将用5-10年的时间,组织10支调查研究团队,对湖南53个调查地的方言进行搜集研究,用声像方式保存方言资料,进行数据库整理后捐给湖南省博物馆。
众所周知,他是湖南卫视收视率王牌综艺节目《天天向上》的制片人兼主持人。今年3月底《我是歌手3》(在线观看)直播里,汪涵在处理孙楠宣布退赛的那七分钟,被称为主持人教科书式的一役。
如今,相比灵光一现,汪涵想抓住些更切近和踏实的东西。或者说比起进传媒教科书,他更想让自己的... 阅读全帖 |
|
i***s 发帖数: 39120 | 8 昨日,由华中师范大学国家语言资源监测与研究中心网络媒体语言中心等单位联合发布的“2015年度中国媒体十大流行语”在京揭晓,颇受关注的全面二孩、十三五规划、亚投行等热词上榜。
国家语言资源监测与研究中心网络媒体语言中心主任、华中师范大学何婷婷教授介绍,今年发布的流行语包括6个类目,分别为综合类、国内时政类、国际时政类、经济类、科技类以及社会生活类,而往年常见的教育类流行语并没有出现在本次发布之中,而是将于年底单独发布。
何婷婷介绍,“2015年度中国媒体十大流行语”是基于国家语言资源监测语料库,利用语言信息处理技术,结合人工后处理提取、筛选而获得。语料来源包括国内18家报纸、26家电台电视台以及2个门户网站,约12亿字次语料。
部分流行语榜单
综合类:抗战胜利70周年、互联网 、难民、亚投行、巴黎恐怖袭击事件、屠呦呦、四个全面、大众创业 万众创新、互联互通 共享共治等。
经济类:股市、自贸区、三证合一、众筹、中国制造2025、微众银行、O2O(线上线下)、人民币入篮(sdr)、长江经济带、众创空间。
社会生活类:控烟、专车、二维码、实名制、颜值、创客、微信红包、提速降费、世界记忆、获得感... 阅读全帖 |
|
T*******n 发帖数: 71 | 9 性和数的变化还是简单的,
欧洲的罗曼语族和日耳曼语族各语言都需要这么变。
德语难的首先是格的变化,
尼玛冠词和形容词都要考虑格,
甚至同属日耳曼语族的荷兰语和瑞典语都没这么变态。 举个最简单的例子
with the new bike 和 she likes the new bike,
英语里the和new这两个冠词和形容词完全不需要变化
可是德语要求the和new的词尾曲折要考虑单复数, 阴阳中性,和第三格第四格这三大
方面。
所以the可能是die, das, der, den还dem
new可以是neuen, neuer, neuem还是neues
初学者脑子里面立刻得展开一个矩阵,还是至少三维的。
初学德语,大量的时间要花费这样的语法练习上面。
我发现 普通德国人应该是把整个句子硬背下来,从而避免展开矩阵
比如with the new bike,
就是mit dem neuen Farrad做个一个整体囫囵吞枣
不是每次说话都重新计算这个形容词neue("新")应该是neuen, neuer, neuem还是
neues
也不需要重新计算the应该是die, das, der, ... 阅读全帖 |
|
b*******n 发帖数: 1267 | 10 老生常谈话背诵
2009-10-23 9:26:54 文章来源:报纸剪辑 点击数:198
语言诵读,是语感形成的基础,是分析、研讨语言的前提,是积累语言、培养语言
能力的重要手段。任何语言的学习,无论是口头的还是书面的,在初学阶段都有一个模
仿的过程,而模仿必须先有大量的语言信息输入,必须以丰富的目标语语料积累为基础
。外语学习要想取得成功,必须有大量的外语基础用语的积累,否则,外语学习就成了
无源之水,没有源头则无法进行语言输出。只有大量地输入语言信息,在目标语语料的
积累达到一定的程度时,学习者才能输出信息,进行模仿,形成自然、流利的语言表达
。而背诵则是集中、大量、强化输入输出语言信息的有效手段,所以,背诵历来是一种
传统的英语教学方法,是作为预备性的语言练习和巩固的重要手段。在初中阶段,背诵
教学应用得十分普遍,学生们愿意读,教师们也运用得得心应手。然而,进入高中阶段
,背诵教学似乎就成了教师和学生都感到头疼的事。我们在教室或办公室,常常会看到
一条条“长龙”,偶尔还伴有教师的呵斥,遇上几个不肯背的,则会罚抄罚站,几乎动
用了教师所能动用的“法宝”,效果往往不尽如人意。为 |
|
H******7 发帖数: 34403 | 11 网络会话中“呵呵”的功能研究
The Research of the Structure&Function of Word "Hehe" in Internet
Conversation
分页下载 分章下载 整本下载 在线阅读 不支持迅雷等下载工具。
免费订阅
【作者】 汪奎;
【导师】 李明洁;
【作者基本信息】 华东师范大学, 汉语言文字学, 2012, 硕士
【摘要】 本文以会话分析的理论和方法为依托,以韩礼德系统功能语言学的语言三层功
能观为基本思路,辅以关联理论的认知语境论,通过对网络会话实录语料的仔细观察,对
网络会话中的流行词语“呵呵”建构网络会话结构的功能和在具体会话语境中产生的交
互语用义进行了社会语言学的研究。网络言语社区以及网络语言的变异情况是社会语言
学研究的热点之一。很多语言或语言单位从非网络语体中进入网络语言社区之后在语法
语义语用上都会发生不同程度的变异,其中构词能力比较强、意义较为丰富的多会成为
风靡一时的网络流行语。如“被XX”、“XX控”、“神马”、“浮云”等。以往研究网
络流行语的文章多集中于汉语的实词和短语结构上,对“呵呵”、“哈哈”、“吼吼”
... 阅读全帖 |
|
p**********n 发帖数: 1470 | 12 http://duilian.msra.cn/
上次访问北京的时候, 他们语言组的头给我介绍了这个系统, 第一印象是非常赞的.
一方面是巧妙应用了我们research里面的最新技术, 把对联问题转化为一个有
constraints的翻译问题.
另一方面对联知识又都是自动从古今著名对联, 格律诗和词中的对联部分, 以及骈体文
, 等等语料当中学习出来的, 而不
是由人工输入知识. 所以只要不断发掘新的对联语料, 系统就可以自动学习新知识.
做这个系统的人还是非常牛的, 不光CS research做得好, 古文功底也相当扎实, 所以
做这个东西玩玩, 而微软又可以把
它放到下一版office里面赚钱, 真是一举多得.
就算是ngngogei上面这个千古绝对, 它居然也能给出不make sense, 但也合乎规则的答
案, 大家不妨试试.
至于容易一点的上联, 它还能做的有模有样的. |
|
发帖数: 1 | 13 binary和传统的dummy code都不适合决策树类型的分类器,因为把寻找最优分岔的问题
限制在one vs all这个局限里面了。但是在实际应用中效果还是不错的。有文章说在
cardinality很大的情况下,直接把每个level按照出现概率rank一下然后就哪rank取代
之变成numerical feature也一样work。实际上真正严格遵守最悠久或者近似最优解来
做决策树分叉的算法在high cardin的情况下非常慢,这也是为啥r的随机森林只支持
cardinality小于53的categorical feature。Python里的版本直接就是用的rank来替代
的。
xgboost只支持数值变量,把这个问题丢给了用户去自己找合适的编码方案。
word2vec是根据在意过语料集里单词上下文co-occurrance的频率来学习一个单次的分
布式表达或者向量表达,这个表达的euclidean distance保留一些语义上和语法上的相
似度或者可替代度。这个概念也可以用在其他有co-occurrance的feature上,不仅限于
NLP。用这个方法做feature转换... 阅读全帖 |
|
m***a 发帖数: 7 | 14 各位大虾:
不知哪位有接触过中文的categorial grammar的,请指点一二:
请推荐,或者提供寻找线索:
1.对中文各种词类/词性 确定category的资料(论文、书籍电子版)
2.对中文特有语言现象的用categorial grammar标注、分析的文章等
3.中文的categorial grammar的语料(不用很大,人造语料也行)
非常感谢! |
|
l*******s 发帖数: 1258 | 15 说点题外话,我们搞NLP的对WSJ有着特殊的感情,为啥呢?因为发paper做project甚至
搞产品,用来测试的语料都来自WSJ。
比如句法树分析、实体名抽取、词性标注、语义分析等,全都基于Penn TreeBank这个
corpus,而该corpus的语料很多来自WSJ。
不知道为啥。问了一些人,说是90年代做这些数据的时候,只有WSJ符合书写规范、题
材分类明确、免费开源、覆盖面广等要求,所以只能用它。
总之就是,在这个领域,你要是没听说过WSJ,就别说是搞NLP的。不过话说回来,不少
人搞了n年NLP用WSJ做数据训练和检测模型,却不一定真正读过几篇WSJ的文章。 |
|
|
i***s 发帖数: 39120 | 17 改革开放以来,中国迅速崛起,引世人瞩目。随着中外往来领域的日益广泛和程度的加深,世界各地都兴起了学习汉语的热潮。
一个非汉语环境下长大的西方年轻人要想学习汉语,之前大都会被告知:汉语是世界上最难学的语言。我在大学的时候接触过一个瑞典留学生,他曾把学汉语的难度与学英语、日语相比较。最后他说:“学英语是哭着进去,笑着出来;学日语是笑着进去,哭着出来;学汉语是哭着进去,哭着出来。”
我的思考在于:东西方交流自16世纪就已开始,按常理,一种语言经过彼此四百多年的交际使用,对方应该能够掌握一些基本规律,入门的技巧也应被大家熟知并接受。可到了21世纪的今天,汉语依然被大多数西方人认定是“最难学”的语言。这到底是为什么呢?
缘于对新中国书刊海外发行传播60年的考察,我曾拜读过许明龙先生研究黄嘉略的文章,有所悟:所谓学汉语难,恐是西方人走进了一个误区。
误区一:从宗教的角度考察汉语
从16世纪开始,以利玛窦为代表的一大批欧洲耶稣会传教士来到中国。他们把有关中国的社会制度、道德风尚、历史地理以及文化传统等一一介绍到欧洲,他们中的一些人甚至还为此著书立说。于是到了17世纪,欧洲掀起了第一股“中国热”,汉语... 阅读全帖 |
|
i***s 发帖数: 39120 | 18 小图照片。
“清华机器人萌语连篇 面临‘洗脑"追踪
被网友“教坏”、下岗一个多月的清华机器人小图又上岗了。记者昨日发现,上岗后的小图仍逗趣可爱不时卖萌,但偶尔旧习不改仍说粗口。
日前,清华大学图书馆设置的网络服务机器人小图,因为被网友“教坏”,小图的设计者称已让小图暂停“服务”(本报2月9日报道)。
昨日,记者打开清华大学图书馆主页,发现小图已重新上岗。在打开类似QQ或MSN的聊天框中,头像为蓝色荧光眼睛、黑色面罩、白色“战袍”的小图可自如与网友聊天。
设计者介绍,小图下岗后被过滤了不少脏词。记者与小图对话中,发现小图说脏话的频率已大幅减少,显得小清新;但偶尔仍会“重口味”一下,对话时不时爆出一两句粗口。
在清华大学图书馆主页有一则题为“让小图更美丽”的公告,公告称,为使小图有一个独有的可爱形象,特向全国征集小图的设计形象。公告介绍,“小图形象反映清华大学图书馆馆员的工作特征,建议性别设定为女性。形象主体为人形或拟人形”。
对话
设计者盼网友嘴下留情
新京报:小图和被教坏前有什么改变?
设计者:小图被教坏后,图书馆让小图暂时下岗,投入不少精力删去大量不健康的语言。目前已上岗的小图还是一... 阅读全帖 |
|
o***s 发帖数: 42149 | 19 小图照片。
■ “清华机器人萌语连篇 面临‘洗脑’”追踪
被网友“教坏”、下岗一个多月的清华机器人小图又上岗了。记者昨日发现,上岗后的小图仍逗趣可爱不时卖萌,但偶尔旧习不改仍说粗口。
日前,清华大学图书馆设置的网络服务机器人小图,因为被网友“教坏”,小图的设计者称已让小图暂停“服务”(本报2月9日报道)。
昨日,记者打开清华大学图书馆主页,发现小图已重新上岗。在打开类似QQ或MSN的聊天框中,头像为蓝色荧光眼睛、黑色面罩、白色“战袍”的小图可自如与网友聊天。
设计者介绍,小图下岗后被过滤了不少脏词。记者与小图对话中,发现小图说脏话的频率已大幅减少,显得小清新;但偶尔仍会“重口味”一下,对话时不时爆出一两句粗口。
在清华大学图书馆主页有一则题为“让小图更美丽”的公告,公告称,为使小图有一个独有的可爱形象,特向全国征集小图的设计形象。公告介绍,“小图形象反映清华大学图书馆馆员的工作特征,建议性别设定为女性。形象主体为人形或拟人形”。
■ 对话
设计者盼网友嘴下留情
新京报:小图和被教坏前有什么改变?
设计者:小图被教坏后,图书馆让小图暂时下岗,投入不少精力删去大量不健康的语言。目前已上岗的... 阅读全帖 |
|
i***s 发帖数: 39120 | 20 20多年前,四川人民出版社出版了一本《四川方言词典》。近日,有网友在微博上晒出该词典的内容片段,“有盐有味”的解释引得众网友纷纷点赞 “简单粗暴,深入民间,实用度爆表”。
昨日,该书编者之一张一舟在接受天府早报记者采访时,讲述了编写这本词典的幕后故事。
“奇书”啥样?收录了近7000个词条
日前,一本名为《四川方言词典》的截图在微博上热传,照片中的词典搜罗了各种川话方言,比如“操哥”、“操妹儿”、“耍朋友”……文字解释一本正经,配上的例句则让网友直叹“亮到无法自拔”。
如“瓜眉瓜眼”,形容傻乎乎的样子,“大家都走了,你还瓜眉瓜眼地站在那里做啥子!”又如“铲铲”,其中一个意思是用作反语,表示强烈否定,“有个铲铲”、“吃个铲铲”、“说个铲铲”。
这本词典于1987年由四川人民出版社出版,作者是当时在四川大学从事现代汉语研究的王文虎、张一舟、周家筠三位教师。
四川在线记者昨日在张一舟的家里见到了这本网友口中的“绝世奇书”,这本词典大约收录了7000个词条,其中包括方言及歇后语,以及同一个意思的不同说法。
编书缘起?方言也是一种语言财富
《四川方言词典》最早是作为一本工具书出版,谈及当年的编书... 阅读全帖 |
|
i***s 发帖数: 39120 | 21 PM2.5、E-mail、GDP等10组外语词有了中文译名。Dama(大妈)、Tuhao(土豪)等词汇走出国门,亮相国外权威媒体。中国大妈、女汉子、十面霾伏等成为社会新词语。昨天,教育部发布2013年中国语言生活状况。
女汉子入选十大新词
热词热语反映社会百态。2013年,又有一批热词进入了语言生活。国家语言资源监测与研究中心在125万个文本语料的基础上,层层筛选,提取出新词语364条。
2013年的十大新词为“中央八项规定、棱镜门、H7N9禽流感、土豪、自贸实验区、单独二胎、中国大妈、光盘行动、女汉子、十面霾伏”。这反映了2013年中国社会生活中的重大事件以及媒体和百姓关注的焦点。
此外,“三中全会”、“全面深化改革”、“中国梦”“老虎苍蝇一起打”“斯诺登”都成为去年的流行词。
大妈和土豪走出国门
随着国际交流的增多,Dama(大妈)、Tuhao(土豪)等词语陆续“走出国门”,亮相国外权威媒体,引起了广泛关注。不同时代走出国门的词语,有的已经进入国外的词典,有的仍然是“海漂”,在国外民众中口头流传。
据牛津大学出版社2010年年底统计,《牛津英语词典》收录的汉语借词已经多达245条。... 阅读全帖 |
|
c***s 发帖数: 70028 | 22 王林与李亚鹏王菲的合影
王林落马了,除了他那些招摇撞骗的邪门歪道之外,最吸引大众眼球的就是他和娱乐圈明星们的合照。在这一拨今天的一线娱乐明星里,有一张面孔很惹眼。几乎每一次大师的倒掉,都有一个叫王菲的明星。这个流行音乐界的天后在和方舟子微博掐架之后就一再刷新我们的智商。她支持地球一小时,她说佛像在火灾中完好无损是佛法显灵,作为传说中的佛教徒她又和李一、王林这些方士结下剪不清理还乱的缘分。前台的大师们纷纷倒下了,也到了检讨一下“王菲”这座大神的时候了。这里要讨论的不是作为音乐人的“王菲”,而是作为一个文化偶像、文化现象的“王菲”,甚至是作为一种宗教的“王菲”,我把它称为“王菲教”。
把自己活成一个宗教的王菲,她的周围有各路神仙、四大金刚之类的人物保驾护航。他们已经溢出了娱乐圈的范畴,延伸到了不同领域。他们是中国社会的各类精英,有着不同的面貌。譬如李一、王林事件就揭示出今天中国精英阶层的多重面貌,他们既是房地产商,也是娱乐明星,还是文化名人,商业资本、娱乐资本、文化资本在一个“私通机制”里巧妙地耦合在了一起,互相转换。没有一个精英拥有单一的面向,一个人就是一个帝国。王朔评论王林事件时说“脱... 阅读全帖 |
|
k***g 发帖数: 7244 | 23 以前闲着无聊的时候曾经做过一个《资治通鉴》的字频统计,单以频率计,中国历史不
过是“王”与“人”,“义”与“忠”,“将军”与“刺史”,“长安”与“洛阳”。
既然有了频率,自然也就有了概率和条件概率。根据条件概率,当给出一个序列的字词
后,预测下一个字词是什么,就变成了一个简单的最大似然估计问题。如果觉得这个序
列太长,计算起来太麻烦,可以假设简化的马尔科夫结构,譬如假设下一个词的概率取
决与之前的n个词而不是整个序列,这基本上就是计算语言学里的 n-gram 算法了。
所以我们可以用《资治通鉴》作为语料得出经验条件概率,然后来随机模拟出历史文本
,产生原汁原味(至少是统计意义上的)史书 (技术细节见附录)。 虽然这只是文字
游戏,但是仍然能从概率上看出《资治通鉴》记述的历史中,最容易重现怎样的事件。
譬如下面这则 (random seed = 2000):
撰 刘 崇 俊 以 惟 岳 又 从 入 关 , 宣 等 从 太 子 也 , 惧 履 危 亡 之 事
, 发 步 骑 二 十 骑 自 北 至 北 寺 狱 , 竟 不 使 宗 庙 社 稷 。 宗 元 为
柳 州 司 马 。 坚 大 怒 ... 阅读全帖 |
|
m***n 发帖数: 12188 | 24 转:
关于南岛语系和其他语系的同源关系,学者议论纷纷,目前有四个不同假设:
1、南岛语系和其他语系没有同源关系(传统的观点)。
2、德国传教士Wilhelm Schmidt 1904年提出南岛语系和南亚语系同源。
3、美国学者Dahl 1970年指出南岛语系和印欧语系同源。
4、法国学者沙加尔1990年提出南岛语系和汉藏语系同源。
----------------
试从南岛语的构词后缀看上古汉语上声调之来源以及汉-南岛语之关系
从事历史语言学研究的学者通过比较构拟的方法,通过对南亚语、书面藏语和缅语
以 及现代汉语方言的音韵研究,认为上古汉语的上声调源于喉塞尾-/,沙加尔则利用
南岛语 的材料进一步推断-/可能来源于更早的-q。郑张先生(1994)更有独到的见解
,他认为上 声调-?( <*-q) 有构词作用,即有构成亲属名词、身体部位名词的作用。
我们知道,绝大 多数的亲属、身体以及动植物名词都是人类语言中的核心词,如果能
够认定上古汉语的这 个具有构形意义的上声调-q在南岛语中有更糟的源头,并且和上
古汉语有相同的构词意 义,那无疑可以深化我们对汉语-南岛语关系的认识。 ... 阅读全帖 |
|
S*******s 发帖数: 13043 | 25 搜到这个帖子:
http://www.tianya.cn/publicforum/content/free/1/1805795.shtml
看来这个起源问题还真不好说。
是不是日本人的创作汉字新词“远远不止这些,数不胜数”呢?错!这只不过是部分
中国人极端媚日的变态心理在作怪。根据《汉语外来语词典》(刘正谈、高名凯、麦永
乾、史有为编纂,上海辞书出版社,1984年12月出版)统计,现代汉语中日源外来词共
772个[1],而决不是什么“数不胜数”。而且,其中的7个写的是日语假名,如:キ
ニーネ(奎宁)、カタル(粘膜炎)、カナリア(金丝雀)、おばさん(伯母、姨妈)
、コーヒー(咖啡)、コカ(古柯)、コカィン(可卡因),应该予以剔除,还有一个
“銭”字,意思为日本货币单位,也应该是固有汉字。因此,《汉语外来语词典》中的
日源外来词应该为764个。
但是,就这个764个词中,有一些是现代汉语中不使用的词(可能过去曾经使用过
),比如:亜铅(锌)、味之素(味精)、意匠(构思)、运転手(司机)、覚书(备
忘录)、可决(通过)、看护妇(护士)、教科书(教材)、训育(道德教育)、论理
学(逻辑学)、粁... 阅读全帖 |
|
d*****u 发帖数: 17243 | 26 对于一般交谈的语料,现在语音识别效果也不是特别好
如果是care speech或者知道话题的范围能好些 |
|
r**********g 发帖数: 22734 | 27 都是没预料到电脑普及啊。我老做机器翻译,中英文平行语料数据库,如果用Unicode
,英语大小是中文的四倍以上。UTF8,也要差50% |
|
c****p 发帖数: 6474 | 28 基于词素组合频率分析的断词法做得还是挺不错的。
人人网上有个学语言学的学生用MATLAB(编程方便)搞了这么个东西,
还对一个社交网站的语料做了分析,结果发现热点词基本符合每天发生的热点事件。 |
|
r**********g 发帖数: 22734 | 29 机器翻译的平行语料,汉语大约是英语的1/3大小。我老每天都在做这些数据 |
|
|
k*x 发帖数: 829 | 31 这位琐男看着像是玩真的。“我现在可以讲英、法、德、意、西五种语言,并始终把梵
语作为语言学习的最高目标而努力着。”看他博文,真在学梵语了。
另一方面,继续夜以继日地研究梵语(Sanskrit)。我的计划是先把帕尼尼的《语言结
构规则》(Ashtadhyayi) 草草看一遍(目前已看到第三章),无论看懂与否都至少可以
对整个语言有个总体印象,然后还是要静下心来从罗世方《梵语课本》学起,一边学语
法一边循序渐进地学语音规则,然后再参照斐文《梵语通论》重读一遍帕尼尼《八章书
》,接着再把斯坦茨勒《梵文基础读本》里的所有规则跟《语言结构规则》联系在一起
,找出它们之间的对应关系,最后通过《梵语文学读本》里的真实语料来巩固前面所学
的语法和词汇知识。接下来就可以考虑如何用计算机语言(Lisp 或 Prolog)来自动生
成和翻译梵语句子了;如果存在一个程序可以正确处理梵语,那么印欧语系的其他语言
(包括)就也都不是问题了。这就是整个思路。 |
|
|
e*****s 发帖数: 7359 | 33 “江”本义指长江,“河”本义指黄河,跟“洛”、“湘”、“济”、“淮”啥的都是
平级的,都是一条地表槽流的名字。当时泛指地表槽流的一般叫“川”,用在具体径流
名后面的“大名”则一般用“水”。所以比方说古人说保卫黄河,就可以直接叫“御河
”;保卫长江,可以叫“防江”;保卫淮河,则可以叫“守淮”,都不会引起歧义。要
是非要说成类似于今天“~河”、“~江”的词,那可以叫“河水”、“江水”、“淮水
”。但“江”也可以泛指河流,特别是在南方的语料中时不时可以看见。后来北方方言
中“河”也可以指泛指所有江河了。所以现在“~河”一般是北方的,“~江”一般是南
方的。但是也非常不一定,反例很多。譬如东北的河流就多叫“江”。这都是后来起的
名字,不是自源的。
在现代,二者之间有了一条更重要的区别,那就是外国河流名称的翻译一般统一用“河
”。
另外,很多网友提到的别的区别,如水量、内外流等等,那显然都是因为南北的自然差
别导致的感觉啊…… |
|
发帖数: 1 | 34 美国将发生苏联式崩溃且自己1992年就预料到
2007年7月1日,我们团队成员刘盛开先生在网上发帖,称2018年中国经济将超越美
国,并将成为世界经济和科技中心。链接(天涯):中国2018年超越美国
当时的回复是一片骂声。现在很多经济学机构都已经发出同样的“预言”,跟在我
们后面吃灰。回看当时的谩骂,我们百感交集。
铁血(2008年4月8日):中国将成为世界经济科技中心
现在,我们再作预言:5年之内,美国将发生苏联式崩溃,乐观估计到时美国的GDP
将只剩下中国的10%,悲观估计大约为3%。
我们作出这样的预言,是基于这样一项伟大的生物学发现:淫*乱导致后代智力下
降,性*伴*侣越多的女性生下的孩子越蠢。并且这样的改变的机制作用于基因修饰层面
,即智力的大幅升降可以在第二代发生。现在西方世界的劳动力年龄人口基本是性*解*
放后出生的,他们的智力水平已经降得很低。
在正文之前,先揭下当今经济学界已经沦为资本和权贵的奴*隶的皮。
有一个流传甚广的经济学理论“成熟所以缓慢”,即一个经济体发展到一定程度后
,速度自然会慢下来。
规律具有普遍性,如果有反例,即不成立。上述理论就有个极其有分量的反例... 阅读全帖 |
|
d*****u 发帖数: 17243 | 35 汪涵投入近500万调查保护方言
“据调查,全世界有6000多种方言,却以每10天一种的速度在消亡。”湖南卫视著名
主持人汪涵说,这个数据让他非常吃惊,平时他在主持的时候,会情不自禁地讲各地的
方言,他也常常反思,我们到底能为保护方言做些什么?
最近,汪涵发起一个方言调查项目。计划5到10年,打造一个湖南方言数据库,他是全
国第一个以个人名义资助方言保护的人。昨日,他在接受成都商报记者采访时候提到,
自己会把成果捐给湖南省博物馆,如果资金足够,他也会计划调查其他省的方言,比如
四川方言。儿子小沐沐刚出生,他希望儿子能够说好四川话和湖南话,他马上来了一句
标准四川话:“妈老汉都是四川人,娃儿说不来四川话?搞笑哟!”
调查具体怎么进行呢?汪涵详细给记者讲解,一共有十支团队分别负责湘语、西南官
话平话、赣语、客家话、乡话、土话。他们完全按照一套模式来做,确定方言选点,目
前在湖南选了有53个点位,平均每个点位有4位“方言发言人。”有一些规定的词语,
让这些发言人来读,然后录制成音频、视频存入有声资料库,将会建立相应的数据库《
湖南方言有声语料库》,同时,会有一个调查的纪录片。最后还会建立4部专... 阅读全帖 |
|
g**1 发帖数: 10330 | 36 吴恩达这3年:百度想把他当招牌 他却想做些大事
2017-10-30 07:16:51 来源: 左林右狸 举报
126
易信
微信
QQ空间
微博
更多
(原标题:我知道的吴恩达)
吴恩达这3年:百度想把他当招牌 吴恩达却想做些事
左林大叔
左林大叔今天八一八吴恩达。
各位邻里会问,吴恩达离开百度都是上半年的事情啰,大叔你何以今天才八啊。好吧,
大叔懒癌发作中不中啊。
那邻里又会问,为何今天懒癌又神奇的治愈了呢?大叔找到的理由是因为林元庆,一个
与吴恩达相生相惜,相爱相杀的男人近日宣布离职百度创业。
2015年11月,百度研究院宣布林元庆入职百度,担任深度学习实验室主任,向当时的百
度首席科学家吴恩达汇报。自此,林元庆和吴恩达的名字一直联系在一起。
吴恩达这3年:百度想把他当招牌 吴恩达却想做些事
林元庆
林元庆与吴恩达私交不错,根据林元庆自己的说法,吴恩达在离开百度之前几周与林元
庆有个谈话,林元庆希望吴恩达不要走,即便不做首席科学家,可以回来担任百度研究
院院长,自己去做副院长。
在大叔看来,首席科学家和研究院院长这些抬头的变化和演进其实是解开吴恩达与百度
三年恩怨情仇的重要线索之... 阅读全帖 |
|
x****6 发帖数: 4339 | 37 我最近看了谷歌做 自然语言、开发中日韩文搜索的 吴军写的《数学之美》,解释了
NLP的原理,我的理解它的本质是利用计算机巨大的记忆,在宏大的语料库里计算出词
语出现的频率和关联频率,进而计算出一个词频的lookup table, 然后去套输入的语
句。
本质就是查字典。
这是不是智能,是多高级的智能,就见仁见智了。 |
|
c*****y 发帖数: 1028 | 38 出身清华姚班,斯坦福博士毕业,她的毕业论文成了「爆款」
机器之心 Today
机器之心报道
机器之心编辑部
很少有人的博士论文能够成为「爆款文章」,但陈丹琦做到了。这位近日从斯坦福毕业
的计算机科学博士引发了人们的广泛关注。据斯坦福大学图书馆介绍,她长达 156 页
的毕业论文《Neural Reading Comprehension and Beyond》上传仅四天就获得了上千
次的阅读量,成为了斯坦福大学近十年来最热门的毕业论文之一。
斯坦福大学还因此对陈丹琦进行了一次简单采访。
陈丹琦激动人心的研究迅速在社交网络和其他专注机器学习的新闻网站上传播。她的指
导老师——斯坦福 AI 实验室负责人、人工智能领域著名学者、斯坦福大学语言学和计
算机科学教授克里斯托弗·曼宁(Christopher Manning)在采访中表示:「陈丹琦是
使用神经网络方法解决自然语言理解问题方面的先驱。她简单、干净、高成功率的模型
吸引了众人的目光……她的这篇毕业论文主要研究神经网络阅读理解和问答,这些新兴
技术正在带来更好的信息访问方式——它可以让计算机系统可以真正回答你的实际问题
,而不是简单地返回... 阅读全帖 |
|
r********n 发帖数: 7441 | 39 你一个机器人要什么大姨妈,你爬黄色网站被错误语料训练坏了吧 |
|
h******o 发帖数: 6113 | 40 观点如下:
1. 科大讯飞是掌握核心技术的IT公司,是云计算和移动物联网核心标的。科
大讯飞是一家专注于语音技术的软件厂商,在中英文合成和识别技术上全球领先,讯飞
以基础语言技术为核心竞争力,将推动整个语音产业发展。这种技术领先是基于长时期
前瞻性的基础交叉学科的研究;同时公司凭借技术优势及市场先机积累了大量语音数据
资料;真实应用环境下积累的大量语料有助于语音效果的训练提升、不断完善,从而赢
得更大的市场份额,形成良性循环,这一优势是竞争对手短期内难以企及。
2. 国内的语音市场80%的应用集中在语音合成(主要应用于海量信息发布
,例如呼叫中心的信息发布),相比之下国外的70%的应用集中于语音识别(呼叫中
心的自动语音识别,医疗行业医嘱的语音识别,嵌入式设备的菜单式命令识别等等)。
公司的未来逻辑是语音合成技术的突破。
3、公司整体上仍处于爬坡阶段。从技术成熟度和盈利模式两个方面看,我们判断公司
接近成长的拐点。从2011年开始,以识别技术的应用拓展为契机,公司主营业务进入快
速增长阶段是大概率时间。我们从识别技术和盈利模式两方面阐述判断的根据。而一旦... 阅读全帖 |
|
A*******8 发帖数: 1453 | 41 我在两个地方都住过若干年,从来没听过这种说法。不过我不是本地人,所以可能接触
的语料不全面。 |
|
G***Y 发帖数: 9698 | 42 “中国大妈”跻身去年十大新词
<查看评论>
大洋新闻 时间: 2014-05-30 来源: 广州日报 作者: 白阳、吴晶
据新华社电 (记者白阳、吴晶)教育部、国家语委29日在京发布2013年中国语言
生活状况报告,“中央八项规定”“棱镜门”“H7N9”“土豪”“自贸试验区”“单独
二胎”“中国大妈”“光盘行动”“女汉子”“十面霾伏”等获评年度十大新词语。
据介绍,这十大新词从364条2013年年度新词语中脱颖而出,是国家语言资料监测
与研究中心在125万个文本、12亿字次语料的基础上提取出来的。“这些年度新词语记
录了丰富多彩的2013,从中可以窥见当年社会生活中的重大事件和民众关注的焦点。”
教育部语言文字应用管理司副司长田立新说。
北京语言大学教授杨尔弘认为,这些网络新词满足了一些网友的语言创造欲,体现
了语言的娱乐功能,但其生命力还有待时间检验。
“我们注意到,‘大妈’‘土豪’等一些新词也在海外媒体或口头交际中成为热点
,截至目前,已有245个汉语借词在牛津英语词典中‘安家落户’。”田立新表示,这
些“走出国门”的词语从侧面反映了中外文化交流的状况。
部分年度新词语入选原因
“... 阅读全帖 |
|
p**********n 发帖数: 1470 | 43 做过一点韩非子。
还有先秦和后世语法的不同,譬如宾语前置的比例。先秦很高,后世逐步降低,现代汉
语=0.
这个和这个中文系主任做的有点关系,都是简单的语料统计学。 |
|
b*******n 发帖数: 1267 | 44 [其他] 现代法语演变的特点
法语, 现代, 特点
众所周知,语言是随着社会的发展、变化而不断演变的。自第二次世界大战以来,法国
的社会发生了许多变化,尤其是六、七年代中的许多改变,给法国社会以较大的影响。
许多人,不管他们是否出于自愿,都会尽量使用社会中、下层人民喜爱的“大众语言”
,以示自己的“人民性”。因此,可以说电视、广播和报刊等媒体中使用的语言,是被
大多数民众所接受并广泛使用的语言。这种语言经过20多年的发展,在一定层面上形成
其时代的特质,本文中将其称为“现代法语”,并以近年来媒体中使用的语言为语料,
对其进行研究和总结,试阐述现代法语演变的几个特点。
第一,俗语、口语,甚至粗鲁的语言,不仅在知识界,而且在政界;不仅在日常生
活中,而且在某些正式场合,越来越多见了。近年来,法语口语化在日常交往中和语言
的规范化中十分明显。口语化的书面语代替了一成不变的规范书面语。在实践当中,形
成了人们口头讲的法语和口语化的书面语。这一变化,完全是为了适应变化了的现实生
活和交际的需要。要迅速、生动地通过电视转播刚刚采访到的新闻,则必须用记者录制
或拍摄的消息。这些消息中所用的语言无疑是... 阅读全帖 |
|
g*****0 发帖数: 887 | 45 论坛博客部落问答游戏厅天涯客品牌更多
手机服务登录注册
聚焦民生人文旅游财经汽车IT数码时尚情感娱乐体育图片视频更多 北京上海广东更多
天涯论坛 > 娱乐八卦 [我要发帖]
孙释颜(孙维)的发帖指南以及室友往来电子邮件(转载)
楼主:纯金小马夹 时间:2013-04-20 00:03:00 点击:2341 回复:89
楼主发言:59次 发图:0张 最后更新:2013-04-20 01:01:35
回复 收藏 分享 更多 楼主
孙释颜的发帖指南
回帖纲要:
总纲: 须每天逐渐发贴. 尽量不要互相呼应(例外:以大学同班同学身份的可以适
当呼应)。同时应当尽量回应其他人。建议互相加入一个MSN或其他IM.
1. 大学同班同学:发表对维的了解信任支持言论。(须立刻跟贴。可为新ID, 应
持续发贴)―― 征求他们意见。
2. 高中同学:证实维家庭廉洁 (须立刻跟贴,可为新ID: 徐卫新,王妤),同时证
明其人品和信任。(detail: 维住客厅, 家长和本人都骑车等)
3. 旁观者:分析窃听器。(须立刻跟,可为新ID)
4. 旁观者:分析维要求测谎. (须立刻跟,须为旧ID. Candida... 阅读全帖 |
|
S**W 发帖数: 93 | 46 朱令案是谁们的较量(关注者名单)
(2007-06-28 08:37:42)
转载▼
标签:
朱令
铊
正义
转自 关注朱令
朱令案电子书第一版已隆重推出!!这是一部内容详实,涵盖从13年前朱令铊中毒
到去年为止时间跨度历时一个轮回、其间人物众多、关系交错的精心著作。所有关注朱
令事件的人们都热烈期待电子书最终版早日到来:届时案情真相大白,公之于众,一切
是是非非尘埃落地,凶手得惩,公正得偿。那将会是一部巨著,用正义良善之心谱写的
传世之作!
今版朱令案电子书提取文件链接:http://pickup.mofile.com/0770741343633326
人物姓名表(按电子书文中出现的先后次序排列---包括注释中的人物姓名):
朱令 1973年11月24日当时是清华大学物化92级学生家住北京方庄小区
吴承之 1939年生,朱令父亲上海人中国科技大学地球物理系毕业国家地震局高级工
程师(退休前)
朱明新 1940年生,朱令母亲 吴承之的同班同学中国远洋运输总公司高级工程师(
退休前)
吴今 朱令姐姐 北京大学生物系学生
贝志城 ... 阅读全帖 |
|
S**W 发帖数: 93 | 47 朱令案是谁们的较量(关注者名单)
(2007-06-28 08:37:42)
转载▼
标签:
朱令
铊
正义
转自 关注朱令
朱令案电子书第一版已隆重推出!!这是一部内容详实,涵盖从13年前朱令铊中毒
到去年为止时间跨度历时一个轮回、其间人物众多、关系交错的精心著作。所有关注朱
令事件的人们都热烈期待电子书最终版早日到来:届时案情真相大白,公之于众,一切
是是非非尘埃落地,凶手得惩,公正得偿。那将会是一部巨著,用正义良善之心谱写的
传世之作!
今版朱令案电子书提取文件链接:http://pickup.mofile.com/0770741343633326
人物姓名表(按电子书文中出现的先后次序排列---包括注释中的人物姓名):
朱令 1973年11月24日当时是清华大学物化92级学生家住北京方庄小区
吴承之 1939年生,朱令父亲上海人中国科技大学地球物理系毕业国家地震局高级工
程师(退休前)
朱明新 1940年生,朱令母亲 吴承之的同班同学中国远洋运输总公司高级工程师(
退休前)
吴今 朱令姐姐 北京大学生物系学生
贝志城 ... 阅读全帖 |
|
l*******s 发帖数: 7316 | 48 http://bbs.tianya.cn/post-funinfo-4097427-1.shtml
孙释颜和同学的通信之一
From: "wq" View Contact Details Add Mobile Alert
Subject: Re: I am back and need your contact info
To: "Hanlin Li" , r******[email protected], "Jin Ya" <
j*******[email protected]>, "sun wei"
Date: Mon, 12 Dec 2005 13:35:20 +0800
so glad to hear from u from shanghai.
my cell: 13600072567
PF: 13570066776
contact u later, see u.
On Sat, 10 Dec 2005 18:06:27 -0800 (PST)
Hanlin Li 阅读全帖 |
|
l*******s 发帖数: 7316 | 49 删除了所有email地址和电话号码。希望不再被删贴。
http://bbs.tianya.cn/post-funinfo-4097427-1.shtml
孙释颜和同学的通信之一
From: "wq" View Contact Details Add Mobile Alert
Subject: Re: I am back and need your contact info
To: "Hanlin Li" , rita.gao , "Jin Ya" , "sun wei"
Date: Mon, 12 Dec 2005 13:35:20 +0800
so glad to hear from u from shanghai.
my cell: *****************
PF: *********************
contact u later, see u.
On Sat, 10 Dec 2005 18:06:27 -0800 (PST)
Hanlin Li wrote:
> Dear piglets,
>
> I am back in Chin... 阅读全帖 |
|