N***i 发帖数: 4104 | 1 英语算是从分析语往孤立语转化得比较快的了。(现代汉语是孤立语,俄语之类的经典
印欧语是分析语)
起码现代英语不分阴性阳性,没有强迫你把桌子椅子分个男女出来,词语的变格也是印
欧语里面最少的。
估计英语会继续往孤立语方向转变,比方说完成时, have + 过去分词,完全可以简化
为have + 动词原形。可能几十年后的口语就是 i have fuck,she have be fuck等等
。其实就和汉语的“已经”的作用完全一样的 |
|
s*******n 发帖数: 10426 | 2 【 以下文字转载自 History 讨论区 】
发信人: swordsman (真の猛士), 信区: History
标 题: 余光中:现代汉语的西化。
发信站: BBS 未名空间站 (Fri Jun 26 16:42:15 2015, 美东)
一、《余光中:中文的常态与变态》
1
自五四新文化运动以来,七十年间,中文的变化极大。一方面,优秀的作家与学者
笔下的白话文愈写愈成熟,无论表情达意或是分析事理,都能运用自如。另一方面,道
地的中文,包括文言文与民间文学的白话文,和我们的关系日渐生疏,而英文的影响,
无论来自直接的学习或是间接的潜移默化,则日渐显著,因此一般人笔下的白话文,西
化的病态日渐严重。一般人从大众传媒学到的,不仅是流行的观念,还有那些观念赖以
包装的种种说法;有时,那些说法连高明之士也抗拒不了。今日的中文虽因地区不同而
互见差异,但共同的趋势都是繁琐与生硬,例如中文本来是说「因此」,现在不少人却
爱说「基于这个原因」;本来是说「问题很多」,现在不少人却爱说「有很多问题存在
」。对于这种化简为繁、以拙代巧的趋势,有心人如果不及时提出警告,我们的中文势
必越变越... 阅读全帖 |
|
z**********e 发帖数: 22064 | 3 不过,美国的信息学家曾经用中文来举例说明分词正确的必要性。
“我喜欢新西兰花”。
可以理解为“I love New Zealand's flower”,也可以理解为“I like new broccoli
”。
“你的头像牛屄”,也是有两种理解的。 |
|
c**s 发帖数: 114 | 4 是的, 分词 很重要。记得 看到过 不少例子 有关 合同和借款 纠纷的。 |
|
z****e 发帖数: 54598 | 5 应该这么说
中文的维度要超过英文的维度
东亚语言文字,如何分词是个大问题
维度要超过英语许多
所以经过中文训练的大脑
思维会比较活跃
类似的,法语的数词是20进制的
难度要超过其他很多语言
所以法国人数学比较好 |
|
|
D***r 发帖数: 7511 | 7 记得以前说是高考不考,但是有每年两次的标准化考试
学生自己报名去考,录取的时候会参考那个分数
我觉得这样还是比较合理的
学习外语其实可以考察一个人的基本记忆力、毅力和抽象思维能力
以前有些比较笨一点的初中同学就是无法理解复数形式、过去分词这种看似简单的东西
所以英语学到那就完蛋了
过去国内很多单位要求四六级证书是合理的 |
|
S******8 发帖数: 24594 | 8 Charging这里不作动名词,是现代分词短语作伴随状语。 |
|
l*******s 发帖数: 1258 | 9 机器翻译两大难点:
1词义翻译:一个词对应到另一个语言,到底应该翻译成哪个词?语言之间词往往是一
对多
2词序:一个句子或者短语对应到另一个语言,词的顺序应该是怎样的?英语是主谓宾
,土耳其语就成了主宾谓了
其他的还有些小问题,比如词形分析 分词 断句等,都不如这两个重要 |
|
l*******s 发帖数: 1258 | 10 机器翻译两大难点:
1词义翻译:一个词对应到另一个语言,到底应该翻译成哪个词?语言之间词往往是一
对多
2词序:一个句子或者短语对应到另一个语言,词的顺序应该是怎样的?英语是主谓宾
,土耳其语就成了主宾谓了
其他的还有些小问题,比如词形分析 分词 断句等,都不如这两个重要 |
|
j**u 发帖数: 1325 | 11 1、汉语加了所有动词都一样。英文动词过去式,过去分词尼玛变来变去让人蛋疼。
2、中文不只有古诗词,现代流行词汇层出不穷。尼玛英文没有过去。 |
|
|
|
a***m 发帖数: 5037 | 14 貌似这里 "opposed to sth" 是过去分词短语 做定语
或者 opposed 是形容词 |
|
c******g 发帖数: 4889 | 15 这里的分词opposed是归属动词(attributive verb),引导的并不是丛句,而是作为定
语修饰前面的those。 |
|
b******t 发帖数: 1271 | 16 uncharting 这个分词是违反语法的。你可能真的听错了。 |
|
n****t 发帖数: 729 | 17 A well regulated Militia being necessary to the security of a free State是一
个现在分词的独立主格结构。A well regulated militia是这个主格结构里的主语。 |
|
g**1 发帖数: 10330 | 18 “微软MVP”说法遭质疑
昨日,新京报记者独家获悉,陈本峰在微软的英文名为Benjiamin Chen,2006年至2012
年在微软工作的经历属实,但和此前官网宣传相比,也属于夸大了在微软的经历。和此
前所宣传的IE核心研发工程师相比,陈本峰在微软期间主要是测试工程师,大部分项目
经历为基础岗位工作。
此前,在红芯官网陈本峰的介绍中写道:担任IE浏览器核心研发工程师,参与开发了
IE8、IE9、IE10浏览器。由于工作出色,陈本峰获得了微软产品技术最杰出贡献奖。介
绍中还称,全球知名404页面也由陈本峰开发。
新京报记者追溯他的职业经历独家获悉,他在微软时确实参与了IE浏览器的相关工作,
但主要是承担基础测试工作(TESTER)、IE多语言界面的开发,并非核心研发工程师。
一位内部人士告诉新京报记者,“陈本峰的工作属于测试工程师,是基础岗位,并不是
核心研发人员,也没有看到他曾经参与过微软H5相关的工作。”
在云适配此前的官网中,陈本峰还被形容为IE404页面的缔造者,“微软省了2.97亿”
,还陆续获得微软最有价值荣誉专家(MVP)、微软最佳产品贡献奖等等。
昨日,新京报记者通过微... 阅读全帖 |
|
w********9 发帖数: 8613 | 19 有个土耳其人说他听不懂维吾尔人的话,虽然他能听出来大部分词。 |
|
|
l*******g 发帖数: 28502 | 21 【 以下文字转载自 NorthEast 讨论区 】
发信人: zhongdianshi (brb), 信区: NorthEast
标 题: 网友算出99个宋词常用语 密码在手三秒作诗赋词 (转载)
发信站: BBS 未名空间站 (Sat Dec 3 18:14:14 2011, 美东)
发信人: inews (inews), 信区: Headline
标 题: 网友算出99个宋词常用语 密码在手三秒作诗赋词
发信站: BBS 未名空间站 (Thu Dec 1 19:38:01 2011, 美东)
据《扬子晚报》报道,你羡慕那些出口就会吟诗的文人吗?现在可以不用再羡慕他们了!因为有一位理科生“yixuan”闲来无事,把《全宋词》拿出来“捣鼓”,算出了其中的99个高频词汇。熟记这些高频词,你就可以随性所欲进行创作了!你还可以用“无序”的数字来创造一首“美妙绝伦”的宋词,圆周率也可以哦!
频率分析算出宋词高频词
署名为“yixuan”的网友在个人博客里写道:“突然想看看宋词里面什么样的意象是最常见的,比如可以做个频率分析什么的。当然文本挖掘需要分词,我没法在其中花太多时间,于是想出了... 阅读全帖 |
|
N******n 发帖数: 3003 | 22 good!
了!因为有一位理科生“yixuan”闲来无事,把《全宋词》拿出来“捣鼓”,算出了其
中的99个高频词汇。熟记这些高频词,你就可以随性所欲进行创作了!你还可以用“无
序”的数字来创造一首“美妙绝伦”的宋词,圆周率也可以哦!
最常见的,比如可以做个频率分析什么的。当然文本挖掘需要分词,我没法在其中花太
多时间,于是想出了一个土办法。宋词的句子都很短,如果穷举可能的字的组合的话并
不是太多,况且最常见的词语一般是两三个字,这样可能的组合就更少了。”比如“犹
解嫁东风”这句话,可能的二字组合是“犹解”“解嫁”“嫁东”“东风”,三字组合
是“犹解嫁”“解嫁东”“嫁东风”,词的字数越多,可能的组合就越少。如果把每句
话可能的字的组合都列举出来,就可以整体统计频�: 柿恕!贝蠹乙恢路治稣馕
煌岩欢ㄊ歉隼砜粕�
1382)3.何处(1230)4.人间(1202)5、风流(857)6、归去(812)7.春风(802)8.西风(779)9
.归来(771)10.江南(765)……至于为什么第一名是数字,他解释:“排在第一的是无效
字符,这跟数据源有关。”这个结果一... 阅读全帖 |
|
p***o 发帖数: 109 | 23 赞!
了!因为有一位理科生“yixuan”闲来无事,把《全宋词》拿出来“捣鼓”,算出了其
中的99个高频词汇。熟记这些高频词,你就可以随性所欲进行创作了!你还可以用“无
序”的数字来创造一首“美妙绝伦”的宋词,圆周率也可以哦!
最常见的,比如可以做个频率分析什么的。当然文本挖掘需要分词,我没法在其中花太
多时间,于是想出了一个土办法。宋词的句子都很短,如果穷举可能的字的组合的话并
不是太多,况且最常见的词语一般是两三个字,这样可能的组合就更少了。”比如“犹
解嫁东风”这句话,可能的二字组合是“犹解”“解嫁”“嫁东”“东风”,三字组合
是“犹解嫁”“解嫁东”“嫁东风”,词的字数越多,可能的组合就越少。如果把每句
话可能的字的组合都列举出来,就可以整体统计频�: 柿恕!贝蠹乙恢路治稣馕
煌岩欢ㄊ歉隼砜粕�
1382)3.何处(1230)4.人间(1202)5、风流(857)6、归去(812)7.春风(802)8.西风(779)9
.归来(771)10.江南(765)……至于为什么第一名是数字,他解释:“排在第一的是无效
字符,这跟数据源有关。”这个结果一出来,... 阅读全帖 |
|
K****n 发帖数: 5970 | 24 嗯,当时想了想是用分词还是和前边的动词保持一致
我知道你英文差 |
|
T*********I 发帖数: 10729 | 25 闲话德国:绿党的性别政治正确
(德国之声中文网)上周,德国绿党党代会上通过的一项决议令人大跌眼镜。原来,
该党认为迄今德语中的性别区分只考虑到男性和女性,对其他六种性别或性取向者(同
性、双性、变性等)造成歧视,于是通过决议,今后在绿党内部文件中使用"性别星号"
。该决议引起网友的热议和嘲笑,而决定为此辩护的绿党政治家在公共媒体上使用这一
星号,因此这一标志已经超出内部文件的范畴。
德国人讲究政治正确是出了名的,在性别问题上也不例外。总理默克尔在新年致辞的时
候要说:"亲爱的女公民、男公民";社民党主席加布里尔在党代会上的讲话要以"亲爱
的女同事、男同事"开头。假如我们台长在员工大会上笼统地说"亲爱的同事们",那么
妇女代表马上会提抗议,敏感一些的女同事也可能愤然离席。不过,这样的事情不大可
能发生,因为德国的上司们已经将体现男女平等的称呼融入了血液里。
语不惊人死不休
这是口头的功夫。那么落实到书面上呢?每次都男女有别地称呼不是很花时间吗?为男
女平等最为呕心沥血的绿党因此而绞尽了脑汁。以大学生(Student)这个词为例。如
果把政治正确的讲话方式"Studentinnen und... 阅读全帖 |
|
d********8 发帖数: 1134 | 26 法国为何不学都德的《最后一课》
中国人都熟悉法国作家都德的《最后一课》,但是想不到的是,在而今的法国并不像中
国等国那样学习这篇课文,而文中描述的被德国侵占的法国领土最初就属于德国而不是
法国,当地居民本来就说德语而不是法语,甚至包括剧中主人公小弗朗士或许都是如此
。
近日,北京举办国际服饰博览会,有机会接触了法国华裔服装设计师王彦霖和其他
法国设计师。王彦霖是迪奥和让·保罗·戈蒂埃这两大法国时尚品牌空前的唯一一名中
国设计师,她创造的服装品牌AVENUE 2907引起广泛关注。王彦霖认为她的中国心和初
中学习都德《最后一课》受到的影响有关,她也因此对法国有些好感。谈起中法两国交
流,让王彦霖惊讶的是,而今法国中学并没有设置都德的《最后一课》,甚至许多法国
人也不知道都德是何人。
1870年,普法战争中法国失败,赔款25亿法郎,并割让阿尔萨斯和洛林。都
德参战,痛心法国的惨败,1873年创作了《最后一课》。
课文里说,小弗朗士逃学到野外游玩。"天气那么暖和,那么晴朗!画眉在树林边
婉转地唱歌,剧木厂后边草地上普鲁士士兵正在操练。这些景象,比分词用法有趣多了
。"小弗朗士后悔没有好好学习... 阅读全帖 |
|
c**s 发帖数: 114 | 27 【 以下文字转载自 Programming 讨论区 】
发信人: cuns (cuns until no slave), 信区: Programming
标 题: 倡议使用 半空格 为分隔符 做为 中文的书写方式。
发信站: BBS 未名空间站 (Wed Aug 5 11:14:38 2015, 美东)
整理了一下 主要是我发的 关于 使用半空格为分词符的 书写方式的 倡议。
原帖在 http://www.mitbbs.com/article_t1/Military/44188847_0_1.html。
没多少人 响应,故 发到本版 以供大家 探讨!
个人认为 这是一个 有意思的 可以展开研究的 课题。 谢谢! |
|
i****x 发帖数: 17565 | 28 看来你其实不知道被动分词的用法。I am heart broken的实际意义是my heart is
broken. It is heart broken唯一的解释是its heart is broken. 所以,除非你自称
it,就没有这个用法。
这事令人心碎的正确说法是it is heart breaking. 意思是it will break someone's
heart.
估计你还是不信,那请你google一下it is heart broken看看。首先google会提示:你
是不是想要搜索it is heart breaking. 结果里唯一的it is heart broken的用法是it
指代一个家庭或者国家很心碎。 |
|
c**s 发帖数: 114 | 29 【 以下文字转载自 Programming 讨论区 】
发信人: cuns (cuns until no slave), 信区: Programming
标 题: 倡议使用 半空格 为分隔符 做为 中文的书写方式。
发信站: BBS 未名空间站 (Wed Aug 5 11:14:38 2015, 美东)
整理了一下 主要是我发的 关于 使用半空格为分词符的 书写方式的 倡议。
原帖在 http://www.mitbbs.com/article_t1/Military/44188847_0_1.html。
没多少人 响应,故 发到本版 以供大家 探讨!
个人认为 这是一个 有意思的 可以展开研究的 课题。 谢谢! |
|
a***g 发帖数: 2761 | 30 现在分词软件很普及了
如果原封不动的句子很容易找出来吧
又不是多大计算量的东西 |
|
Y**********7 发帖数: 86 | 31 与高妹探讨一下连字号的问题。
一般情况下,副词 + 分词当成一个形容词时,需要连字号,比如:well-educated
但是当副词比较长的时候,比如:continuously-earned,好多老美就不加连字号了。
高妹的高见?(低见亦可! Hahaha) |
|
s**n 发帖数: 6126 | 32 薯条妈之前介绍过一款墨西哥风味的美食quesadilla,反响还不错。不过有朋友问啦,
买了一大包tortilla面饼,除了做这个还能怎么用呢?所以今天就再给大家介绍一款薯
条妈非常喜爱的墨西哥美食:enchilada。
enchilada最初是墨西哥的一种街边小吃,是用玉米面饼(corn tortilla)沾着辣椒酱
(chili sauce)直接食用的。在西班牙语里面,“enchilada”是“enchilar”的过去
分词,而enchilar的字面意思,就是“用辣椒调味”,真是非常贴切简朴的名字~
不过今天我们在墨西哥餐厅里面能享用到的enchilada,跟最初的街边小食相比,有了
很大的变化。一般都是裹了各种肉类,豆子或者海鲜的面饼,撒上酱汁和奶酪烤焙而成
的。制作工序复杂了很多,味道自然也大大提升了!因为酱料选取的不同,enchilada
又可以有十几个不同的名称,最常见的当然是用各种辣椒(chili)制成的酱汁做成的
。不过薯条妈今天要介绍的这款,是用番茄作为主角,辣椒作为配角来制作酱料的。酸
甜微辣,非常好吃,薯条同学狼吞虎咽地吃掉了一整条,话都顾不上说一句。吃完了才
带... 阅读全帖 |
|
m*******y 发帖数: 68 | 33 这是一个很实际的中文分词问题啊,应该可以毕业几个PhD吧,呵呵。
经典的带歧义的例子:
南京市长江大桥
典中 |
|
l*******0 发帖数: 176 | 34 一轮店面:
1. how to efficiently get all the email address from a page
2. normalized directory without using stack
/a/b/c/.././ -> /a/b
onsite 四轮
1. 国人大哥
a. 怎么实现相关搜索,例如,我搜索 Bush, 相关搜索应该会显示president,
bill clinton等等.
b. 一个fair的coin怎么产生unfair的head/tail 分布
c. 生男生女的概率经典问题.
2. 东欧人
a. process和thread区别
b. 什么是critical section. 什么是mutex,和semaphore的区别。如何设计一个
lock。
c. 怎么判断操作系统的stack的地址是递增还是递减的。
d. coding: Binary tree的width.(经典题)
3.
a. 两个n-ary tree. 找到相同的最大子树(经典题)
b. 增强版本: 如果当前leve... 阅读全帖 |
|
H***e 发帖数: 476 | 35 这题是经典题么?怎么解的?
b. 字符串分词,一列单词之间没有空格,怎么样划分(经典题)
e.g. bedbathandbeyond -> bed bath and beyond
扩展问题是 对于上面例子如何保证得到的是bed bath and beyond 而不是bed
bat hand beyond? |
|
|
|
r*******n 发帖数: 266 | 38 来自主题: JobHunting版 - 发个面经吧 基本情况: 现在在瑞士读博, 夏天毕业, machine learning方向偏理论. 去年夏天在SF
开会请google的人内推了一下
签了协议不方便透露题目, 但是我遇到的问题都不复杂, 每轮45分钟大概留出15分钟
open ended discussion
所有的白板代码都是用python写的, 特别推荐python, 比c++强太多了, 没有explicit
类型和declaration, 不用写到一半涂涂改改
大体的感觉就是重在思维过程, 一定要边讲边写, 能在白板上快速的画出图来更好
心态放松, 如果能找到conference poster session的感觉最好. Interviewer全部都是
phd, 所以正常学术讨论的方式就可以了
跟第一个reviewer讨论了半天experts exchange的分词问题...
如果一个问题你不记得标准做法了, 开动脑筋从头分析就是 |
|
H**********y 发帖数: 7928 | 39 来自主题: JobHunting版 - 发个面经吧 wow
可以用python的啊, 赞
基本情况: 现在在瑞士读博, 夏天毕业, machine learning方向偏理论. 去年夏天在SF
开会请google的人内推了一下
签了协议不方便透露题目, 但是我遇到的问题都不复杂, 每轮45分钟大概留出15分钟
open ended discussion
所有的白板代码都是用python写的, 特别推荐python, 比c++强太多了, 没有explicit
类型和declaration, 不用写到一半涂涂改改
大体的感觉就是重在思维过程, 一定要边讲边写, 能在白板上快速的画出图来更好
心态放松, 如果能找到conference poster session的感觉最好. Interviewer全部都是
phd, 所以正常学术讨论的方式就可以了
跟第一个reviewer讨论了半天experts exchange的分词问题...
如果一个问题你不记得标准做法了, 开动脑筋从头分析就是 |
|
s*****n 发帖数: 5488 | 40 尼玛这题是靠编程还是算法啊。什么叫做合法的句子。从分词到语法正确到语义?
我觉得烙印蒙掉很正常,及时他写了很多程序。
的。 |
|
s*****n 发帖数: 5488 | 41 尼玛这题是靠编程还是算法啊。什么叫做合法的句子。从分词到语法正确到语义?
我觉得烙印蒙掉很正常,及时他写了很多程序。
的。 |
|
|
K*****k 发帖数: 430 | 43 我自己后来想了下,应该和二爷的思路大体一致,只不过二爷好像是从尾部倒着来,我
的是从头部顺着来。
二爷能否看看对不对。
假如char str[0 .. n - 1]是输入字符串
定义int dp[0 .. n - 1],全部初始化为0
dp[j]表示str[0 .. j]的最小的划分词数,先计算出dp[0]来
求dp[j + 1], 就是
1) 如果str[0 .. j + 1]在字典中,直接设dp[j + 1] = 1
2) 遍历1 <= k <= j + 1, 如果str[k .. j + 1]在字典中且dp[k - 1]大于0,把最小的
那个dp[k - 1]加上1放到dp[j + 1]中
最后的结果就是返回dp[n - 1], 如果值为0表示无法分词。 |
|
l*******g 发帖数: 82 | 44 第一题,suffixtree的话要看如何分词了。而且,suffixtree主要是搜索和搜索的精确
度有帮助,如果已经有neg词典的话就map就好了,然后先确定nag词,然后左右察看临
近词,比如is, not, yet, but之类的。这个感觉更像是machine learning sentiment
analysis。
第二题,那个数学的做法,那位再受累解释一下。没太明白。
第三题我觉得可以用conqure merge的做法,一般题目说有一个大数组,大文件,潜台
词就是最好提供一个可以parallel的处理方式,而且不要试图用用memory来存储太多东
西。
前些天面的EBay, onsite。 |
|
l*******g 发帖数: 82 | 45 第一题,suffixtree的话要看如何分词了。而且,suffixtree主要是搜索和搜索的精确
度有帮助,如果已经有neg词典的话就map就好了,然后先确定nag词,然后左右察看临
近词,比如is, not, yet, but之类的。这个感觉更像是machine learning sentiment
analysis。
第二题,那个数学的做法,那位再受累解释一下。没太明白。
第三题我觉得可以用conqure merge的做法,一般题目说有一个大数组,大文件,潜台
词就是最好提供一个可以parallel的处理方式,而且不要试图用用memory来存储太多东
西。
前些天面的EBay, onsite。 |
|
|
h*******e 发帖数: 1377 | 47 说baidu 的中文搜索,分词技术就比google 好很多。 |
|
t*****n 发帖数: 1589 | 48 但问题是除了国内,没人用百度搜索啊。
你指的分词技术是什么,我看即便是中文搜索,Google也强太多了 |
|
h*******e 发帖数: 1377 | 49 现在google 中文的分词技术我不大了解,我只知道04-09年左右号称5000年
耐心的google 在进入中国5年后,中国市场占有率不高,然后职责蓝翔技校,公司退
出大陆,几个分部解散,研发人员要么大白天都去看电影了,还有的辗转来了美国。 |
|
h*******e 发帖数: 1377 | 50 我只能说中文分词这部分,至于中文搜索的总体比较。还是请其在百度和google中国两
家公司工作过的大牛来说说。 |
|