由买买提看人间百态

topics

全部话题 - 话题: 分词
首页 上页 1 2 3 4 5 6 7 8 下页 末页 (共8页)
n*****3
发帖数: 1584
1
来自主题: Programming版 - CNN做NLP工程多吗?
中文要分词, 英文要个什么 分词??
h******a
发帖数: 712
2
来源: 洋洋日记 文学城
 
这几天,网上热火朝天地讨论“虎妈”的教育方法问题。开始时,就觉得这“虎妈”的
称呼挺好玩儿的,因为东北话
里,说谁“虎”,就是说那人比较楞比较冲有些傻的意思。简单看了她的教育方法,觉
得这个妈,还真的是有
些“虎”。
不由得回想起自己的成长历程,触动了我那永远的痛!触动了我那一直不是很愿意去碰
的永远的痛!不过,也许
现在写出来,对“妈妈”们,也是个很好的借鉴吧。因为象我这样因为受了不同的教育
方法,有了不同的成长结果的
极端例子是不多的。
我是15岁才和父亲一起生活的。那是那个年代特有的也是常有的现象,父亲大学毕业后
,分配到远离家乡工作,
我和母亲一直在老家生活,直到70年代末期落实知识分子政策解决两地分居问题,我和
母亲才来到父亲的工作
地,一家人一起生活。到父亲那里时,我是上初三的下学期。
从小就经常听到周围人的称赞,最多的就是聪明,直到最近遇到高中的同学说起当年的
印象还是脑袋反应极快,
说话速度极快。我多次想,我算是什么样的孩子呢?不论如何,不是天才,因为真的就
是连自己也没有感到有什
么特殊的才能,也没有感到有什么超人之处。但应该是... 阅读全帖
Q*K
发帖数: 3464
3
2006年6月3-4日,2006中国企业成长论坛暨第六届中国企业“未来之星”颁奖典礼在
西安隆重举行,主题为“自主创新:新兴企业的决胜之道”。新浪财经图文直播此次论
坛,以下为深圳市迅雷网络技术有限公司首席运营官程浩在线访谈:
主持人:程总我们今年也当选为未来之星,迅雷成长也很迅速,我们这次的主题是
自主创新,您是怎么理解创新对企业的重要性的?

嘉业大厦 商务果岭 国兴观湖国际大厦
CMC Markets金融旋风 牛奶日伊利为您送健康

程浩:创新对一个企业很重要,一个企业如果没有创新,技术没有达到质的变化,
没有原理在,在老的基础上,还是那么回事,所以说创新对于一个企业来说是很重要的
。像有的企业有大的专利,是为了防御。迅雷也有很多的专利,这是科技自主创新的最
重要的一点。刚才一位领导讲到,经营类的企业需要创新,对于高科技行业、技术行业
它的创新要求更高,从产品取胜,如果产品不好,做再多宣传,客户一用觉得不好,还
是没有用。我们公司更大的力量放在研发,这是我们的立足之本,从我们的数据统计我
们迅雷是9000万的互联网用户,我们80%都... 阅读全帖
J****e
发帖数: 382
4
来自主题: ChinaNews版 - Google的事,这样反驳美国同事
竞争不过百度,不能怪政策吧。google对中文结构研究太少,分词还是一塌糊涂
强行要求邮件服务商提供私人电邮做证据,美国不也干这事么
r***e
发帖数: 10135
5
来自主题: ChinaNews版 - 英语精确?精确个屁
不是一个难度的
英文拼写纠错也就几万个单词列表吧? 本科生大作业的难度
中文要分词,要做语义分析, NLP博士干的工作
a***n
发帖数: 404
6
来自主题: ChinaNews版 - 英语精确?精确个屁
英文的信息量比汉语小很多,也就是从信息论的角度讲,英语的熵比较小。
举个简单的例子,同样内容的简历,英文的页数往往要比中文多。另外,快速扫描越多
的时候中文也比英文快。还有就是前面有人提到的专业文章中文更加懂,这也是由英文
的熵值较小的特性决定的先天缺陷。
关于entropy的介绍:
http://en.wikipedia.org/wiki/Entropy_(information_theory)
各个语言的entropy统计值可以自行google,可以肯定的是中文比英文先进。
另外,中文最大的确定是方块字,输入不方便,但是实际上现代输入法基本弥补了这一
缺憾。
打个比方,如果你想输入“美索不达米亚”,目前搜狗输入法只要按6个键,即各个字
的拼音的首字母,而英文输入“Mesopotamia”需要11次按键,而且极容易出错。虽然
理论上英文使用者也可以输入较少的几个音节的关键首字母,但是目前貌似没有类似输
入法,所以基本上白搭。
个人观点,在使用者的角度中文目前完胜。但是中文在分析角度非常难,因为涉及太多
的语义级别处理,诸如分词之类(老外用空格分开单词)。但是强大的计算机会使得这些
o***s
发帖数: 42149
7
阿不思是拉丁文中白色的意思,因为邓布利是与黑魔头伏地魔对立的白魔法师。邓布利多根据罗琳自己说是“蜜蜂嗡嗡叫”的意思。珀西瓦尔(Percival)有武士和刺穿帷幕之意。显然,邓布利多是一位与黑暗势力英勇抗争的武士!而“刺穿帷幕”则耐人寻味,因为帷幔在西方文化中是一种象征生死之隔的事物。将生死的界限刺穿,是否意味着邓布利多有凤凰那样的超越生死的本领呢?伍尔弗里克(Wulfric)的意思被那个没有统一的解释。有人分析它是有Wulf(狼)和Ric(力量)两个单词组成。但也有人认为这个单词源自挪威史诗中的英雄Beowulf,他曾经两次战胜过妖怪Grendel,而邓布利多一生中取得的最辉煌的胜利则是在1945年战胜了格林德沃(Grindelwald),有人认为伍尔弗里克这个名字是曾在埃克赛特大学修习古典文学的罗琳女士用挪威史诗来喻指邓布利多在反对黑魔法方面的伟大成就,介意彰显其魔法力量。布赖恩(Brian)来自爱尔兰语,是“力量、美德”的意思,它也被用来之爱尔兰男子。这个单词高度概括了邓布利多“伟大”的两个方面能力与德行,同时也很可能暗示这邓布利多的爱尔兰血统。
赫敏-格兰杰(Hermione G... 阅读全帖
i***s
发帖数: 39120
8
据《扬子晚报》报道,你羡慕那些出口就会吟诗的文人吗?现在可以不用再羡慕他们了!因为有一位理科生“yixuan”闲来无事,把《全宋词》拿出来“捣鼓”,算出了其中的99个高频词汇。熟记这些高频词,你就可以随性所欲进行创作了!你还可以用“无序”的数字来创造一首“美妙绝伦”的宋词,圆周率也可以哦!
频率分析算出宋词高频词
署名为“yixuan”的网友在个人博客里写道:“突然想看看宋词里面什么样的意象是最常见的,比如可以做个频率分析什么的。当然文本挖掘需要分词,我没法在其中花太多时间,于是想出了一个土办法。宋词的句子都很短,如果穷举可能的字的组合的话并不是太多,况且最常见的词语一般是两三个字,这样可能的组合就更少了。”比如“犹解嫁东风”这句话,可能的二字组合是“犹解”“解嫁”“嫁东”“东风”,三字组合是“犹解嫁”“解嫁东”“嫁东风”,词的字数越多,可能的组合就越少。如果把每句话可能的字的组合都列举出来,就可以整体统计频率了。”大家一致分析这位网友一定是个理科生。
随后,“yixuan”贴出了他算出来的高频词,排在前面的分别是:1.14852.东风(1382)3.何处(1230)4.人间(1202... 阅读全帖
i***s
发帖数: 39120
9
驾驶证上的“性别”被翻译成“M&F”。
“出生日期”被译成“Birthday”。
驾驶本上的“性别”被释成英文“M(ale)&F(emale)”;“出生日期”被译成了“Birthday”。昨天,一名在中国领了驾照的加拿大人戴维发现,驾照上有多处英文翻译有误,自嘲被“雌雄同体”。记者随后发现,北京的驾驶证上也存在着同样的错误翻译。截至昨晚截稿时,公安部尚未对此回应。
老外盼6年后“变回男人”
昨天,广州全外教英语口语培训机构“戴伟互动口语”创始人、加拿大人戴伟微博上称,自己的驾照翻译有误。其中,性别栏的英文注释写成“M&F”,即“男和女”,“正确翻译应该是‘M/F’或‘Gender’、‘Sex’。”
此外,驾照上的“出生日期”翻译成了“Birthday”,而Birthday意为生日(每年都有),应该译成Birthdate或DOB(Date of birth)才对。戴伟说,“我希望6年后续期时,能找回我的生日,还变回男人。”
多地驾照存相同错译
深圳之窗总经理、深圳大学传播学院特聘教师陆亚明也提出一处错误,“初次领证日期”的翻译“Issue date”应为“Issued Date”,他认为... 阅读全帖
c***s
发帖数: 70028
10
驾驶证上的“性别”被翻译成“M&F”。新京报记者刘洋摄
“出生日期”被译成“Birthday”。新京报记者刘洋摄
驾驶本上的“性别”被释成英文“M(ale)&F(emale)”;“出生日期”被译成了“Birthday”。昨天,一名在中国领了驾照的加拿大人戴维发现,驾照上有多处英文翻译有误,自嘲被“雌雄同体”。记者随后发现,北京的驾驶证上也存在着同样的错误翻译。截至昨晚截稿时,公安部尚未对此回应。
老外盼6年后“变回男人”
昨天,广州全外教英语口语培训机构“戴伟互动口语”创始人、加拿大人戴伟微博上称,自己的驾照翻译有误。其中,性别栏的英文注释写成“M&F”,即“男和女”,“正确翻译应该是‘M/F’或‘Gender’、‘Sex’。”
此外,驾照上的“出生日期”翻译成了“Birthday”,而Birthday意为生日(每年都有),应该译成Birthdate或DOB(Date of birth)才对。戴伟说,“我希望6年后续期时,能找回我的生日,还变回男人。”
多地驾照存相同错译
深圳之窗总经理、深圳大学传播学院特聘教师陆亚明也提出一处错误,“初次领证日期”的翻译“Issue date”应为“... 阅读全帖
c***s
发帖数: 70028
11
我们在《博客天下》总第100期杂志里,不想给您添点儿什么,反倒想让您失去点儿什么。100位人士应我们要求,从各行各业里探出头,说的是中国社会该被抛弃的100个禁忌——我们觉得最好的社会应该“百无禁忌”。
禁忌与自由通常相对立——尤其是那些不知道怎么就存在的,或者明知道为什么却改变不了的。有些是心理上的阴影,有些是行为上的无力或不自由。总得有人说:打破它们!没准儿您觉得有些禁忌不该打破。这100个人里头也有人这么觉得:禁忌现在是太少了而不是太多了。
不过没关系,您可以选择打破禁忌,也可以选择遵从禁忌。我们更重视的,是您选择权里透露出的自由意味。
01
延参法师
(寺院住持)
自以为是!
(法师言简意赅,问他最希望人们打破的一个禁忌是什么时,他说了这4个字,大家自己领会吧)
02
王卯卯
(兔斯基原创作者)
若不高考也能上大学,那就好了
中国是世界上少有的靠高考来选拔进入大学的国家。不管从主观还是客观来说,短短两天时间就决定一个人一生的行为都太残忍也太扯了。
03
段奕宏
(演员)
要敢于正视自己的缺陷
我现在感觉比较强烈的是:无论是政府还是个人,要正视自己的缺陷,不敢正视自己的缺陷,就没... 阅读全帖
i***s
发帖数: 39120
12
半岛晨报1月3日报道据悉,卫视跨年演唱会收视调查方央视索福瑞要在4天之后才能公布结果,但各家卫视已忍不住抢先公布战绩。昨日,江苏与湖南两家卫视分别从不同角度宣称他们是“第一”。
江苏卫视2013跨年演唱会因集结了张学友、周杰伦、王力宏等清一色一线大牌而获得颇高关注。昨日该卫视对外公布,在CSM44城市收视数据中,他们以2.9%的成绩名列所有跨年演唱会第二位。该卫视还表示,根据各网站点播数据显示,当晚网络点播用户近千万,总浏览量破亿,微信参与量也接近百万,其中热议数据曲线更是在张学友出场后直线飙升,最终遥遥领先其他卫视,登顶网络口碑王座。
湖南卫视昨日对外公布他们“提前”获知索福瑞收视数据,以压倒性的好成绩获得跨年演唱会收视冠军,同时也是同时段收视份额唯一破10的卫视。
在今年的跨年夜,各大电视台可谓使出浑身解数招揽大牌明星,危机子电视台的跨年晚会拉升收拾。不过日前据统计,虽然包括央视在内的几大电视台都邀请到了不少明星,但湖南卫视跨年晚会却是其中收视率最高的,江苏卫视跨年晚会收视率排在第二名,而央视的跨年晚会则被挤到了第三位。
湖南卫视跨年演唱收视率是第二名的近三倍,刘德华跨年时段是全国... 阅读全帖
c***s
发帖数: 70028
13
据悉,卫视跨年演唱会收视调查方央视索福瑞要在4天之后才能公布结果,但各家卫视已忍不住抢先公布战绩。昨日,江苏与湖南两家卫视分别从不同角度宣称他们是“第一”。
江苏卫视2013跨年演唱会因集结了张学友、周杰伦、王力宏等清一色一线大牌而获得颇高关注。昨日该卫视对外公布,在CSM44城市收视数据中,他们以 2.9%的成绩名列所有跨年演唱会第二位。该卫视还表示,根据各网站点播数据显示,当晚网络点播用户近千万,总浏览量破亿,微信参与量也接近百万,其中热议数据曲线更是在张学友出场后直线飙升,最终遥遥领先其他卫视,登顶网络口碑王座。
湖南卫视昨日对外公布他们“提前”获知索福瑞收视数据,以压倒性的好成绩获得跨年演唱会收视冠军,同时也是同时段收视份额唯一破10的卫视。
在今年的跨年夜,各大电视台可谓使出浑身解数招揽大牌明星,危机子电视台的跨年晚会拉升收拾。不过日前据统计,虽然包括央视在内的几大电视台都邀请到了不少明星,但湖南卫视跨年晚会却是其中收视率最高的,江苏卫视跨年晚会收视率排在第二名,而央视的跨年晚会则被挤到了第三位。
湖南卫视跨年演唱收视率是第二名的近三倍,刘德华跨年时段是全国同时段节目中收视率... 阅读全帖
i***s
发帖数: 39120
14
8月22日至26日,济南中级人民法院连续5天公开审理了薄熙来案,薄熙来特殊的身份加之牵扯了薄谷开来杀人案和王立军叛逃事件,使得此案受到海内外媒体及网友的高度关注。
8月26日下午1点31分,山东省济南市中级人民法院官方账号发布微博称,“法庭审理结束。审判长宣布休庭。本案将在合议庭评议后择期宣判。”这意味着“薄熙来案”一审的结束,该案自22日开审至今,已历时6天。负责庭审直播的两大平台—人民微博平台和新浪微博平台及时并全面地公布了庭审记录,网评庭审直播彰显“我国反腐和司法公正再上新台阶”。截至8月26日18:00,人民微博平台@济南中院 共发布薄案相关微博内容151条,新增粉丝51余万,总阅读数达5.2亿,总转发数68045次,总评论数44333条,平均每条微博的阅读数为364万,平均每条微博约带来3377个新粉丝。整体来看,此次通过微博新媒体进行实时播报有效地使案情进展得以传播和推广,同时也得到了网友的广泛关注、支持和肯定,也使人民微博形象和影响力得以提升。截至8月27日24点,新浪微博平台@济南中院 的粉丝已从79145人增长至594417人,平均每条微博约吸引3412.4个新增粉丝... 阅读全帖
o***s
发帖数: 42149
15
8月26日下午1点31分,山东省济南市中级人民法院官方账号发布微博称,“法庭审理结束。审判长宣布休庭。本案将在合议庭评议后择期宣判。”这意味着“薄熙来案”一审的结束,该案自22日开审至今,已历时6天。负责庭审直播的两大平台—人民微博平台和新浪微博平台及时并全面地公布了庭审记录,网评庭审直播彰显“我国反腐和司法公正再上新台阶”。截至8月26日18:00,人民微博平台@济南中院 共发布薄案相关微博内容151条,新增粉丝51余万,总阅读数达5.2亿,总转发数68045次,总评论数44333条,平均每条微博的阅读数为364万,平均每条微博约带来3377个新粉丝。整体来看,此次通过微博新媒体进行实时播报有效地使案情进展得以传播和推广,同时也得到了网友的广泛关注、支持和肯定,也使人民微博形象和影响力得以提升。截至8月27日24点,新浪微博平台@济南中院 的粉丝已从79145人增长至594417人,平均每条微博约吸引3412.4个新增粉丝。庭审5天中,@济南中院 22日发布微博数量最多,约占总发布数的40%,25日发布微博数量最少,约占总发布数的10%。微博发布数量总体呈递减趋势,25日到达低谷,平... 阅读全帖
e****e
发帖数: 975
16
来自主题: History版 - 发现一个有趣的问题
??? eu在法语是“有”的过去分词,跟a有啥关系?
b****s
发帖数: 1300
17
这种语言的进化(退化)很有意思。如果从语音上考虑,是先有诸如already, yet,还
是先有过去式、过去分词,然后觉得发音不够爽,就加了already等词?
如果中文从来没有屈折过,就是说从一开始就认为“已”、“矣”、“然”等字足够表
达已经发生这类概念了。那么在这点上,中文从来都没有演化过?当然除了用字和用词
稍有变化外。
p***q
发帖数: 515
18
来自主题: History版 - 现在感觉汉语还真的不严谨
看来LZ严重脑残,居然不知道任何一种语言都有多义词。查一下英英词典,大部分词都
有多个含义,可以对应中文多个词。可以说中文更严谨。LZ举例的end,就既可以做动
词,又可以做名词,作名词是的含义也很多:对应中文的 末尾、端、尽头、梢、终止
、结局、结果、 目标、 目的、死去 等等。
End
–noun
1. the last part or extremity, lengthwise, of anything that is longer than
it is wide or broad: the end of a street; the end of a rope.
2. a point, line, or limitation that indicates the full extent, degree, etc.
, of something; limit; bounds: kindness without end; to walk from end to end
of a city.
3. a part or place at or adjacent to an extremi
c******g
发帖数: 243
19
来自主题: History版 - 现在感觉汉语还真的不严谨
汉语真的是罪大恶极:没有复数、没有动名词、没有过去分词。更不可容忍的是:汉语
居然使用方块字而不使用字母......
a****t
发帖数: 7049
20
来自主题: History版 - “好”字的造字解释
有若干个常见解释:
“女”的和男“子”在一起,所以就是好
“女”人生“子”,所以就是好
“女”孩“子”,貌美,本来就是好(这是说文解字的说法)
你们信么?呵呵
其实“好”字不用望文生义,“好”有另一个动词读音(hao4),意思是喜欢。现在“
好”(hao3)作为形容词出现频率远高于前者,但早期古文里可是反过来的。于是,甲
骨文里的“女”+“子”是会意“女人喜欢婴儿”这一普世事实。
汉语里有大量的语法相关语音相近的词,比如买/卖,见/现,藏(cang2)/藏(zang4
),聆(ling2)/令(ling4),知/智,导/道,还有许多许多。这并不是巧合,上世
纪一个比较有趣的汉藏语系横向比较指出:上古汉语几乎肯定有形态变化,如同英文,
同一个词根上挂不同的语缀会产生相关含义的同源词,而去声调的来源是一个上古擦音
语缀,语法作用也许就相当于“被动化”。于是卖和被买有关,现和被见有关,藏(
zang4)和被藏(cang2)有关,令和被聆(听)有关,智和被知(晓)有关,道和被(
引)导有关。
进一步,这个现象可以解释古文里的一字多用,这里指既可当动词也可当分词(被动含
义的形容词)的情况,其两... 阅读全帖
l*r
发帖数: 79569
21
来自主题: History版 - 脍炙《通鉴》
赞美
文本分词处理大概run了多久


C#
a*****o
发帖数: 209
22
来自主题: History版 - 脍炙《通鉴》
很有意思的实验。
分析词频的实现楼主可以尝试一下Lucenehttp://lucene.apache.org/core/,非常成熟的开源全文检索系统。它处理文本时建立反向索引,用来进行文本检索的效率远远超过任何基于数据库查询的方法。它建立索引速度也非常快,它的主页上说"over 95GB/hour on modern hardware"。楼主说过通鉴大约两百多万字,那么全文10M左右,在预处理的时候按照章节分割成不同的documents,然后用Lucene建立索引可以说应该是非常迅速的。
在建立的索引基础上,词频分析以及其他更复杂的分析可以一劳永逸地实现,既可以通
过Lucene API(e.g., http://lucene.apache.org/core/old_versioned_docs/versions/3_0_2/api/all/org/apache/lucene/index/TermDocs.html#freq()), 也可以通过一些索引查看工具比如Lukehttp://code.google.com/p/luke/
Lucene可以方便地扩展到处理中文,中科院... 阅读全帖
s*******n
发帖数: 10426
23
来自主题: History版 - 余光中:现代汉语的西化。
一、《余光中:中文的常态与变态》
1
自五四新文化运动以来,七十年间,中文的变化极大。一方面,优秀的作家与学者
笔下的白话文愈写愈成熟,无论表情达意或是分析事理,都能运用自如。另一方面,道
地的中文,包括文言文与民间文学的白话文,和我们的关系日渐生疏,而英文的影响,
无论来自直接的学习或是间接的潜移默化,则日渐显著,因此一般人笔下的白话文,西
化的病态日渐严重。一般人从大众传媒学到的,不仅是流行的观念,还有那些观念赖以
包装的种种说法;有时,那些说法连高明之士也抗拒不了。今日的中文虽因地区不同而
互见差异,但共同的趋势都是繁琐与生硬,例如中文本来是说「因此」,现在不少人却
爱说「基于这个原因」;本来是说「问题很多」,现在不少人却爱说「有很多问题存在
」。对于这种化简为繁、以拙代巧的趋势,有心人如果不及时提出警告,我们的中文势
必越变越差,而地道中文原有的那种美德,那种简洁而又灵活的语文生态,也必将面目
全非。
中文也有生态吗?当然有。措词简洁、句式灵活、声调铿锵,这些都是中文生命的
常态。能顺着这样的生态,就能长保中文的健康。要是处处违拗这样的生态,久而久之
,中文就会... 阅读全帖
k***g
发帖数: 7244
24
来自主题: History版 - 计算模拟历史
以前闲着无聊的时候曾经做过一个《资治通鉴》的字频统计,单以频率计,中国历史不
过是“王”与“人”,“义”与“忠”,“将军”与“刺史”,“长安”与“洛阳”。
既然有了频率,自然也就有了概率和条件概率。根据条件概率,当给出一个序列的字词
后,预测下一个字词是什么,就变成了一个简单的最大似然估计问题。如果觉得这个序
列太长,计算起来太麻烦,可以假设简化的马尔科夫结构,譬如假设下一个词的概率取
决与之前的n个词而不是整个序列,这基本上就是计算语言学里的 n-gram 算法了。
所以我们可以用《资治通鉴》作为语料得出经验条件概率,然后来随机模拟出历史文本
,产生原汁原味(至少是统计意义上的)史书 (技术细节见附录)。 虽然这只是文字
游戏,但是仍然能从概率上看出《资治通鉴》记述的历史中,最容易重现怎样的事件。
譬如下面这则 (random seed = 2000):
撰 刘 崇 俊 以 惟 岳 又 从 入 关 , 宣 等 从 太 子 也 , 惧 履 危 亡 之 事
, 发 步 骑 二 十 骑 自 北 至 北 寺 狱 , 竟 不 使 宗 庙 社 稷 。 宗 元 为
柳 州 司 马 。 坚 大 怒 ... 阅读全帖
d******a
发帖数: 32122
25
来自主题: History版 - 粤语不是汉语方言zz
粤语是汉语族群中的独立语言 (李敬忠 教授)
一、粤语的形成与百越民族的关系
人类社会中的任何一种语言,它的产生和发展,都是同使用它的社会集团的历史形成和
发展过程,息息相关的。粤语也是如此。
粤语被认为是汉语的一种“方言”,它主要集中分布在广东省的中部、西部和南部,广
西壮族自治区的东南部,以及香港和澳门地区,人口大约有5000万。
在粤语区的周围,南边(从雷州半岛至海南岛)讲的是闽语南部方言;西边是壮语;北
边(韶关以北)是理瑶语和壮语(也杂有某些汉语方言);东边从惠州市至汕头市的沿
海地区也是闽语南部方言;东北边(梅县地区)讲客家话。简而言之,粤语区被闽语、
壮语、瑶语和客家话所包围。
那么,在这样众多的语言包围的情况下,粤语究竟是怎样形成和发展的呢?据《治通鉴
》、《中国历史地图集》等大量的史籍记载,现在的粤语区,从周秦以前直至近代,都
是少数民族地区。因此,秦以前,把居住在现今两广地区的少数民族统称之为“蛮夷”
。春秋战国以后,又统称之为“百越”。一百多年前,顾炎武所著的《天下郡国利病书
》 103卷还清楚地记载,现在的广东省境内,东至龙门、博罗、潮州;南至化州、茂名
、电白... 阅读全帖
J********a
发帖数: 5208
26
来自主题: Military版 - 78% 香 港 青 年 拒 用 简 体 字
有个问题,首先声调要标出来,不然很难理解。其次分词是一个大问题,汉语词概念比
较模糊
L*****s
发帖数: 6046
27
来自主题: Military版 - 英语也能算语言?
英语语法简单,除了几百个不规则过去分词要背。
s*****e
发帖数: 16824
28
来自主题: Military版 - 关于百度跟GOOGLE
技术上百度也不见得差,至少百度的中文搜索比google强,而中文搜索是比英文搜索难
的,有分词问题。百度的英文搜索不行,主要是没这个市场,所以根本不会认真去做。
c*****n
发帖数: 1347
29
来自主题: Military版 - 他放了一个屁,平常英文怎么说
这更不对,fung是过去分词,应该是had fung a pee
m****a
发帖数: 4032
30

------------
关键是删了之后部分词还变成了敏感词
b*******8
发帖数: 37364
31
Nathan Hale
General How?
印象深刻,磁带里男音朗读断句成
I only regret
that I have
but one life
to lose
for my country.
此文还学习到Hang做悬挂过去式过去分词为Hung,如果是吊死则是Hanged
y*h
发帖数: 25423
32
来自主题: Military版 - 不要嘲笑老江,完爆版上大多wsn

漏了俄语和西班牙语。
罗马尼亚语是这样的:
羅馬尼亞語(limba romană,國際音標:/'limba ro'mɨnə/)是羅馬
尼亞的官方語言,它和義大利語共屬於羅曼語族的東支。全球羅馬尼亞語的使用人口大
約兩千六百萬,並且大部分集中在歐洲的巴爾幹半島。
目录 [隐藏]
1 歷史
2 字母
3 方言
4 羅馬尼亞語語法
5 参见
6 注释
7 外部連結
7.1 學習羅馬尼亞語
7.2 詞書
7.3 詞典
7.4 其他
[编辑]歷史
居于现罗马尼亚的達基亞人在公元106年时被古罗马人击败,達基亞的一部分成为罗马
帝国行省。古罗马人带去的通俗拉丁语作为行政和商业所用语言,逐渐将达基亚人的原
语言取代,产生原始罗马尼亚语。
[编辑]字母
羅馬尼亞語在1860年–1862年之前,採用西里爾字母,西里爾字母亦為摩爾達維亞人所
用。自1920年後,羅馬尼亞人已全部改用拉丁字母書寫。而現在,拉丁字母為羅馬尼亞
人和多數摩爾多瓦人所用。使用西里爾字母的,主要是住在德涅斯特河左岸的人。
[编辑]方言
巴爾幹半島東羅曼語的分佈
广义的罗马尼亚语有四种方言,
达科-罗... 阅读全帖
d*****u
发帖数: 17243
33
来自主题: Military版 - 两个例子说明英语的落后性
went和go在古代是两个不相干的词
后来语义重叠,went被用作go的过去时了
现在美国口语里常常把go的过去分词也说成went,例如I have went...
当然这个没纳入标准英语
汉语里表示已经完成的动作通常要加“了”
比如“昨天我去北京”在自然语境里就有点别扭
按你的逻辑是不是汉语也罗嗦,非得加个“了”
d****o
发帖数: 32610
34
你不会是机器人吧
分词好像做得还不太好
我说北清藤校,跟后清有半毛钱关系么
i*****s
发帖数: 4596
35
拿ARISE 0
ARISEN 0
ARISES 0
AROSE 0
ARISING 0 做例子
连过去分词和第三人称单数形式都算进去了,其实在词典里只是一个词条而已。
当然像appear和disappear算一个family,不过这样的词本身可以构成其他词,说明比
较基础,这样的词数量并不占主流。
g**1
发帖数: 10330
36
媒体分析薄熙来庭审发言:每4句话约有1个“钱”
字2013年08月29日 10:27
来源:人民网 作者:齐思慧 分享到:16255人参与 74条评论
原标题:薄案庭审的词频与逻辑分析
[导读] 8月22日至26日,济南中级人民法院连续5天公开审理了薄熙来案,薄熙来特殊
的身份加之牵扯了薄谷开来杀人案和王立军叛逃事件,使得此案受到海内外媒体及网友
的高度关注。
8月26日下午1点31分,山东省济南市中级人民法院官方账号发布微博称,“法庭审理结
束。审判长宣布休庭。本案将在合议庭评议后择期宣判。”这意味着“薄熙来案”一审
的结束,该案自22日开审至今,已历时6天。负责庭审直播的两大平台——人民微博平
台和新浪微博平台及时并全面地公布了庭审记录,网评庭审直播彰显“我国反腐和司法
公正再上新台阶”。截至8月26日18:00,人民微博平台@济南中院共发布薄案相关微博
内容151条,新增粉丝51余万,总阅读数达5.2亿,总转发数68045次,总评论数44333条
,平均每条微博的阅读数为364万,平均每条微博约带来3377个新粉丝。整体来看,此
次通过微博新媒体进行实时播报有效地使案情进... 阅读全帖
M******8
发帖数: 10589
37
齐思慧
(注:本表由人民在线技术部提供支持)
[导读] 8月22日至26日,济南中级人民法院连续5天公开审理了薄熙来案,薄熙来
特殊的身份加之牵扯了薄谷开来杀人案和王立军叛逃事件,使得此案受到海内外媒体及
网友的高度关注。
8月26日下午1点31分,山东省济南市中级人民法院官方账号发布微博称,“法庭审
理结束。审判长宣布休庭。本案将在合议庭评议后择期宣判。”这意味着“薄熙来案”
一审的结束,该案自22日开审至今,已历时6天。负责庭审直播的两大平台——人民微
博平台和新浪微博平台及时并全面地公布了庭审记录,网评庭审直播彰显“我国反腐和
司法公正再上新台阶”。截至8月26日18:00,人民微博平台@济南中院 共发布薄案相
关微博内容151条,新增粉丝51余万,总阅读数达5.2亿,总转发数68045次,总评论数
44333条,平均每条微博的阅读数为364万,平均每条微博约带来3377个新粉丝。整体来
看,此次通过微博新媒体进行实时播报有效地使案情进展得以传播和推广,同时也得到
了网友的广泛关注、支持和肯定,也使人民微博形象和影响力得以提升。截至8月27日
24点,新浪微博平台@济南中院 的粉... 阅读全帖
c*****g
发帖数: 21627
38
来自主题: Military版 - 学英语这事,我的看法
学英语这事,我的看法:
从实用角度出发,应该要学,而且人人要学!但是坚决反对把英语的拔高化!
所以我看,既要给大家创造方便的学英语的条件,
更重要的是,降低商业和专业领域的英语的教学成本,
比如搞一些免费在线公开课,
限制“华尔街英语”等垃圾学校的学费,
教育部补贴,把新东方雅思,新东方GRE的课程做成公开课,挂到网上
至于那些什么介词,什么虚拟语气,什么特殊分词,
就相当于英文的“茴”字的4种写法根本没有任何必要学!
高考、大学坚决不能考。
同时,我们要破除英语迷信,比如驱逐洋垃圾外教,取消高考和大学对4、6级的要求
彻底把英语平民化、屌丝化、才是正道。
等到社会最底层的屌丝都会英语的时候,外F的自豪感就抬不起来了
c*****g
发帖数: 21627
39
无知小将,一看就知道你太无知了
知道什么是过去分词吗?就是已经过气了
developed就是之前已经发展,现在想发已经发不起来了
就和男人一样,20岁想挺随便挺,你到80岁还能挺吗?
霉D国,已经彻底疣太空气化+MBA化+阿三化,想让制造业回流,最多造老墨
一个连欠账都不想还,还想把债主杀全家的国家,能让制造业回流就见鬼了
至于什么物流,管理,我看烂成屎了。
天朝主要是资源受限+霉D三四倍的人口+没有海外分基地
就这样,天朝的物流、基建、和生产率都大幅超过霉国
霉国就是皇帝的新装,只有你们无知小将愿意舔霉
n****l
发帖数: 3375
40
来自主题: Military版 - 应该研究下台湾PTT的水军
目前看来PTT对台湾的意识形态影响极大
而PTT本身又是台大运营
有理由相信他们自己在操控舆论
PTT在中文媒体里面实在是不入流
界面垃圾、受众素质低、版规太松充斥着语言暴力、灌水的人太多等等
但是偏偏PTT对于统战台湾来说又是极端重要的
所以有必要搞一个PTT调查统计网站(买买提就有个)
这个统计站的主要功能是:
1.用爬虫记录所有帖子
分析包括删帖、语言暴力、封号、发帖规律等等
着重分析被删帖子,删帖原因
以及连带封号原因,找出其中的审核机制来
对于语言暴力可以用NLP工具包的程序分析
也有一些简单的比如python分词判定
2.对所有的新闻时事帖子归类
ptt现在往往一条新闻会转好多次
归类以后,也可以用程序统计观点
3.对所有主题、回复进行评分
4.对所有的会员评分
发言认真评分高
发水帖、人身攻击的评分低
以上基本都可以用程序自动统计
如果搞个这种统计站点长期运行
应该在台湾那边会有市场的
毕竟PTT太简陋了,没有这方面的功能
t*****g
发帖数: 6101
41
来自主题: Military版 - 乌贼刘真好看
这个词要用到分词的时候不好用
比如说get the phuquing lost,就很奇怪。
g******t
发帖数: 18158
42
汉字都差一点被这些马列主义外发犯给废除了
1951年毛泽东谈汉字改革:必须改革 要走拼音方向
文章摘自《党的文献》2010年第3期 作者:王爱云(中共中央党史研究室副编审) 原
题为《毛泽东与中国共产党领导的文字改革》
中国共产党在革命和社会主义建设过程中,高度重视文字改革问题。毛泽东自青年时代
起,就对文字改革萌生了兴趣并给予持续关注。抗战时期,毛泽东明确提出文字改革的
主张,并对中国共产党人倡导的拉丁化新文字运动给予了大力支持。新中国成立后,毛
泽东对文字改革更是悉心指导,无论是确定文字改革的方向,还是制订文字改革的方案
,毛泽东都倾注了大量心血。全面梳理毛泽东关于文字改革的思想与实践,对于正确评
价毛泽东在文字改革中的作用乃至正确看待中国共产党领导的文字改革,都具有重要的
现实意义。

五四新文化运动时期,毛泽东曾经十分关注文字改革。20世纪二三十年代,他对于新民
主主义文化的认识与当时中国共产党人创立拉丁化新文字的主张有一定程度的契合,所
以毛泽东对拉丁化新文字给予了大力支持,使之得以在根据地试验推广。
(一)关注文字改革
文字改革的思潮,在中国由来已久。五四新文化运动时期,... 阅读全帖
l******t
发帖数: 55733
43
动词系动词分词有些问题 听懂没问题
T****t
发帖数: 11162
44
声讨网络暴民 拒绝黑手诋毁 为张司长伸冤——“透明计算”实验室内部人士发文澄清
事实
2015-01-23
收藏此文
分享到: 0
导读: 大家冤枉张院士的团队了。张院士已过不惑之年,精诚所至,金石为开,独创
性地提出了透明计算理念,并且其团队解决了其在实际应用中的若干重大问题,获得了
许多大型IT公司的支持并开展合作。而鉴于其系统实现可能涉及国家信息产业的安全,
故将其成果较为隐秘地发表在三流刊物与会议。评委会成员通过完整地评审其项目,认
为其项目前景广阔,具备达到国际自然科学一等奖的能力,故授予奖项。
正文:
作为前透明计算实验室的一员,来谈谈自己的想法好了。
首先张尧学的透明计算在我学校是分为几个项目来做的,每个项目有一个小团队。包括
PC、Android手机,平板的透明计算OS,还有基于这个“理念”的移动医疗等应用项目。
这里面PC端的OS就是我所在的小团队弄出来的。
对于大家黑的这些,我的总体看法是:黑的十分正确和漂亮。
其它项目团队怎么弄的我不清楚,PC端基本都是我设计的,实现方案改过几次:
1.最初和Intel一起改PXE(这玩意是啥东西自行谷歌,网吧无盘就用它),想多台... 阅读全帖
c*****g
发帖数: 21627
45
那个老版本完全可以discard了,里面大部分词目前都已经不用了
再加上一些词,比如“潜水”,已经成为BBS通用了
唯一可以用的,是“医院”“医生”“护士”
D*****d
发帖数: 1307
46
要说过去时,分词什么的多少还有点用处
这个绝对是垃圾, 没有任何意义!
e****l
发帖数: 3319
47
英语最大的缺点是那些不规则变化的东西,比如过去时过去分词全部加ed就行了,偏偏
少数逼不这么变。还有比较级最高级加more/most就行了,偏偏音节短的加er和est。纯
粹找抽!
a****l
发帖数: 8211
48
来自主题: Military版 - 当年百度为什么能打败谷歌
谷歌的英文分词就好了吗?经常我搜索什么东西,两个单词分别在不同的地方出现,搜索
出来的东西完全没有意义.
r**********g
发帖数: 22734
49
赵老师,中文这叫分词,不叫断字。哥的系统五六年前拿过评测第一。
v****u
发帖数: 38
50
来自主题: Military版 - 想到一种英文名的创意翻译法
这些名字本身带有很强的时代烙印,本来就不友好。如果一个上海人取名张抗疆跑到新
疆去本来就很弱智。现在时代不同了,融入全球是必须的事情,否则对整个民族没什么
好处。
汉字有很多含义,可以有选择性地取不会造成困扰或者敌对情绪的含义,或者取部分词
根,使含义弱化,但是能让人有那么一个印象记住你。推广好了,这个可以成为华人的
一个特色,让老外知道我们的名字是多么有文化的一件事情。很多老美去中国不是也喜
欢取个中文名字嘛。这对增进交流是好事。
Civil-Revo Ma
Beauty-Resist Zhang
Eastern-Protect Huang
Aid-Aimed Li
Little-Peace Deng
首页 上页 1 2 3 4 5 6 7 8 下页 末页 (共8页)