d********l 发帖数: 161 | 1 查询处理以及分词技术
随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作
为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为普通网民
,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为技术人员,会把
有代表性的搜索引擎作为研究对象. 搜索引擎经济的崛起,又一次向人们证明了网络所
蕴藏的巨大商机。网络离开了搜索将只剩下空洞杂乱的数据,以及大量等待去费力挖掘
的金矿。
但是,如何设计一个高效的搜索引擎?我们可以以百度所采取的技术手段来探讨如何设计
一个实用的搜索引擎.搜索引擎涉及到许多技术点,比如查询处理,排序算法,页面抓取算
法,CACHE机制,ANTI-SPAM等等.这些技术细节,作为商业公司的搜索引擎服务提供商比如
百度,GOOGLE等是不会公之于众的.我们可以将现有的搜索引擎看作一个黑盒,通过向黑
盒提交输入,判断黑盒返回的输出大致判断黑盒里面不为人知的技术细节.
查询处理与分词是一个中文搜索引擎必不可少的工作,而百度作为一个典型的中文搜索
引擎一直强调其”中文处理”方面具有其它搜索引擎所不具有的关键技术和优势.那么
我们就来 |
|
|
t******n 发帖数: 2939 | 3 ☆─────────────────────────────────────☆
StephenKing (金博士) 于 (Sat Mar 2 12:14:26 2013, 美东) 提到:
没错,我是持枪者。
我来美国没多久,就有了绿卡,买了枪,办了CCW。
我为什么持枪,却反对拥枪?从宪法谈起。
宪法第二修正案原文以及翻译
A well regulated Militia being necessary to the security of a free State
, the right of the people to keep and bear Arms shall not be infringed.
纪律严明的民兵是保障自由州的安全所必需的,人民持有和携带武器的权利不可侵
犯。
中文文法和语感都不错的朋友,注意到中文翻译缺了点什么吗?
英文文法和语感都不错的朋友,注意到英文中的第一个从句了吗?
考一考你们的初中英文了:这是什么从句?
没错,这是条件状语从句。
那么,上面的中文翻译,有一个小小的问题。正确的翻译是:
____因为____纪律严明的民兵是... 阅读全帖 |
|
o****y 发帖数: 26355 | 4 下面是当年的英语高考试题,大家可以试试啊。
1977年英语高考试题及题解(北京市)答题时间: 00:00
开始记时
准
考
证
号
码
份
证
号
码
名
一、写出下列单词的变化形式(每空1分)
1.hero (名词复数)
2.enemy (名词复数)
3.railway (名词复数)
4.life (名词复数)
5.sheep (名词复数)
6.woman (名词复数)
7.stop (过去式) (过去分词) (现在分词)
8.die (过去式) (过去分词) (现在分词)
9.hurry (过去式) (过去分词) (现在分词)
10.rise (过去式) (过去分词) (现在分词)
11.win (过去式) (过去分词) (现在分词)
12.catch (过去式) (过去分词) (现在分词)
二、用英语回答下列问题(每题2分)
1.Are you a student?
2.How many people are there in your family?
3.Where were you born?
4.How old were you when you started to go... 阅读全帖 |
|
r*****2 发帖数: 3513 | 5 英语对很多人,就是天书,能得40分就很牛逼了
1977年的高考英语试卷
一、写出下列单词的变化形式(每空1分)
1.hero (名词复数)
2.enemy (名词复数)
3.railway (名词复数)
4.life (名词复数)
5.sheep (名词复数)
6.woman (名词复数)
7.stop (过去式) (过去分词) (现在分词)
8.die (过去式) (过去分词) (现在分词)
9.hurry (过去式) (过去分词) (现在分词)
10.rise (过去式) (过去分词) (现在分词)
11.win (过去式) (过去分词) (现在分词)
12.catch (过去式) (过去分词) (现在分词)
二、用英语回答下列问题(每题2分)
1.Are you a student?
2.How many people are there in your family?
3.Where were you born?
4.How old were you when you started to go to school?
5.How long have you been study... 阅读全帖 |
|
r*****2 发帖数: 3513 | 6 1977年的高考英语试卷
一、写出下列单词的变化形式(每空1分)
1.hero (名词复数)
2.enemy (名词复数)
3.railway (名词复数)
4.life (名词复数)
5.sheep (名词复数)
6.woman (名词复数)
7.stop (过去式) (过去分词) (现在分词)
8.die (过去式) (过去分词) (现在分词)
9.hurry (过去式) (过去分词) (现在分词)
10.rise (过去式) (过去分词) (现在分词)
11.win (过去式) (过去分词) (现在分词)
12.catch (过去式) (过去分词) (现在分词)
二、用英语回答下列问题(每题2分)
1.Are you a student?
2.How many people are there in your family?
3.Where were you born?
4.How old were you when you started to go to school?
5.How long have you been studying English?
6.You like... 阅读全帖 |
|
b****a 发帖数: 4465 | 7 一、写出下列单词的变化形式(每空1分)
1.hero (名词复数)
2.enemy (名词复数)
3.railway (名词复数)
4.life (名词复数)
5.sheep (名词复数)
6.woman (名词复数)
7.stop (过去式) (过去分词) (现在分词)
8.die (过去式) (过去分词) (现在分词)
9.hurry (过去式) (过去分词) (现在分词)
10.rise (过去式) (过去分词) (现在分词)
11.win (过去式) (过去分词) (现在分词)
12.catch (过去式) (过去分词) (现在分词)
二、用英语回答下列问题(每题2分)
1.Are you a student?
2.How many people are there in your family?
3.Where were you born?
4.How old were you when you started to go to school?
5.How long have you been studying English?
6.You like to study Eng... 阅读全帖 |
|
g***u 发帖数: 5413 | 8 【 以下文字转载自 Joke 讨论区 】
发信人: wewii (wewii), 信区: Joke
标 题: 高考1977试卷
发信站: BBS 未名空间站 (Thu Apr 23 09:29:14 2009)
1977年的高考英语试卷
一、写出下列单词的变化形式(每空1分)
1.hero (名词复数)
2.enemy (名词复数)
3.railway (名词复数)
4.life (名词复数)
5.sheep (名词复数)
6.woman (名词复数)
7.stop (过去式) (过去分词) (现在分词)
8.die (过去式) (过去分词) (现在分词)
9.hurry (过去式) (过去分词) (现在分词)
10.rise (过去式) (过去分词) (现在分词)
11.win (过去式) (过去分词) (现在分词)
12.catch (过去式) (过去分词) (现在分词)
二、用英语回答下列问题(每题2分)
1.Are you a student?
2.How many people are there in your family?
3.Where were you born? |
|
I*******g 发帖数: 7600 | 9 【 以下文字转载自 Military 讨论区 】
发信人: root002 (root), 信区: Military
标 题: 77年考大学的英语试卷的汉译英,索南也不见得行
发信站: BBS 未名空间站 (Tue Jun 7 16:16:15 2016, 美东)
1977年的高考英语试卷
一、写出下列单词的变化形式(每空1分)
1.hero (名词复数)
2.enemy (名词复数)
3.railway (名词复数)
4.life (名词复数)
5.sheep (名词复数)
6.woman (名词复数)
7.stop (过去式) (过去分词) (现在分词)
8.die (过去式) (过去分词) (现在分词)
9.hurry (过去式) (过去分词) (现在分词)
10.rise (过去式) (过去分词) (现在分词)
11.win (过去式) (过去分词) (现在分词)
12.catch (过去式) (过去分词) (现在分词)
二、用英语回答下列问题(每题2分)
1.Are you a student?
2.How many people are there in your fa... 阅读全帖 |
|
c**s 发帖数: 114 | 10 是啊,更适合 知识的传播与普及 应当使用 尽可能少的 会产生歧义的句子 或者 需要
更少 先验知识的 句子。 因为 每个人都有 不同的 先验知识。过度借助于 先验知识
和上下文 用于 阅读过程中的 分词,实在是没有必要的 要经过大脑处理的 多余过程
。我们的 口语的表达 其实 已经包含了 分词的结构。但是 书写下来 将它 完全 丢弃
了。
文字的目的 就是为了 与大众 阅读和交流,书写的人 应当更注重和希望 所写的 被阅
读者 易于完全理解 其文字表达的意图,而不是 自己 写作 自由发挥,忽略 有可能的
误解;缺少 相关先验知识的人 亦可以 检索这些分词 或 寻求别人的帮助,而不会
用错 词的分隔。 因为 当他 阅读 无法理解的 句子 时,他 仍然 可以 复述 出来 与
人 交流。要知道 我们的常用字 就六千多个,多字词 需要 分词 才能 理解清楚。
且不说 使用 分词 的 智能 输入法 可能 更快捷,即便 手写 被认为 有点 麻烦,考
虑到 它 给 绝大多数 阅读者(习惯以后)带来的 益处, 个人 认为 仍是 值得的。
我认为 如果 使用 半空格 分词,它 会比 英文 能更好地 表达... 阅读全帖 |
|
m*****8 发帖数: 4059 | 11 http://www.jydoc.com/article/553088.html
学前部幼教调研“尝试学字法”——交流心得
时间:2007年04月23日 作者:0102028/陆桂娇 点击:52次
学前部幼教调研“尝试学字法”——交流心得
陆桂娇
今天,在开心中完成了最后一次的学前部幼教调研——“尝试学字法”调研。这
一次的调研由徐阿娜老师和黄丽坤老师负责,由黄丽坤老师主讲。感谢两位老师的精心
准备及讲解。在学习后,我对“尝试学字法”有了了解:
1、佩服石皇冠老师:
年轻:1973年出生,15年教育生涯
有为:
★为了当一名合格的小学语文老师,石皇冠老师认真练习硬笔书法,获得中国教
育学会书法教育专业委员会颁发的小学书法教师资历合格证,参加包头市中学语文老师
粉笔字比赛荣获一等奖。
★设计了黄金练字法,包括黄金练字板和黄金练字帖,准备申请专利。
★为了当一名合格的小学语文老师,师范学校读书时并没有学好普通话且工作在
方言区的石皇冠老师自费购买播音员朗诵CD跟着朗诵学普通话,在电脑写文章时坚持用
微软拼... 阅读全帖 |
|
n********n 发帖数: 8336 | 12 8。2。2 希腊文(Greek)
希腊文是一种很美丽、丰富多采和和谐的语言,非常适合作为表达宗教哲学思想的工具
。有人这样比较希伯来文和希腊文:“闪族人的语言像一座石矿场,里头的巨石被希腊
人琢磨成一尊尊塑像。”希伯来人给我们宗教、希腊人给我们哲学和诗歌。
希腊文有二十四个字母。它是一种强烈的合成语言,这也是为什么一般人觉得这种语言
难学的原因。因为现代的英文(中文更甚)构造和希腊文截然不同。
希腊文的词汇非常丰富。希伯来文的词语不多,约少于一万;而希腊文则有二十万之多
。譬如,“爱”就用了agape(上帝的爱),philia(友爱),storge(家庭间的爱),eros(
情爱)。英文的another(另一个)就用了allos(another of the same sort)和 heteros(
another of the different sort)。约十四:15 “父就另外赐给你们一位保惠师。。
”这一位保惠师是allos,是另一位像他一样的。还有,“new”(新)有时间上的“新”
(neos)和品质上的“新”(kainos)。弗四:24“并且穿上新人”用的是kai... 阅读全帖 |
|
a*****c 发帖数: 2086 | 13 有些人啊,没有真正的去做过一个project,没有深入去参与其中的开发,就在那里想
当然的发表评论。真正做下去了才知道会碰到多少问题需要去考虑去解决的。一个短时
间内承受巨大交易量,要做到不能当机,让用户不感到速度变慢,购物历史和更新记录
不能冲突,背后采用怎样技术才能支撑,我还是贴个淘宝技术的科普吧。
【编者按】对于淘宝网而言,2012年的“双十一”是一个交易里程碑,是一个购物狂欢
日,在这个“神棍节”里,淘宝创下191亿元的交易额,在交易的背后隐藏着哪些复杂
技术?
你发现快要过年了,于是想给你的女朋友买一件毛衣,你打开了www.taobao.com。这时
你的浏览器首先查询DNS服务器,将www.taobao.com转换成ip地址。不过首先你会发现
,你在不同的地区或者不同的网络(电信、联通、移动)的情况下,转换后的IP地址很
可能是 不一样的,这首先涉及到负载均衡的第一步,通过DNS解析域名时将你的访问分
配到不同的入口,同时尽可能保证你所访问的入口是所有入口中可能较快的一个 (这和
后文的CDN不一样)。
你通过这个入口成功的访问了www.taobao.com的实际的入口IP... 阅读全帖 |
|
a*****8 发帖数: 334 | 14 1、选题的意义和价值
现实生活中有无数案例表明法轮功教众在信教过程中钱财被骗取、亲情被阻断、家
庭被破坏,更有甚者还被指导实施了诸多反社会行为,因此法轮功被中华人民共和国政
府界定为邪教。李洪志作为教主也被有些学者界定为人格变态者。但是在广大教众心目
中教主李洪志俨然就是“神”,公正、英明、睿智、神武,小到“祛病除灾”,大到掌
管宇宙“师傅庇佑”无所不能,一心向善的广大教众就如同被下了蛊,对于组织的指令
如飞蛾扑火奋不顾身,对于“教主”的旨意不加思索言听计从;法轮功作为一种宗教“
组织”,更是因为劝人向善、倡导“真、善、忍”吸引一干信徒趋之若鹜,社会在其教
众中声誉极高,影响极大。研究者本人在介入本次课题研究之际也对法轮功教主李洪志
的有关著作进行了研读,其感受和体验却与法轮功教众绝然不同,除了一些涉及到科普
知识的内容以外并未感觉有什么不妥,研究者认为对于同一个人同一个宗教组织的认知
与评价反差如此巨大,这种巨大的反差的产生,除了政治立场不同以外,还极有可能跟
法轮功的传播特征有关,因此研究者试图对以下两个问题进行探讨。第一,通过对教主
李洪志在《转法轮》一书中体现出来的态度倾向及心... 阅读全帖 |
|
a*****8 发帖数: 334 | 15 1、选题的意义和价值
现实生活中有无数案例表明法轮*&*功教众在信教过程中钱财被骗取、亲情被阻断
、家庭被破坏,更有甚者还被指导实施了诸多反社会行为,因此法轮*&*功被中华人民
共和国政府界定为邪*教*&*。李&&洪**志*作为教主也被有些学者界定为人格变态者。
但是在广大教众心目中教主李&&洪**志*俨然就是“神”,公正、英明、睿智、神武,
小到“祛病除灾”,大到掌管宇宙“师傅庇佑”无所不能,一心向善的广大教众就如同
被下了蛊,对于组织的指令如飞蛾扑火奋不顾身,对于“教主”的旨意不加思索言听计
从;法轮*&*功作为一种宗教“组织”,更是因为劝人向善、倡导“真、善、忍”吸引
一干信徒趋之若鹜,社会在其教众中声誉极高,影响极大。研究者本人在介入本次课题
研究之际也对法轮*&*功教主李&&洪**志*的有关著作进行了研读,其感受和体验却与法
轮*&*功教众绝然不同,除了一些涉及到科普知识的内容以外并未感觉有什么不妥,研
究者认为对于同一个人同一个宗教组织的认知与评价反差如此巨大,这种巨大的反差的
产生,除了政治立场不同以外,还极有可能跟法轮*&*功的传播特征有关,因此研究者
试图对以下两个问... 阅读全帖 |
|
v****i 发帖数: 779 | 16 湖北大学心理学系反邪教课题组
1、选题的意义和价值
现实生活中有无数案例表明法轮功教众在信教过程中钱财被骗取、亲情被阻断、家
庭被破坏,更有甚者还被指导实施了诸多反社会行为,因此法轮功被中华人民共和国政
府界定为邪教。李洪志作为教主也被有些学者界定为人格变态者。但是在广大教众心目
中教主李洪志俨然就是“神”,公正、英明、睿智、神武,小到“祛病除灾”,大到掌
管宇宙“师傅庇佑”无所不能,一心向善的广大教众就如同被下了蛊,对于组织的指令
如飞蛾扑火奋不顾身,对于“教主”的旨意不加思索言听计从;法轮功作为一种宗教“
组织”,更是因为劝人向善、倡导“真、善、忍”吸引一干信徒趋之若鹜,社会在其教
众中声誉极高,影响极大。研究者本人在介入本次课题研究之际也对法轮功教主李洪志
的有关著作进行了研读,其感受和体验却与法轮功教众绝然不同,除了一些涉及到科普
知识的内容以外并未感觉有什么不妥,研究者认为对于同一个人同一个宗教组织的认知
与评价反差如此巨大,这种巨大的反差的产生,除了政治立场不同以外,还极有可能跟
法轮功的传播特征有关,因此研究者试图对以下两个问题进行探讨。第一,通过对教主
李洪志在《转法轮... 阅读全帖 |
|
l*******s 发帖数: 1258 | 17 关于红楼们后40回的比较
其实学界认为 就是高鹗写的
当时很多人续写 高本写得最好
另外 红楼梦版本众多 什么脂砚斋版本、列宁格勒本、程甲本、程乙本等
有的版本 甚至就是不存在后40回
ps:bolg不能回复,所以我就回复到这里了。
楼主用NLP工具处理,请问用的是什么中文分词软件?
毕竟红楼梦是中文 涉及到中文的NLP 第一步就是分词
现在比较好的是用CRF做的分词软件,但是用的training data都来自现代汉语
红楼梦跟现代汉语多少有些区别 因此想问楼主 有没有用合适的corpus重新train一个
model用来做分词? |
|
S*****s 发帖数: 7520 | 18 你可以用wiki dictionary试一下。
拉丁语复杂的地方其实远远不止词的性,数,格的极为繁复的变化。
一句话,哪怕是找准了主谓宾,你还是不知道什么意思。因为太活了,分词短语可以充
当很多句子的结构,这个分词短语你要首先抓住它的性,它的数,它的格,你才知道施
动者是什么,头疼的时候不知道如何把分词短语剥离出来,因为这个短语往往粘着一个
夺格或者宾格,而这个夺格和宾格本身就可能是形容词作名词的变换。至于grunditive
,可以充当除了主格之外几乎所有格,这比较头大。
还有一点比较棘手的是一个动词,意向太多了,很多时候可以有五六个主要意向,你有
拉丁文词典就知道了。
这几个意向到底翻译的时候采取哪个,那就看上下文。 |
|
j****i 发帖数: 68152 | 19 综合语跟分析语区别很多。
如果问名字怎么来的。综合语是同一个大类的事物的不同小类,都有一个词来表示,比
如 cock,hen,chicken。每个词含有大类小类综合的意义,不可拆分。分析语是只有
一个表示大类的词,再加上小类组成一个词组来表示具体小类的概念,公鸡,母鸡,小
鸡。从词组中,可以分析出大类小类的概念。
上古汉语是综合语,甲骨文里关于马的词,有一百多个。什么骓,骝,骥等等。现代汉
语是纯粹的分析语,都叫马,白马,黑马,公马,母马。
综合语有曲折变化,比如现在分词加ing,过去分词加ed。分析语没有。但是现代汉语
里还有少量遗留,比如多音字。 折断的折(zhe),过去分词读作(she),表示折断
了的。这个就是综合语的特征 |
|
c**s 发帖数: 114 | 20 不单 小学生,连大学生 闹过的 这方面的笑话 都不少哩。满足 日常生活用语 还好,
因为 即便 产生问题 也无伤大雅。可是 各种 需要 严肃正确表达的 地方 还是 使用
词分隔符 为好。消除歧义,利于阅读。
阅读 已分词的句子 可以 减少 阅读负担,因为 减少了 大脑 对句子的 分词处理。
什么原因 会让大家 拒绝改变 呢?
一是 觉得 没必要,不习惯?
二是 觉得 阅读不顺,字体排列 有空格 觉得 不舒服?
我认为 这些都是 习惯造成的。只要 今后 习惯于 阅读 空格符分隔的 句子,视觉流
记忆 会带来 更多的 阅读愉悦 而不是 不顺口的阅读?这是 因为 它保留了 句子的
分词结构,更接近 口语表达。 |
|
r*********n 发帖数: 4553 | 21 我觉得上面各位的解法都忽略了一个重要的条件:sorted
显然如果一个词可以分解成其他词的组合,那么这个词一定和其第一个分词靠得很近,
比如
aa
aabbccaa
bb
bbc
bbbbbb
cc
ccbb
aabbccaa的第一个分词是aa,在这个例子中aabbccaa和aa相邻
这道题可以用binary search来解,需要用binary search实现一个equal_range的函数
,然后在search分词的同时,需要用到most-significant-digit string sort的idea。
复杂度 O(MNlogN),M is the average word length and N is the number of words
constructed |
|
p******r 发帖数: 6213 | 22 坑王,be是动词,但being在这里是现在分词,现在分词不是动词。而且,因为你私自
把现在分词前面的逗号抹了,这个现分短语就彻底变病句了,知道了么?呵呵。 |
|
p**********d 发帖数: 7918 | 23 我說話太沖了,向你道歉。
不過你自己的下面這句話也是錯的哦。你承認嗎?那個逗號本來就是多餘的。
“坑王,be是动词,但being在这里是现在分词,现在分词不是动词。而且,因为你私自
把现在分词前面的逗号抹了,这个现分短语就彻底变病句了,知道了么?呵呵。” |
|
p******r 发帖数: 6213 | 24 坑王,be是动词,但being在这里是现在分词,现在分词不是动词。而且,因为你私自
把现在分词前面的逗号抹了,这个现分短语就彻底变病句了,知道了么?呵呵。 |
|
p**********d 发帖数: 7918 | 25 我說話太沖了,向你道歉。
不過你自己的下面這句話也是錯的哦。你承認嗎?那個逗號本來就是多餘的。
“坑王,be是动词,但being在这里是现在分词,现在分词不是动词。而且,因为你私自
把现在分词前面的逗号抹了,这个现分短语就彻底变病句了,知道了么?呵呵。” |
|
R***a 发帖数: 41892 | 26 另外,我想用这事形容分词的话,我得说分词这事工作量不大,
说这事分词工作量不大显然这事形容的是context |
|
G*******s 发帖数: 4956 | 27 7
发信人: Godwithus (神与我们同在), 信区: TrustInJesus
标 题: 第七章 论上帝与人所立的圣约
发信站: BBS 未名空间站 (Thu Jun 30 17:08:50 2011, 美东)
第七章 论上帝与人所立的圣约
一.圣约的必要性
7.1 上帝是人的创造者,人是有理性的受造物,所以,人本当顺服上帝。但是,上帝
与受造者之间的不同如此巨大,所以,人绝不能享有祂,以此为自己的福分和赏赐,除
非是上帝自愿俯就,这俯就乃是祂乐意用立约的方式显明的(赛40:13-17;约9:32,
33; 撒上2:25;诗100:2-3;113:5,6;伯22:2,3;35:7-8;路17:10;徒17 :24,
25)。
上帝是创造者,人是受造者,二者之间存在巨大的不同,这一主题是圣经中常常强调的
主题之一(请看以上引用的经文)。正是因为这一巨大的不同,并且人是依靠上帝而存
在,所以人对上帝有绝对顺服的义务,不应该指望上帝因此而奖赏他。我们的主就向众
门徒指出,主人并不因为仆人做了应尽的本分而答谢他,这就教导我们:“这样,你们
做完了一切所吩咐的,只当说:‘我们是无用的... 阅读全帖 |
|
n********n 发帖数: 8336 | 28 加尔文论重生与信先后关系
作者为传道人
如果你有机会读读加尔文的《基督教要义》,以及他的注释书(特别是约翰福音注释)
,你也许会更加糊涂。因为有时候,加尔文是明确表明“重生先于信”,如在要义的第
二卷第二章,他如此说:
所以,当人离弃神的国时,神赏赐人要人盼望永恒救赎的这些属灵恩赐也同时丧失了
……直到人藉重生之恩才能重新获得。在这些恩赐中,有信心、对神的爱、对邻舍的爱
,以及对圣洁和公义的渴慕。
这里,他明确说明:信心连同其他的恩赐,都是重生的结果。
然而,另外一些时候,加尔文又说明“信先于重生”。比如在要义的第三卷第十一章,
当他谈及“双重恩典”时,指出借着信心与基督联合,带给我们的第一个恩典是称义,
第二个则是重生。
这又是怎么回事呢?实际上,这里涉及到早期的改革宗神学对“重生”的定义。简单来
说,早期的改革宗神学是一种更“圣经式”而非“系统性”的神学,即神学术语力求与
圣经丰富的含义对应,而不是追求系统性所要求的更精确更狭义的定义。对于早期改革
宗神学而言,“重生”不仅仅是指个人生命的更新或新生命的开始(多3:5),更是指个
人生命的持续更新乃至万有的复兴(太19:28)。比如... 阅读全帖 |
|
h*d 发帖数: 19309 | 29 发信人: strong (大拿~恭祝清华百年华诞), 信区: TsinghuaCent
标 题: 清华大学的2010
发信站: 水木社区 (Sun Apr 24 14:46:09 2011), 站内
清华大学的2010
注:本文由水木社区BBS世纪清华版(TsinghuaCent)整理,各项资料来自清华大学网
站、清华大学新闻网、北京协和医学院(清华大学医学部)网站和水木社区BBS世纪清
华版等。
正文:
本文系统总结2010年度清华大学、北京协和医学院(清华大学医学部)师生校友荣获的
各类学术和社会荣誉、学科竞赛成绩以及学校在教学科研领域中获得的各类成果和进展
。限于篇幅,在关于各类获奖成果的统计中,本文仅统计获得过一等奖、金奖(国家科
学技术奖除外)以上的成果(绩)。
*********************
一.最高荣誉
●清华大学数学科学中心主任丘成桐教授获得2010年沃尔夫(Wolf)奖,以表彰他在几
何分析领域的贡献,以及在几何和物理的多个领域都产生的“深刻而引人注目的影响”
。这是丘成桐继1982年获得菲尔茨奖后,再... 阅读全帖 |
|
d*******r 发帖数: 3299 | 30 我倒是觉得wdong那个严谨分词更好, 如果硬要用空格的话.
我的观点是, 从计算机的角度看, 以后应有更智能分词方法, 更易读的分词marker. |
|
m***r 发帖数: 359 | 31 机器学习日报 2015-02-07
@好东西传送门 出品, 过刊见
http://ml.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅机器学习日报
更好看的HTML版
http://ml.memect.com/archive/2015-02-07/short.html
1) 【WSDM2015上腾讯和百度关于语义匹配的报告】 by @李航博士
关键词:会议活动, 算法, 应用, 资源, Juchao Zhuo, Kaihua Zhu, WSDM, 行业动态,
幻灯片, 会议, 集成学习, 信息检索
#WSDM2015#会议上,腾讯的报告Semantic Matching in APP Search (by Juchao Zhuo)
,百度的报告Boosting Search with Deep Understanding of Contents and Users (
by Kaihua Zhu) 讲的都是语义匹配,其实是搜索的核心问题。幻灯片: [1]
[1] http://www.wsdm-conference.... 阅读全帖 |
|
i***s 发帖数: 39120 | 32 经国家质量监督检验检疫总局、国家标准化管理委员会批准,新修订的《汉语拼音正词法基本规则》将于今年10月1日起实施。如何拼写汉语的人名地名,如何拼写汉语的数词、量词、连接词、形容词等,都有了“法定”规范。
语言发展规则修订
原有的《汉语拼音正词法基本规则》,是上世纪90年代中期由国家语委组织研制、国家质量技术监督局发布的国家标准。随着社会语言生活的发展变化,2006年,教育部、国家语委根据国家标准委要求开始组织专家对原标准进行修订,内容包括分词连写规则、人名地名拼写规则、大写规则、标调规则、移行规则、标点符号使用规则、变通规则。该标准适用于文化教育、编辑出版、中文信息处理等领域的汉语拼音拼写。
按此规则,拼写普通话基本上以词为书写单位。表示一个整体概念的双音节和三音节结构的词要连写,如:quánguó(全国)、Pòtiānhuāng(破天荒)。但是,四音节及四音节以上表示一个整体概念的名词,则必须分写,如:wúfèng gāngguǎn(无缝钢管)、huánjìng bǎohù guīzé(环境保护规则)。
人名地名规范拼写
随着国际交流的愈发频繁,中国的人名地名会越来越多地以汉语拼音的... 阅读全帖 |
|
c***s 发帖数: 70028 | 33 经国家质量监督检验检疫总局、国家标准化管理委员会批准,新修订的《汉语拼音正词法基本规则》将于今年10月1日起实施。如何拼写汉语的人名地名,如何拼写汉语的数词、量词、连接词、形容词等,都有了“法定”规范。
语言发展规则修订
原有的《汉语拼音正词法基本规则》,是上世纪90年代中期由国家语委组织研制、国家质量技术监督局发布的国家标准。随着社会语言生活的发展变化,2006年,教育部、国家语委根据国家标准委要求开始组织专家对原标准进行修订,内容包括分词连写规则、人名地名拼写规则、大写规则、标调规则、移行规则、标点符号使用规则、变通规则。该标准适用于文化教育、编辑出版、中文信息处理等领域的汉语拼音拼写。
按此规则,拼写普通话基本上以词为书写单位。表示一个整体概念的双音节和三音节结构的词要连写,如:quánguó(全国)、Pòtiānhuāng(破天荒)。但是,四音节及四音节以上表示一个整体概念的名词,则必须分写,如:wúfèng gāngguǎn(无缝钢管)、huánjìng bǎohù guīzé(环境保护规则)。
人名地名规范拼写
随着国际交流的愈发频繁,中国的人名地名会越来越多地以汉语拼音的... 阅读全帖 |
|
c*****1 发帖数: 3240 | 34 ☆─────────────────────────────────────☆
kzeng (寱语·无味赛百味) 于 (Sun Sep 23 01:21:31 2012, 美东) 提到:
(这是一篇关于很枯燥的技术,很枯燥的历史文本,和不太枯燥的统计的 blog)
看过一篇关于《全宋词》词频统计文章,挺有趣的,想用类似的方法处理一下《资治通
鉴》,所以就趁周末花了几个小时作了一下。
词是长短句,统计两个字组成的词频比较合适,《通鉴》是古文,文字结构不同,所以
我统计了单字频,两字词词频,三字词词频,四字词词频,和五字词词频。同时也记录
各个统计单位(字或词)出现的卷数。《通鉴》294卷,从三家分晋到五代结束共共
1362年,所以卷数可以作为时间的度量。
《全宋词》的词频是用 R 作的。R 虽然是不错的统计软件,也是我的最爱之一,但是
R 并不适合作文本分析,更不适合来作数据库操作。所以就用了 C# 和 Kdb +3.0。 C#
用来分析文本,.Net 是懒人的福音,并且多线程运算非常简单,能够大大提升文本处
理速度,Kdb+用来储存数据,它差不多是性能最好的 in-memor... 阅读全帖 |
|
d****d 发帖数: 2919 | 35 劳资上了近一年德语课!!!!!!
于是踏上了尼玛不归路啊!!!!!!!
谁给劳资讲德语是世界上最严谨的语言啊!!!!!!
尼玛的!!哪个星云的德语啊!!!!!!
跟吐屎一样一样一样的啊(发ö的时候)!!!!有木有有木有!!!!
谁再给劳资提德语是世界上最严谨的语言,劳资一口盐汽水喷死你啊!!!!!!!
德国人数数真是极品啊!!!!!!
八十九不念八十九啊!!!!!!!
念九 和八十啊!!!!!有木有!!!!!!!
尼玛怎么是反的啊!!!!!!!
德国人数学好得不得了啊!!!!
加减乘除倒算如流啊!!!!!!!
67254 不念六万七千二百五十四啊!!!!!!
念七和六十个千两个百四和五个十啊!!!!!!!
写出来尼玛是 siebenundsechzigtausendzweihundertvierundfünfzig!!!!!
四十八个字母啊!!!!!尼玛不嫌长啊!!!!!!
尼玛还没标点符号和空格啊!!!!!
这肿么认啊????坑死爹啊!!!!!!
等你认出来,尼玛一首忐忑已经唱完了呀完了呀!!!!!!
就是尼玛甩葱歌也唱完了呀!!!!!!
所有名词都分男,女和不男不女啊!!... 阅读全帖 |
|
m********5 发帖数: 17667 | 36 10月1日起实施的新版《汉语拼音正词法基本规则》规定
拼音中文名须姓在前名在后
经国家质量监督检验检疫总局、国家标准化管理委员会批准,新修订的《汉语拼音正词
法基本规则》将于今年10月1日起实施。如何拼写汉语的人名地名,如何拼写汉语的数
词、量词、连接词、形容词等,都有了“法定”规范。
语言发展规则修订
原有的《汉语拼音正词法基本规则》,是上世纪90年代中期由国家语委组织研制、国家
质量技术监督局发布的国家标准。随着社会语言生活的发展变化,2006年,教育部、国
家语委根据国家标准委要求开始组织专家对原标准进行修订,内容包括分词连写规则、
人名地名拼写规则、大写规则、标调规则、移行规则、标点符号使用规则、变通规则。
该标准适用于文化教育、编辑出版、中文信息处理等领域的汉语拼音拼写。
按此规则,拼写普通话基本上以词为书写单位。表示一个整体概念的双音节和三音节结
构的词要连写,如:quánguó(全国)、Pòtiānhuāng(破天荒)。但是,四音节
及四音节以上表示一个整体概念的名词,则必须分写,如:wúfènggāngguǎn(无缝
钢管)、huánjìngbǎohùguīzé(环境保... 阅读全帖 |
|
S*****s 发帖数: 7520 | 37 我试着翻译一下,不知道这段的历史背景。
licet,这是一个谦辞,在拉丁语中这属于“缺陷动词”也就是没有完全变化形式的,
就是 it is may allowed, 如果可能的话。诚惶诚恐的意思。
接下来是一个很长的句子,对于长句,一定要抓住两点,一个是动词,这是题眼,拉丁
语动词和人称是紧密结合的。这个题眼就是"liqueat"
这是第三人称单数的虚拟式,意思是看起来很明显,lequeat百分百要接一个动词不定式
,也就是reddi,这是一个被动的不定式,意思是送出,投降,这里应该是送出。剩下的
是这个句子的枝干,但也比较复杂。
ingressus et processus两个被动分词,强调正在被实施的。Tartarorum是属格,鞑靼
人的匈牙利。
intrantium in ignominia Crucifixi 正在对基督圣战十字军的侮辱和不尊。pernicie
m stragemque两个词意思同意,强调暴行。que是屈折语的典型表示同位连接。non min
imam 双重否定,表示极度。per presens opusculum vestro nomini 我们眼见正在发生... 阅读全帖 |
|
z****t 发帖数: 63 | 38 在语义识别上,中文确实不如英语。英语有空格天然分词,汉语分词麻烦,而且经常可
能因为算法原因产生歧义。 |
|
r**********g 发帖数: 22734 | 39 百度可以专门组一个一百人的团队搞分词,狗能搞十个人专门做分词吗?不可能。专注
做中国产品跟汉化一个产品,差别太大了。 |
|
M****e 发帖数: 73 | 40 百度通过政府关系搞google在更早时候,大概2001或者2002年的时候,google域名甚至
被指向百度,然后google的服务就变得不怎么稳定,google那时候估计也没有特别重视
中国市场,没有什么应对措施,于是市场就逐渐丧失。当然这个从来得不到百度或者政
府的承认,你可以说是阴谋论啦。到你所给数据的2006年,google已经不行了。很多人
不齿百度,其中之一就是因为百度那个阶段的不正常竞争。以前网上常有文章分析比较
google和百度的中文分词,我记得百度的分词是比google要好,所以百度最后能拉开优
势差距也有一部分是自己技术实力的原因。 |
|
c**s 发帖数: 114 | 41 我想 这 只是 习惯 造成的。有半空格 分词的 句子 可能 更易于 阅读。视觉上的停
留 与 分词 相关, 视觉流 可能 更有助于 快速阅读和理解。
其实 如果 用 可变宽 字体, 使用 1/3宽空格 可能会 更好。 |
|
c**s 发帖数: 114 | 42 我们只用 大约六千个 常用字,加上同音字,可能 有一万个 字的发音。我们的多字词
可能有 几十万个,而且 在现代社会 各种新名词新概念 层出不穷,要对句子 完全正
确 分词 实在是 不太可能的 任务。书写的文字 不应 丢弃 分词结构。
|
|
z****n 发帖数: 3189 | 43 1998年,高考以全市理科第三的成绩考入中国科技大学电子工程系,并自学软件编程、
在大二期间即获得中科大软件大赛第一名。 [4]
2000年,加入科大讯飞[002230]初创团队,师从中文智能语音技术领域、科大讯飞的创
始人兼董事长王仁华教授,研究人工智能、中文自然语言理解技术,研发了基于网页大
数据的中文智能分词技术,提升了分词准确率。本科生期间已经在国内外发表了8篇学
术论文。 [5]
2003年,以全额奖学金考入香港科技大学计算机科学系, 师从国际Web技术领域顶级学
术会议WWW主席、W3C香港创始主席、香港科技大学计算机系创始系主任、香港特区政府
首席科学顾问Vincent Shen教授,并在他的指导下,研究出 “移动设备上网页的自定
义渲染”国际专利技术,并发表多篇顶级国际学术论文。 [6]
2006年,以微软跨国人才招聘项目从香港直接入职微软美国总部,并加入IE浏览器核心
研发团队,并师从浏览器领域技术泰斗、IE浏览器内核动态引擎的创始人Christian
Fortini,在他的带队指导下,共同研发了全球首个GPU硬件加速的HTML5渲染引擎,革
命性地提升了HTML5的... 阅读全帖 |
|
|
i****x 发帖数: 17565 | 45 ......我解释这么清楚了你还不知道自己错在哪里,还说什么google推荐popular,实
在令人无语。你找一个it's heartbroken意思是这事令人伤心的用法来看看?
你说的nice的用法跟这个例子完全无关。heartbroken是个被动分词变化来的形容词,
只能用于被动含义,也就是被伤心。主动含义必须用进行时分词。再举个例子,你很兴
奋的时候必须说I'm excited,但是一个令人兴奋的事情应该说it's exciting. Lz的标
题好比说it's excited。还有disappointing和disappointe
d等等
Google提示是以两个词组哪个更popular有关。Google上找一个叫 梅赛德斯 的女孩, |
|
s******y 发帖数: 28562 | 46 呵呵,的确如此。
这么说起来我的发音是一笔糊涂账。
我实验室里的印度人发英国音,美国人发美国音,我大部分词发英国音,小部分词发美
国音,比方说这个petri dish 我就是发的美国音,但是刚才上面说的pecan 我就是发
英国音。不过我们都相安无事,反正互相都能听懂。 |
|
h*******e 发帖数: 1377 | 47 百度不是给国外的华人设计的~~国外人要经常搜索英文的~~来回换来换去搜索引擎
太麻烦。2004年时候google 中文几乎什么都搜不出来。。baidu那时候已经能搜出
很多东西了,当然敏感词就没办法了。分词技术就是我上面的一段话,可以分开成几个
词,怎么断开,英语空格是天然的句子中被用来分词的,汉语就没有,如果不打被搜材
料中提出关键词做逆序检索的话,关键词无法很快搜到相应的材料。 |
|
z****e 发帖数: 54598 | 48 分词的话,这个需求一般西方语言没有
英语法语德语分词很容易
主要是中日韩有这个问题,奇怪的是百度没怎么占领日韩市场
不过一度听说百度在日本用得挺多,据说是关键字搜h图比较方便 |
|
y**********u 发帖数: 6366 | 49 N多年前有次去百度面intern,对方最后一个面试官吃错了药拼命问我中文分词,我偏
偏中文分词屁都不懂,直接尿了 |
|
m*****8 发帖数: 4059 | 50 http://www.jydoc.com/article/557914.html
学前部调研交流——《尝试学字法》交流心得
《尝试学自法》创始人石皇冠
1、“尝试学字法”依据正常华语儿童学习华文的迁移规律,先学分词分短语朗读
,在学会朗读的过程中不知不觉实现识字目标,针对读写实践中的别字白字问题,运用
邱学华尝试教学理论,把鄢文俊《字族文识字教材》加工为《尝试学字学材》,设计出
儿童在教师指导下自主探究汉字构字规则、用字规则的教学方法。它的显著特征是先练
后讲、多练少讲。“尝试学字法”
2、识字的目标定位在记忆字形特征;学字的目标定位在学习构形规则、用字规则
。绝大多数识字教学法和写字教学各行其是,没有有机地结合起来,默写生字和规范书
写依然缺乏理想的教学模式,汉字书写水平依然不理想。“尝试学字法”把学字和黄金
练字有机地结合起来,不但减轻生字默写负担,而且学生能写出规范漂亮的字。
3、尝试学字课堂,有特色鲜明的第一次尝试题、第二次尝试题、书写尝试,以学
生为主、自学为主、实践为主,先练后讲,多练
4、笔者的孩子5周岁,中国少年儿童出版社出版的少儿版《... 阅读全帖 |
|