由买买提看人间百态

topics

全部话题 - 话题: ngrams
1 (共1页)
y*********e
发帖数: 518
1
来自主题: JobHunting版 - 一道google interview的题目
指的是在字典里面搜索phrase么?two adjacent words会组成一个2gram,然后看这个
2gram是否在dictionary中?
这得看dictionary是怎么实现的。若是纯粹在主内存里面玩,那么多半是hashtable。
对于问题1和问题2,都可以用O(N)
的解法。扫描每一个ngram,然后在hastable里面查询即可。
若是实际上的问题,那么ngram可能会多到内存装不下 -- 这也是Google提问的风格。
还必须看这个dictionary是保存所
有可能的ngram,还是仅仅保存有语法意义的phrase?若是所有可能的ngram,2gram大
概会有个几百万的样子,
3gram就可以上千万,到4gram,5gram就是亿的数量级了。这个时候分布式计算就很有
用了。

D
k***g
发帖数: 7244
2
来自主题: History版 - 计算模拟历史
以前闲着无聊的时候曾经做过一个《资治通鉴》的字频统计,单以频率计,中国历史不
过是“王”与“人”,“义”与“忠”,“将军”与“刺史”,“长安”与“洛阳”。
既然有了频率,自然也就有了概率和条件概率。根据条件概率,当给出一个序列的字词
后,预测下一个字词是什么,就变成了一个简单的最大似然估计问题。如果觉得这个序
列太长,计算起来太麻烦,可以假设简化的马尔科夫结构,譬如假设下一个词的概率取
决与之前的n个词而不是整个序列,这基本上就是计算语言学里的 n-gram 算法了。
所以我们可以用《资治通鉴》作为语料得出经验条件概率,然后来随机模拟出历史文本
,产生原汁原味(至少是统计意义上的)史书 (技术细节见附录)。 虽然这只是文字
游戏,但是仍然能从概率上看出《资治通鉴》记述的历史中,最容易重现怎样的事件。
譬如下面这则 (random seed = 2000):
撰 刘 崇 俊 以 惟 岳 又 从 入 关 , 宣 等 从 太 子 也 , 惧 履 危 亡 之 事
, 发 步 骑 二 十 骑 自 北 至 北 寺 狱 , 竟 不 使 宗 庙 社 稷 。 宗 元 为
柳 州 司 马 。 坚 大 怒 ... 阅读全帖
M**********e
发帖数: 211
3
来自主题: JobHunting版 - 一个coding题目
这不就是spell checker么
最完美的方案就是现对ngram建index,
然后given any word对ngram index算Levenshtein distance
当然不可能短时件code出来,能提到也不错
p********r
发帖数: 1465
4
来自主题: StartUp版 - 波士顿人
(载于GQ智族杂志2014年1月号,纸质版里有各位主角的清晰无码大图~)
我记得,2011年习明泽还会出现在哈佛的中国留学生派对上,那很少的一两个她充分信
任的朋友的派对,用化名,只停留一小会儿,不多说话。几个月后,她父亲正式上台,
我们再没看见她在任何公众聚会场合现身。2011年走在波士顿街头有时候可以撞见薄瓜
瓜,被一堆朋友簇拥着,总是外国朋友,总是在笑。他的性格开朗外向,颇受欢迎,然
而他会谨慎地只在外国同学中交朋友。关于2011年的波士顿,我还记得的一件事,就是
徐小平带着他的真格基金来哈佛搞创业比赛,几组选手花几分钟做个创业演讲,徐小平
从中选出自己满意的给天使投资。老实说,大部分选手是怀着玩票的心态去比赛,并没
有正儿八经地要创业。在那个充满古怪点子的的比赛上,我匆匆一面认识了一个哈佛商
学院的学生,叫陈郢,他刚刚在台上讲完自己的创业计划:做中国农村的货郎,把各类
零售商品带到贸易不便的中国农村去卖。他的演讲应该是很精彩的,因为他最后拿到了
徐小平的天使投资,可是我已经不太记得他的演讲内容了,记忆犹新的反而是,他做完
演讲便走到观众席的最后,我和我的朋友坐在那里,朋友叫了一... 阅读全帖
l*r
发帖数: 79569
5
来自主题: LeisureTime版 - 由此上溯200年
http://ngrams.googlelabs.com/chart?content=%E4%B9%90%E5%AD%90,%E6%96%87%E8%B1%AA&corpus=11&smoothing=3&year_start=1800&year_end=2000
乐子与文豪的故事
祝大伙新年快乐!
(google Ngram 抢了我关键字的买卖...sasa,我们的论文怎么办?)
g**********y
发帖数: 14569
6
来自主题: LeisureTime版 - 历史排名
听了个历史排名的讲座,还有点意思。Presenter是Stony Brooks的计算机教授: Steve
Skiena
通常的排名有四种:
-专家调查
-公众投票
-单因素模型
-多元模型
专家:比如AP top 20 college, Oscar, 。。。 比较公正,但是专家以群聚,他们可
能带同样的倾向性,在不popular的领域,很难比较。
公众:民主选举,All-star, IMDB排名,。。。多数公众的历史知识有限,组织点活动
很容易左右他们的意见,比如选举的campains
单因素:按钱排富豪;按SAT成绩招生,。。。这种排名只突出单方面,不适合历史比
较。
多元:这是Steve建的模型,把wikipedia上所有人拿出来比较
1. Links from important people to your page means you are probably important
2. 去掉不相关因素,比如dinasour page link的人,就不考虑;在wikipedia page工
作的人,职务便利需要去除
3. 有多少人访问?越出名/有趣的人,访问量越大
4. wi... 阅读全帖
e*******c
发帖数: 2133
7
来自主题: LeisureTime版 - zz沈诞琦:波士顿人
http://www.21ccom.net/articles/rwcq/article_2014010698347.html
我记得,2011年她还会出现在哈佛的中国留学生派对上,那很少的一两个她充分信任的
朋友的派对,用化名,只停留一小会儿,不多说话。几个月后,她父亲正式上台,我们
再没看见她在任何公众聚会场合现身。2011年走在波士顿街头有时候可以撞见薄瓜瓜,
被一堆朋友簇拥着,总是外国朋友,总是在笑。他的性格开朗外向,颇受欢迎,然而他
会谨慎地只在外国同学中交朋友。关于2011年的波士顿,我还记得的一件事,就是徐小
平带着他的真格基金来哈佛搞创业比赛,几组选手花几分钟做个创业演讲,徐小平从中
选出自己满意的给天使投资。老实说,大部分选手是怀着玩票的心态去比赛,并没有正
儿八经地要创业。在那个充满古怪点子的的比赛上,我匆匆一面认识了一个哈佛商学院
的学生,叫陈郢,他刚刚在台上讲完自己的创业计划:做中国农村的货郎,把各类零售
商品带到贸易不便的中国农村去卖。他的演讲应该是很精彩的,因为他最后拿到了徐小
平的天使投资,可是我已经不太记得他的演讲内容了,记忆犹新的反而是,他做完演讲
便走... 阅读全帖
c***z
发帖数: 6348
8
来自主题: DataSciences版 - 根据产品名称找UPC
Sorry my post might be misleading.
majiaaaa大牛's idea is just to join the two tables, one for known items and
one for the unknown ones, each with two columns,
table_1 = (UPC, ngram)
table_2 = (name, ngram)
then group by name and pick the most popular UPC for each name.
It is related to Jaccard but should have better performance.
c***s
发帖数: 70028
9
2006年,会议五十年后,当事人重聚达特茅斯。左起:摩尔,麦卡锡,明斯基,赛弗里奇,所罗门诺夫
背景
现在一说起人工智能的起源,公认是1956年的达特茅斯会议。殊不知还有个前戏:1955年,美国西部计算机联合大会(Western Joint Computer Conference)在洛杉矶召开,会中还套了个小会:“学习机讨论会”(Session on Learning Machine)。讨论会的参加者中有两个人参加了第二年的达特茅斯会议,他们是塞弗里奇(Oliver Selfridge)和纽厄尔(Allen Newell),塞弗里奇发表了一篇模式识别的文章,而纽厄尔则探讨了计算机下棋,他们分别代表两派观点。讨论会的主持人是神经网络的鼻祖之一皮茨(Pitts),他最后总结时说:“(一派人)企图模拟神经系统,而纽厄尔则企图模拟心智(mind)……但殊途同归。”皮茨眼可真毒,这预示了人工智能随后几十年关于“结构与功能”两个阶级、两条路线的斗争。
开聊达特茅斯会议之前,先说六个最相关的人。首先,会议的召集者麦卡锡(John McCarthy)当时是达特茅斯学院的数学系助理教授。两年前(1954... 阅读全帖
S**b
发帖数: 1883
10
来自主题: History版 - Google这个玩也儿倒是有点意思
查看从古至今google扫描过所有书目任何词语的出现频率变化。
http://ngrams.googlelabs.com/
r*****g
发帖数: 478
11
来自主题: History版 - Google这个玩也儿倒是有点意思
http://ngrams.googlelabs.com/graph?
content=%E9%81%93,%E6%80%A7,%E7%90%86,%E9%87%91&year_start=1800&year_en
d=2000&corpus=11&smoothing=3
S********k
发帖数: 50
r**********g
发帖数: 22734
13
来自主题: History版 - 计算模拟历史
用ngram过时了,搞个lstm
S**b
发帖数: 1883
14
来自主题: Military版 - Google这个玩也儿倒是有点意思
查看从古至今google扫描过所有书目任何词语的出现频率变化。
http://ngrams.googlelabs.com/
d**********x
发帖数: 4083
T****t
发帖数: 11162
16
来自主题: Military版 - 外F的小孩都看不起外发
The key difference is that unpolite is now archaic/incorrect and so should
be avoided, though it was once the more common form (see Google Ngram Viewer
). When both were still in use, it appears they were largely synonymous. For
example, Webster's 1828 dictionary defines them as follows:
UNPOLI'TE, a.
Not refined in manners; not elegant.
Not civil; not courteous; rude. [See Impolite.]
IMPOLI'TE, a. Not of polished manners; unpolite; uncivil; rude in manners.
r**********g
发帖数: 22734
17
来自主题: JobHunting版 - deep learning到底是个什么
做过一点,属于二五眼。随便说说:
1. ANN这个玩意,一段时间就会火一次,因为硬件进步,以前不能算的,现在能算了。
DNN就是如此,接GPU的东风。
2. ANN这个玩意,拿来做classifier怎么样?不怎么样。为啥?因为overfit,层数多
了,可以拟合任何函数,没有regularization,没有推广性。
3. 为啥DNN火了?因为大家不用DNN做classifier了,开始拿他做feature extractor,
结果一用就灵,DNN可以把很难classify的空间投影到容易classify的空间,然后LR,
SVM随便上吧,用啥啥灵,解救了多少白发Ph.D。
4. DNN以后会怎么样?会成为标准的feature engineering方法,classifier呢,该干
嘛还是干嘛。
另外,说Speech recognition DNN取代HMM,的确是没有理解ASR。在声学模型里,比较
成功的DNN取代的是GMM,而HMM的结构没有变。在语言模型上,成功的是Minkov的RNN,
虽然可以支持无限长的历史,但是也无法完全取代ngram,一般放到一起用。
s*****r
发帖数: 43070
18
ngram,vector space, k means能说清楚说明基础知识很好了,label data这步可以人
工去做,有个毛线问头
问人家项目的技术细节是违法的,狗狗面试手册上规定,不行询问细节
p*k
发帖数: 23
19
那个unlabel data 处理
我看到ngram 和vector space,我就懂了。国人大哥不一定很强,但是这俩面试官的确
不如大哥。
lz自宫是对的,大家散了吧。
S**b
发帖数: 1883
20
来自主题: Seattle版 - Google这个玩也儿倒是有点意思
查看从古至今google扫描过所有书目任何词语的出现频率变化。
http://ngrams.googlelabs.com/
s*****a
发帖数: 3693
21
来自主题: Football版 - Engram signs multiyear deal with Seahawks
http://sports.espn.go.com/nfl/news/story?id=2809880
KIRKLAND, Wash. -- The Seattle Seahawks have re-signed wide receiver Bobby E
ngram to a multiyear contract.
Engram originally signed with Seattle in 2001 after spending his first five
seasons with Chicago.
He has played in 80 games with 43 starts for Seattle. He led the team in rec
eiving in 2005 with 67 catches for 778 yards and three touchdowns.
Matt Hasselbeck's recovery is ahead of schedule and the Seahawks quarterback
may be on the field f
h*******s
发帖数: 8454
22
来自主题: Tennis版 - 朝代变迁年表
从那个ngrams上弄下来的
K****D
发帖数: 30533
23
来自主题: Tennis版 - 朝代变迁年表
http://ngrams.googlelabs.com/graph?content=federer%2C+nadal&yea
Seems it's always Nadal's dynasty since 1980...
K****D
发帖数: 30533
24
来自主题: Tennis版 - 朝代变迁年表
Wait, seems Murray beats them all, haha.
http://ngrams.googlelabs.com/graph?content=federer%2Cnadal%2Cmu
Q*****n
发帖数: 4546
25
来自主题: Tennis版 - 朝代变迁年表
all of them are nothing compared with joker
http://ngrams.googlelabs.com/graph?content=federer%2Cnadal%2Cmu
wh
发帖数: 141625
26
来自主题: LeisureTime版 - 由此上溯200年
什么意思什么意思?我和乐子互为小圈子的指数?可能还是我和你互为小圈子的指数高
一点。这个ngram是啥?
哎我昨晚还吃了一种麻辣牛筋,真空包装,牌子好像是阿三?圆圆的四片,中国超市买
的,极辣,很好吃。我还想今天给你写信,问问你有没有吃过,顺便给你拜年。你怎么
不告诉我你的“良史”到底是什么?
想起来了,我去推荐你为本年度活跃id!我把咱俩一块写上吧,我们携手笑傲江湖,哈
哈,看你往哪儿逃!
l*r
发帖数: 79569
27
来自主题: LeisureTime版 - 由此上溯200年
见过傻二哥,没见过阿三牌。。。
自己去google ngram 看啊,挺有意思,给你找了个浪费时间的玩具,呵呵
a*********7
发帖数: 30080
28
来自主题: LeisureTime版 - 由此上溯200年
http://ngrams.googlelabs.com/
l*r
发帖数: 79569
l*r
发帖数: 79569
30
来自主题: LeisureTime版 - 空穴来风的使用问题
这个词义转换至少几十年了吧,可惜google Ngram没有中文,要不倒可以统计一下
d*****0
发帖数: 68029
31
【 以下文字转载自 Hardware 讨论区 】
发信人: Saob (Saob), 信区: Hardware
标 题: Google这个玩也儿倒是有点意思
发信站: BBS 未名空间站 (Fri Dec 17 23:02:22 2010, 美东)
查看从古至今google扫描过所有书目任何词语的出现频率变化。
http://ngrams.googlelabs.com/
S**b
发帖数: 1883
32
来自主题: WaterWorld版 - Google这个玩也儿倒是有点意思
查看从古至今google扫描过所有书目任何词语的出现频率变化。
http://ngrams.googlelabs.com/
k**o
发帖数: 15334
33
来自主题: WaterWorld版 - 北京 vs 上海
http://ngrams.googlelabs.com/graph?content=%E5%8C%97%E4%BA%AC%2C%E4%B8%8A%E6%B5%B7&year_start=1800&year_end=2008&corpus=11&smoothing=10
a graph of how often it was mentioned in a book (indexed by google)
throughout history.
m**a
发帖数: 1208
34
来自主题: Prose版 - 浮城之恋 45
脸滚键盘不够隨机
这用的是NGram
S**b
发帖数: 1883
35
查看从古至今google扫描过所有书目任何词语的出现频率变化。
http://ngrams.googlelabs.com/
l*******s
发帖数: 1258
36
不妨试试pos的ngram
S**b
发帖数: 1883
37
来自主题: Hardware版 - Google这个玩也儿倒是有点意思
查看从古至今google扫描过所有书目任何词语的出现频率变化。
http://ngrams.googlelabs.com/
F****n
发帖数: 3271
38
来自主题: Java版 - Lucene 中精确匹配
What I described is industry standard. All those ngrams will be indexed by a
prefix-tree, and so there is no need to use positions.
M**********n
发帖数: 432
39
来自主题: Programming版 - 业余时间想做一个project
可以用 Ngram 来做 feature lists
S******y
发帖数: 1123
40
来自主题: Statistics版 - 请教熟悉NLP的朋友:怎么找到phrase
you might want to look into -
nltk.ngrams
if you have installed nltk package in Python.
=============================================
欢迎浏览我的Python/Hadoop实战速成课网页 -
http://plus.google.com/109275868505226513618/about
=============================================
w*****e
发帖数: 748
41
你什么都往high level的词上凑合,当然可以,反正不管什么技术你都可以叫它处理数
据,这不跟没说一样么。Point在于,“一旦数据整理好了”,这个概念在大数据里面
基本上没用,大部分数据工作都是在“整理”数据。给你举个例子,给你个新闻网站的
用户访问,让你看看什么关键词最热,你认为统计词频就整理好了?那到底是unigram
还是bigram还是ngram?能不能加入句子?习惯用语(中间隔几个词的)?关键词要不
要引申(比如alzheimer disease,要不要算dementia),要不要归类?是每个visit算
一次还是每个unique算一次?多少时间以内的算一次?要不要分国家,分state,分性
别,分设备?就算这些都整理好了,再问问要不要考虑时间性?上班时间和晚上的区别
?周末?节日?夏天,冬天?是用server的时间,还是用用户的时间?long term
trend, short term trend? 跟其他event的correlation?这么多feature,这么多维度
,你就算整理好了,怎么用RDBMS记录?怎么查询?feature 组合永远是无穷的,你也
永... 阅读全帖
1 (共1页)