C***1 发帖数: 24 | 1 G家的员工能不能解释一下,谢谢
不知道为什么gmail搜索要匹配整个字符串。
例如搜索“bbs”,虽然“mitbbs”含有“bbs”,却不会出现在搜索结果。
又如:记得某个电话号码后四位是“1234”,在gmail里却搜索不到,因为邮件里的号
码是“800-8101234”
这是何等脑残的设计?这个问题有解么 |
d****o 发帖数: 1055 | 2 因为搜索要index
index一般都是根据单词来存储的
用单词来映射和对应
为了满足你这个小众需求 需要重新设计index方法 空间需求大好几倍 不太现实 |
s**y 发帖数: 223 | 3 试了一下搜索结果好像却是没有,但是typeahead下拉栏里确有正确的,不过只有最近的
可能G的邮件倒排索引的key就是整个的字符串,typeahead的Trie应该比较复杂 |
j**********r 发帖数: 3798 | 4 The index tree will be too big for that.
【在 C***1 的大作中提到】 : G家的员工能不能解释一下,谢谢 : 不知道为什么gmail搜索要匹配整个字符串。 : 例如搜索“bbs”,虽然“mitbbs”含有“bbs”,却不会出现在搜索结果。 : 又如:记得某个电话号码后四位是“1234”,在gmail里却搜索不到,因为邮件里的号 : 码是“800-8101234” : 这是何等脑残的设计?这个问题有解么
|
C***1 发帖数: 24 | 5 我不觉得算小众需求吧,我周围不少人都抱怨过这个问题。
【在 d****o 的大作中提到】 : 因为搜索要index : index一般都是根据单词来存储的 : 用单词来映射和对应 : 为了满足你这个小众需求 需要重新设计index方法 空间需求大好几倍 不太现实
|
C***1 发帖数: 24 | 6 另外网页搜索可能需要很大资源,但大部分人的gmail里的文本信息并没有很多。
我不是IT专业的,请问在word或者notepad里面搜索使用index么,我能不能在gmail里
面实现类似notepad的搜索功能?
【在 d****o 的大作中提到】 : 因为搜索要index : index一般都是根据单词来存储的 : 用单词来映射和对应 : 为了满足你这个小众需求 需要重新设计index方法 空间需求大好几倍 不太现实
|
z*********8 发帖数: 2070 | 7 我觉得你有一个amazing的idea, 就缺一个程序员了
【在 C***1 的大作中提到】 : 另外网页搜索可能需要很大资源,但大部分人的gmail里的文本信息并没有很多。 : 我不是IT专业的,请问在word或者notepad里面搜索使用index么,我能不能在gmail里 : 面实现类似notepad的搜索功能?
|
r******t 发帖数: 250 | 8 (非相关组的浅谈)
web 其实是比 gmail 的 index 量还要小的
你在自己的里面搜索可能量不大,但是 server 却是给所有人的
notepad 有上百兆搜起来就慢死,而 gmail 大的多却只有几秒
mitbbs 可能当成了一个不可分割的 unigram
【在 C***1 的大作中提到】 : 另外网页搜索可能需要很大资源,但大部分人的gmail里的文本信息并没有很多。 : 我不是IT专业的,请问在word或者notepad里面搜索使用index么,我能不能在gmail里 : 面实现类似notepad的搜索功能?
|
l****u 发帖数: 1764 | 9 这一点是很不爽,有时候不记得完整的拼写了,那么gmail就搜不出来
还是成本的问题吧,为每个人的邮箱archive做类似web search engine那样的索引,而
相互又不能共享,那磁盘消耗量会指数上升,性价比太低了 |
j**********r 发帖数: 3798 | 10 It's not just cost. You may also have too much noise in the search result.
【在 l****u 的大作中提到】 : 这一点是很不爽,有时候不记得完整的拼写了,那么gmail就搜不出来 : 还是成本的问题吧,为每个人的邮箱archive做类似web search engine那样的索引,而 : 相互又不能共享,那磁盘消耗量会指数上升,性价比太低了
|
|
|
C***1 发帖数: 24 | 11 noise不是问题,可以有个搜索选项,如果觉得noise太多可以关掉选项
【在 j**********r 的大作中提到】 : It's not just cost. You may also have too much noise in the search result.
|
C***1 发帖数: 24 | 12 你说我在我的gmail搜索,google会去搜索整个server?
每个人的邮件是怎么存储的,不能只搜索存储我邮件的区域么?
【在 r******t 的大作中提到】 : (非相关组的浅谈) : web 其实是比 gmail 的 index 量还要小的 : 你在自己的里面搜索可能量不大,但是 server 却是给所有人的 : notepad 有上百兆搜起来就慢死,而 gmail 大的多却只有几秒 : mitbbs 可能当成了一个不可分割的 unigram
|
C***1 发帖数: 24 | 13 对,很多时候就是记不全,然后死活都找不到。。。
【在 l****u 的大作中提到】 : 这一点是很不爽,有时候不记得完整的拼写了,那么gmail就搜不出来 : 还是成本的问题吧,为每个人的邮箱archive做类似web search engine那样的索引,而 : 相互又不能共享,那磁盘消耗量会指数上升,性价比太低了
|
l****u 发帖数: 1764 | 14 icloud里面的Notes貌似更强大些,某些信息(文本)可以存在那儿
【在 C***1 的大作中提到】 : 对,很多时候就是记不全,然后死活都找不到。。。
|
r******t 发帖数: 250 | 15 是只搜你的 但你要想其他10亿人的很多其他词也需要 partial match,并建立索引
而你说的那个可以关掉的选项一般都是要关掉的 比如一个 work-,car- 就能匹配非常
多邮件
你想的功能可能会有 但是做产品加一个功能不是说你觉得周围几个人感觉好像需要就
应该加 这是“文科生”思考数据的方式 就算调研一群人想用 实际试用起来是不是真
的是他们长期想要的还不一定 对不了解的话题不要张口就说别人设计脑残
【在 C***1 的大作中提到】 : 你说我在我的gmail搜索,google会去搜索整个server? : 每个人的邮件是怎么存储的,不能只搜索存储我邮件的区域么?
|
j**********r 发帖数: 3798 | 16 一般的做法是reverse index, 然后可以在输入的时候搜keyword做 autocomplete
【在 r******t 的大作中提到】 : 是只搜你的 但你要想其他10亿人的很多其他词也需要 partial match,并建立索引 : 而你说的那个可以关掉的选项一般都是要关掉的 比如一个 work-,car- 就能匹配非常 : 多邮件 : 你想的功能可能会有 但是做产品加一个功能不是说你觉得周围几个人感觉好像需要就 : 应该加 这是“文科生”思考数据的方式 就算调研一群人想用 实际试用起来是不是真 : 的是他们长期想要的还不一定 对不了解的话题不要张口就说别人设计脑残
|
g*****s 发帖数: 1288 | 17 得多脑残的人才能一边骂人脑残一边问问题?
【在 C***1 的大作中提到】 : G家的员工能不能解释一下,谢谢 : 不知道为什么gmail搜索要匹配整个字符串。 : 例如搜索“bbs”,虽然“mitbbs”含有“bbs”,却不会出现在搜索结果。 : 又如:记得某个电话号码后四位是“1234”,在gmail里却搜索不到,因为邮件里的号 : 码是“800-8101234” : 这是何等脑残的设计?这个问题有解么
|
e******n 发帖数: 3435 | 18 这个问题是很讨厌,以前记得是可以的,不知道什么时候就没了。搜索很不方便。以前
Yahoo,outlook什么的就是搜索不方便我才换gmail的,现在又退步了。
【在 C***1 的大作中提到】 : G家的员工能不能解释一下,谢谢 : 不知道为什么gmail搜索要匹配整个字符串。 : 例如搜索“bbs”,虽然“mitbbs”含有“bbs”,却不会出现在搜索结果。 : 又如:记得某个电话号码后四位是“1234”,在gmail里却搜索不到,因为邮件里的号 : 码是“800-8101234” : 这是何等脑残的设计?这个问题有解么
|
v***a 发帖数: 903 | 19 Keep search bbs for a while, maybe it will learn that "bbs" is a word. |
L********y 发帖数: 283 | 20 I met this same problem but have no answer. I will do it if gmail hires me |
|
|
r********a 发帖数: 691 | 21 我也有同样的问题
【在 L********y 的大作中提到】 : I met this same problem but have no answer. I will do it if gmail hires me
|
b**********s 发帖数: 435 | |
i*****h 发帖数: 25 | |
z****n 发帖数: 1933 | 24 文科生的傻问题还骂别人脑残。你估计你打进一个字符串组合,别人要把世界上所有网
页看一遍来找出你给的组合。实际情况是预先索引。如果建索引,一个长单词,会有多
少字符串的组合,又要耗用多少索引时间和存储。你想过没有?啥都不知道就上来喷,
真是无知者无畏。
【在 C***1 的大作中提到】 : G家的员工能不能解释一下,谢谢 : 不知道为什么gmail搜索要匹配整个字符串。 : 例如搜索“bbs”,虽然“mitbbs”含有“bbs”,却不会出现在搜索结果。 : 又如:记得某个电话号码后四位是“1234”,在gmail里却搜索不到,因为邮件里的号 : 码是“800-8101234” : 这是何等脑残的设计?这个问题有解么
|
n***d 发帖数: 8857 | 25 大哥,人家问的是子字符串,你愣给换成打乱顺序; 人家问的是自己的信箱,你愣给换
成全世界的网页。
【在 z****n 的大作中提到】 : 文科生的傻问题还骂别人脑残。你估计你打进一个字符串组合,别人要把世界上所有网 : 页看一遍来找出你给的组合。实际情况是预先索引。如果建索引,一个长单词,会有多 : 少字符串的组合,又要耗用多少索引时间和存储。你想过没有?啥都不知道就上来喷, : 真是无知者无畏。
|
g*****x 发帖数: 3283 | 26 分词法啊
【在 C***1 的大作中提到】 : G家的员工能不能解释一下,谢谢 : 不知道为什么gmail搜索要匹配整个字符串。 : 例如搜索“bbs”,虽然“mitbbs”含有“bbs”,却不会出现在搜索结果。 : 又如:记得某个电话号码后四位是“1234”,在gmail里却搜索不到,因为邮件里的号 : 码是“800-8101234” : 这是何等脑残的设计?这个问题有解么
|
w********n 发帖数: 361 | 27 能不能用*1234* 搜?
【在 g*****x 的大作中提到】 : 分词法啊
|
F****n 发帖数: 3271 | 28 Partial match用Compressed Trie其实增加不了多少空间
而且这个功能对大多数搜索引擎都是标配根本不难,
gmail以前好像也有(记不太清楚)后来自以为是的拿掉了
大公司都这样以为自己牛就教育用户还振振有词的
其实是已经在变烂的标志。G的一些产品现在非常烂。
【在 r******t 的大作中提到】 : 是只搜你的 但你要想其他10亿人的很多其他词也需要 partial match,并建立索引 : 而你说的那个可以关掉的选项一般都是要关掉的 比如一个 work-,car- 就能匹配非常 : 多邮件 : 你想的功能可能会有 但是做产品加一个功能不是说你觉得周围几个人感觉好像需要就 : 应该加 这是“文科生”思考数据的方式 就算调研一群人想用 实际试用起来是不是真 : 的是他们长期想要的还不一定 对不了解的话题不要张口就说别人设计脑残
|
w********i 发帖数: 1721 | 29 同意,现在到底是用户提需求还是程序猿提需求?
【在 F****n 的大作中提到】 : Partial match用Compressed Trie其实增加不了多少空间 : 而且这个功能对大多数搜索引擎都是标配根本不难, : gmail以前好像也有(记不太清楚)后来自以为是的拿掉了 : 大公司都这样以为自己牛就教育用户还振振有词的 : 其实是已经在变烂的标志。G的一些产品现在非常烂。
|
r******t 发帖数: 250 | 30 增加不了多少是多少?“自以为是拿掉”这种臆想的话也敢说
搜网页,email 搜索,autocomplete 等都是不同的搜索问题 什么叫标配功能
有人问问题有人说看法怎么叫振振有词的教育用户 你不喜欢的产品没必要用 不用来做
背景攻击
都知道 compressed trie 这种结构线性搜索还能省空间,但你有没有研究过它的分布
式 hash 版本的各种优缺点就振振有词的指教别人怎么做
【在 F****n 的大作中提到】 : Partial match用Compressed Trie其实增加不了多少空间 : 而且这个功能对大多数搜索引擎都是标配根本不难, : gmail以前好像也有(记不太清楚)后来自以为是的拿掉了 : 大公司都这样以为自己牛就教育用户还振振有词的 : 其实是已经在变烂的标志。G的一些产品现在非常烂。
|
|
|
w*********l 发帖数: 1337 | 31 我不觉得也。连实时搜索都做得出来,我不信这点index能让datacenter爆掉。
【在 z****n 的大作中提到】 : 文科生的傻问题还骂别人脑残。你估计你打进一个字符串组合,别人要把世界上所有网 : 页看一遍来找出你给的组合。实际情况是预先索引。如果建索引,一个长单词,会有多 : 少字符串的组合,又要耗用多少索引时间和存储。你想过没有?啥都不知道就上来喷, : 真是无知者无畏。
|
r******t 发帖数: 250 | 32 做是肯定能做到的只要有资本堆积 但是到底有多值得做就是问题了
实时搜索直接和利润相关 自然被抢着做
gmail 搜索 partial match 几个字母结果太多 可能用户还要花些时间找
所以猜测考虑到目前做这个东西的代价以及带来的效益 就先不做了
所以一个 workaround 就是回忆更多相关信息 比如谁发的 还有其他什么字 标题可能
有什么等等
用户对产品的感觉是功能越丰富越好 大不了当成一个选项允许自己配置 万一真能派上
用场 这样就容易造成产品可配置的东西多 如何管理这些选项 如何让用户方便找到自
己想打开的选项也是问题 所以有很多*功能强大*的工具让人一看工具栏就头疼
当然我也感觉这个功能有时候是好的
【在 w*********l 的大作中提到】 : 我不觉得也。连实时搜索都做得出来,我不信这点index能让datacenter爆掉。
|
j**w 发帖数: 382 | 33 it's the time for product queen, marrisa mayer, to return Google.
Users first, period. |
l***i 发帖数: 1309 | 34 网页和gmail搜索有个区别,网页要是有个你期待的页面没出来大家觉得没什么,,
gmail有个email没搜出来后来又被你找到了就会被骂成渣。话说免费服务不能要求太高
吧 |
r*******e 发帖数: 7583 | 35 晕,这点index。gmail月活跃用户刚刚过了1 billion,邮件总数量(不算垃圾邮件)
远超过Web search文档数量。哪个trie能轻松搞定trillion级别的索引?别忘了gmail
index是近实时更新的。
这个量级上能做到全词搜索已经不容易了,gmail搜索结果又不放广告赚钱
【在 w*********l 的大作中提到】 : 我不觉得也。连实时搜索都做得出来,我不信这点index能让datacenter爆掉。
|
F****n 发帖数: 3271 | 36 我就是做这个的,
根本不难
【在 r******t 的大作中提到】 : 增加不了多少是多少?“自以为是拿掉”这种臆想的话也敢说 : 搜网页,email 搜索,autocomplete 等都是不同的搜索问题 什么叫标配功能 : 有人问问题有人说看法怎么叫振振有词的教育用户 你不喜欢的产品没必要用 不用来做 : 背景攻击 : 都知道 compressed trie 这种结构线性搜索还能省空间,但你有没有研究过它的分布 : 式 hash 版本的各种优缺点就振振有词的指教别人怎么做
|
F****n 发帖数: 3271 | 37 Gmail是实时更新没错但别忘了他的content是增减而不是revision
也就是说只要实时index新增的邮件就行了不需要reindex
Gmail邮件总量虽然大,但每个用户的邮件量并不算大,所以其实都不要做inverted
index, 用Trie就行了, size < N
gmail
【在 r*******e 的大作中提到】 : 晕,这点index。gmail月活跃用户刚刚过了1 billion,邮件总数量(不算垃圾邮件) : 远超过Web search文档数量。哪个trie能轻松搞定trillion级别的索引?别忘了gmail : index是近实时更新的。 : 这个量级上能做到全词搜索已经不容易了,gmail搜索结果又不放广告赚钱
|