由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Database版 - 搜索database按什么算法最快?用index?
相关主题
为啥RDBMS只用一个Index? (转载)Relational database presentation help
请问DATABASE各位大侠help
scalable database 是啥意思[转载] Java/JSP/Servlets... and Database(Oracle/DB2)
is SAS database a RDBMS?MySQL database backup
c,java, 数据库内核,数据库应用 (转载)mysql -- could not use the database
[提供内推] Senior DBA (SFO市区, MySQL)请教一个sql的问题
[提供内推] Senior DBA SFO, mysql, cassandra, redis, hadoop[合集] 数据库这门课值得学吗?
伪币求答案请教一个sqlplus的问题
相关话题的讨论汇总
话题: xx1话题: google话题: body话题: 搜索话题: search
进入Database版参与讨论
1 (共1页)
c*********e
发帖数: 16335
1
据说gmail里面搜索海量邮件,比outlook里搜索快很多。搜索database按什么算法最快
?用index?
n******1
发帖数: 3756
2
邮件系统和一般database有所不同
另外搜索又和邮件系统本身也不一定直接相关,可能另外做了内容index,因为google
在搜索本身的实力很强
index这个概念很广,只要不需要做历遍,都可以叫index
c*********e
发帖数: 16335
3
恩,都知道google这方面很强,难道他们用的是regular expression来搜索?

google

【在 n******1 的大作中提到】
: 邮件系统和一般database有所不同
: 另外搜索又和邮件系统本身也不一定直接相关,可能另外做了内容index,因为google
: 在搜索本身的实力很强
: index这个概念很广,只要不需要做历遍,都可以叫index

a9
发帖数: 21638
4
不会这么简单的。

【在 c*********e 的大作中提到】
: 恩,都知道google这方面很强,难道他们用的是regular expression来搜索?
:
: google

c*********e
发帖数: 16335
5
那你说个细节出来啊。大家都在那瞎猜,猜半天也没结果。难道这个算法,非要cs phd
毕业的才会整明白?

【在 a9 的大作中提到】
: 不会这么简单的。
a9
发帖数: 21638
6
不知道才瞎猜啊。
估计就是关键词索引吧。

phd

【在 c*********e 的大作中提到】
: 那你说个细节出来啊。大家都在那瞎猜,猜半天也没结果。难道这个算法,非要cs phd
: 毕业的才会整明白?

n******1
发帖数: 3756
7
其中一个最基本的概念就是inverted table,主要是你没了解过IR方面的东西,所以不
太熟悉
nlp.stanford.edu/IR-book/

phd

【在 c*********e 的大作中提到】
: 那你说个细节出来啊。大家都在那瞎猜,猜半天也没结果。难道这个算法,非要cs phd
: 毕业的才会整明白?

n******1
发帖数: 3756
8
当然Google的优势不是在于他们用了这个而其他没用,而是google各个环节做了大量优
化,而且google对用户体验一直把握很好,所以他们一直走在前面,很多纯客观的评价
参数认为google和bing没区别,甚至bing的数据比google还好,但是用户还是觉得
google好用,一方面是google的结果总是比较合理,另一方面也有用户依赖性
这是为什么bing这两年都有报一个广告,告诉用户两个engine没区别

【在 n******1 的大作中提到】
: 其中一个最基本的概念就是inverted table,主要是你没了解过IR方面的东西,所以不
: 太熟悉
: nlp.stanford.edu/IR-book/
:
: phd

c*********e
发帖数: 16335
9
bing咋知道没区别的?难道是copy人家的?

【在 n******1 的大作中提到】
: 当然Google的优势不是在于他们用了这个而其他没用,而是google各个环节做了大量优
: 化,而且google对用户体验一直把握很好,所以他们一直走在前面,很多纯客观的评价
: 参数认为google和bing没区别,甚至bing的数据比google还好,但是用户还是觉得
: google好用,一方面是google的结果总是比较合理,另一方面也有用户依赖性
: 这是为什么bing这两年都有报一个广告,告诉用户两个engine没区别

n******1
发帖数: 3756
10
搜索引擎有各种评价参数,比如AP(平均准确率,DCG,NDCG 等等

【在 c*********e 的大作中提到】
: bing咋知道没区别的?难道是copy人家的?
相关主题
[提供内推] Senior DBA (SFO市区, MySQL)Relational database presentation help
[提供内推] Senior DBA SFO, mysql, cassandra, redis, hadoophelp
伪币求答案[转载] Java/JSP/Servlets... and Database(Oracle/DB2)
进入Database版参与讨论
s**********o
发帖数: 14359
11
一说DATABASE就GOOGLE是不是贻笑大方了,
GOOGLE就是算法搜索,不用DATABASE,跟
数据库没关系
c*********e
发帖数: 16335
12
gmail肯定是把email存在database里啊。

【在 s**********o 的大作中提到】
: 一说DATABASE就GOOGLE是不是贻笑大方了,
: GOOGLE就是算法搜索,不用DATABASE,跟
: 数据库没关系

s**********o
发帖数: 14359
13
谁玩那个,不关心,免费没好货,不是每个搞IT的都去爱泡古狗非死不可的,
其实搞数据库的,基本远离爱泡古狗,商业数据库要跟钱打交道才
来钱,靠科技更新的,来的快去的也快。

【在 c*********e 的大作中提到】
: gmail肯定是把email存在database里啊。
c*********e
发帖数: 16335
14
现在有些公司,不爱outlook 365,转投gmail,尽管它有隐私问题,因为gmail搜索速度
比outlook快很多。

【在 s**********o 的大作中提到】
: 谁玩那个,不关心,免费没好货,不是每个搞IT的都去爱泡古狗非死不可的,
: 其实搞数据库的,基本远离爱泡古狗,商业数据库要跟钱打交道才
: 来钱,靠科技更新的,来的快去的也快。

n******1
发帖数: 3756
15
不放数据库,不可能放数据库

【在 c*********e 的大作中提到】
: gmail肯定是把email存在database里啊。
a9
发帖数: 21638
16
不是常见的关系型数据库而已。

【在 n******1 的大作中提到】
: 不放数据库,不可能放数据库
s**********o
发帖数: 14359
17
不常见学它干嘛,标新立异啊

【在 a9 的大作中提到】
: 不是常见的关系型数据库而已。
c*********e
发帖数: 16335
18
那放哪?

【在 n******1 的大作中提到】
: 不放数据库,不可能放数据库
c****e
发帖数: 1453
19
It's enough to put emails in file. Search is not rocket science. It could be
as simple as revert index. Suppose you have email A,B and C as
A:
To: John Body:Hello
B:
To: Sam Body:Hello
C:
To: Lily Body:Hi
Then you got:
Hello->A,B
Hi->C
When you search "hello", it can find email A and B.
Web search is much more tricky, because of ranking. Imaging you got the A,B
list as a million webpages, you have to show them in order. Pagerank is only
a small part of that. In reality, thousands of signals are used to rank the
order.
For email, it's relatively easy as it's mostly facet search: time ordered,
by sender, .etc.
gmail is not significantly faster than office 365 when you use outlook web
app. It's hard to compare with local as the machine in cloud is much
powerful than your local ones.
Often, google shows edge on performance. It's due to their infastructure:
cache, frontend optimization, datacenter coverage, data geo-replication.
Google puts lots efforts to cover tail cases as well, so it's not only good
at 50 percentile.

【在 c*********e 的大作中提到】
: 那放哪?
c*********e
发帖数: 16335
20
email search不仅仅是search 发信人,收件人,subject. 如果输入一个关键字,比如
my,那也能搜索邮件内容。

be

【在 c****e 的大作中提到】
: It's enough to put emails in file. Search is not rocket science. It could be
: as simple as revert index. Suppose you have email A,B and C as
: A:
: To: John Body:Hello
: B:
: To: Sam Body:Hello
: C:
: To: Lily Body:Hi
: Then you got:
: Hello->A,B

相关主题
MySQL database backup[合集] 数据库这门课值得学吗?
mysql -- could not use the database请教一个sqlplus的问题
请教一个sql的问题来一个sql的问题 (转载)
进入Database版参与讨论
c****e
发帖数: 1453
21
You didn't read what I wrote? Body has no difference with sender or subject.
If you are interested in the implementation detail, take a look at Lucene.
Essentially, you can see each document as a set of field, and you build
reverse index over each document. The field conect helps on structured
filtering. That's why it's called faceted search.

【在 c*********e 的大作中提到】
: email search不仅仅是search 发信人,收件人,subject. 如果输入一个关键字,比如
: my,那也能搜索邮件内容。
:
: be

c*********e
发帖数: 16335
22
如果把emails放在一個文件里,怎么sort email?

be

【在 c****e 的大作中提到】
: It's enough to put emails in file. Search is not rocket science. It could be
: as simple as revert index. Suppose you have email A,B and C as
: A:
: To: John Body:Hello
: B:
: To: Sam Body:Hello
: C:
: To: Lily Body:Hi
: Then you got:
: Hello->A,B

c****e
发帖数: 1453
23
?? sorting happened at runtime. It's not persistent in storage layer.

【在 c*********e 的大作中提到】
: 如果把emails放在一個文件里,怎么sort email?
:
: be

c*********e
发帖数: 16335
24
据说gmail里面搜索海量邮件,比outlook里搜索快很多。搜索database按什么算法最快
?用index?
n******1
发帖数: 3756
25
邮件系统和一般database有所不同
另外搜索又和邮件系统本身也不一定直接相关,可能另外做了内容index,因为google
在搜索本身的实力很强
index这个概念很广,只要不需要做历遍,都可以叫index
c*********e
发帖数: 16335
26
恩,都知道google这方面很强,难道他们用的是regular expression来搜索?

google

【在 n******1 的大作中提到】
: 邮件系统和一般database有所不同
: 另外搜索又和邮件系统本身也不一定直接相关,可能另外做了内容index,因为google
: 在搜索本身的实力很强
: index这个概念很广,只要不需要做历遍,都可以叫index

a9
发帖数: 21638
27
不会这么简单的。

【在 c*********e 的大作中提到】
: 恩,都知道google这方面很强,难道他们用的是regular expression来搜索?
:
: google

c*********e
发帖数: 16335
28
那你说个细节出来啊。大家都在那瞎猜,猜半天也没结果。难道这个算法,非要cs phd
毕业的才会整明白?

【在 a9 的大作中提到】
: 不会这么简单的。
a9
发帖数: 21638
29
不知道才瞎猜啊。
估计就是关键词索引吧。

phd

【在 c*********e 的大作中提到】
: 那你说个细节出来啊。大家都在那瞎猜,猜半天也没结果。难道这个算法,非要cs phd
: 毕业的才会整明白?

n******1
发帖数: 3756
30
其中一个最基本的概念就是inverted table,主要是你没了解过IR方面的东西,所以不
太熟悉
nlp.stanford.edu/IR-book/

phd

【在 c*********e 的大作中提到】
: 那你说个细节出来啊。大家都在那瞎猜,猜半天也没结果。难道这个算法,非要cs phd
: 毕业的才会整明白?

相关主题
sql server里怎么create 跨database的 view请问DATABASE各位大侠
How to monitor the data loading status?scalable database 是啥意思
为啥RDBMS只用一个Index? (转载)is SAS database a RDBMS?
进入Database版参与讨论
n******1
发帖数: 3756
31
当然Google的优势不是在于他们用了这个而其他没用,而是google各个环节做了大量优
化,而且google对用户体验一直把握很好,所以他们一直走在前面,很多纯客观的评价
参数认为google和bing没区别,甚至bing的数据比google还好,但是用户还是觉得
google好用,一方面是google的结果总是比较合理,另一方面也有用户依赖性
这是为什么bing这两年都有报一个广告,告诉用户两个engine没区别

【在 n******1 的大作中提到】
: 其中一个最基本的概念就是inverted table,主要是你没了解过IR方面的东西,所以不
: 太熟悉
: nlp.stanford.edu/IR-book/
:
: phd

c*********e
发帖数: 16335
32
bing咋知道没区别的?难道是copy人家的?

【在 n******1 的大作中提到】
: 当然Google的优势不是在于他们用了这个而其他没用,而是google各个环节做了大量优
: 化,而且google对用户体验一直把握很好,所以他们一直走在前面,很多纯客观的评价
: 参数认为google和bing没区别,甚至bing的数据比google还好,但是用户还是觉得
: google好用,一方面是google的结果总是比较合理,另一方面也有用户依赖性
: 这是为什么bing这两年都有报一个广告,告诉用户两个engine没区别

n******1
发帖数: 3756
33
搜索引擎有各种评价参数,比如AP(平均准确率,DCG,NDCG 等等

【在 c*********e 的大作中提到】
: bing咋知道没区别的?难道是copy人家的?
s**********o
发帖数: 14359
34
一说DATABASE就GOOGLE是不是贻笑大方了,
GOOGLE就是算法搜索,不用DATABASE,跟
数据库没关系
c*********e
发帖数: 16335
35
gmail肯定是把email存在database里啊。

【在 s**********o 的大作中提到】
: 一说DATABASE就GOOGLE是不是贻笑大方了,
: GOOGLE就是算法搜索,不用DATABASE,跟
: 数据库没关系

s**********o
发帖数: 14359
36
谁玩那个,不关心,免费没好货,不是每个搞IT的都去爱泡古狗非死不可的,
其实搞数据库的,基本远离爱泡古狗,商业数据库要跟钱打交道才
来钱,靠科技更新的,来的快去的也快。

【在 c*********e 的大作中提到】
: gmail肯定是把email存在database里啊。
c*********e
发帖数: 16335
37
现在有些公司,不爱outlook 365,转投gmail,尽管它有隐私问题,因为gmail搜索速度
比outlook快很多。

【在 s**********o 的大作中提到】
: 谁玩那个,不关心,免费没好货,不是每个搞IT的都去爱泡古狗非死不可的,
: 其实搞数据库的,基本远离爱泡古狗,商业数据库要跟钱打交道才
: 来钱,靠科技更新的,来的快去的也快。

n******1
发帖数: 3756
38
不放数据库,不可能放数据库

【在 c*********e 的大作中提到】
: gmail肯定是把email存在database里啊。
a9
发帖数: 21638
39
不是常见的关系型数据库而已。

【在 n******1 的大作中提到】
: 不放数据库,不可能放数据库
s**********o
发帖数: 14359
40
不常见学它干嘛,标新立异啊

【在 a9 的大作中提到】
: 不是常见的关系型数据库而已。
相关主题
is SAS database a RDBMS?[提供内推] Senior DBA SFO, mysql, cassandra, redis, hadoop
c,java, 数据库内核,数据库应用 (转载)伪币求答案
[提供内推] Senior DBA (SFO市区, MySQL)Relational database presentation help
进入Database版参与讨论
c*********e
发帖数: 16335
41
那放哪?

【在 n******1 的大作中提到】
: 不放数据库,不可能放数据库
c****e
发帖数: 1453
42
It's enough to put emails in file. Search is not rocket science. It could be
as simple as revert index. Suppose you have email A,B and C as
A:
To: John Body:Hello
B:
To: Sam Body:Hello
C:
To: Lily Body:Hi
Then you got:
Hello->A,B
Hi->C
When you search "hello", it can find email A and B.
Web search is much more tricky, because of ranking. Imaging you got the A,B
list as a million webpages, you have to show them in order. Pagerank is only
a small part of that. In reality, thousands of signals are used to rank the
order.
For email, it's relatively easy as it's mostly facet search: time ordered,
by sender, .etc.
gmail is not significantly faster than office 365 when you use outlook web
app. It's hard to compare with local as the machine in cloud is much
powerful than your local ones.
Often, google shows edge on performance. It's due to their infastructure:
cache, frontend optimization, datacenter coverage, data geo-replication.
Google puts lots efforts to cover tail cases as well, so it's not only good
at 50 percentile.

【在 c*********e 的大作中提到】
: 那放哪?
c*********e
发帖数: 16335
43
email search不仅仅是search 发信人,收件人,subject. 如果输入一个关键字,比如
my,那也能搜索邮件内容。

be

【在 c****e 的大作中提到】
: It's enough to put emails in file. Search is not rocket science. It could be
: as simple as revert index. Suppose you have email A,B and C as
: A:
: To: John Body:Hello
: B:
: To: Sam Body:Hello
: C:
: To: Lily Body:Hi
: Then you got:
: Hello->A,B

c****e
发帖数: 1453
44
You didn't read what I wrote? Body has no difference with sender or subject.
If you are interested in the implementation detail, take a look at Lucene.
Essentially, you can see each document as a set of field, and you build
reverse index over each document. The field conect helps on structured
filtering. That's why it's called faceted search.

【在 c*********e 的大作中提到】
: email search不仅仅是search 发信人,收件人,subject. 如果输入一个关键字,比如
: my,那也能搜索邮件内容。
:
: be

c*********e
发帖数: 16335
45
如果把emails放在一個文件里,怎么sort email?

be

【在 c****e 的大作中提到】
: It's enough to put emails in file. Search is not rocket science. It could be
: as simple as revert index. Suppose you have email A,B and C as
: A:
: To: John Body:Hello
: B:
: To: Sam Body:Hello
: C:
: To: Lily Body:Hi
: Then you got:
: Hello->A,B

c****e
发帖数: 1453
46
?? sorting happened at runtime. It's not persistent in storage layer.

【在 c*********e 的大作中提到】
: 如果把emails放在一個文件里,怎么sort email?
:
: be

n*******k
发帖数: 100
47
如果是纯文本文件,应该是用term(distinct word)做inverted index。搜索时,找到
含有此term的Document ID。可能好几个Document合并存在一个file里面。用Document
ID找到对应file里面的开始字节位置,和一个游标(长度)。
doc# file_path start end
1 /home/xx1/f1 0 1000
2 /home/xx1/f1 1001 2303
3 /home/xx1/f2 0 1299
3 /home/xx1/f2 1300 2219
c*********e
发帖数: 16335
48
那带有25mb附件的email呢?

Document

【在 n*******k 的大作中提到】
: 如果是纯文本文件,应该是用term(distinct word)做inverted index。搜索时,找到
: 含有此term的Document ID。可能好几个Document合并存在一个file里面。用Document
: ID找到对应file里面的开始字节位置,和一个游标(长度)。
: doc# file_path start end
: 1 /home/xx1/f1 0 1000
: 2 /home/xx1/f1 1001 2303
: 3 /home/xx1/f2 0 1299
: 3 /home/xx1/f2 1300 2219

n*******k
发帖数: 100
49
如果加得是.jpg,.bmp之类图片,文件单独存一个文件夹,文件名重命名成序号。
图片是没办法搜索关键词了。
email# file_path start end attached-img
1 /home/xx1/file/f1 0 1000 /home/xx1/image/1.jpg
2 /home/xx1/file/f1 1001 2303 /home/xx1/image/2.bmp
3 /home/xx1/file/f2 0 1299 null
3 /home/xx1/file/f2 1300 2219 null
如果加得是.pdf文件
email# file_path start end attached-pdf
1 /home/xx1/file/f1 0 1000 /home/xx1/pdf/1.pdf
2 /home/xx1/file/f1 1001 2303 null
3 /home/xx1/file/f2 0 1299 /home/xx1/pdf/2.pdf
3 /home/xx1/file/f2 1300 2219 null
pdf# file_path ownByEmail#
1 /home/xx1/pdf/1.pdf 1
2 /home/xx1/pdf/2.pdf 3
所有pdf文件可以单独做个inverted index,找到匹配关键词的pdf文件,返回路径,以及
email正文
w*r
发帖数: 2421
50
please check google GFS. google.baidu.taobao.fb definitely are not using
traditional RDBMS to store./search/process data. google has its own google
file sys, taobao has its own taobao FS.. i believe baidu and others are
pursuing the same route
1 (共1页)
进入Database版参与讨论
相关主题
请教一个sqlplus的问题c,java, 数据库内核,数据库应用 (转载)
来一个sql的问题 (转载)[提供内推] Senior DBA (SFO市区, MySQL)
sql server里怎么create 跨database的 view[提供内推] Senior DBA SFO, mysql, cassandra, redis, hadoop
How to monitor the data loading status?伪币求答案
为啥RDBMS只用一个Index? (转载)Relational database presentation help
请问DATABASE各位大侠help
scalable database 是啥意思[转载] Java/JSP/Servlets... and Database(Oracle/DB2)
is SAS database a RDBMS?MySQL database backup
相关话题的讨论汇总
话题: xx1话题: google话题: body话题: 搜索话题: search