由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - Design POI, GeoHash 怎么存在数据库里面。
相关主题
f design question 求讨论Uber onsite的设计题
大家帮我看看,是不是被烙印害了?地图上分割成不同区域这个设计题的核心是什么来着?
F onsite 面经脸家面试都要bug free吗?
非死不可的onsite 系统设计没面好 影响大么L家的 @work组是啥组,怎么样
找距离在一定范围之内的(比如1mile, 25 mile, 50 mile)的点(friends, stores, etc)问个怎么debug的系统题
报F和G的offer,分享面经和准备经验问个面试题
不懂就问,design uber该怎么答,有哪些要注意的地方,求大牛指点弱问一下,下一步需要总结什么了?
FB这题怎么做?一般的SDE面试要准备database的东东么?
相关话题的讨论汇总
话题: poi话题: geohash话题: 9u9qv话题: key话题: 5km
进入JobHunting版参与讨论
1 (共1页)
G**O
发帖数: 147
1
网上找到的资料一般都是在说geo hash原理是什么,基本没找到讨论具体怎么存储,读
和写怎么弄的,特来请教各位大神。
比如我的use case是,支持
寻找附近 5km 内的POI, 可以返回所有POI, 但是同时要支持分类查询:饭店,酒吧
,电影院...
首先想到GeoHashing来做,就是获取用户的地理位置,算出一个位置,比如 9u9qvu,
六位应该精度就够了。
然后要找附近 9u9qv[0] -- 9u9qv[z] 的所有的东西。我们可以用SQL
poi_table
id geohash name category....
SQL 的query可以这样 S3L3CT FROM table WHERE geohash Iike 9u9qv[%]
如果要查询酒吧
可以 geohash Iike 9u9qv[%] and category = bar
这样即使通过geohash 建立一个 index,效率似乎还是不够高。
如果用NoSQL, 应该怎么存,效率会比较高
1. 用什么类型的NoSQL
2. 具体怎么存。
3. 怎么处理POI 跃变的问题,比如处在边界上,两个POI的位置很近,但是geohash的
code相差非常大。
我的一个想法是用Key-Value store
key是GeoHashing的前五位,
比如 9u9qvc, 9u9qvb, 9u9qv8 是三个POI
那么我就存
key: 9u9qv
value: {9u9qvc:{name: xxxx, category: cinema} ,
9u9qvb: {name: yyyy, category: restaurant},
9u9qv8: {name: zzzz, category: bar }
这样要找用户5km范围内的,我就去数据库查 findKey("9u9qv"), 然后就能得到一个
清单。
如果需要返回 bar 类型的POI, 我在 application logic 里面去掉。
这种方法可行吗? 目前只有想法,想不出优缺点,请各位指导讨论。
c*******a
发帖数: 1879
2
这是唔吧, LYFT让你做的吧?



【在 G**O 的大作中提到】
: 网上找到的资料一般都是在说geo hash原理是什么,基本没找到讨论具体怎么存储,读
: 和写怎么弄的,特来请教各位大神。
: 比如我的use case是,支持
: 寻找附近 5km 内的POI, 可以返回所有POI, 但是同时要支持分类查询:饭店,酒吧
: ,电影院...
: 首先想到GeoHashing来做,就是获取用户的地理位置,算出一个位置,比如 9u9qvu,
: 六位应该精度就够了。
: 然后要找附近 9u9qv[0] -- 9u9qv[z] 的所有的东西。我们可以用SQL
: poi_table
: id geohash name category....

p******a
发帖数: 130
3
可以用hbase存。查询的时候需要比较附近9个block的数据。
[在 GPRO (GoPro) 的大作中提到:]
:网上找到的资料一般都是在说geo hash原理是什么,基本没找到讨论具体怎么存储,
读和写怎么弄的,特来请教各位大神。
:比如我的use case是,支持
:寻找附近 5km 内的POI, 可以返回所有POI, 但是同时要支持分类查询:饭店,酒吧
:,电影院...
:首先想到GeoHashing来做,就是获取用户的地理位置,算出一个位置,比如 9u9qvu,
六位应该精度就够了。
:然后要找附近 9u9qv[0] -- 9u9qv[z] 的所有的东西。我们可以用SQL
:poi_table
:id geohash name category....
:SQL 的query可以这样 S3L3CT FROM table WHERE geohash Iike 9u9qv[%]
:如果要查询酒吧
:..........
G**O
发帖数: 147
4
思路和key value差不多吧?
row key 还是 9u9qv 。 然后里面可以存这个prefix下所有的POI。
问题就是如果要更大,或者更小范围,就需要另外存 9u9q, 。
还是说 row key 存的是每个POI 具体的位置,然后查询的时候做 range query

,

【在 p******a 的大作中提到】
: 可以用hbase存。查询的时候需要比较附近9个block的数据。
: [在 GPRO (GoPro) 的大作中提到:]
: :网上找到的资料一般都是在说geo hash原理是什么,基本没找到讨论具体怎么存储,
: 读和写怎么弄的,特来请教各位大神。
: :比如我的use case是,支持
: :寻找附近 5km 内的POI, 可以返回所有POI, 但是同时要支持分类查询:饭店,酒吧
: :,电影院...
: :首先想到GeoHashing来做,就是获取用户的地理位置,算出一个位置,比如 9u9qvu,
: 六位应该精度就够了。
: :然后要找附近 9u9qv[0] -- 9u9qv[z] 的所有的东西。我们可以用SQL

p******a
发帖数: 130
5
不是指定要查5km范围的地点吗?
[在 GPRO (GoPro) 的大作中提到:]
:思路和key value差不多吧?
:row key 还是 9u9qv 。 然后里面可以存这个prefix下所有的POI。
m*******n
发帖数: 113
6
看一下geohash找neighbor的函数你就明白了。数据应该是扁平存的。
G**O
发帖数: 147
7
哦,抱歉没说清楚,5km是个例子。总之就是一个合理范围。

【在 p******a 的大作中提到】
: 不是指定要查5km范围的地点吗?
: [在 GPRO (GoPro) 的大作中提到:]
: :思路和key value差不多吧?
: :row key 还是 9u9qv 。 然后里面可以存这个prefix下所有的POI。

m******e
发帖数: 82
8
哥,能5KM,也要能10KM啊

【在 p******a 的大作中提到】
: 不是指定要查5km范围的地点吗?
: [在 GPRO (GoPro) 的大作中提到:]
: :思路和key value差不多吧?
: :row key 还是 9u9qv 。 然后里面可以存这个prefix下所有的POI。

p******a
发帖数: 130
9
距离加大就多查几个block中的点
[在 mknoodle (mknoodle) 的大作中提到:]
:哥,能5KM,也要能10KM啊
a****i
发帖数: 1182
10
感觉应该是存最高精度的geohash
比如9位的
在起service的时候,从数据库里读出来,然后按照geohas建棵树
9: {...}
9u: {...}
9u9: {...}



【在 G**O 的大作中提到】
: 网上找到的资料一般都是在说geo hash原理是什么,基本没找到讨论具体怎么存储,读
: 和写怎么弄的,特来请教各位大神。
: 比如我的use case是,支持
: 寻找附近 5km 内的POI, 可以返回所有POI, 但是同时要支持分类查询:饭店,酒吧
: ,电影院...
: 首先想到GeoHashing来做,就是获取用户的地理位置,算出一个位置,比如 9u9qvu,
: 六位应该精度就够了。
: 然后要找附近 9u9qv[0] -- 9u9qv[z] 的所有的东西。我们可以用SQL
: poi_table
: id geohash name category....

j***n
发帖数: 1
11
1 如果是搜索引擎用lucene或者solr/elatic search
2 要建不同长度的geohash索引
搜索的时候 根据需要搜索的半径 选择长度合适的geohash
可以以用户所在geohash块为中心 搜9宫格 9宫格要能框住需要的圆 且9宫格越小越好
搜出来超过半径的结果放弃掉
这样应该没有边界问题
a****u
发帖数: 1537
12
R tree
G**O
发帖数: 147
13
建树应该是把树放在内存吧?
万一数据太大, 比如 9u9v 的范围很大,这一块人口密集。一个机器装不下。就要多
台机器了。(估算了下其实未必,方圆几十km,假设10000 POI, 每个1MB, 也就10GB)
似乎是个不错的策略。这样再DB里面不用存好多份,不用 9u, 9u9 , 每个key都存一
份。

【在 a****i 的大作中提到】
: 感觉应该是存最高精度的geohash
: 比如9位的
: 在起service的时候,从数据库里读出来,然后按照geohas建棵树
: 9: {...}
: 9u: {...}
: 9u9: {...}
:
:

1 (共1页)
进入JobHunting版参与讨论
相关主题
一般的SDE面试要准备database的东东么?找距离在一定范围之内的(比如1mile, 25 mile, 50 mile)的点(friends, stores, etc)
Boston Senior Software Developer Position报F和G的offer,分享面经和准备经验
请问Java developer vs. Database developer不懂就问,design uber该怎么答,有哪些要注意的地方,求大牛指点
[广告] 招Data Scientist / Analytics / BI Engineer - WishFB这题怎么做?
f design question 求讨论Uber onsite的设计题
大家帮我看看,是不是被烙印害了?地图上分割成不同区域这个设计题的核心是什么来着?
F onsite 面经脸家面试都要bug free吗?
非死不可的onsite 系统设计没面好 影响大么L家的 @work组是啥组,怎么样
相关话题的讨论汇总
话题: poi话题: geohash话题: 9u9qv话题: key话题: 5km