由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - cc150 - 10.6: detect duplicate documents among 10G URLs
相关主题
面经微软拒信 + 面经
在线紧急求助一道system design面试题,面经内附o基础 可以刷题么
弱问,BST到底能不能有重复值?从流中找the first unique or the only dup
MS intern 电面被拒,附上面试过程detect number of duplicates in bst
一个google面试题请教:C++, 忽略大小写的字符串比较
面试: Take home project大公司算法题
FG面经和感想两次重要的面试都fail在同一个问题上
Multiple opening @ promising big-data startupRP Amazon Third phone
相关话题的讨论汇总
话题: hash话题: 10g话题: urls话题: documents话题: mod
进入JobHunting版参与讨论
1 (共1页)
h**o
发帖数: 548
1
how to define hash function? if it is to hash content of document, will the
hash function be sth. like:
hash=A[length of content]...A[3]+131(A[2]+131(A[1] + 131 A[0])) mod 10G ??
如果document content很长, hash 岂不很复杂?
假如不考虑split, what is mod of hash? 为什么网上说是 mod/10G?
然后怎么办, 把正好在一个hash index的link list里的不同documents 内容 逐字比
吗?
1 (共1页)
进入JobHunting版参与讨论
相关主题
RP Amazon Third phone一个google面试题
Google店面刚结束面试: Take home project
Amazon 电面归来FG面经和感想
问一道google题Multiple opening @ promising big-data startup
面经微软拒信 + 面经
在线紧急求助一道system design面试题,面经内附o基础 可以刷题么
弱问,BST到底能不能有重复值?从流中找the first unique or the only dup
MS intern 电面被拒,附上面试过程detect number of duplicates in bst
相关话题的讨论汇总
话题: hash话题: 10g话题: urls话题: documents话题: mod