s*******t 发帖数: 248 | 1 Blackeagle, amazon的面经中的两个题。
1. two machine, big files, how to judge if two files are same
2. Two machine, each has million files, each file G bytes, how to judge
对第一个, 我想是否 build invert index, 然后比较之。
第二个,每个文件有一个根据内容的signature, 可以是上面的 inverted index,
hashmap, 或者是其他一些编码方式。
请指正。 | c***2 发帖数: 838 | | s*******t 发帖数: 248 | 3 looks promising, 请大牛们确定下, 这个题多次出现,没看到标准答案
【在 c***2 的大作中提到】 : how about MD5(file)?
| x****k 发帖数: 2932 | 4 通信协议里面有CRC校验,通常用硬件实现,如果真要大规模弄,可以给每个file计算
个crc。 | s*******t 发帖数: 248 | 5 这个思路没听过,挺有意思
【在 x****k 的大作中提到】 : 通信协议里面有CRC校验,通常用硬件实现,如果真要大规模弄,可以给每个file计算 : 个crc。
|
|