那道求两大文件交集的G题 - JobHunting版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

JobHunting版 - 那道求两大文件交集的G题

相关主题
● [网flix]面经	● bloomberg 店面
● G家mapreduce一道题	● external sorting的一个问题
● 请问如何准备data scientist工作面试？	● G家面经，求bless
● 问个大数据处理的面试题	● 为什么加个结束符leetcode就run time error呢？
● [emc/greenplum面试]senior engineer	● 一道大数据题，求最优解。
● 这么热闹, 我也报Google offer	● 请教可以在线练习 map reduce 的地方？
● 一道面试题	● 简单map reduce mean median，傻逼回答
● 这些找missing number的题是不是都不能用求和做？	● 我再说说我挂掉的那道题吧

相关话题的讨论汇总
话题: sort话题: file话题: external话题: output话题: files

进入JobHunting版参与讨论

1

(共1页)

j******2 发帖数: 362	1 You are given two very large files of unsigned 64 bit integers. Write to an output file all the numbers that appear in both files, but there should be no duplicates in the output file (like an intersection). 思路是不是先分别external sort，再求交集啊？
d**********x 发帖数: 4083	2 1.txt map时 emit , 2.txt map时emit reduce的时候用bitwise-or，然后输出所有标记为3的？刚学这个。。瞎扯的。。。要是一台机器，应该是hash吧【在 j******2 的大作中提到】 : You are given two very large files of unsigned 64 : bit integers. Write to an output file all the numbers : that appear in both files, but there should be no : duplicates in the output file (like an intersection). : 思路是不是先分别external sort，再求交集啊？
j******2 发帖数: 362	3 想起来了，傻逼了。【在 d**********x 的大作中提到】 : 1.txt map时 emit , 2.txt map时emit : reduce的时候用bitwise-or，然后输出所有标记为3的？ : 刚学这个。。瞎扯的。。。 : 要是一台机器，应该是hash吧
j******2 发帖数: 362	4 又想了下，好象还是sort先比较好。mapreduce不会也，要学吗？？ bit vector反正是不行，太大了。下面两个地方都有讨论，大家也讨论下如何？ http://stackoverflow.com/questions/6520954/produce-a-file-that- http://www.careercup.com/question?id=13869712 【在 j******2 的大作中提到】 : 想起来了，傻逼了。
d**********x 发帖数: 4083	5 先sort就是归并的时候不用太大消耗。。不过sort的过程会很痛苦吧。我能想到的另一个办法就是hash到机器，然后在各个机器上再建hash表。不过我对分布式没什么经验，都是蒙的，希望有经验的来给讲讲。【在 j******2 的大作中提到】 : 又想了下，好象还是sort先比较好。mapreduce不会也，要学吗？？ : bit vector反正是不行，太大了。 : 下面两个地方都有讨论，大家也讨论下如何？ : http://stackoverflow.com/questions/6520954/produce-a-file-that- : http://www.careercup.com/question?id=13869712
j******2 发帖数: 362	6 大侠能不能介绍下mapreduce入门怎么学，只需要很简单的，网上有什么好的资料推荐吗？不胜感激【在 d**********x 的大作中提到】 : 先sort就是归并的时候不用太大消耗。。不过sort的过程会很痛苦吧。 : 我能想到的另一个办法就是hash到机器，然后在各个机器上再建hash表。 : 不过我对分布式没什么经验，都是蒙的，希望有经验的来给讲讲。
d**********x 发帖数: 4083	7 版面搜索hadoop，第一篇【在 j******2 的大作中提到】 : 大侠能不能介绍下mapreduce入门怎么学，只需要很简单的，网上有什么好的资料推荐 : 吗？不胜感激
j******2 发帖数: 362	8 谢谢！！懂hadoop是不是必须呀？我已经为leetcode和150的算法题耗尽了体力，不想学新的了，能否直接说：不懂hadoop! 【在 d**********x 的大作中提到】 : 版面搜索hadoop，第一篇
j******2 发帖数: 362	9 再想想这题，0～2^64的范围内，一个reasonable的file size，肯定不会是full range 上很密集的都有（如果整个范围每个数出现一次，文件大小就是2^64个64-bit，也就是 2^67byte，也就是2^37个G，那是什么概念？在两个文件大小正常的情况下，external sort应该是可行的，因为 sort的复杂度取决于的是文件里数的个数，而非数值的范围。更进一步，如果文件很小，只是数的范围大，那用hash就可以解决了。【在 d**********x 的大作中提到】 : 先sort就是归并的时候不用太大消耗。。不过sort的过程会很痛苦吧。 : 我能想到的另一个办法就是hash到机器，然后在各个机器上再建hash表。 : 不过我对分布式没什么经验，都是蒙的，希望有经验的来给讲讲。
d**********x 发帖数: 4083	10 所以就看文件到底有多大。。 range external 【在 j******2 的大作中提到】 : 再想想这题，0～2^64的范围内，一个reasonable的file size，肯定不会是full range : 上很密集的都有（如果整个范围每个数出现一次，文件大小就是2^64个64-bit，也就是 : 2^67byte，也就是2^37个G，那是什么概念？在两个文件大小正常的情况下，external : sort应该是可行的，因为 : sort的复杂度取决于的是文件里数的个数，而非数值的范围。更进一步，如果文件很小 : ，只 : 是数的范围大，那用hash就可以解决了。
j******2 发帖数: 362	11 他的disk装得下多大的file，external sort就可以sort多大的file，是这个理儿吧？
j******2 发帖数: 362	12 他的disk装得下多大的file，external sort就可以sort多大的file，是这个理儿吧？
c********t 发帖数: 5706	13 en, 如果两个1TB的文件，在4gb rem机器上external sort也是很痛苦的。我觉得hadoop不一定要懂（我不懂），但mapreduce过程还是要能说出来吧。这道题估计面试官会引导，最后还是要用mapreduce. 【在 d**********x 的大作中提到】 : 所以就看文件到底有多大。。 : : range : external
j******2 发帖数: 362	14 谢谢指引，我觉得你说的有理。【在 c********t 的大作中提到】 : en, 如果两个1TB的文件，在4gb rem机器上external sort也是很痛苦的。 : 我觉得hadoop不一定要懂（我不懂），但mapreduce过程还是要能说出来吧。这道题估 : 计面试官会引导，最后还是要用mapreduce.

1

(共1页)

进入JobHunting版参与讨论

相关主题
● 我再说说我挂掉的那道题吧	● [emc/greenplum面试]senior engineer
● Amazon组选择：EC2还是Elastic MapReduce	● 这么热闹, 我也报Google offer
● hadoop面试和学习总结	● 一道面试题
● [hortonworks面经] senior hadoop engineer	● 这些找missing number的题是不是都不能用求和做？
● [网flix]面经	● bloomberg 店面
● G家mapreduce一道题	● external sorting的一个问题
● 请问如何准备data scientist工作面试？	● G家面经，求bless
● 问个大数据处理的面试题	● 为什么加个结束符leetcode就run time error呢？

相关话题的讨论汇总
话题: sort话题: file话题: external话题: output话题: files

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)