由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - 想学学Hadoop,从wordcount开始
相关主题
MapReduce 请教:key 能用pair value吗?比如Facebook面经
电面被问到hadoop了求问一道用新语言写wordcount的题
如何用hadoop 析取各种数据?求问data processing类的题目长啥样
text justification 有人ac吗C++ Q39: throw new (C1)
hadoop的combiner和partitioner的顺序是什么呢?[vmware面经] software engineer
职位和 candidate 数量的关系BB面试一题
[salesforce面经]performance engineerGoogle第二轮电面
发苹果电面面经攒人品in what case O(n*2) is better than O(n).
相关话题的讨论汇总
话题: text话题: context话题: map
进入JobHunting版参与讨论
1 (共1页)
A******g
发帖数: 612
1
http://wiki.apache.org/hadoop/WordCount
这个程序的逻辑是看明白了,神奇的是在main里好像从来就没指定哪个是key,哪个是
value,就给了个输入输出文件名
这个map function
public void map(LongWritable key, Text value, Context context) throws
IOException, InterruptedException
还有reduce function是怎么知道那个是key 那个是value?
请大牛说说?
X*K
发帖数: 87
2
我不懂瞎猜的
public static class Map extends Mapper >
就是说这个mapper把input pair
LongWritable, Text (行id,行文本)
map到output pair
Text, IntWritable(词,数字1)
而map function
public void map(LongWritable key, Text value, Context context) throws
IOException, InterruptedException
的前两个参数就是input pari,Context应该就是hadoop句柄,然后
context.write(word, one);
就是输出output pair.
reducer应该也类似
A******g
发帖数: 612
3
有道理,所以map的input就是以input file的行读的

IntWritable

【在 X*K 的大作中提到】
: 我不懂瞎猜的
: public static class Map extends Mapper: >
: 就是说这个mapper把input pair
: LongWritable, Text (行id,行文本)
: map到output pair
: Text, IntWritable(词,数字1)
: 而map function
: public void map(LongWritable key, Text value, Context context) throws
: IOException, InterruptedException

A******g
发帖数: 612
4
http://wiki.apache.org/hadoop/WordCount
这个程序的逻辑是看明白了,神奇的是在main里好像从来就没指定哪个是key,哪个是
value,就给了个输入输出文件名
这个map function
public void map(LongWritable key, Text value, Context context) throws
IOException, InterruptedException
还有reduce function是怎么知道那个是key 那个是value?
请大牛说说?
X*K
发帖数: 87
5
我不懂瞎猜的
public static class Map extends Mapper >
就是说这个mapper把input pair
LongWritable, Text (行id,行文本)
map到output pair
Text, IntWritable(词,数字1)
而map function
public void map(LongWritable key, Text value, Context context) throws
IOException, InterruptedException
的前两个参数就是input pari,Context应该就是hadoop句柄,然后
context.write(word, one);
就是输出output pair.
reducer应该也类似
A******g
发帖数: 612
6
有道理,所以map的input就是以input file的行读的

IntWritable

【在 X*K 的大作中提到】
: 我不懂瞎猜的
: public static class Map extends Mapper: >
: 就是说这个mapper把input pair
: LongWritable, Text (行id,行文本)
: map到output pair
: Text, IntWritable(词,数字1)
: 而map function
: public void map(LongWritable key, Text value, Context context) throws
: IOException, InterruptedException

1 (共1页)
进入JobHunting版参与讨论
相关主题
in what case O(n*2) is better than O(n).hadoop的combiner和partitioner的顺序是什么呢?
median of N^2 numbers across N machines职位和 candidate 数量的关系
电话面试一个design问题,看看怎么做[salesforce面经]performance engineer
问一道Amazon的老题发苹果电面面经攒人品
MapReduce 请教:key 能用pair value吗?比如Facebook面经
电面被问到hadoop了求问一道用新语言写wordcount的题
如何用hadoop 析取各种数据?求问data processing类的题目长啥样
text justification 有人ac吗C++ Q39: throw new (C1)
相关话题的讨论汇总
话题: text话题: context话题: map