w******g 发帖数: 189 | 1 看见这里有scala 和spark的大牛,问问一个困扰多时的问题。Spark上怎么join avro
format的数据?
如果是plain text,用TAB分割开的数据,做join操作很容易就是把A和B表弄成(key,
value)格式的rdd再调用A.join(B)就可以了。但是我现在要join avro格式的数据,还
是A和B,格式都是(STRING, GenericRecord)。读是可以都的,因为可以执行first和
count的action,但是join貌似要shuffle,shuffle的话要serialize 临时数据。已经
用了kyro的serializer register A和B类了,还是不行。大牛谁有经验或者可以run的
例子吗? | m*****k 发帖数: 731 | | k*******n 发帖数: 190 | 3 写一个parser,定义如何每行转成ROWRDD,再定义一个Schema,apply之后,就成为
SchemaRDD,然后可以 按照 SPARK SQL select, join 随便操作。 |
|