由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - Spark上怎么join avro format的数据?
相关主题
怎么设计这个client缩进用空格好,还是tab好?
Cassandra到底是不是schemaless?[合集] java怎么这么怪呀?
Spark RDDboost serialization的问题
寻求技术合伙人serialization 到底该怎么理解啊?
Does C++ have serializer and deserialzierPyspark 怎么format output?
Boost.Serialization no longer maintained?Angular formating Q: {{(mysystem.freeMem / myststem.totalMem) * 100}}%
Hadoop写入的主流框架有哪些?还是问一下过来人把,关于xml
what is used to represent a "tab" character in "sed"how to get reference.vb file? (转载)
相关话题的讨论汇总
话题: spark话题: join话题: avro话题: 数据话题: format
进入Programming版参与讨论
1 (共1页)
w******g
发帖数: 189
1
看见这里有scala 和spark的大牛,问问一个困扰多时的问题。Spark上怎么join avro
format的数据?
如果是plain text,用TAB分割开的数据,做join操作很容易就是把A和B表弄成(key,
value)格式的rdd再调用A.join(B)就可以了。但是我现在要join avro格式的数据,还
是A和B,格式都是(STRING, GenericRecord)。读是可以都的,因为可以执行first和
count的action,但是join貌似要shuffle,shuffle的话要serialize 临时数据。已经
用了kyro的serializer register A和B类了,还是不行。大牛谁有经验或者可以run的
例子吗?
m*****k
发帖数: 731
2
前天偶尔看到的,不知有用否:
http://zenfractal.com/2013/08/21/a-powerful-big-data-trio/
k*******n
发帖数: 190
3
写一个parser,定义如何每行转成ROWRDD,再定义一个Schema,apply之后,就成为
SchemaRDD,然后可以 按照 SPARK SQL select, join 随便操作。
1 (共1页)
进入Programming版参与讨论
相关主题
how to get reference.vb file? (转载)Does C++ have serializer and deserialzier
菜鸟撞上offer也发愁,数据库和网站大牛给看看靠谱不? (转载)Boost.Serialization no longer maintained?
xml schema beginner questionHadoop写入的主流框架有哪些?
5/24-IT新手入门第四讲 如何找数据库的工作 (转载)what is used to represent a "tab" character in "sed"
怎么设计这个client缩进用空格好,还是tab好?
Cassandra到底是不是schemaless?[合集] java怎么这么怪呀?
Spark RDDboost serialization的问题
寻求技术合伙人serialization 到底该怎么理解啊?
相关话题的讨论汇总
话题: spark话题: join话题: avro话题: 数据话题: format