Spark上怎么join avro format的数据？ - Programming版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - Spark上怎么join avro format的数据？

相关主题
● 怎么设计这个client	● 缩进用空格好，还是tab好？
● Cassandra到底是不是schemaless？	● [合集] java怎么这么怪呀？
● Spark RDD	● boost serialization的问题
● 寻求技术合伙人	● serialization 到底该怎么理解啊？
● Does C++ have serializer and deserialzier	● Pyspark 怎么format output?
● Boost.Serialization no longer maintained?	● Angular formating Q:	{{(mysystem.freeMem / myststem.totalMem) * 100}}%
● Hadoop写入的主流框架有哪些？	● 还是问一下过来人把,关于xml
● what is used to represent a "tab" character in "sed"	● how to get reference.vb file? (转载)

相关话题的讨论汇总
话题: spark话题: join话题: avro话题: 数据话题: format

进入Programming版参与讨论

1

(共1页)

w******g 发帖数: 189	1 看见这里有scala 和spark的大牛，问问一个困扰多时的问题。Spark上怎么join avro format的数据？如果是plain text，用TAB分割开的数据，做join操作很容易就是把A和B表弄成(key, value)格式的rdd再调用A.join(B)就可以了。但是我现在要join avro格式的数据，还是A和B，格式都是(STRING, GenericRecord)。读是可以都的，因为可以执行first和 count的action，但是join貌似要shuffle，shuffle的话要serialize 临时数据。已经用了kyro的serializer register A和B类了，还是不行。大牛谁有经验或者可以run的例子吗？
m*****k 发帖数: 731	2 前天偶尔看到的，不知有用否： http://zenfractal.com/2013/08/21/a-powerful-big-data-trio/
k*******n 发帖数: 190	3 写一个parser,定义如何每行转成ROWRDD，再定义一个Schema,apply之后，就成为 SchemaRDD,然后可以按照 SPARK SQL select, join 随便操作。

1

(共1页)

进入Programming版参与讨论

相关主题
● how to get reference.vb file? (转载)	● Does C++ have serializer and deserialzier
● 菜鸟撞上offer也发愁，数据库和网站大牛给看看靠谱不？ (转载)	● Boost.Serialization no longer maintained?
● xml schema beginner question	● Hadoop写入的主流框架有哪些？
● 5/24-IT新手入门第四讲如何找数据库的工作 (转载)	● what is used to represent a "tab" character in "sed"
● 怎么设计这个client	● 缩进用空格好，还是tab好？
● Cassandra到底是不是schemaless？	● [合集] java怎么这么怪呀？
● Spark RDD	● boost serialization的问题
● 寻求技术合伙人	● serialization 到底该怎么理解啊？

相关话题的讨论汇总
话题: spark话题: join话题: avro话题: 数据话题: format

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)