由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 请教 spark UDAF 的问题
相关主题
Boost.Serialization no longer maintained?redis是否支持python复合数据结构?
serialization 到底该怎么理解啊?这几天研究一下jsoncons,看看怎么设计json数据结构
JSON实际上有很多缺点再说说我的Home Automation吧
请教一个命名的问题本站身家超过32亿美元的著名程序员魏老师 (转载)
protobuf 能serialize Float.NaN 么?ajax 页面为啥收不到response 呢?
vert.x 下使用ORM的疑问有什么库可以自动把JSON转为DOM对象?
java里是不是要避免用clone()有人说clone() is broken.DynamoDB
python pickle 目的是什么请问:如何设计一个复杂数据类的存储文件格式
相关话题的讨论汇总
话题: udaf话题: spark话题: arraytype
进入Programming版参与讨论
1 (共1页)
x**n
发帖数: 461
1
需要写一个UDAF,其中bufferSchema比较复杂,用了自己定义的一个类。结果运行的时
候出错。查看log发现spark生成的代码中有
arrayWriter1.write(index1, element1);
这个element是我自己的类,所以出现CompileException。
有下面几个问题:
1. 如果可以在spark的udaf中用自己的类做bufferSchema,怎么做?
2. 如果不可以,我知道两个选择:
a. 每次把这个中间变量serialize成bytes或者json,然后deserialize
b. 用spark自己的基本types定义一个复杂的数据结构,包含几个ArrayType
a.和b. 哪个选择的performance更好。因为我的array是变长的,我看见有人说是
ArrayType每次都要copy,是不是performance penalty很高?
1 (共1页)
进入Programming版参与讨论
相关主题
我要做一个Java演示系统,用哪些前台技术比较好?protobuf 能serialize Float.NaN 么?
项目中又有人要用restful,结果我不restful了。。。vert.x 下使用ORM的疑问
赵策怎么看OOP hell的问题?java里是不是要避免用clone()有人说clone() is broken.
ASIO TCP传送JSON如何知道包结束?python pickle 目的是什么
Boost.Serialization no longer maintained?redis是否支持python复合数据结构?
serialization 到底该怎么理解啊?这几天研究一下jsoncons,看看怎么设计json数据结构
JSON实际上有很多缺点再说说我的Home Automation吧
请教一个命名的问题本站身家超过32亿美元的著名程序员魏老师 (转载)
相关话题的讨论汇总
话题: udaf话题: spark话题: arraytype