由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 向版上大牛们请教一个spark的问题,多谢!
相关主题
Spark RDD^M字符是什么意思? (转载)
Partitioning (转载)问个gdb的问题
[合集] MS interview questionmatlab读入数据的错误
如何有效的用C/C++ 移动文件中的文本块?请教一个C++关于输入输出的问题
Wget 提交form的问题为什么一说文本处理就提perl
请教计算关键词出现频率的算法c++ 能够一次打开多个文本文件读数据么?
请教txt文本过长,怎么把它分成几部分处理一个python script同时写一万多个文本文件
请教script language主要是干什么用的?
相关话题的讨论汇总
话题: partition话题: spark话题: 向版话题: 每个
进入Programming版参与讨论
1 (共1页)
n********r
发帖数: 719
1
请问如果想要对每个partition增加一条同样的记录,应该怎么做?
比如打开了一个文本文件,一共一万行,使用partitionBy把所有的文本行都分配到10
个partition上,每个partition 1000行,现在想在每个partition上都添加一行同样的
文字,比如“This is generated by Spark”,使得最后每个partition有1001行。这
个怎么做?
好像foreachPartition和mapPartition都不好做
a****f
发帖数: 17
2
in pyspark
def add_line(lines):
yield 'from spark'
for line in lines:
yield line
rdd. mapPartition(add_line)

10

【在 n********r 的大作中提到】
: 请问如果想要对每个partition增加一条同样的记录,应该怎么做?
: 比如打开了一个文本文件,一共一万行,使用partitionBy把所有的文本行都分配到10
: 个partition上,每个partition 1000行,现在想在每个partition上都添加一行同样的
: 文字,比如“This is generated by Spark”,使得最后每个partition有1001行。这
: 个怎么做?
: 好像foreachPartition和mapPartition都不好做

n********r
发帖数: 719
3
非常感谢!

【在 a****f 的大作中提到】
: in pyspark
: def add_line(lines):
: yield 'from spark'
: for line in lines:
: yield line
: rdd. mapPartition(add_line)
:
: 10

1 (共1页)
进入Programming版参与讨论
相关主题
script language主要是干什么用的?Wget 提交form的问题
[合集] JAVA文本文件读写问题 (转载)请教计算关键词出现频率的算法
怎样把snoop的文本结果抽出来?请教txt文本过长,怎么把它分成几部分处理
请教算法题请教
Spark RDD^M字符是什么意思? (转载)
Partitioning (转载)问个gdb的问题
[合集] MS interview questionmatlab读入数据的错误
如何有效的用C/C++ 移动文件中的文本块?请教一个C++关于输入输出的问题
相关话题的讨论汇总
话题: partition话题: spark话题: 向版话题: 每个