由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 一两个million的时间序列在spark上怎么分析
相关主题
请教一个python(pandas)的效率问题pandas 作者:Apache Arrow and the "10 Things I Hate About pandas"
Spark已经out了,能跳船的赶快dataframe和SQL最大区别是什么呢
有人上Spark用python API的么[合集] 请教一个算法问题,类似于最短路径的一个decision making的问题
python pandas DataFrame的index为什么是日期而不是integer in昨天那个算法题怎么没了?
Pandas DataFrame: how to plot candlestick with datetime xlabels?简单算法问题
Java码农转data science行业,有没有一起的 (转载)scala现在在data engining方面很猛啊
单机学习spark/hadoop的方案?如何run spark scala 代码,不用jar 的情况下?
准备因为用spark开始学scalayoutube推荐模型
相关话题的讨论汇总
话题: spark话题: 序列话题: dataframe话题: 码写话题: 抄代
进入Programming版参与讨论
1 (共1页)
S*****o
发帖数: 715
1
目前最大的问题是spark dataframe没有好的包能用,只能自己手动抄代码写模型关键
对spark不熟而且时间序列很多复杂的算法都在r上实现的很好,没必要自己造轮子。
sample的话又有些浪费数据了,大家碰到这种情况一般怎么处理?
w**z
发帖数: 8232
2
spark 主要用来做 map reduce 的。

:目前最大的问题是spark dataframe没有好的包能用,只能自己手动抄代码写模型关键
:对spark不熟而且时间序列很多复杂的算法都在r上实现的很好,没必要自己造轮子。
e*******o
发帖数: 4654
c*********e
发帖数: 16335
4
你是搞什么方向的? 生物统计?

【在 S*****o 的大作中提到】
: 目前最大的问题是spark dataframe没有好的包能用,只能自己手动抄代码写模型关键
: 对spark不熟而且时间序列很多复杂的算法都在r上实现的很好,没必要自己造轮子。
: sample的话又有些浪费数据了,大家碰到这种情况一般怎么处理?

w***g
发帖数: 5958
5
看着不像数据很大,可能不需要spark

:目前最大的问题是spark dataframe没有好的包能用,只能自己手动抄代码写模型关键
:对spark不熟而且时间序列很多复杂的算法都在r上实现的很好,没必要自己造轮子。
n******g
发帖数: 2201
6
yaz 你好

【在 c*********e 的大作中提到】
: 你是搞什么方向的? 生物统计?
n******g
发帖数: 2201
7
正解。10百万以下的数据pandas 搞定

关键

【在 w***g 的大作中提到】
: 看着不像数据很大,可能不需要spark
:
: :目前最大的问题是spark dataframe没有好的包能用,只能自己手动抄代码写模型关键
: :对spark不熟而且时间序列很多复杂的算法都在r上实现的很好,没必要自己造轮子。

S*****o
发帖数: 715
8
这个服务器上没装,不过spark dataframe还是用不了包吧

【在 e*******o 的大作中提到】
: https://spark.apache.org/docs/latest/sparkr.html
: 这个为啥不用?

S*****o
发帖数: 715
9
大牛 spark dataframe的toPandas极其expensive怎么破

关键

【在 w***g 的大作中提到】
: 看着不像数据很大,可能不需要spark
:
: :目前最大的问题是spark dataframe没有好的包能用,只能自己手动抄代码写模型关键
: :对spark不熟而且时间序列很多复杂的算法都在r上实现的很好,没必要自己造轮子。

1 (共1页)
进入Programming版参与讨论
相关主题
youtube推荐模型Pandas DataFrame: how to plot candlestick with datetime xlabels?
大家觉得wes McKinney 水平如何Java码农转data science行业,有没有一起的 (转载)
h2o好像突然火了单机学习spark/hadoop的方案?
python 有什么包能输出一个函数运行的信息?准备因为用spark开始学scala
请教一个python(pandas)的效率问题pandas 作者:Apache Arrow and the "10 Things I Hate About pandas"
Spark已经out了,能跳船的赶快dataframe和SQL最大区别是什么呢
有人上Spark用python API的么[合集] 请教一个算法问题,类似于最短路径的一个decision making的问题
python pandas DataFrame的index为什么是日期而不是integer in昨天那个算法题怎么没了?
相关话题的讨论汇总
话题: spark话题: 序列话题: dataframe话题: 码写话题: 抄代