S*****o 发帖数: 715 | 1 目前最大的问题是spark dataframe没有好的包能用,只能自己手动抄代码写模型关键
对spark不熟而且时间序列很多复杂的算法都在r上实现的很好,没必要自己造轮子。
sample的话又有些浪费数据了,大家碰到这种情况一般怎么处理? |
w**z 发帖数: 8232 | 2 spark 主要用来做 map reduce 的。
:目前最大的问题是spark dataframe没有好的包能用,只能自己手动抄代码写模型关键
:对spark不熟而且时间序列很多复杂的算法都在r上实现的很好,没必要自己造轮子。 |
e*******o 发帖数: 4654 | |
c*********e 发帖数: 16335 | 4 你是搞什么方向的? 生物统计?
【在 S*****o 的大作中提到】 : 目前最大的问题是spark dataframe没有好的包能用,只能自己手动抄代码写模型关键 : 对spark不熟而且时间序列很多复杂的算法都在r上实现的很好,没必要自己造轮子。 : sample的话又有些浪费数据了,大家碰到这种情况一般怎么处理?
|
w***g 发帖数: 5958 | 5 看着不像数据很大,可能不需要spark
:目前最大的问题是spark dataframe没有好的包能用,只能自己手动抄代码写模型关键
:对spark不熟而且时间序列很多复杂的算法都在r上实现的很好,没必要自己造轮子。 |
n******g 发帖数: 2201 | 6 yaz 你好
【在 c*********e 的大作中提到】 : 你是搞什么方向的? 生物统计?
|
n******g 发帖数: 2201 | 7 正解。10百万以下的数据pandas 搞定
关键
【在 w***g 的大作中提到】 : 看着不像数据很大,可能不需要spark : : :目前最大的问题是spark dataframe没有好的包能用,只能自己手动抄代码写模型关键 : :对spark不熟而且时间序列很多复杂的算法都在r上实现的很好,没必要自己造轮子。
|
S*****o 发帖数: 715 | 8 这个服务器上没装,不过spark dataframe还是用不了包吧
【在 e*******o 的大作中提到】 : https://spark.apache.org/docs/latest/sparkr.html : 这个为啥不用?
|
S*****o 发帖数: 715 | 9 大牛 spark dataframe的toPandas极其expensive怎么破
关键
【在 w***g 的大作中提到】 : 看着不像数据很大,可能不需要spark : : :目前最大的问题是spark dataframe没有好的包能用,只能自己手动抄代码写模型关键 : :对spark不熟而且时间序列很多复杂的算法都在r上实现的很好,没必要自己造轮子。
|