由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 公司要做ML了,上来问问学习方向
相关主题
想写一个machine learning的平台还是别争了,从旁观者角度看,两个方案没准都能工作
学scala和spark需要什么pre req?NOSQL排名
已经全上内存了,还要40多秒啊真是搞笑。还在争呢
Spark会干掉Storm吗?Graph database 业界用的多吗? (转载)
谈谈为什么上scalaJava 和 .Net 到底哪个更有好一点的前景?
这里 大大牛多久学会spark?Scala / Java 哪个 numerical library 最好?
继续纠结sparkjava真不错,但是好像没有numpy/scipy这样的package?
关于big datagoodbug,你们家要用node.js做新project吗?
相关话题的讨论汇总
话题: ml话题: spark话题: 方向话题: 架构话题: 学习
进入Programming版参与讨论
1 (共1页)
l******g
发帖数: 366
1
我是码工,算法之类的肯定搞不了,但原来搞过scala,nosql之类的,还是问一下架构
上学习的方向吧。
假设有100T的数据,每天更新10%,同时每天要对最新的数据集做N遍training,这个数
据量级最流行的架构和工具都是什么呢?做到什么样的性能才算业界领先?
请高手多指点指点我
z****e
发帖数: 54598
2
除了spark以外,其他的选择比较少
都是legacy了
要么就是python的scipy这些
要么就是java的weka这些
这两个都不是针对分布式设计的
多数都是单结点计算
而且你要自己去处理跟hdfs的接口之类的
很麻烦
目前看,比较合适的framework就是spark
当然spark上面的libs还很少,目前只有mllib
你要想做其他的,需要你自己去实现
l******g
发帖数: 366
3
多谢!开学spark了!

【在 z****e 的大作中提到】
: 除了spark以外,其他的选择比较少
: 都是legacy了
: 要么就是python的scipy这些
: 要么就是java的weka这些
: 这两个都不是针对分布式设计的
: 多数都是单结点计算
: 而且你要自己去处理跟hdfs的接口之类的
: 很麻烦
: 目前看,比较合适的framework就是spark
: 当然spark上面的libs还很少,目前只有mllib

1 (共1页)
进入Programming版参与讨论
相关主题
goodbug,你们家要用node.js做新project吗?谈谈为什么上scala
为什么大牛说hbase是strong consistency的?这里 大大牛多久学会spark?
Swift 要开源了,不知道和scala比怎么样?继续纠结spark
Hadoop/HBase/HDFS三驾马车过时了吗?关于big data
想写一个machine learning的平台还是别争了,从旁观者角度看,两个方案没准都能工作
学scala和spark需要什么pre req?NOSQL排名
已经全上内存了,还要40多秒啊真是搞笑。还在争呢
Spark会干掉Storm吗?Graph database 业界用的多吗? (转载)
相关话题的讨论汇总
话题: ml话题: spark话题: 方向话题: 架构话题: 学习