l******t 发帖数: 660 | 1 最近去看了几个start up的小公司的presenataion, 都在吹嘘自己怎么用hadoop做
predictive analysis, clustering, 不过最后还要把output dump成flat file, load
到sql server/oracle
有没有人用过, 讲讲这玩意到底怎么回事? | B*****g 发帖数: 34098 | 2 去java版
load
【在 l******t 的大作中提到】 : 最近去看了几个start up的小公司的presenataion, 都在吹嘘自己怎么用hadoop做 : predictive analysis, clustering, 不过最后还要把output dump成flat file, load : 到sql server/oracle : 有没有人用过, 讲讲这玩意到底怎么回事?
| w***a 发帖数: 313 | 3 你讲的这个hadoop算是个广义统称,里边细节很多,有mapreduce, HDFS, Hive, PIG..
.
核心就是把一个job拆成n个task, 用多个便宜机子来运行,最后汇总输出结果。
针对的是海量(连续读取)数据,几个TB乃至PB级别的运算量。这个级别的东东用传统
关系型数据库要么无法处理,要么效率很差,而且成本极高。
这个不能也不是用来代替传统sql的,只是对某些特定需求(典型的比如log分析),
HADOOP是最理想解决方案。
随着企业数据累计,已经各种业务的增长,这些特定需求以后会越来越普及,也就是说
HADOOP会越来越广的被应用。有机会的话,学学这个很有用。beijing不妨弄个这个讲
座。
load
【在 l******t 的大作中提到】 : 最近去看了几个start up的小公司的presenataion, 都在吹嘘自己怎么用hadoop做 : predictive analysis, clustering, 不过最后还要把output dump成flat file, load : 到sql server/oracle : 有没有人用过, 讲讲这玩意到底怎么回事?
| B*****g 发帖数: 34098 | 4 NoSQL讲座快了,哈哈
..
【在 w***a 的大作中提到】 : 你讲的这个hadoop算是个广义统称,里边细节很多,有mapreduce, HDFS, Hive, PIG.. : . : 核心就是把一个job拆成n个task, 用多个便宜机子来运行,最后汇总输出结果。 : 针对的是海量(连续读取)数据,几个TB乃至PB级别的运算量。这个级别的东东用传统 : 关系型数据库要么无法处理,要么效率很差,而且成本极高。 : 这个不能也不是用来代替传统sql的,只是对某些特定需求(典型的比如log分析), : HADOOP是最理想解决方案。 : 随着企业数据累计,已经各种业务的增长,这些特定需求以后会越来越普及,也就是说 : HADOOP会越来越广的被应用。有机会的话,学学这个很有用。beijing不妨弄个这个讲 : 座。
|
|