l******n 发帖数: 1250 | 1 发现所有data scientist 的position 都要求大数据,hadoop 什么的经验,还特别重要
可是,如果hadoop的经验,是指用Hive做query 和 summary, 那根用SQL command没多
少区别啊。可能在底层,hadoop和relation database 差距很大,但是在上层,用hive
的话,这个差距可以说很小很小。
如果是写pig,确实有些不太一样,但也不是那么难学,至少比学编程练算法容易多了。
总之,这个要求“大数据”的经验,我感觉就是一个样子货,没啥真的内涵。
请大家发表意见 |
T*****u 发帖数: 7103 | 2 第一这个东西还处于初级阶段,只能局部上突破一下,别幻想太多
第二它就是差不多
第三数据大小是个限制条件,限制越多,trade off越多,能做的就越少,但多少做点比不
做好 |
m******a 发帖数: 77 | 3 这个说的精辟
【在 T*****u 的大作中提到】 : 第一这个东西还处于初级阶段,只能局部上突破一下,别幻想太多 : 第二它就是差不多 : 第三数据大小是个限制条件,限制越多,trade off越多,能做的就越少,但多少做点比不 : 做好
|
B********r 发帖数: 397 | 4 都哪年了还用hive,hadoop? 赶紧上C* + SPARK ,速度 X 100 |
w**2 发帖数: 147 | 5 除非数据是大到了一定的程度,不然用hive不见得更快。
同意楼上,spark才是出路。 |
n*****3 发帖数: 1584 | 6 ETL还是要 hive impala 吧
【在 w**2 的大作中提到】 : 除非数据是大到了一定的程度,不然用hive不见得更快。 : 同意楼上,spark才是出路。
|
o********r 发帖数: 193 | 7 agree
hive
了。
【在 l******n 的大作中提到】 : 发现所有data scientist 的position 都要求大数据,hadoop 什么的经验,还特别重要 : 可是,如果hadoop的经验,是指用Hive做query 和 summary, 那根用SQL command没多 : 少区别啊。可能在底层,hadoop和relation database 差距很大,但是在上层,用hive : 的话,这个差距可以说很小很小。 : 如果是写pig,确实有些不太一样,但也不是那么难学,至少比学编程练算法容易多了。 : 总之,这个要求“大数据”的经验,我感觉就是一个样子货,没啥真的内涵。 : 请大家发表意见
|
h*********d 发帖数: 109 | 8
hive
了。
【在 l******n 的大作中提到】 : 发现所有data scientist 的position 都要求大数据,hadoop 什么的经验,还特别重要 : 可是,如果hadoop的经验,是指用Hive做query 和 summary, 那根用SQL command没多 : 少区别啊。可能在底层,hadoop和relation database 差距很大,但是在上层,用hive : 的话,这个差距可以说很小很小。 : 如果是写pig,确实有些不太一样,但也不是那么难学,至少比学编程练算法容易多了。 : 总之,这个要求“大数据”的经验,我感觉就是一个样子货,没啥真的内涵。 : 请大家发表意见
|
f********r 发帖数: 304 | 9 spark也要数据大才有用,不然光scan HDFS上的input path就可以运行很久,假设你有
很多partitions,文件很散碎 |
j********p 发帖数: 9680 | 10 有道理,就是基于非关系型数据的类SQL语言.
Hadoop速度慢,不要紧,可以作为数据存储.
spark作为实时运算端. |