w********s 发帖数: 1570 | 1 大数据,从码农的角度看,分为2方面
1,数据
2,系统
其中系统又大致上为
data storage: hadoop
data access: hive
resource negotiation: yarn
...
或者类似替代品
其中按业务分,可以把数据处理分为
real-time (spark, storm)
non real-time (mr) |
d********t 发帖数: 9628 | 2 你列一堆名词有啥意思?核心理念是啥?
【在 w********s 的大作中提到】 : 大数据,从码农的角度看,分为2方面 : 1,数据 : 2,系统 : 其中系统又大致上为 : data storage: hadoop : data access: hive : resource negotiation: yarn : ... : 或者类似替代品 : 其中按业务分,可以把数据处理分为
|
w********s 发帖数: 1570 | 3 核心是
cheap and big
【在 d********t 的大作中提到】 : 你列一堆名词有啥意思?核心理念是啥?
|
d********t 发帖数: 9628 | 4 真是扯啊哈哈
【在 w********s 的大作中提到】 : 核心是 : cheap and big
|
w********s 发帖数: 1570 | 5 怎么扯了?
cheap是指
storage cost, process cost down
big是指
data size, data scope更大
【在 d********t 的大作中提到】 : 真是扯啊哈哈
|
d********t 发帖数: 9628 | 6 big data根本跟size无关,只跟data的性质有关。
【在 w********s 的大作中提到】 : 怎么扯了? : cheap是指 : storage cost, process cost down : big是指 : data size, data scope更大
|
a***x 发帖数: 26368 | 7 挺对啊。然后,人工挖。。。。
【在 d********t 的大作中提到】 : 真是扯啊哈哈
|
s******y 发帖数: 416 | 8 为什么和size无关?data性质怎么“决定”big data?
【在 d********t 的大作中提到】 : big data根本跟size无关,只跟data的性质有关。
|
d********t 发帖数: 9628 | 9 你的意思是big data就是size big?笑死人了都。
【在 s******y 的大作中提到】 : 为什么和size无关?data性质怎么“决定”big data?
|
S*********g 发帖数: 5298 | 10 入行一周就就写综述文章不知道是这big data太浅还是楼主太牛
【在 w********s 的大作中提到】 : 大数据,从码农的角度看,分为2方面 : 1,数据 : 2,系统 : 其中系统又大致上为 : data storage: hadoop : data access: hive : resource negotiation: yarn : ... : 或者类似替代品 : 其中按业务分,可以把数据处理分为
|
|
|
s******y 发帖数: 416 | 11 不是“就是”size big,而是与size有关。(“与……无关”的反义词是“与……有关
”,而不是“仅与……有关”)
【在 d********t 的大作中提到】 : 你的意思是big data就是size big?笑死人了都。
|
p******n 发帖数: 66 | 12 我是外行。想请教一下deepthroat, 有没有 size 不 big 的 big data? |
d********t 发帖数: 9628 | 13 当然有,有人研究Google搜索频率和股票价格走势的关系,这种daily data就算10年也
没多大。
【在 p******n 的大作中提到】 : 我是外行。想请教一下deepthroat, 有没有 size 不 big 的 big data?
|
S*********g 发帖数: 5298 | 14 啥样的daily data大?
你这个一个daily data point背后那么多数据量就这么被你给忽略了?
还是这个搜索频率是凭空从石头里蹦出来的?
【在 d********t 的大作中提到】 : 当然有,有人研究Google搜索频率和股票价格走势的关系,这种daily data就算10年也 : 没多大。
|
d********t 发帖数: 9628 | 15 你要把数据采集的中间过程都算进来那没底的。
【在 S*********g 的大作中提到】 : 啥样的daily data大? : 你这个一个daily data point背后那么多数据量就这么被你给忽略了? : 还是这个搜索频率是凭空从石头里蹦出来的?
|
S*********g 发帖数: 5298 | 16 那你个例子凭啥叫big data?
每天一个predictor的东西也不是最近几年才有
【在 d********t 的大作中提到】 : 你要把数据采集的中间过程都算进来那没底的。
|
d********t 发帖数: 9628 | 17 叫bigdata因为用传统方法找不到规律啊没。
【在 S*********g 的大作中提到】 : 那你个例子凭啥叫big data? : 每天一个predictor的东西也不是最近几年才有
|
S*********g 发帖数: 5298 | 18 来举个非传统的方法的具体例子,举一个。然后为什么这个例子会叫big data而不是
big algorithm
【在 d********t 的大作中提到】 : 叫bigdata因为用传统方法找不到规律啊没。
|
d********t 发帖数: 9628 | 19 big data就该叫big algo的。
【在 S*********g 的大作中提到】 : 来举个非传统的方法的具体例子,举一个。然后为什么这个例子会叫big data而不是 : big algorithm
|
S*********g 发帖数: 5298 | 20 你这个algorithm大在哪里?你还没给例子呢
【在 d********t 的大作中提到】 : big data就该叫big algo的。
|
|
|
S*********g 发帖数: 5298 | 21 一天一个datapoint的东西要啥big algorithm,手算都能算出来
【在 d********t 的大作中提到】 : big data就该叫big algo的。
|
d********t 发帖数: 9628 | 22 大数据本来就不大,你非要说大我也没辙。
【在 S*********g 的大作中提到】 : 你这个algorithm大在哪里?你还没给例子呢
|
d********t 发帖数: 9628 | 23 哈哈,天文观测很多时候一张图就几个点,照你说法需要啥计算机啊。
【在 S*********g 的大作中提到】 : 一天一个datapoint的东西要啥big algorithm,手算都能算出来
|
S*********g 发帖数: 5298 | 24 先别说大不大了,把你这个例子里非传统的方法举个例子出来学习一下呗。
【在 d********t 的大作中提到】 : 大数据本来就不大,你非要说大我也没辙。
|
S*********g 发帖数: 5298 | 25 这个问题该问你啊。如果你只算最后的这几个点,不管原始数据的话 凭啥用你说的big
algorithm呢?
【在 d********t 的大作中提到】 : 哈哈,天文观测很多时候一张图就几个点,照你说法需要啥计算机啊。
|
l******n 发帖数: 9344 | 26 algo要越小越好,大顶球用
【在 S*********g 的大作中提到】 : 你这个algorithm大在哪里?你还没给例子呢
|
d********t 发帖数: 9628 | 27 Truly!
【在 l******n 的大作中提到】 : algo要越小越好,大顶球用
|
S*********g 发帖数: 5298 | 28 不考清楚古你就瞎起哄,你没看出来我在说反话吗?
big algo是深喉说的,往上看
【在 l******n 的大作中提到】 : algo要越小越好,大顶球用
|
S*********g 发帖数: 5298 | 29 你太搞笑了,big algo也是你说的。你到底是哪边啊。还有你号称非传统的方法呢,我
还在等着学呢
【在 d********t 的大作中提到】 : Truly!
|
q********t 发帖数: 68 | 30 big data的size不big?笑死人了都。
【在 d********t 的大作中提到】 : 你的意思是big data就是size big?笑死人了都。
|
|
|
g*****o 发帖数: 812 | 31 你们还是学界思维,你看看什么百度淘宝的大数据基本就是中学数学的统计水平,关键
还是分布式系统啊
【在 d********t 的大作中提到】 : 叫bigdata因为用传统方法找不到规律啊没。
|
s******y 发帖数: 416 | 32 什么叫越小越好?
【在 l******n 的大作中提到】 : algo要越小越好,大顶球用
|
k*******d 发帖数: 1340 | 33 Bigdata这个词本来就被滥用了,现在凡是和统计,机器学习相关的都被称作big data
。这个概念本来在IT界的用的时候就是楼主说的,cheap hardware, huge (Petabyte),
MapReduce/Hadoop/Storm/Spark.重点在分布式系统和分布式算法。而且很多情况下处
理的不是numerical data。从google搜索的log file得出搜索词频是big data。从搜索
词频到预测股票走势很难说算不算big data,取决于方法有多复杂,不过我是觉得data
sample还是不多。
参见wiki的定义:
Big data is an all-encompassing term for any collection of data sets so
large and complex that it becomes difficult to process using on-hand data
management tools or traditional data processing applications.
这个定义可没说要有fancy的数学或者统计。 |
k*******d 发帖数: 1340 | 34 仔细看看wiki对bigdata的定义再说大不大。
Big data is an all-encompassing term for any collection of data sets so
large and complex that it becomes difficult to process using on-hand data
management tools or traditional data processing applications.
你说别人扯之前自己先把你所指的big data定义说清楚。
【在 d********t 的大作中提到】 : 大数据本来就不大,你非要说大我也没辙。
|
l*********g 发帖数: 1899 | 35 我个人理解,出现“大数据”主要是对数据利用的需求从以前的解决“what”的问题发
展到现在通过处理分析数据要解决“why”的问题。变得“big”不是目的,而是要搞清
“why”的话,要处理的info和data的量以及处理、运算能力自然需要变得big。另外,
硬件or处理、存储技术发展到现在的能力也成为支持这种big data出现的物质条件。
【在 w********s 的大作中提到】 : 大数据,从码农的角度看,分为2方面 : 1,数据 : 2,系统 : 其中系统又大致上为 : data storage: hadoop : data access: hive : resource negotiation: yarn : ... : 或者类似替代品 : 其中按业务分,可以把数据处理分为
|
s******y 发帖数: 416 | 36 不太同意。在没有big data之前,也要找原因。在统计上的小样本方法,就是在数据量
不大的时候找原因或各种相关性的方法。数据量大了以后,利用各种计算机技术,可以
实现过去实现不了的分析,或者产生新的分析技巧。big data本身是一门交叉学科,不
是升级版的统计学,也不能是应用版的分布式。
【在 l*********g 的大作中提到】 : 我个人理解,出现“大数据”主要是对数据利用的需求从以前的解决“what”的问题发 : 展到现在通过处理分析数据要解决“why”的问题。变得“big”不是目的,而是要搞清 : “why”的话,要处理的info和data的量以及处理、运算能力自然需要变得big。另外, : 硬件or处理、存储技术发展到现在的能力也成为支持这种big data出现的物质条件。
|
i********r 发帖数: 110 | 37 这名叫的。 俺以为到了性版。
[在 deepthroat (The wind is rising. We must try to live) 的大作中提到:]
:当然有,有人研究Google搜索频率和股票价格走势的关系,这种daily data就算10年
也没多大。
:
:........... |
d********t 发帖数: 9628 | 38 哥膜拜的是水门都泄密大牛
【在 i********r 的大作中提到】 : 这名叫的。 俺以为到了性版。 : [在 deepthroat (The wind is rising. We must try to live) 的大作中提到:] : :当然有,有人研究Google搜索频率和股票价格走势的关系,这种daily data就算10年 : 也没多大。 : : : :...........
|
w**********y 发帖数: 1691 | 39 当年的big data 不是有两个最常见定义么? 一个是3 v, 一个是teenager sex
data
),
data
【在 k*******d 的大作中提到】 : Bigdata这个词本来就被滥用了,现在凡是和统计,机器学习相关的都被称作big data : 。这个概念本来在IT界的用的时候就是楼主说的,cheap hardware, huge (Petabyte), : MapReduce/Hadoop/Storm/Spark.重点在分布式系统和分布式算法。而且很多情况下处 : 理的不是numerical data。从google搜索的log file得出搜索词频是big data。从搜索 : 词频到预测股票走势很难说算不算big data,取决于方法有多复杂,不过我是觉得data : sample还是不多。 : 参见wiki的定义: : Big data is an all-encompassing term for any collection of data sets so : large and complex that it becomes difficult to process using on-hand data : management tools or traditional data processing applications.
|
d********t 发帖数: 9628 | 40 3V是啥
【在 w**********y 的大作中提到】 : 当年的big data 不是有两个最常见定义么? 一个是3 v, 一个是teenager sex : : data : ), : data
|
|
|
k*******d 发帖数: 1340 | 41 Volume, Velocity and Variety
Makes sense.
我觉得Finance里面很少data能同时满足上面3个条件,tick data有了volume/velocity
但是全是numerical的,一般KDB就可以了,没有variety。其他的data要么不够大,要么
不要求real time processing.
【在 w**********y 的大作中提到】 : 当年的big data 不是有两个最常见定义么? 一个是3 v, 一个是teenager sex : : data : ), : data
|
w**********y 发帖数: 1691 | 42 dataminr应该算金融类的big data
real time twitter streaming
velocity
【在 k*******d 的大作中提到】 : Volume, Velocity and Variety : Makes sense. : 我觉得Finance里面很少data能同时满足上面3个条件,tick data有了volume/velocity : 但是全是numerical的,一般KDB就可以了,没有variety。其他的data要么不够大,要么 : 不要求real time processing.
|
k*******d 发帖数: 1340 | 43 恩,这个算是的。动用IT界海量数据的都算,不过这类strategy好用么?不是很清楚啊
。。如何判断新闻是否新旧,Twitter上还会有rumor。
【在 w**********y 的大作中提到】 : dataminr应该算金融类的big data : real time twitter streaming : : velocity
|