由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Quant版 - 进入大数据这行一个礼拜,简单说一下认识
相关主题
Algo Quant position available in HK【database】存储market data的数据库
我们组两个职位,electronic trading哪位大侠帮看看这职位是干嘛的?
job opportunity post for a friend, pls send email to the address in the post请问大牛公司如何组织处理数据?
worldquant的data analyst怎么样?大家time series data 怎末存?
free back test tool in python - for quant algos (转载)大数据技术似乎对于金融没啥用
有大牛熟悉MS的这个职位不Quant Researcher/Data Scientist/Developer 招人,纽约,需要公民
offer选择Quant Researcher/Developer/Data Scientist 招人,纽约
几个potential非quant role比较,牛人不要笑话【Probability Problem】又一题
相关话题的讨论汇总
话题: data话题: big话题: 数据话题: size话题: real
进入Quant版参与讨论
1 (共1页)
w********s
发帖数: 1570
1
大数据,从码农的角度看,分为2方面
1,数据
2,系统
其中系统又大致上为
data storage: hadoop
data access: hive
resource negotiation: yarn
...
或者类似替代品
其中按业务分,可以把数据处理分为
real-time (spark, storm)
non real-time (mr)
d********t
发帖数: 9628
2
你列一堆名词有啥意思?核心理念是啥?

【在 w********s 的大作中提到】
: 大数据,从码农的角度看,分为2方面
: 1,数据
: 2,系统
: 其中系统又大致上为
: data storage: hadoop
: data access: hive
: resource negotiation: yarn
: ...
: 或者类似替代品
: 其中按业务分,可以把数据处理分为

w********s
发帖数: 1570
3
核心是
cheap and big

【在 d********t 的大作中提到】
: 你列一堆名词有啥意思?核心理念是啥?
d********t
发帖数: 9628
4
真是扯啊哈哈

【在 w********s 的大作中提到】
: 核心是
: cheap and big

w********s
发帖数: 1570
5
怎么扯了?
cheap是指
storage cost, process cost down
big是指
data size, data scope更大

【在 d********t 的大作中提到】
: 真是扯啊哈哈
d********t
发帖数: 9628
6
big data根本跟size无关,只跟data的性质有关。

【在 w********s 的大作中提到】
: 怎么扯了?
: cheap是指
: storage cost, process cost down
: big是指
: data size, data scope更大

a***x
发帖数: 26368
7
挺对啊。然后,人工挖。。。。

【在 d********t 的大作中提到】
: 真是扯啊哈哈
s******y
发帖数: 416
8
为什么和size无关?data性质怎么“决定”big data?

【在 d********t 的大作中提到】
: big data根本跟size无关,只跟data的性质有关。
d********t
发帖数: 9628
9
你的意思是big data就是size big?笑死人了都。

【在 s******y 的大作中提到】
: 为什么和size无关?data性质怎么“决定”big data?
S*********g
发帖数: 5298
10
入行一周就就写综述文章不知道是这big data太浅还是楼主太牛

【在 w********s 的大作中提到】
: 大数据,从码农的角度看,分为2方面
: 1,数据
: 2,系统
: 其中系统又大致上为
: data storage: hadoop
: data access: hive
: resource negotiation: yarn
: ...
: 或者类似替代品
: 其中按业务分,可以把数据处理分为

相关主题
有大牛熟悉MS的这个职位不【database】存储market data的数据库
offer选择哪位大侠帮看看这职位是干嘛的?
几个potential非quant role比较,牛人不要笑话请问大牛公司如何组织处理数据?
进入Quant版参与讨论
s******y
发帖数: 416
11
不是“就是”size big,而是与size有关。(“与……无关”的反义词是“与……有关
”,而不是“仅与……有关”)

【在 d********t 的大作中提到】
: 你的意思是big data就是size big?笑死人了都。
p******n
发帖数: 66
12
我是外行。想请教一下deepthroat, 有没有 size 不 big 的 big data?
d********t
发帖数: 9628
13
当然有,有人研究Google搜索频率和股票价格走势的关系,这种daily data就算10年也
没多大。

【在 p******n 的大作中提到】
: 我是外行。想请教一下deepthroat, 有没有 size 不 big 的 big data?
S*********g
发帖数: 5298
14
啥样的daily data大?
你这个一个daily data point背后那么多数据量就这么被你给忽略了?
还是这个搜索频率是凭空从石头里蹦出来的?

【在 d********t 的大作中提到】
: 当然有,有人研究Google搜索频率和股票价格走势的关系,这种daily data就算10年也
: 没多大。

d********t
发帖数: 9628
15
你要把数据采集的中间过程都算进来那没底的。

【在 S*********g 的大作中提到】
: 啥样的daily data大?
: 你这个一个daily data point背后那么多数据量就这么被你给忽略了?
: 还是这个搜索频率是凭空从石头里蹦出来的?

S*********g
发帖数: 5298
16
那你个例子凭啥叫big data?
每天一个predictor的东西也不是最近几年才有

【在 d********t 的大作中提到】
: 你要把数据采集的中间过程都算进来那没底的。
d********t
发帖数: 9628
17
叫bigdata因为用传统方法找不到规律啊没。

【在 S*********g 的大作中提到】
: 那你个例子凭啥叫big data?
: 每天一个predictor的东西也不是最近几年才有

S*********g
发帖数: 5298
18
来举个非传统的方法的具体例子,举一个。然后为什么这个例子会叫big data而不是
big algorithm

【在 d********t 的大作中提到】
: 叫bigdata因为用传统方法找不到规律啊没。
d********t
发帖数: 9628
19
big data就该叫big algo的。

【在 S*********g 的大作中提到】
: 来举个非传统的方法的具体例子,举一个。然后为什么这个例子会叫big data而不是
: big algorithm

S*********g
发帖数: 5298
20
你这个algorithm大在哪里?你还没给例子呢

【在 d********t 的大作中提到】
: big data就该叫big algo的。
相关主题
大家time series data 怎末存?Quant Researcher/Developer/Data Scientist 招人,纽约
大数据技术似乎对于金融没啥用【Probability Problem】又一题
Quant Researcher/Data Scientist/Developer 招人,纽约,需要公民关于Shreve书上的重点章节
进入Quant版参与讨论
S*********g
发帖数: 5298
21
一天一个datapoint的东西要啥big algorithm,手算都能算出来

【在 d********t 的大作中提到】
: big data就该叫big algo的。
d********t
发帖数: 9628
22
大数据本来就不大,你非要说大我也没辙。

【在 S*********g 的大作中提到】
: 你这个algorithm大在哪里?你还没给例子呢
d********t
发帖数: 9628
23
哈哈,天文观测很多时候一张图就几个点,照你说法需要啥计算机啊。

【在 S*********g 的大作中提到】
: 一天一个datapoint的东西要啥big algorithm,手算都能算出来
S*********g
发帖数: 5298
24
先别说大不大了,把你这个例子里非传统的方法举个例子出来学习一下呗。

【在 d********t 的大作中提到】
: 大数据本来就不大,你非要说大我也没辙。
S*********g
发帖数: 5298
25
这个问题该问你啊。如果你只算最后的这几个点,不管原始数据的话 凭啥用你说的big
algorithm呢?

【在 d********t 的大作中提到】
: 哈哈,天文观测很多时候一张图就几个点,照你说法需要啥计算机啊。
l******n
发帖数: 9344
26
algo要越小越好,大顶球用

【在 S*********g 的大作中提到】
: 你这个algorithm大在哪里?你还没给例子呢
d********t
发帖数: 9628
27
Truly!

【在 l******n 的大作中提到】
: algo要越小越好,大顶球用
S*********g
发帖数: 5298
28
不考清楚古你就瞎起哄,你没看出来我在说反话吗?
big algo是深喉说的,往上看

【在 l******n 的大作中提到】
: algo要越小越好,大顶球用
S*********g
发帖数: 5298
29
你太搞笑了,big algo也是你说的。你到底是哪边啊。还有你号称非传统的方法呢,我
还在等着学呢

【在 d********t 的大作中提到】
: Truly!
q********t
发帖数: 68
30
big data的size不big?笑死人了都。

【在 d********t 的大作中提到】
: 你的意思是big data就是size big?笑死人了都。
相关主题
LOOKING FOR ENTRY LEVEL QUANT我们组两个职位,electronic trading
那个deepthroat 不四处发文问WQ了?job opportunity post for a friend, pls send email to the address in the post
Algo Quant position available in HKworldquant的data analyst怎么样?
进入Quant版参与讨论
g*****o
发帖数: 812
31
你们还是学界思维,你看看什么百度淘宝的大数据基本就是中学数学的统计水平,关键
还是分布式系统啊

【在 d********t 的大作中提到】
: 叫bigdata因为用传统方法找不到规律啊没。
s******y
发帖数: 416
32
什么叫越小越好?

【在 l******n 的大作中提到】
: algo要越小越好,大顶球用
k*******d
发帖数: 1340
33
Bigdata这个词本来就被滥用了,现在凡是和统计,机器学习相关的都被称作big data
。这个概念本来在IT界的用的时候就是楼主说的,cheap hardware, huge (Petabyte),
MapReduce/Hadoop/Storm/Spark.重点在分布式系统和分布式算法。而且很多情况下处
理的不是numerical data。从google搜索的log file得出搜索词频是big data。从搜索
词频到预测股票走势很难说算不算big data,取决于方法有多复杂,不过我是觉得data
sample还是不多。
参见wiki的定义:
Big data is an all-encompassing term for any collection of data sets so
large and complex that it becomes difficult to process using on-hand data
management tools or traditional data processing applications.
这个定义可没说要有fancy的数学或者统计。
k*******d
发帖数: 1340
34
仔细看看wiki对bigdata的定义再说大不大。
Big data is an all-encompassing term for any collection of data sets so
large and complex that it becomes difficult to process using on-hand data
management tools or traditional data processing applications.
你说别人扯之前自己先把你所指的big data定义说清楚。

【在 d********t 的大作中提到】
: 大数据本来就不大,你非要说大我也没辙。
l*********g
发帖数: 1899
35
我个人理解,出现“大数据”主要是对数据利用的需求从以前的解决“what”的问题发
展到现在通过处理分析数据要解决“why”的问题。变得“big”不是目的,而是要搞清
“why”的话,要处理的info和data的量以及处理、运算能力自然需要变得big。另外,
硬件or处理、存储技术发展到现在的能力也成为支持这种big data出现的物质条件。

【在 w********s 的大作中提到】
: 大数据,从码农的角度看,分为2方面
: 1,数据
: 2,系统
: 其中系统又大致上为
: data storage: hadoop
: data access: hive
: resource negotiation: yarn
: ...
: 或者类似替代品
: 其中按业务分,可以把数据处理分为

s******y
发帖数: 416
36
不太同意。在没有big data之前,也要找原因。在统计上的小样本方法,就是在数据量
不大的时候找原因或各种相关性的方法。数据量大了以后,利用各种计算机技术,可以
实现过去实现不了的分析,或者产生新的分析技巧。big data本身是一门交叉学科,不
是升级版的统计学,也不能是应用版的分布式。

【在 l*********g 的大作中提到】
: 我个人理解,出现“大数据”主要是对数据利用的需求从以前的解决“what”的问题发
: 展到现在通过处理分析数据要解决“why”的问题。变得“big”不是目的,而是要搞清
: “why”的话,要处理的info和data的量以及处理、运算能力自然需要变得big。另外,
: 硬件or处理、存储技术发展到现在的能力也成为支持这种big data出现的物质条件。

i********r
发帖数: 110
37
这名叫的。 俺以为到了性版。
[在 deepthroat (The wind is rising. We must try to live) 的大作中提到:]
:当然有,有人研究Google搜索频率和股票价格走势的关系,这种daily data就算10年
也没多大。

:...........
d********t
发帖数: 9628
38
哥膜拜的是水门都泄密大牛

【在 i********r 的大作中提到】
: 这名叫的。 俺以为到了性版。
: [在 deepthroat (The wind is rising. We must try to live) 的大作中提到:]
: :当然有,有人研究Google搜索频率和股票价格走势的关系,这种daily data就算10年
: 也没多大。
: :
: :...........

w**********y
发帖数: 1691
39
当年的big data 不是有两个最常见定义么? 一个是3 v, 一个是teenager sex

data
),
data

【在 k*******d 的大作中提到】
: Bigdata这个词本来就被滥用了,现在凡是和统计,机器学习相关的都被称作big data
: 。这个概念本来在IT界的用的时候就是楼主说的,cheap hardware, huge (Petabyte),
: MapReduce/Hadoop/Storm/Spark.重点在分布式系统和分布式算法。而且很多情况下处
: 理的不是numerical data。从google搜索的log file得出搜索词频是big data。从搜索
: 词频到预测股票走势很难说算不算big data,取决于方法有多复杂,不过我是觉得data
: sample还是不多。
: 参见wiki的定义:
: Big data is an all-encompassing term for any collection of data sets so
: large and complex that it becomes difficult to process using on-hand data
: management tools or traditional data processing applications.

d********t
发帖数: 9628
40
3V是啥

【在 w**********y 的大作中提到】
: 当年的big data 不是有两个最常见定义么? 一个是3 v, 一个是teenager sex
:
: data
: ),
: data

相关主题
worldquant的data analyst怎么样?offer选择
free back test tool in python - for quant algos (转载)几个potential非quant role比较,牛人不要笑话
有大牛熟悉MS的这个职位不【database】存储market data的数据库
进入Quant版参与讨论
k*******d
发帖数: 1340
41
Volume, Velocity and Variety
Makes sense.
我觉得Finance里面很少data能同时满足上面3个条件,tick data有了volume/velocity
但是全是numerical的,一般KDB就可以了,没有variety。其他的data要么不够大,要么
不要求real time processing.

【在 w**********y 的大作中提到】
: 当年的big data 不是有两个最常见定义么? 一个是3 v, 一个是teenager sex
:
: data
: ),
: data

w**********y
发帖数: 1691
42
dataminr应该算金融类的big data
real time twitter streaming

velocity

【在 k*******d 的大作中提到】
: Volume, Velocity and Variety
: Makes sense.
: 我觉得Finance里面很少data能同时满足上面3个条件,tick data有了volume/velocity
: 但是全是numerical的,一般KDB就可以了,没有variety。其他的data要么不够大,要么
: 不要求real time processing.

k*******d
发帖数: 1340
43
恩,这个算是的。动用IT界海量数据的都算,不过这类strategy好用么?不是很清楚啊
。。如何判断新闻是否新旧,Twitter上还会有rumor。

【在 w**********y 的大作中提到】
: dataminr应该算金融类的big data
: real time twitter streaming
:
: velocity

1 (共1页)
进入Quant版参与讨论
相关主题
【Probability Problem】又一题free back test tool in python - for quant algos (转载)
关于Shreve书上的重点章节有大牛熟悉MS的这个职位不
LOOKING FOR ENTRY LEVEL QUANToffer选择
那个deepthroat 不四处发文问WQ了?几个potential非quant role比较,牛人不要笑话
Algo Quant position available in HK【database】存储market data的数据库
我们组两个职位,electronic trading哪位大侠帮看看这职位是干嘛的?
job opportunity post for a friend, pls send email to the address in the post请问大牛公司如何组织处理数据?
worldquant的data analyst怎么样?大家time series data 怎末存?
相关话题的讨论汇总
话题: data话题: big话题: 数据话题: size话题: real