由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Quant版 - 请问MapReduce在finance, 尤其是high frequency用得多吗?
相关主题
大数据技术似乎对于金融没啥用听说过这些equity trading groups吗?
[合集] 请问牛人,下面说的是哪方面的东西。Barclay Capital 的desk quant/developer
为什么technical indicator的backtest结果都很烂fund of hedge funds
大数据时代的最大挑战(一)? (转载)toxic asset
问一个model validation的技术问题至今quant面试情况总结兼求助帖
[合集] wall street non-competition rulebonus rate for a tech role at hf?
hedge fund的定义倒底是什么?请问几个数字
哪里可以找些小公司的信息Anybody knows Tudor?
相关话题的讨论汇总
话题: mapreduce话题: frequency话题: high话题: 用得话题: finance
进入Quant版参与讨论
1 (共1页)
i****b
发帖数: 52
1
非常好奇是用传统得并行计算算法还是mapReduce之类的。 抱歉问题提得很不清楚。
c*****a
发帖数: 1638
2
mapReduce是以牺牲性能换取硬件平台的高扩展性。high frequency绝对不能用这个
从纯粹的计算来说mapReduce肯定比并行慢(甚至慢很多)
mapReduce是用来解决那些简单并行可能处理不了的big data或者对性能不敏感的运算
,比如我知道有人用这个做ML,纯粹就是为了省事,因为写mapReduce比写并行的程序
容易多了
k*******d
发帖数: 1340
3
能用它做backtest或者是做一些optimization(比如选parameter)的问题吗?

【在 c*****a 的大作中提到】
: mapReduce是以牺牲性能换取硬件平台的高扩展性。high frequency绝对不能用这个
: 从纯粹的计算来说mapReduce肯定比并行慢(甚至慢很多)
: mapReduce是用来解决那些简单并行可能处理不了的big data或者对性能不敏感的运算
: ,比如我知道有人用这个做ML,纯粹就是为了省事,因为写mapReduce比写并行的程序
: 容易多了

i****b
发帖数: 52
4
那high frequency需要用到openMP或MPI吗?我的确不懂。。。

【在 c*****a 的大作中提到】
: mapReduce是以牺牲性能换取硬件平台的高扩展性。high frequency绝对不能用这个
: 从纯粹的计算来说mapReduce肯定比并行慢(甚至慢很多)
: mapReduce是用来解决那些简单并行可能处理不了的big data或者对性能不敏感的运算
: ,比如我知道有人用这个做ML,纯粹就是为了省事,因为写mapReduce比写并行的程序
: 容易多了

c*****a
发帖数: 1638
5
mapreduce,或者说hadoop这个东西,就是给你一个编程接口,允许你把特定的问题在
非常大的硬件平台上扩展(比如1000个CPU)。
但是调度和通讯是有成本的,所以如果你有一个问题,在一个CPU上面跑50个小时,
mapreduce在10个CPU上面可能要8个小时。另外这个有个基本的性能调度成本,所以基
本上不管你怎么增加扩展,不能低于这个最低成本(这个可能是几秒到几分钟)。所以
这个不能做high frequency
至于backtest或者optimization,只要你能把这个需求转化为mapduce问题,就可以(
不是所有的东西都能用mapduce算的)。这个取决于输入与输出的数据之间的关系。
基本上,mapreduce是很简单的,但是涉及到真正的大数据的时候,需要有些考虑,必
须有很好的程序背景,对于常见API背后的潜在性能有概念。
举个例子,我现在的一个项目,运算的程序并不长,但每次计算,每个语句最后都要运
行几百亿次,那么可能一点点很小的性能差距,最后有巨大的影响。所以所有关于
parse的语句,我都自己写(比如我不会调用Integer.parse,这个API倒不是慢,但是
我自己写的比这个快,因为我不需要考虑错误),能差很多。

【在 k*******d 的大作中提到】
: 能用它做backtest或者是做一些optimization(比如选parameter)的问题吗?
v***n
发帖数: 562
6
只是有点好奇,是关于HFS方面的项目吗,为什么不考虑错误呢?

.parse,这个API倒不是慢,但是
我自己写的比这个快,因为我不需要考虑错误

【在 c*****a 的大作中提到】
: mapreduce,或者说hadoop这个东西,就是给你一个编程接口,允许你把特定的问题在
: 非常大的硬件平台上扩展(比如1000个CPU)。
: 但是调度和通讯是有成本的,所以如果你有一个问题,在一个CPU上面跑50个小时,
: mapreduce在10个CPU上面可能要8个小时。另外这个有个基本的性能调度成本,所以基
: 本上不管你怎么增加扩展,不能低于这个最低成本(这个可能是几秒到几分钟)。所以
: 这个不能做high frequency
: 至于backtest或者optimization,只要你能把这个需求转化为mapduce问题,就可以(
: 不是所有的东西都能用mapduce算的)。这个取决于输入与输出的数据之间的关系。
: 基本上,mapreduce是很简单的,但是涉及到真正的大数据的时候,需要有些考虑,必
: 须有很好的程序背景,对于常见API背后的潜在性能有概念。

c*****a
发帖数: 1638
7
不是,是有点model方面的。
不是不考虑错误,是数据预先处理了,保证没有错误,所以在计算的时候就不需要考虑
错误。

【在 v***n 的大作中提到】
: 只是有点好奇,是关于HFS方面的项目吗,为什么不考虑错误呢?
:
: .parse,这个API倒不是慢,但是
: 我自己写的比这个快,因为我不需要考虑错误

b*****o
发帖数: 715
8
你是想问HPC和data center的区别吗?
这篇文章做了一些比较:
http://www.cloudscaling.com/blog/cloud-computing/grid-cloud-hpc
diff
其实我觉得选择HPC还是data center,很多时候不是因为技术的原因,而是行政的原因
。银行之所以不愿意用data center(以及背后的mapreduce),是因为不愿意承担data
center outage的风险。而如果用大型机的话,出了问题找IBM就是了。

【在 i****b 的大作中提到】
: 非常好奇是用传统得并行计算算法还是mapReduce之类的。 抱歉问题提得很不清楚。
l**********e
发帖数: 336
9
another issues is human capital cost, firms need to spend more money on
people to handle things like Hadoop (set up, development, etc)
only Google has the best MapReduce & File system, other firms have to get
their hands dirty

data

【在 b*****o 的大作中提到】
: 你是想问HPC和data center的区别吗?
: 这篇文章做了一些比较:
: http://www.cloudscaling.com/blog/cloud-computing/grid-cloud-hpc
: diff
: 其实我觉得选择HPC还是data center,很多时候不是因为技术的原因,而是行政的原因
: 。银行之所以不愿意用data center(以及背后的mapreduce),是因为不愿意承担data
: center outage的风险。而如果用大型机的话,出了问题找IBM就是了。

1 (共1页)
进入Quant版参与讨论
相关主题
Anybody knows Tudor?问一个model validation的技术问题
what skills are needed to work in a hedge fund?[合集] wall street non-competition rule
Multiple threadshedge fund的定义倒底是什么?
有bloomberg的账号,在一般普通的电脑上怎么下载数据?哪里可以找些小公司的信息
大数据技术似乎对于金融没啥用听说过这些equity trading groups吗?
[合集] 请问牛人,下面说的是哪方面的东西。Barclay Capital 的desk quant/developer
为什么technical indicator的backtest结果都很烂fund of hedge funds
大数据时代的最大挑战(一)? (转载)toxic asset
相关话题的讨论汇总
话题: mapreduce话题: frequency话题: high话题: 用得话题: finance