i****b 发帖数: 52 | 1 非常好奇是用传统得并行计算算法还是mapReduce之类的。 抱歉问题提得很不清楚。 |
c*****a 发帖数: 1638 | 2 mapReduce是以牺牲性能换取硬件平台的高扩展性。high frequency绝对不能用这个
从纯粹的计算来说mapReduce肯定比并行慢(甚至慢很多)
mapReduce是用来解决那些简单并行可能处理不了的big data或者对性能不敏感的运算
,比如我知道有人用这个做ML,纯粹就是为了省事,因为写mapReduce比写并行的程序
容易多了 |
k*******d 发帖数: 1340 | 3 能用它做backtest或者是做一些optimization(比如选parameter)的问题吗?
【在 c*****a 的大作中提到】 : mapReduce是以牺牲性能换取硬件平台的高扩展性。high frequency绝对不能用这个 : 从纯粹的计算来说mapReduce肯定比并行慢(甚至慢很多) : mapReduce是用来解决那些简单并行可能处理不了的big data或者对性能不敏感的运算 : ,比如我知道有人用这个做ML,纯粹就是为了省事,因为写mapReduce比写并行的程序 : 容易多了
|
i****b 发帖数: 52 | 4 那high frequency需要用到openMP或MPI吗?我的确不懂。。。
【在 c*****a 的大作中提到】 : mapReduce是以牺牲性能换取硬件平台的高扩展性。high frequency绝对不能用这个 : 从纯粹的计算来说mapReduce肯定比并行慢(甚至慢很多) : mapReduce是用来解决那些简单并行可能处理不了的big data或者对性能不敏感的运算 : ,比如我知道有人用这个做ML,纯粹就是为了省事,因为写mapReduce比写并行的程序 : 容易多了
|
c*****a 发帖数: 1638 | 5 mapreduce,或者说hadoop这个东西,就是给你一个编程接口,允许你把特定的问题在
非常大的硬件平台上扩展(比如1000个CPU)。
但是调度和通讯是有成本的,所以如果你有一个问题,在一个CPU上面跑50个小时,
mapreduce在10个CPU上面可能要8个小时。另外这个有个基本的性能调度成本,所以基
本上不管你怎么增加扩展,不能低于这个最低成本(这个可能是几秒到几分钟)。所以
这个不能做high frequency
至于backtest或者optimization,只要你能把这个需求转化为mapduce问题,就可以(
不是所有的东西都能用mapduce算的)。这个取决于输入与输出的数据之间的关系。
基本上,mapreduce是很简单的,但是涉及到真正的大数据的时候,需要有些考虑,必
须有很好的程序背景,对于常见API背后的潜在性能有概念。
举个例子,我现在的一个项目,运算的程序并不长,但每次计算,每个语句最后都要运
行几百亿次,那么可能一点点很小的性能差距,最后有巨大的影响。所以所有关于
parse的语句,我都自己写(比如我不会调用Integer.parse,这个API倒不是慢,但是
我自己写的比这个快,因为我不需要考虑错误),能差很多。
【在 k*******d 的大作中提到】 : 能用它做backtest或者是做一些optimization(比如选parameter)的问题吗?
|
v***n 发帖数: 562 | 6 只是有点好奇,是关于HFS方面的项目吗,为什么不考虑错误呢?
.parse,这个API倒不是慢,但是
我自己写的比这个快,因为我不需要考虑错误
【在 c*****a 的大作中提到】 : mapreduce,或者说hadoop这个东西,就是给你一个编程接口,允许你把特定的问题在 : 非常大的硬件平台上扩展(比如1000个CPU)。 : 但是调度和通讯是有成本的,所以如果你有一个问题,在一个CPU上面跑50个小时, : mapreduce在10个CPU上面可能要8个小时。另外这个有个基本的性能调度成本,所以基 : 本上不管你怎么增加扩展,不能低于这个最低成本(这个可能是几秒到几分钟)。所以 : 这个不能做high frequency : 至于backtest或者optimization,只要你能把这个需求转化为mapduce问题,就可以( : 不是所有的东西都能用mapduce算的)。这个取决于输入与输出的数据之间的关系。 : 基本上,mapreduce是很简单的,但是涉及到真正的大数据的时候,需要有些考虑,必 : 须有很好的程序背景,对于常见API背后的潜在性能有概念。
|
c*****a 发帖数: 1638 | 7 不是,是有点model方面的。
不是不考虑错误,是数据预先处理了,保证没有错误,所以在计算的时候就不需要考虑
错误。
【在 v***n 的大作中提到】 : 只是有点好奇,是关于HFS方面的项目吗,为什么不考虑错误呢? : : .parse,这个API倒不是慢,但是 : 我自己写的比这个快,因为我不需要考虑错误
|
b*****o 发帖数: 715 | 8 你是想问HPC和data center的区别吗?
这篇文章做了一些比较:
http://www.cloudscaling.com/blog/cloud-computing/grid-cloud-hpc
diff
其实我觉得选择HPC还是data center,很多时候不是因为技术的原因,而是行政的原因
。银行之所以不愿意用data center(以及背后的mapreduce),是因为不愿意承担data
center outage的风险。而如果用大型机的话,出了问题找IBM就是了。
【在 i****b 的大作中提到】 : 非常好奇是用传统得并行计算算法还是mapReduce之类的。 抱歉问题提得很不清楚。
|
l**********e 发帖数: 336 | 9 another issues is human capital cost, firms need to spend more money on
people to handle things like Hadoop (set up, development, etc)
only Google has the best MapReduce & File system, other firms have to get
their hands dirty
data
【在 b*****o 的大作中提到】 : 你是想问HPC和data center的区别吗? : 这篇文章做了一些比较: : http://www.cloudscaling.com/blog/cloud-computing/grid-cloud-hpc : diff : 其实我觉得选择HPC还是data center,很多时候不是因为技术的原因,而是行政的原因 : 。银行之所以不愿意用data center(以及背后的mapreduce),是因为不愿意承担data : center outage的风险。而如果用大型机的话,出了问题找IBM就是了。
|