G**Y 发帖数: 33224 | |
f****a 发帖数: 4708 | 2 应该没有关系。这个走的应该是HPC的路线。
从这张图片说SW1600的主频是1.1GHZ,核心是16个,65nm工艺,
Peak浮点性能是140GFlops。
对比一下:Intel Nehalem-EX是3G,8核心,45nm工艺,96GFlops[注1]
目前能达到SW这样性能(和这样的效率)的体系只可能是GPU一族。
估计SW1600是小通用CPU核+大vector extension这样的架构(比如
Intel的larrabee[注2]),不排除SW使用256b/512b浮点单元的可能。
如果只注重浮点性能的话,In-order执行是完全可以的,大大简化了
内核的设计。
为16核140GFlops设计memory subsystem是很挑战的任务。
看这张图,每个socket应该有四个DDR3 channel,这个很强大,但是
针脚一定很多,估计有1500以上。
SW的一个亮点是集成了1G以太网,不过以太网在HPC上的应用似乎不多。
总结:我认为最接近SW的很可能是Intel的larrabee。这个SW的出现再次
证明了IC是新兴的夕阳产业,大有替代汽车产业的趋势。等到金融产业
成为新兴的夕阳产业的时候,我天朝就可以和美帝叫板了。
注1:现在的Sandy Bridge的浮点性能是Nehalem的一倍。
注2:larrabee可以做到1 TFLOP DP with 24 cores at 2.5 GHz。差不多是
293GFlops with 16 cores at 1.1 GHZ. |
n******7 发帖数: 12463 | 3 larrabee不是失败了吗?
如果是类似的东西,为什么intel没搞成,江南所搞成了?(不用考虑市场化问题?)
【在 f****a 的大作中提到】 : 应该没有关系。这个走的应该是HPC的路线。 : 从这张图片说SW1600的主频是1.1GHZ,核心是16个,65nm工艺, : Peak浮点性能是140GFlops。 : 对比一下:Intel Nehalem-EX是3G,8核心,45nm工艺,96GFlops[注1] : 目前能达到SW这样性能(和这样的效率)的体系只可能是GPU一族。 : 估计SW1600是小通用CPU核+大vector extension这样的架构(比如 : Intel的larrabee[注2]),不排除SW使用256b/512b浮点单元的可能。 : 如果只注重浮点性能的话,In-order执行是完全可以的,大大简化了 : 内核的设计。 : 为16核140GFlops设计memory subsystem是很挑战的任务。
|
f****a 发帖数: 4708 | 4 不用考虑市场化问题是关键。
这张图说:让自己拆机加内存的见鬼去吧。
如果我的判读正确的话,这个机器是个FP beast,但是整数性能不会太好。比狗剩会差
不少。 |
n*********o 发帖数: 574 | 5 网上有去参观的人说是alpha结构
【在 f****a 的大作中提到】 : 不用考虑市场化问题是关键。 : 这张图说:让自己拆机加内存的见鬼去吧。 : 如果我的判读正确的话,这个机器是个FP beast,但是整数性能不会太好。比狗剩会差 : 不少。
|
r*********n 发帖数: 4553 | 6 金融夕阳的时候都地球毁灭了,呵呵
【在 f****a 的大作中提到】 : 应该没有关系。这个走的应该是HPC的路线。 : 从这张图片说SW1600的主频是1.1GHZ,核心是16个,65nm工艺, : Peak浮点性能是140GFlops。 : 对比一下:Intel Nehalem-EX是3G,8核心,45nm工艺,96GFlops[注1] : 目前能达到SW这样性能(和这样的效率)的体系只可能是GPU一族。 : 估计SW1600是小通用CPU核+大vector extension这样的架构(比如 : Intel的larrabee[注2]),不排除SW使用256b/512b浮点单元的可能。 : 如果只注重浮点性能的话,In-order执行是完全可以的,大大简化了 : 内核的设计。 : 为16核140GFlops设计memory subsystem是很挑战的任务。
|
r******n 发帖数: 4522 | 7 如果是RISC,跟Intel这种CISC来比Flops当然占便宜了。
【在 n*********o 的大作中提到】 : 网上有去参观的人说是alpha结构
|
t*****s 发帖数: 1309 | 8 单比峰值浮点Power 7这样的RISC优势也不是特别大,一上应用才有体现,反正超算又
不运行桌面级程序,至少能特物特用吧 |
f****a 发帖数: 4708 | 9 X86的Decode只占核心(不含L2/L3)5%的空间,在1B transistor上 RiSC/CISC的区别
不大。
CISC有code density的好处。
绝不可能是Alpha,INTEL现在有Alpha的专利。用Alpha不是给自己找恶心么?
【在 r******n 的大作中提到】 : 如果是RISC,跟Intel这种CISC来比Flops当然占便宜了。
|
o**o 发帖数: 3964 | 10 scientists are short of funding, in this economy.
this is just one way to get more. |
a***e 发帖数: 27968 | 11 这个Power7是跑4GHz的
真能接近那可是很好很牛叉
【在 t*****s 的大作中提到】 : 单比峰值浮点Power 7这样的RISC优势也不是特别大,一上应用才有体现,反正超算又 : 不运行桌面级程序,至少能特物特用吧
|
r******n 发帖数: 4522 | 12 我记得当初已下了结论RISC才是发展方向,就Intel死撑着x86。现在看来还是市场说了
算,技术再先进也白搭。希望不久ARM能证明。 |
n*********o 发帖数: 574 | 13 网上信息透露HP在将alpha卖给intel之前,卖给过中国,好像还有三星。
申威就是在买的Alpha 21164 技术基础上发展起来的,据说有V6芯片和V7的技术文档,但没有V7的实物。当年江南所的某人就是因为反向工程 Alpha芯片拿了国家大奖
【在 f****a 的大作中提到】 : X86的Decode只占核心(不含L2/L3)5%的空间,在1B transistor上 RiSC/CISC的区别 : 不大。 : CISC有code density的好处。 : 绝不可能是Alpha,INTEL现在有Alpha的专利。用Alpha不是给自己找恶心么?
|
c****n 发帖数: 21367 | 14 fedora大牛果然牛,我来补充一点
HPC集成以太网是大势所趋。不提Infiniband之类的高成本和复杂度,
其扩展性和灵活性就是极大的问题。
【在 f****a 的大作中提到】 : 应该没有关系。这个走的应该是HPC的路线。 : 从这张图片说SW1600的主频是1.1GHZ,核心是16个,65nm工艺, : Peak浮点性能是140GFlops。 : 对比一下:Intel Nehalem-EX是3G,8核心,45nm工艺,96GFlops[注1] : 目前能达到SW这样性能(和这样的效率)的体系只可能是GPU一族。 : 估计SW1600是小通用CPU核+大vector extension这样的架构(比如 : Intel的larrabee[注2]),不排除SW使用256b/512b浮点单元的可能。 : 如果只注重浮点性能的话,In-order执行是完全可以的,大大简化了 : 内核的设计。 : 为16核140GFlops设计memory subsystem是很挑战的任务。
|