y*d 发帖数: 2226 | 1 感谢指正
惭愧啊……
因为以前看过一篇文章说神威会用众核处理器,就自然的往那个地方想了
申威应该是每core 8GFLOPS
只是倭国SPARC64 VIIIfx的一半
这么低的速度,功耗小一点不奇怪。运算速度对主频是线性关系,发热量是平方关系。
所以速度低的CPU功耗相对小是正常的
而他们只是做到和SPARC64 VIIIfx差不多的功耗。实在没什么意思
关于刚才有人在另外那个帖子里提的几个问题
1。FLOPS如果没有特别说明的话都是指单精
2。x86 CPU里目前还没有FMA
http://en.wikipedia.org/wiki/FMA_instruction_set
所以GPU和x86比还是占了便宜的
3。SPARC64 VIIIfx里有一个更fancy的FMA,还有conditional operation,6 issue
superscalar和OOO execution,效率还挺高的 |
L***n 发帖数: 6727 | 2 spacr64 viiifx是倭人设计的么? 好像还是美国人设计的吧,倭人买了?
【在 y*d 的大作中提到】 : 感谢指正 : 惭愧啊…… : 因为以前看过一篇文章说神威会用众核处理器,就自然的往那个地方想了 : 申威应该是每core 8GFLOPS : 只是倭国SPARC64 VIIIfx的一半 : 这么低的速度,功耗小一点不奇怪。运算速度对主频是线性关系,发热量是平方关系。 : 所以速度低的CPU功耗相对小是正常的 : 而他们只是做到和SPARC64 VIIIfx差不多的功耗。实在没什么意思 : 关于刚才有人在另外那个帖子里提的几个问题 : 1。FLOPS如果没有特别说明的话都是指单精
|
h********n 发帖数: 1671 | 3 能做到这样已经很好了,每次能在一个方面有所突破,日积月累,进步还是很快的。像
“跨越”那样一步登天是不可能的,牛皮吹破推倒重来,其实更慢。 |
h*******o 发帖数: 778 | 4 发热量和频率成平方关系? 线性关系吧...
其实单纯比较GFLOPS没什么意思,还是跑同样的benchmark的throughput, power,
energy才有意义..
【在 y*d 的大作中提到】 : 感谢指正 : 惭愧啊…… : 因为以前看过一篇文章说神威会用众核处理器,就自然的往那个地方想了 : 申威应该是每core 8GFLOPS : 只是倭国SPARC64 VIIIfx的一半 : 这么低的速度,功耗小一点不奇怪。运算速度对主频是线性关系,发热量是平方关系。 : 所以速度低的CPU功耗相对小是正常的 : 而他们只是做到和SPARC64 VIIIfx差不多的功耗。实在没什么意思 : 关于刚才有人在另外那个帖子里提的几个问题 : 1。FLOPS如果没有特别说明的话都是指单精
|
s*****V 发帖数: 21731 | 5 你跟高阻已经一条战线了
【在 h********n 的大作中提到】 : 能做到这样已经很好了,每次能在一个方面有所突破,日积月累,进步还是很快的。像 : “跨越”那样一步登天是不可能的,牛皮吹破推倒重来,其实更慢。
|
h*********n 发帖数: 11319 | 6 flops没特别提的话都是双精吧,除了图形学还没有啥科学计算程序用单精度的,只有
gpu会鼓吹单精度的速度(现在也重点提升双精度性能了)
【在 y*d 的大作中提到】 : 感谢指正 : 惭愧啊…… : 因为以前看过一篇文章说神威会用众核处理器,就自然的往那个地方想了 : 申威应该是每core 8GFLOPS : 只是倭国SPARC64 VIIIfx的一半 : 这么低的速度,功耗小一点不奇怪。运算速度对主频是线性关系,发热量是平方关系。 : 所以速度低的CPU功耗相对小是正常的 : 而他们只是做到和SPARC64 VIIIfx差不多的功耗。实在没什么意思 : 关于刚才有人在另外那个帖子里提的几个问题 : 1。FLOPS如果没有特别说明的话都是指单精
|
a***e 发帖数: 27968 | 7 fujisu的那个是单核2Ghz 16Gflops
一个周期是8个flops,也就是4个FMA
靠的是两个128bit的SMID指令
这个CPU一个周期可以完成俩SMID指令
看来这个神威也是这个做法
65nm 1G, 45nm布局优化就是2G
不过fujishu这个是8core共享5Mcache
神威也是这个水平的话会极大影响效率
【在 y*d 的大作中提到】 : 感谢指正 : 惭愧啊…… : 因为以前看过一篇文章说神威会用众核处理器,就自然的往那个地方想了 : 申威应该是每core 8GFLOPS : 只是倭国SPARC64 VIIIfx的一半 : 这么低的速度,功耗小一点不奇怪。运算速度对主频是线性关系,发热量是平方关系。 : 所以速度低的CPU功耗相对小是正常的 : 而他们只是做到和SPARC64 VIIIfx差不多的功耗。实在没什么意思 : 关于刚才有人在另外那个帖子里提的几个问题 : 1。FLOPS如果没有特别说明的话都是指单精
|
y*d 发帖数: 2226 | 8
这个东东是若干年前富士通买了sun的版权,然后自己改进来的
不是说国防科大正在搞的那个也是sparc的吗
【在 L***n 的大作中提到】 : spacr64 viiifx是倭人设计的么? 好像还是美国人设计的吧,倭人买了?
|
y*d 发帖数: 2226 | 9
申威的实测速度只有理论数的74%
比鬼子的93低很多
在1G的速度上,memory和cpu的速度差不算太大,cache还不是主要的瓶颈
所以我猜他们慢的原因是像AVX一样用256 bit SIMD,而在OOO和超线程方面没有鬼子那
么aggrasive
【在 a***e 的大作中提到】 : fujisu的那个是单核2Ghz 16Gflops : 一个周期是8个flops,也就是4个FMA : 靠的是两个128bit的SMID指令 : 这个CPU一个周期可以完成俩SMID指令 : 看来这个神威也是这个做法 : 65nm 1G, 45nm布局优化就是2G : 不过fujishu这个是8core共享5Mcache : 神威也是这个水平的话会极大影响效率
|
y*d 发帖数: 2226 | 10
同样的工艺下,要提高频率的同时还得提高电压,所以功耗比频率增加的快
性能的提高比频率增加的慢
这里说的GFLOPS是理论数和LINPACK实测数
理论GFLOPS / watt神威比鬼子高
实测比鬼子低
【在 h*******o 的大作中提到】 : 发热量和频率成平方关系? 线性关系吧... : 其实单纯比较GFLOPS没什么意思,还是跑同样的benchmark的throughput, power, : energy才有意义..
|
|
|
h********n 发帖数: 1671 | 11
我当初这样说的时候刘跨越还没下台、正春风得意呢。而且对所有问题我都是这个态度
,买产品说买产品,买专利说买专利,能自己做的就不要买,不能自己做的该买就买。
可买归买,非吹成百分之百自主知识产权有何益处呢?别人研究几十年的东西,你两年
就吃透了,而且跨越了?反正我是不信。
这是我在今年6月时的发言:
-------------------------------
中国的高速铁路发展,重中之重在于安全,而不是速度。差个几十分钟、一个小时,对
市场并不会产生多大影响,想坐飞机的还坐飞机,想坐高铁的还坐高铁,有几个人会因
为这一个小时而改主意?但是这一个小时对机车和整个系统的工作状态和安全冗余来说
却是至关重要的。
现在速度慢一些,先保证安全,把各方面配套的服务都搞好了,让大家都接受高铁,以
后逐渐提速不成问题。如果在高铁投入运营的初期出现重大事故,那么对高铁的打击将
是毁灭性的。
想毁掉中国高铁的发展,现在就大干快上,今天350,明天450,后天直接上600,剩下
的事,都交给关老爷负责吧。
【在 s*****V 的大作中提到】 : 你跟高阻已经一条战线了
|
d********f 发帖数: 43471 | 12 其实现在搞高性能计算还在高cpu本来就是比人家落后了一个时代,很快的gpu将会把这
些神机都取代了
【在 y*d 的大作中提到】 : 感谢指正 : 惭愧啊…… : 因为以前看过一篇文章说神威会用众核处理器,就自然的往那个地方想了 : 申威应该是每core 8GFLOPS : 只是倭国SPARC64 VIIIfx的一半 : 这么低的速度,功耗小一点不奇怪。运算速度对主频是线性关系,发热量是平方关系。 : 所以速度低的CPU功耗相对小是正常的 : 而他们只是做到和SPARC64 VIIIfx差不多的功耗。实在没什么意思 : 关于刚才有人在另外那个帖子里提的几个问题 : 1。FLOPS如果没有特别说明的话都是指单精
|
y*d 发帖数: 2226 | 13
可惜你没看到我上一篇帖子
GPU也有很多局限性,当然对数值计算为主的HPC是很合适的
GPU与CPU混合的设计才是王道
Intel MIC就有点这个意思,但是跟CPU集成的还不够
我记得以前看过一篇文章说山东要搞的是众核(many core)通用CPU
以为他们会用类似GPU的设计
昨天听说出来了,还鸡冻了一下
没想到,是这么个鸡肋
16个core也好意思说many core ……
【在 d********f 的大作中提到】 : 其实现在搞高性能计算还在高cpu本来就是比人家落后了一个时代,很快的gpu将会把这 : 些神机都取代了
|
d********f 发帖数: 43471 | 14 gpu本来就不能单独工作,现在有的体系都是混编的。这种神机本来基本就是用来做计
算的,现在gpu主要的问题就是通用性语言。因为从设计上来说成本低太多,cpu根本没
有任何办法来竞争
【在 y*d 的大作中提到】 : : 可惜你没看到我上一篇帖子 : GPU也有很多局限性,当然对数值计算为主的HPC是很合适的 : GPU与CPU混合的设计才是王道 : Intel MIC就有点这个意思,但是跟CPU集成的还不够 : 我记得以前看过一篇文章说山东要搞的是众核(many core)通用CPU : 以为他们会用类似GPU的设计 : 昨天听说出来了,还鸡冻了一下 : 没想到,是这么个鸡肋 : 16个core也好意思说many core ……
|
y*d 发帖数: 2226 | 15
HPC里也有不同的分支,比如NSA用来搞密码的超级计算机就不太合适用GPU
当然我同意,多数情况下super computer就是用来算PDE的,所以GPU是个很不错的设计
但是GPU还远不是针对HPC优化的。比如现在的结构里要通过很慢的PCIe来访问,显存不
能直接通过RDMA或者infini band和别的node交换数据,多个GPU之间还不能共享内存or
显存。GPU内部还有提供更灵活指令集的空间,对OS的支持也有待加强。
理想的设计应该是和通用CPU集成在一起
【在 d********f 的大作中提到】 : gpu本来就不能单独工作,现在有的体系都是混编的。这种神机本来基本就是用来做计 : 算的,现在gpu主要的问题就是通用性语言。因为从设计上来说成本低太多,cpu根本没 : 有任何办法来竞争
|
a***e 发帖数: 27968 | 16 Dr. Dongarra said the Sunway’s theoretical peak performance was about 74
percent as fast as the fastest United States computer — the Jaguar
supercomputer at the Department of Energy facility at Oak Ridge National
Laboratory, made by Cray Inc. That machine is currently the third fastest on
the list.
NYT的这段话说得是神威峰值相当于克雷美洲虎的74%
美洲虎峰值XT5+XT4是1.75peta,XT5是 1.4peta,共有12*7832 AMD core,
每core 14GFlops,基本是AMD典型核的水平,3G 4指令/周期
不知道老大的74%是哪里的数据,HPC cache跟不上根本到不了峰值
【在 y*d 的大作中提到】 : : HPC里也有不同的分支,比如NSA用来搞密码的超级计算机就不太合适用GPU : 当然我同意,多数情况下super computer就是用来算PDE的,所以GPU是个很不错的设计 : 但是GPU还远不是针对HPC优化的。比如现在的结构里要通过很慢的PCIe来访问,显存不 : 能直接通过RDMA或者infini band和别的node交换数据,多个GPU之间还不能共享内存or : 显存。GPU内部还有提供更灵活指令集的空间,对OS的支持也有待加强。 : 理想的设计应该是和通用CPU集成在一起
|
s********7 发帖数: 4681 | 17 ???
【在 L***n 的大作中提到】 : spacr64 viiifx是倭人设计的么? 好像还是美国人设计的吧,倭人买了?
|
F******k 发帖数: 197 | 18 CPU的动态功率损耗一般可以表达为fCU^2, 其中f(频率),C(动态容抗,可以考虑为单
位时间内所有门电路的切换),U(电压)。发热量似乎也是主频的线性关系,不是平方。
不是专家,就是看过一点这方面的资料,也许说错了。希望方家指正。
【在 y*d 的大作中提到】 : 感谢指正 : 惭愧啊…… : 因为以前看过一篇文章说神威会用众核处理器,就自然的往那个地方想了 : 申威应该是每core 8GFLOPS : 只是倭国SPARC64 VIIIfx的一半 : 这么低的速度,功耗小一点不奇怪。运算速度对主频是线性关系,发热量是平方关系。 : 所以速度低的CPU功耗相对小是正常的 : 而他们只是做到和SPARC64 VIIIfx差不多的功耗。实在没什么意思 : 关于刚才有人在另外那个帖子里提的几个问题 : 1。FLOPS如果没有特别说明的话都是指单精
|
y*d 发帖数: 2226 | 19
on
你能认识中文的,为啥不知道去看中文的材料
莫非你觉得NYT的翻译的中文比你更好
http://roll.sohu.com/20111030/n323918831.shtml
倭国的京计算机都93%了
Linpack的数据/计算量比例不高,cache不是瓶颈
特别是对于主频只有1G的神威来说,cache miss的penalty不大
【在 a***e 的大作中提到】 : Dr. Dongarra said the Sunway’s theoretical peak performance was about 74 : percent as fast as the fastest United States computer — the Jaguar : supercomputer at the Department of Energy facility at Oak Ridge National : Laboratory, made by Cray Inc. That machine is currently the third fastest on : the list. : NYT的这段话说得是神威峰值相当于克雷美洲虎的74% : 美洲虎峰值XT5+XT4是1.75peta,XT5是 1.4peta,共有12*7832 AMD core, : 每core 14GFlops,基本是AMD典型核的水平,3G 4指令/周期 : 不知道老大的74%是哪里的数据,HPC cache跟不上根本到不了峰值
|
y*d 发帖数: 2226 | 20
方。
我在楼上已经解释了,频率提高的同时电压也必须得提高才行
关系很复杂,但总之功耗比频率提高的更快
性能比频率提高的更慢
这就是为啥很多设计都宁可用1G多的低频率上一大堆core,而不用4G的频率较少的core
【在 F******k 的大作中提到】 : CPU的动态功率损耗一般可以表达为fCU^2, 其中f(频率),C(动态容抗,可以考虑为单 : 位时间内所有门电路的切换),U(电压)。发热量似乎也是主频的线性关系,不是平方。 : 不是专家,就是看过一点这方面的资料,也许说错了。希望方家指正。
|
|
|
F******k 发帖数: 197 | 21 不好意思,没看前面就会了。现在把前面的贴子看了。想说几点:
1)intel MIC 不是"跟CPU集成的还不够",它完全就是一堆CPU核.这些核目前都支持最
少SIMD16计算,主要用在HPC。另外,intel现在推的processor graphics可能已经放弃
用MIC,尔转而用比较传统GPU,类似AMD的APU.
2) GPU最起码局部共享(video)内存,这也是DX11 compute shader, cuda,和OpenCL的
线程组的设计基础。对于processor graphics来说,GPU和CPU应该共享最后一级缓存(
LLC)的.
3) 功耗主要两部分:动态功耗和leakage power consumption。 现在的设计导致因为
主频高,leakage很快,需要提高电压去维持MOS的0/1态。
core
【在 y*d 的大作中提到】 : : 方。 : 我在楼上已经解释了,频率提高的同时电压也必须得提高才行 : 关系很复杂,但总之功耗比频率提高的更快 : 性能比频率提高的更慢 : 这就是为啥很多设计都宁可用1G多的低频率上一大堆core,而不用4G的频率较少的core
|
F******k 发帖数: 197 | 22 你的上一篇帖子在哪儿,怎么找到呀,thanks
【在 y*d 的大作中提到】 : : 方。 : 我在楼上已经解释了,频率提高的同时电压也必须得提高才行 : 关系很复杂,但总之功耗比频率提高的更快 : 性能比频率提高的更慢 : 这就是为啥很多设计都宁可用1G多的低频率上一大堆core,而不用4G的频率较少的core
|
a***e 发帖数: 27968 | 23 还挺巧合,俩地方都是74%
不过那个资料号称持续790T,那是接近80%
linpack的效率怎么定义的,相对持续还是相对峰值?
1GHz对应的是1ns的时钟
正常的DRAM还是在50ns的级别,penality也就是和高频的比相对小
实际上超过300M就能看到cache明显的影响了
富士也就2GHz
【在 y*d 的大作中提到】 : : 方。 : 我在楼上已经解释了,频率提高的同时电压也必须得提高才行 : 关系很复杂,但总之功耗比频率提高的更快 : 性能比频率提高的更慢 : 这就是为啥很多设计都宁可用1G多的低频率上一大堆core,而不用4G的频率较少的core
|
a***e 发帖数: 27968 | 24 这里讨论的其实是两个问题,
一个是在极限频率以下的功率对频率的依赖,基本线性,因为给定电压总是能够提供足
够大的电流
另一个是看极限频率包线,CMOS的最大驱动电流是基本正比U^2的,所以给定电压的最
高频率是正比电压,这种情况,功率接近f^3,所以降频+降压是省电的好办法
方。
【在 F******k 的大作中提到】 : CPU的动态功率损耗一般可以表达为fCU^2, 其中f(频率),C(动态容抗,可以考虑为单 : 位时间内所有门电路的切换),U(电压)。发热量似乎也是主频的线性关系,不是平方。 : 不是专家,就是看过一点这方面的资料,也许说错了。希望方家指正。
|
a***e 发帖数: 27968 | 25 电压主要是为了drive current,频率,而不是0/1状态
cmos的0/1对比还是很靠谱的
不过高drive current,要么是电压,这个是平方功率关系
另一个是薄gate,这个导致大漏电
【在 F******k 的大作中提到】 : 不好意思,没看前面就会了。现在把前面的贴子看了。想说几点: : 1)intel MIC 不是"跟CPU集成的还不够",它完全就是一堆CPU核.这些核目前都支持最 : 少SIMD16计算,主要用在HPC。另外,intel现在推的processor graphics可能已经放弃 : 用MIC,尔转而用比较传统GPU,类似AMD的APU. : 2) GPU最起码局部共享(video)内存,这也是DX11 compute shader, cuda,和OpenCL的 : 线程组的设计基础。对于processor graphics来说,GPU和CPU应该共享最后一级缓存( : LLC)的. : 3) 功耗主要两部分:动态功耗和leakage power consumption。 现在的设计导致因为 : 主频高,leakage很快,需要提高电压去维持MOS的0/1态。 :
|