由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Military2版 - 前一篇帖子小数点错了一位,汗
相关主题
菌斑这么多IT WSN,按说应该能看懂神威的,咋都是些外行在咋呼呢推荐一篇不错的帖子
龙芯3B流片成功[zz]张欣: 中国未来30年的战略态势及应对
龙芯三发展到什么地步鸟?转一篇描写弹道导弹打击航母的过程的文章
老美修改规则了,不和tg一起玩美报告:中国有12颗军用卫星
天河一号: 世界最快的超级计算机推荐一篇文章
这一篇大家怎么评论,是不是太HKC了?打算征一篇武装直升机的科普文章
几天来看到的最搞的一篇转一篇专业人士写的文章
CD上的一篇HKC文一篇关于美国大通膨的分析文章 (转载)
相关话题的讨论汇总
话题: gpu话题: cpu话题: viiifx话题: 功耗话题: 频率
进入Military2版参与讨论
1 (共1页)
y*d
发帖数: 2226
1
感谢指正
惭愧啊……
因为以前看过一篇文章说神威会用众核处理器,就自然的往那个地方想了
申威应该是每core 8GFLOPS
只是倭国SPARC64 VIIIfx的一半
这么低的速度,功耗小一点不奇怪。运算速度对主频是线性关系,发热量是平方关系。
所以速度低的CPU功耗相对小是正常的
而他们只是做到和SPARC64 VIIIfx差不多的功耗。实在没什么意思
关于刚才有人在另外那个帖子里提的几个问题
1。FLOPS如果没有特别说明的话都是指单精
2。x86 CPU里目前还没有FMA
http://en.wikipedia.org/wiki/FMA_instruction_set
所以GPU和x86比还是占了便宜的
3。SPARC64 VIIIfx里有一个更fancy的FMA,还有conditional operation,6 issue
superscalar和OOO execution,效率还挺高的
L***n
发帖数: 6727
2
spacr64 viiifx是倭人设计的么? 好像还是美国人设计的吧,倭人买了?

【在 y*d 的大作中提到】
: 感谢指正
: 惭愧啊……
: 因为以前看过一篇文章说神威会用众核处理器,就自然的往那个地方想了
: 申威应该是每core 8GFLOPS
: 只是倭国SPARC64 VIIIfx的一半
: 这么低的速度,功耗小一点不奇怪。运算速度对主频是线性关系,发热量是平方关系。
: 所以速度低的CPU功耗相对小是正常的
: 而他们只是做到和SPARC64 VIIIfx差不多的功耗。实在没什么意思
: 关于刚才有人在另外那个帖子里提的几个问题
: 1。FLOPS如果没有特别说明的话都是指单精

h********n
发帖数: 1671
3
能做到这样已经很好了,每次能在一个方面有所突破,日积月累,进步还是很快的。像
“跨越”那样一步登天是不可能的,牛皮吹破推倒重来,其实更慢。
h*******o
发帖数: 778
4
发热量和频率成平方关系? 线性关系吧...
其实单纯比较GFLOPS没什么意思,还是跑同样的benchmark的throughput, power,
energy才有意义..

【在 y*d 的大作中提到】
: 感谢指正
: 惭愧啊……
: 因为以前看过一篇文章说神威会用众核处理器,就自然的往那个地方想了
: 申威应该是每core 8GFLOPS
: 只是倭国SPARC64 VIIIfx的一半
: 这么低的速度,功耗小一点不奇怪。运算速度对主频是线性关系,发热量是平方关系。
: 所以速度低的CPU功耗相对小是正常的
: 而他们只是做到和SPARC64 VIIIfx差不多的功耗。实在没什么意思
: 关于刚才有人在另外那个帖子里提的几个问题
: 1。FLOPS如果没有特别说明的话都是指单精

s*****V
发帖数: 21731
5
你跟高阻已经一条战线了

【在 h********n 的大作中提到】
: 能做到这样已经很好了,每次能在一个方面有所突破,日积月累,进步还是很快的。像
: “跨越”那样一步登天是不可能的,牛皮吹破推倒重来,其实更慢。

h*********n
发帖数: 11319
6
flops没特别提的话都是双精吧,除了图形学还没有啥科学计算程序用单精度的,只有
gpu会鼓吹单精度的速度(现在也重点提升双精度性能了)

【在 y*d 的大作中提到】
: 感谢指正
: 惭愧啊……
: 因为以前看过一篇文章说神威会用众核处理器,就自然的往那个地方想了
: 申威应该是每core 8GFLOPS
: 只是倭国SPARC64 VIIIfx的一半
: 这么低的速度,功耗小一点不奇怪。运算速度对主频是线性关系,发热量是平方关系。
: 所以速度低的CPU功耗相对小是正常的
: 而他们只是做到和SPARC64 VIIIfx差不多的功耗。实在没什么意思
: 关于刚才有人在另外那个帖子里提的几个问题
: 1。FLOPS如果没有特别说明的话都是指单精

a***e
发帖数: 27968
7
fujisu的那个是单核2Ghz 16Gflops
一个周期是8个flops,也就是4个FMA
靠的是两个128bit的SMID指令
这个CPU一个周期可以完成俩SMID指令
看来这个神威也是这个做法
65nm 1G, 45nm布局优化就是2G
不过fujishu这个是8core共享5Mcache
神威也是这个水平的话会极大影响效率

【在 y*d 的大作中提到】
: 感谢指正
: 惭愧啊……
: 因为以前看过一篇文章说神威会用众核处理器,就自然的往那个地方想了
: 申威应该是每core 8GFLOPS
: 只是倭国SPARC64 VIIIfx的一半
: 这么低的速度,功耗小一点不奇怪。运算速度对主频是线性关系,发热量是平方关系。
: 所以速度低的CPU功耗相对小是正常的
: 而他们只是做到和SPARC64 VIIIfx差不多的功耗。实在没什么意思
: 关于刚才有人在另外那个帖子里提的几个问题
: 1。FLOPS如果没有特别说明的话都是指单精

y*d
发帖数: 2226
8

这个东东是若干年前富士通买了sun的版权,然后自己改进来的
不是说国防科大正在搞的那个也是sparc的吗

【在 L***n 的大作中提到】
: spacr64 viiifx是倭人设计的么? 好像还是美国人设计的吧,倭人买了?
y*d
发帖数: 2226
9

申威的实测速度只有理论数的74%
比鬼子的93低很多
在1G的速度上,memory和cpu的速度差不算太大,cache还不是主要的瓶颈
所以我猜他们慢的原因是像AVX一样用256 bit SIMD,而在OOO和超线程方面没有鬼子那
么aggrasive

【在 a***e 的大作中提到】
: fujisu的那个是单核2Ghz 16Gflops
: 一个周期是8个flops,也就是4个FMA
: 靠的是两个128bit的SMID指令
: 这个CPU一个周期可以完成俩SMID指令
: 看来这个神威也是这个做法
: 65nm 1G, 45nm布局优化就是2G
: 不过fujishu这个是8core共享5Mcache
: 神威也是这个水平的话会极大影响效率

y*d
发帖数: 2226
10

同样的工艺下,要提高频率的同时还得提高电压,所以功耗比频率增加的快
性能的提高比频率增加的慢
这里说的GFLOPS是理论数和LINPACK实测数
理论GFLOPS / watt神威比鬼子高
实测比鬼子低

【在 h*******o 的大作中提到】
: 发热量和频率成平方关系? 线性关系吧...
: 其实单纯比较GFLOPS没什么意思,还是跑同样的benchmark的throughput, power,
: energy才有意义..

相关主题
这一篇大家怎么评论,是不是太HKC了?推荐一篇不错的帖子
几天来看到的最搞的一篇张欣: 中国未来30年的战略态势及应对
CD上的一篇HKC文转一篇描写弹道导弹打击航母的过程的文章
进入Military2版参与讨论
h********n
发帖数: 1671
11

我当初这样说的时候刘跨越还没下台、正春风得意呢。而且对所有问题我都是这个态度
,买产品说买产品,买专利说买专利,能自己做的就不要买,不能自己做的该买就买。
可买归买,非吹成百分之百自主知识产权有何益处呢?别人研究几十年的东西,你两年
就吃透了,而且跨越了?反正我是不信。
这是我在今年6月时的发言:
-------------------------------
中国的高速铁路发展,重中之重在于安全,而不是速度。差个几十分钟、一个小时,对
市场并不会产生多大影响,想坐飞机的还坐飞机,想坐高铁的还坐高铁,有几个人会因
为这一个小时而改主意?但是这一个小时对机车和整个系统的工作状态和安全冗余来说
却是至关重要的。
现在速度慢一些,先保证安全,把各方面配套的服务都搞好了,让大家都接受高铁,以
后逐渐提速不成问题。如果在高铁投入运营的初期出现重大事故,那么对高铁的打击将
是毁灭性的。
想毁掉中国高铁的发展,现在就大干快上,今天350,明天450,后天直接上600,剩下
的事,都交给关老爷负责吧。

【在 s*****V 的大作中提到】
: 你跟高阻已经一条战线了
d********f
发帖数: 43471
12
其实现在搞高性能计算还在高cpu本来就是比人家落后了一个时代,很快的gpu将会把这
些神机都取代了

【在 y*d 的大作中提到】
: 感谢指正
: 惭愧啊……
: 因为以前看过一篇文章说神威会用众核处理器,就自然的往那个地方想了
: 申威应该是每core 8GFLOPS
: 只是倭国SPARC64 VIIIfx的一半
: 这么低的速度,功耗小一点不奇怪。运算速度对主频是线性关系,发热量是平方关系。
: 所以速度低的CPU功耗相对小是正常的
: 而他们只是做到和SPARC64 VIIIfx差不多的功耗。实在没什么意思
: 关于刚才有人在另外那个帖子里提的几个问题
: 1。FLOPS如果没有特别说明的话都是指单精

y*d
发帖数: 2226
13

可惜你没看到我上一篇帖子
GPU也有很多局限性,当然对数值计算为主的HPC是很合适的
GPU与CPU混合的设计才是王道
Intel MIC就有点这个意思,但是跟CPU集成的还不够
我记得以前看过一篇文章说山东要搞的是众核(many core)通用CPU
以为他们会用类似GPU的设计
昨天听说出来了,还鸡冻了一下
没想到,是这么个鸡肋
16个core也好意思说many core ……

【在 d********f 的大作中提到】
: 其实现在搞高性能计算还在高cpu本来就是比人家落后了一个时代,很快的gpu将会把这
: 些神机都取代了

d********f
发帖数: 43471
14
gpu本来就不能单独工作,现在有的体系都是混编的。这种神机本来基本就是用来做计
算的,现在gpu主要的问题就是通用性语言。因为从设计上来说成本低太多,cpu根本没
有任何办法来竞争

【在 y*d 的大作中提到】
:
: 可惜你没看到我上一篇帖子
: GPU也有很多局限性,当然对数值计算为主的HPC是很合适的
: GPU与CPU混合的设计才是王道
: Intel MIC就有点这个意思,但是跟CPU集成的还不够
: 我记得以前看过一篇文章说山东要搞的是众核(many core)通用CPU
: 以为他们会用类似GPU的设计
: 昨天听说出来了,还鸡冻了一下
: 没想到,是这么个鸡肋
: 16个core也好意思说many core ……

y*d
发帖数: 2226
15

HPC里也有不同的分支,比如NSA用来搞密码的超级计算机就不太合适用GPU
当然我同意,多数情况下super computer就是用来算PDE的,所以GPU是个很不错的设计
但是GPU还远不是针对HPC优化的。比如现在的结构里要通过很慢的PCIe来访问,显存不
能直接通过RDMA或者infini band和别的node交换数据,多个GPU之间还不能共享内存or
显存。GPU内部还有提供更灵活指令集的空间,对OS的支持也有待加强。
理想的设计应该是和通用CPU集成在一起

【在 d********f 的大作中提到】
: gpu本来就不能单独工作,现在有的体系都是混编的。这种神机本来基本就是用来做计
: 算的,现在gpu主要的问题就是通用性语言。因为从设计上来说成本低太多,cpu根本没
: 有任何办法来竞争

a***e
发帖数: 27968
16
Dr. Dongarra said the Sunway’s theoretical peak performance was about 74
percent as fast as the fastest United States computer — the Jaguar
supercomputer at the Department of Energy facility at Oak Ridge National
Laboratory, made by Cray Inc. That machine is currently the third fastest on
the list.
NYT的这段话说得是神威峰值相当于克雷美洲虎的74%
美洲虎峰值XT5+XT4是1.75peta,XT5是 1.4peta,共有12*7832 AMD core,
每core 14GFlops,基本是AMD典型核的水平,3G 4指令/周期
不知道老大的74%是哪里的数据,HPC cache跟不上根本到不了峰值

【在 y*d 的大作中提到】
:
: HPC里也有不同的分支,比如NSA用来搞密码的超级计算机就不太合适用GPU
: 当然我同意,多数情况下super computer就是用来算PDE的,所以GPU是个很不错的设计
: 但是GPU还远不是针对HPC优化的。比如现在的结构里要通过很慢的PCIe来访问,显存不
: 能直接通过RDMA或者infini band和别的node交换数据,多个GPU之间还不能共享内存or
: 显存。GPU内部还有提供更灵活指令集的空间,对OS的支持也有待加强。
: 理想的设计应该是和通用CPU集成在一起

s********7
发帖数: 4681
17
???

【在 L***n 的大作中提到】
: spacr64 viiifx是倭人设计的么? 好像还是美国人设计的吧,倭人买了?
F******k
发帖数: 197
18
CPU的动态功率损耗一般可以表达为fCU^2, 其中f(频率),C(动态容抗,可以考虑为单
位时间内所有门电路的切换),U(电压)。发热量似乎也是主频的线性关系,不是平方。
不是专家,就是看过一点这方面的资料,也许说错了。希望方家指正。

【在 y*d 的大作中提到】
: 感谢指正
: 惭愧啊……
: 因为以前看过一篇文章说神威会用众核处理器,就自然的往那个地方想了
: 申威应该是每core 8GFLOPS
: 只是倭国SPARC64 VIIIfx的一半
: 这么低的速度,功耗小一点不奇怪。运算速度对主频是线性关系,发热量是平方关系。
: 所以速度低的CPU功耗相对小是正常的
: 而他们只是做到和SPARC64 VIIIfx差不多的功耗。实在没什么意思
: 关于刚才有人在另外那个帖子里提的几个问题
: 1。FLOPS如果没有特别说明的话都是指单精

y*d
发帖数: 2226
19

on
你能认识中文的,为啥不知道去看中文的材料
莫非你觉得NYT的翻译的中文比你更好
http://roll.sohu.com/20111030/n323918831.shtml
倭国的京计算机都93%了
Linpack的数据/计算量比例不高,cache不是瓶颈
特别是对于主频只有1G的神威来说,cache miss的penalty不大

【在 a***e 的大作中提到】
: Dr. Dongarra said the Sunway’s theoretical peak performance was about 74
: percent as fast as the fastest United States computer — the Jaguar
: supercomputer at the Department of Energy facility at Oak Ridge National
: Laboratory, made by Cray Inc. That machine is currently the third fastest on
: the list.
: NYT的这段话说得是神威峰值相当于克雷美洲虎的74%
: 美洲虎峰值XT5+XT4是1.75peta,XT5是 1.4peta,共有12*7832 AMD core,
: 每core 14GFlops,基本是AMD典型核的水平,3G 4指令/周期
: 不知道老大的74%是哪里的数据,HPC cache跟不上根本到不了峰值

y*d
发帖数: 2226
20

方。
我在楼上已经解释了,频率提高的同时电压也必须得提高才行
关系很复杂,但总之功耗比频率提高的更快
性能比频率提高的更慢
这就是为啥很多设计都宁可用1G多的低频率上一大堆core,而不用4G的频率较少的core

【在 F******k 的大作中提到】
: CPU的动态功率损耗一般可以表达为fCU^2, 其中f(频率),C(动态容抗,可以考虑为单
: 位时间内所有门电路的切换),U(电压)。发热量似乎也是主频的线性关系,不是平方。
: 不是专家,就是看过一点这方面的资料,也许说错了。希望方家指正。

相关主题
美报告:中国有12颗军用卫星转一篇专业人士写的文章
推荐一篇文章一篇关于美国大通膨的分析文章 (转载)
打算征一篇武装直升机的科普文章这个环球时报发社论是哪档子事情?
进入Military2版参与讨论
F******k
发帖数: 197
21
不好意思,没看前面就会了。现在把前面的贴子看了。想说几点:
1)intel MIC 不是"跟CPU集成的还不够",它完全就是一堆CPU核.这些核目前都支持最
少SIMD16计算,主要用在HPC。另外,intel现在推的processor graphics可能已经放弃
用MIC,尔转而用比较传统GPU,类似AMD的APU.
2) GPU最起码局部共享(video)内存,这也是DX11 compute shader, cuda,和OpenCL的
线程组的设计基础。对于processor graphics来说,GPU和CPU应该共享最后一级缓存(
LLC)的.
3) 功耗主要两部分:动态功耗和leakage power consumption。 现在的设计导致因为
主频高,leakage很快,需要提高电压去维持MOS的0/1态。

core

【在 y*d 的大作中提到】
:
: 方。
: 我在楼上已经解释了,频率提高的同时电压也必须得提高才行
: 关系很复杂,但总之功耗比频率提高的更快
: 性能比频率提高的更慢
: 这就是为啥很多设计都宁可用1G多的低频率上一大堆core,而不用4G的频率较少的core

F******k
发帖数: 197
22
你的上一篇帖子在哪儿,怎么找到呀,thanks

【在 y*d 的大作中提到】
:
: 方。
: 我在楼上已经解释了,频率提高的同时电压也必须得提高才行
: 关系很复杂,但总之功耗比频率提高的更快
: 性能比频率提高的更慢
: 这就是为啥很多设计都宁可用1G多的低频率上一大堆core,而不用4G的频率较少的core

a***e
发帖数: 27968
23
还挺巧合,俩地方都是74%
不过那个资料号称持续790T,那是接近80%
linpack的效率怎么定义的,相对持续还是相对峰值?
1GHz对应的是1ns的时钟
正常的DRAM还是在50ns的级别,penality也就是和高频的比相对小
实际上超过300M就能看到cache明显的影响了
富士也就2GHz

【在 y*d 的大作中提到】
:
: 方。
: 我在楼上已经解释了,频率提高的同时电压也必须得提高才行
: 关系很复杂,但总之功耗比频率提高的更快
: 性能比频率提高的更慢
: 这就是为啥很多设计都宁可用1G多的低频率上一大堆core,而不用4G的频率较少的core

a***e
发帖数: 27968
24
这里讨论的其实是两个问题,
一个是在极限频率以下的功率对频率的依赖,基本线性,因为给定电压总是能够提供足
够大的电流
另一个是看极限频率包线,CMOS的最大驱动电流是基本正比U^2的,所以给定电压的最
高频率是正比电压,这种情况,功率接近f^3,所以降频+降压是省电的好办法

方。

【在 F******k 的大作中提到】
: CPU的动态功率损耗一般可以表达为fCU^2, 其中f(频率),C(动态容抗,可以考虑为单
: 位时间内所有门电路的切换),U(电压)。发热量似乎也是主频的线性关系,不是平方。
: 不是专家,就是看过一点这方面的资料,也许说错了。希望方家指正。

a***e
发帖数: 27968
25
电压主要是为了drive current,频率,而不是0/1状态
cmos的0/1对比还是很靠谱的
不过高drive current,要么是电压,这个是平方功率关系
另一个是薄gate,这个导致大漏电

【在 F******k 的大作中提到】
: 不好意思,没看前面就会了。现在把前面的贴子看了。想说几点:
: 1)intel MIC 不是"跟CPU集成的还不够",它完全就是一堆CPU核.这些核目前都支持最
: 少SIMD16计算,主要用在HPC。另外,intel现在推的processor graphics可能已经放弃
: 用MIC,尔转而用比较传统GPU,类似AMD的APU.
: 2) GPU最起码局部共享(video)内存,这也是DX11 compute shader, cuda,和OpenCL的
: 线程组的设计基础。对于processor graphics来说,GPU和CPU应该共享最后一级缓存(
: LLC)的.
: 3) 功耗主要两部分:动态功耗和leakage power consumption。 现在的设计导致因为
: 主频高,leakage很快,需要提高电压去维持MOS的0/1态。
:

1 (共1页)
进入Military2版参与讨论
相关主题
一篇关于美国大通膨的分析文章 (转载)天河一号: 世界最快的超级计算机
这个环球时报发社论是哪档子事情?这一篇大家怎么评论,是不是太HKC了?
中国反击越南:河内正式向北京宣战! (转载)几天来看到的最搞的一篇
妈的一篇很好的有关高铁的报道,被妓者起个标题意思就全反了 (转载)CD上的一篇HKC文
菌斑这么多IT WSN,按说应该能看懂神威的,咋都是些外行在咋呼呢推荐一篇不错的帖子
龙芯3B流片成功[zz]张欣: 中国未来30年的战略态势及应对
龙芯三发展到什么地步鸟?转一篇描写弹道导弹打击航母的过程的文章
老美修改规则了,不和tg一起玩美报告:中国有12颗军用卫星
相关话题的讨论汇总
话题: gpu话题: cpu话题: viiifx话题: 功耗话题: 频率