前一篇帖子小数点错了一位，汗 - Military2版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Military2版 - 前一篇帖子小数点错了一位，汗

相关主题
● 菌斑这么多IT WSN，按说应该能看懂神威的，咋都是些外行在咋呼呢	● 推荐一篇不错的帖子
● 龙芯3B流片成功[zz]	● 张欣: 中国未来30年的战略态势及应对
● 龙芯三发展到什么地步鸟？	● 转一篇描写弹道导弹打击航母的过程的文章
● 老美修改规则了，不和tg一起玩	● 美报告：中国有12颗军用卫星
● 天河一号: 世界最快的超级计算机	● 推荐一篇文章
● 这一篇大家怎么评论，是不是太HKC了？	● 打算征一篇武装直升机的科普文章
● 几天来看到的最搞的一篇	● 转一篇专业人士写的文章
● CD上的一篇HKC文	● 一篇关于美国大通膨的分析文章 (转载)

相关话题的讨论汇总
话题: gpu话题: cpu话题: viiifx话题: 功耗话题: 频率

进入Military2版参与讨论

(共1页)

y*d
发帖数: 2226

感谢指正
惭愧啊……
因为以前看过一篇文章说神威会用众核处理器，就自然的往那个地方想了
申威应该是每core 8GFLOPS
只是倭国SPARC64 VIIIfx的一半
这么低的速度，功耗小一点不奇怪。运算速度对主频是线性关系，发热量是平方关系。
所以速度低的CPU功耗相对小是正常的
而他们只是做到和SPARC64 VIIIfx差不多的功耗。实在没什么意思
关于刚才有人在另外那个帖子里提的几个问题
1。FLOPS如果没有特别说明的话都是指单精
2。x86 CPU里目前还没有FMA
http://en.wikipedia.org/wiki/FMA_instruction_set
所以GPU和x86比还是占了便宜的
3。SPARC64 VIIIfx里有一个更fancy的FMA，还有conditional operation，6 issue
superscalar和OOO execution，效率还挺高的

L***n
发帖数: 6727

spacr64 viiifx是倭人设计的么? 好像还是美国人设计的吧，倭人买了?

【在 y*d 的大作中提到】

: 感谢指正
: 惭愧啊……
: 因为以前看过一篇文章说神威会用众核处理器，就自然的往那个地方想了
: 申威应该是每core 8GFLOPS
: 只是倭国SPARC64 VIIIfx的一半
: 这么低的速度，功耗小一点不奇怪。运算速度对主频是线性关系，发热量是平方关系。
: 所以速度低的CPU功耗相对小是正常的
: 而他们只是做到和SPARC64 VIIIfx差不多的功耗。实在没什么意思
: 关于刚才有人在另外那个帖子里提的几个问题
: 1。FLOPS如果没有特别说明的话都是指单精

h********n
发帖数: 1671

能做到这样已经很好了，每次能在一个方面有所突破，日积月累，进步还是很快的。像
“跨越”那样一步登天是不可能的，牛皮吹破推倒重来，其实更慢。

h*******o
发帖数: 778

发热量和频率成平方关系？线性关系吧...
其实单纯比较GFLOPS没什么意思，还是跑同样的benchmark的throughput, power,
energy才有意义..

【在 y*d 的大作中提到】

s*****V
发帖数: 21731

你跟高阻已经一条战线了

【在 h********n 的大作中提到】

: 能做到这样已经很好了，每次能在一个方面有所突破，日积月累，进步还是很快的。像
: “跨越”那样一步登天是不可能的，牛皮吹破推倒重来，其实更慢。

h*********n
发帖数: 11319

flops没特别提的话都是双精吧，除了图形学还没有啥科学计算程序用单精度的，只有
gpu会鼓吹单精度的速度（现在也重点提升双精度性能了）

【在 y*d 的大作中提到】

a***e
发帖数: 27968

fujisu的那个是单核2Ghz 16Gflops
一个周期是8个flops，也就是4个FMA
靠的是两个128bit的SMID指令
这个CPU一个周期可以完成俩SMID指令
看来这个神威也是这个做法
65nm 1G, 45nm布局优化就是2G
不过fujishu这个是8core共享5Mcache
神威也是这个水平的话会极大影响效率

【在 y*d 的大作中提到】

y*d
发帖数: 2226

这个东东是若干年前富士通买了sun的版权，然后自己改进来的
不是说国防科大正在搞的那个也是sparc的吗

【在 L***n 的大作中提到】

: spacr64 viiifx是倭人设计的么? 好像还是美国人设计的吧，倭人买了?

y*d
发帖数: 2226

申威的实测速度只有理论数的74%
比鬼子的93低很多
在1G的速度上，memory和cpu的速度差不算太大，cache还不是主要的瓶颈
所以我猜他们慢的原因是像AVX一样用256 bit SIMD，而在OOO和超线程方面没有鬼子那
么aggrasive

【在 a***e 的大作中提到】

: fujisu的那个是单核2Ghz 16Gflops
: 一个周期是8个flops，也就是4个FMA
: 靠的是两个128bit的SMID指令
: 这个CPU一个周期可以完成俩SMID指令
: 看来这个神威也是这个做法
: 65nm 1G, 45nm布局优化就是2G
: 不过fujishu这个是8core共享5Mcache
: 神威也是这个水平的话会极大影响效率

y*d
发帖数: 2226

同样的工艺下，要提高频率的同时还得提高电压，所以功耗比频率增加的快
性能的提高比频率增加的慢
这里说的GFLOPS是理论数和LINPACK实测数
理论GFLOPS / watt神威比鬼子高
实测比鬼子低

【在 h*******o 的大作中提到】

: 发热量和频率成平方关系？线性关系吧...
: 其实单纯比较GFLOPS没什么意思，还是跑同样的benchmark的throughput, power,
: energy才有意义..

相关主题
● 这一篇大家怎么评论，是不是太HKC了？	● 推荐一篇不错的帖子
● 几天来看到的最搞的一篇	● 张欣: 中国未来30年的战略态势及应对
● CD上的一篇HKC文	● 转一篇描写弹道导弹打击航母的过程的文章
进入Military2版参与讨论

h********n
发帖数: 1671

我当初这样说的时候刘跨越还没下台、正春风得意呢。而且对所有问题我都是这个态度
，买产品说买产品，买专利说买专利，能自己做的就不要买，不能自己做的该买就买。
可买归买，非吹成百分之百自主知识产权有何益处呢？别人研究几十年的东西，你两年
就吃透了，而且跨越了？反正我是不信。
这是我在今年6月时的发言：
-------------------------------
中国的高速铁路发展，重中之重在于安全，而不是速度。差个几十分钟、一个小时，对
市场并不会产生多大影响，想坐飞机的还坐飞机，想坐高铁的还坐高铁，有几个人会因
为这一个小时而改主意？但是这一个小时对机车和整个系统的工作状态和安全冗余来说
却是至关重要的。
现在速度慢一些，先保证安全，把各方面配套的服务都搞好了，让大家都接受高铁，以
后逐渐提速不成问题。如果在高铁投入运营的初期出现重大事故，那么对高铁的打击将
是毁灭性的。
想毁掉中国高铁的发展，现在就大干快上，今天350，明天450，后天直接上600，剩下
的事，都交给关老爷负责吧。

【在 s*****V 的大作中提到】

: 你跟高阻已经一条战线了

d********f
发帖数: 43471

其实现在搞高性能计算还在高cpu本来就是比人家落后了一个时代，很快的gpu将会把这
些神机都取代了

【在 y*d 的大作中提到】

y*d
发帖数: 2226

可惜你没看到我上一篇帖子
GPU也有很多局限性，当然对数值计算为主的HPC是很合适的
GPU与CPU混合的设计才是王道
Intel MIC就有点这个意思，但是跟CPU集成的还不够
我记得以前看过一篇文章说山东要搞的是众核(many core)通用CPU
以为他们会用类似GPU的设计
昨天听说出来了，还鸡冻了一下
没想到，是这么个鸡肋
16个core也好意思说many core ……

【在 d********f 的大作中提到】

: 其实现在搞高性能计算还在高cpu本来就是比人家落后了一个时代，很快的gpu将会把这
: 些神机都取代了

d********f
发帖数: 43471

gpu本来就不能单独工作，现在有的体系都是混编的。这种神机本来基本就是用来做计
算的，现在gpu主要的问题就是通用性语言。因为从设计上来说成本低太多，cpu根本没
有任何办法来竞争

【在 y*d 的大作中提到】

:
: 可惜你没看到我上一篇帖子
: GPU也有很多局限性，当然对数值计算为主的HPC是很合适的
: GPU与CPU混合的设计才是王道
: Intel MIC就有点这个意思，但是跟CPU集成的还不够
: 我记得以前看过一篇文章说山东要搞的是众核(many core)通用CPU
: 以为他们会用类似GPU的设计
: 昨天听说出来了，还鸡冻了一下
: 没想到，是这么个鸡肋
: 16个core也好意思说many core ……

y*d
发帖数: 2226

HPC里也有不同的分支，比如NSA用来搞密码的超级计算机就不太合适用GPU
当然我同意，多数情况下super computer就是用来算PDE的，所以GPU是个很不错的设计
但是GPU还远不是针对HPC优化的。比如现在的结构里要通过很慢的PCIe来访问，显存不
能直接通过RDMA或者infini band和别的node交换数据，多个GPU之间还不能共享内存or
显存。GPU内部还有提供更灵活指令集的空间，对OS的支持也有待加强。
理想的设计应该是和通用CPU集成在一起

【在 d********f 的大作中提到】

: gpu本来就不能单独工作，现在有的体系都是混编的。这种神机本来基本就是用来做计
: 算的，现在gpu主要的问题就是通用性语言。因为从设计上来说成本低太多，cpu根本没
: 有任何办法来竞争

a***e
发帖数: 27968

Dr. Dongarra said the Sunway’s theoretical peak performance was about 74
percent as fast as the fastest United States computer — the Jaguar
supercomputer at the Department of Energy facility at Oak Ridge National
Laboratory, made by Cray Inc. That machine is currently the third fastest on
the list.
NYT的这段话说得是神威峰值相当于克雷美洲虎的74%
美洲虎峰值XT5+XT4是1.75peta,XT5是 1.4peta,共有12*7832 AMD core,
每core 14GFlops,基本是AMD典型核的水平，3G 4指令/周期
不知道老大的74%是哪里的数据，HPC cache跟不上根本到不了峰值

【在 y*d 的大作中提到】

:
: HPC里也有不同的分支，比如NSA用来搞密码的超级计算机就不太合适用GPU
: 当然我同意，多数情况下super computer就是用来算PDE的，所以GPU是个很不错的设计
: 但是GPU还远不是针对HPC优化的。比如现在的结构里要通过很慢的PCIe来访问，显存不
: 能直接通过RDMA或者infini band和别的node交换数据，多个GPU之间还不能共享内存or
: 显存。GPU内部还有提供更灵活指令集的空间，对OS的支持也有待加强。
: 理想的设计应该是和通用CPU集成在一起

s********7
发帖数: 4681

???

【在 L***n 的大作中提到】

: spacr64 viiifx是倭人设计的么? 好像还是美国人设计的吧，倭人买了?

F******k
发帖数: 197

CPU的动态功率损耗一般可以表达为fCU^2, 其中f(频率），C(动态容抗，可以考虑为单
位时间内所有门电路的切换），U(电压）。发热量似乎也是主频的线性关系，不是平方。
不是专家，就是看过一点这方面的资料，也许说错了。希望方家指正。

【在 y*d 的大作中提到】

y*d
发帖数: 2226

on
你能认识中文的，为啥不知道去看中文的材料
莫非你觉得NYT的翻译的中文比你更好
http://roll.sohu.com/20111030/n323918831.shtml
倭国的京计算机都93%了
Linpack的数据/计算量比例不高，cache不是瓶颈
特别是对于主频只有1G的神威来说，cache miss的penalty不大

【在 a***e 的大作中提到】

: Dr. Dongarra said the Sunway’s theoretical peak performance was about 74
: percent as fast as the fastest United States computer — the Jaguar
: supercomputer at the Department of Energy facility at Oak Ridge National
: Laboratory, made by Cray Inc. That machine is currently the third fastest on
: the list.
: NYT的这段话说得是神威峰值相当于克雷美洲虎的74%
: 美洲虎峰值XT5+XT4是1.75peta,XT5是 1.4peta,共有12*7832 AMD core,
: 每core 14GFlops,基本是AMD典型核的水平，3G 4指令/周期
: 不知道老大的74%是哪里的数据，HPC cache跟不上根本到不了峰值

y*d
发帖数: 2226

方。
我在楼上已经解释了，频率提高的同时电压也必须得提高才行
关系很复杂，但总之功耗比频率提高的更快
性能比频率提高的更慢
这就是为啥很多设计都宁可用1G多的低频率上一大堆core，而不用4G的频率较少的core

【在 F******k 的大作中提到】

: CPU的动态功率损耗一般可以表达为fCU^2, 其中f(频率），C(动态容抗，可以考虑为单
: 位时间内所有门电路的切换），U(电压）。发热量似乎也是主频的线性关系，不是平方。
: 不是专家，就是看过一点这方面的资料，也许说错了。希望方家指正。

相关主题
● 美报告：中国有12颗军用卫星	● 转一篇专业人士写的文章
● 推荐一篇文章	● 一篇关于美国大通膨的分析文章 (转载)
● 打算征一篇武装直升机的科普文章	● 这个环球时报发社论是哪档子事情？
进入Military2版参与讨论

F******k
发帖数: 197

不好意思，没看前面就会了。现在把前面的贴子看了。想说几点：
1）intel MIC 不是"跟CPU集成的还不够",它完全就是一堆CPU核.这些核目前都支持最
少SIMD16计算，主要用在HPC。另外，intel现在推的processor graphics可能已经放弃
用MIC,尔转而用比较传统GPU,类似AMD的APU.
2) GPU最起码局部共享（video)内存，这也是DX11 compute shader, cuda,和OpenCL的
线程组的设计基础。对于processor graphics来说，GPU和CPU应该共享最后一级缓存(
LLC)的.
3) 功耗主要两部分：动态功耗和leakage power consumption。现在的设计导致因为
主频高，leakage很快，需要提高电压去维持MOS的0/1态。

core

【在 y*d 的大作中提到】

:
: 方。
: 我在楼上已经解释了，频率提高的同时电压也必须得提高才行
: 关系很复杂，但总之功耗比频率提高的更快
: 性能比频率提高的更慢
: 这就是为啥很多设计都宁可用1G多的低频率上一大堆core，而不用4G的频率较少的core

F******k
发帖数: 197

你的上一篇帖子在哪儿，怎么找到呀，thanks

【在 y*d 的大作中提到】

a***e
发帖数: 27968

还挺巧合，俩地方都是74%
不过那个资料号称持续790T,那是接近80%
linpack的效率怎么定义的，相对持续还是相对峰值？
1GHz对应的是1ns的时钟
正常的DRAM还是在50ns的级别，penality也就是和高频的比相对小
实际上超过300M就能看到cache明显的影响了
富士也就2GHz

【在 y*d 的大作中提到】

a***e
发帖数: 27968

这里讨论的其实是两个问题，
一个是在极限频率以下的功率对频率的依赖，基本线性，因为给定电压总是能够提供足
够大的电流
另一个是看极限频率包线，CMOS的最大驱动电流是基本正比U^2的，所以给定电压的最
高频率是正比电压，这种情况，功率接近f^3,所以降频+降压是省电的好办法

方。

【在 F******k 的大作中提到】

a***e
发帖数: 27968

电压主要是为了drive current,频率，而不是0/1状态
cmos的0/1对比还是很靠谱的
不过高drive current,要么是电压，这个是平方功率关系
另一个是薄gate,这个导致大漏电

【在 F******k 的大作中提到】

: 不好意思，没看前面就会了。现在把前面的贴子看了。想说几点：
: 1）intel MIC 不是"跟CPU集成的还不够",它完全就是一堆CPU核.这些核目前都支持最
: 少SIMD16计算，主要用在HPC。另外，intel现在推的processor graphics可能已经放弃
: 用MIC,尔转而用比较传统GPU,类似AMD的APU.
: 2) GPU最起码局部共享（video)内存，这也是DX11 compute shader, cuda,和OpenCL的
: 线程组的设计基础。对于processor graphics来说，GPU和CPU应该共享最后一级缓存(
: LLC)的.
: 3) 功耗主要两部分：动态功耗和leakage power consumption。现在的设计导致因为
: 主频高，leakage很快，需要提高电压去维持MOS的0/1态。
:

(共1页)

进入Military2版参与讨论

相关主题
● 一篇关于美国大通膨的分析文章 (转载)	● 天河一号: 世界最快的超级计算机
● 这个环球时报发社论是哪档子事情？	● 这一篇大家怎么评论，是不是太HKC了？
● 中国反击越南：河内正式向北京宣战！ (转载)	● 几天来看到的最搞的一篇
● 妈的一篇很好的有关高铁的报道，被妓者起个标题意思就全反了 (转载)	● CD上的一篇HKC文
● 菌斑这么多IT WSN，按说应该能看懂神威的，咋都是些外行在咋呼呢	● 推荐一篇不错的帖子
● 龙芯3B流片成功[zz]	● 张欣: 中国未来30年的战略态势及应对
● 龙芯三发展到什么地步鸟？	● 转一篇描写弹道导弹打击航母的过程的文章
● 老美修改规则了，不和tg一起玩	● 美报告：中国有12颗军用卫星

相关话题的讨论汇总
话题: gpu话题: cpu话题: viiifx话题: 功耗话题: 频率

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天