菌斑这么多IT WSN，按说应该能看懂神威的，咋都是些外行在咋呼呢 - Military2版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Military2版 - 菌斑这么多IT WSN，按说应该能看懂神威的，咋都是些外行在咋呼呢

相关主题
● 前一篇帖子小数点错了一位，汗	● 天河一号: 世界最快的超级计算机
● 龙芯3B流片成功[zz]	● 国产超级计算机2011年底将全部使用中国芯片
● 首台全部采用国产CPU和系统软件的超级计算机正式投入运行	● 胡伟武不容易，开CPU博物馆正好
● 龙芯正积极把 Android 系统移植到MIPS指令集上来	● 龙芯未来10年的前景
● 中国新型微处理器领先世界	● 日本CPU的发展道路(转)
● 日本二战末期也有制导鱼雷和VT fuse 了	● 君正周生雷：MIPS架构授权促成本降至ARM 1/2 (转载)
● 不對稱戰略精密武器奏效 ZT 中央社	● bie用的什么计算机？
● 这个主意狠啊：美专家建议台湾发展潜舰等进攻武器	● 胡伟武：为什么龙芯不肯与国外巨头合资 (转载)

相关话题的讨论汇总
话题: cpu话题: 申威话题: gpu话题: 神威话题: 浮点运算

进入Military2版参与讨论

(共1页)

y*d
发帖数: 2226

一、申威CPU Architecture分析
现在的新闻没有公布细节，但可以毛算一下这个CPU是啥样子的：
峰值速度1070万亿次，8704片cpu，16core
平均每core大约77亿FLOPS
目前cpu频率大约在1G 2G 3G这种水平，考虑到神威的低功耗（后面详细讲）
主频应小于2G
按2G算就是每指令周期做39次单精浮点计算
我估计最有可能的是，主频1.2G，每个周期64个浮点运算（算下来大约是76.8亿FLOPS）
和天河一号用的nVidia Tesla M2050 GPU对比一下
2050有16个SM，每个SM每周期也是可以做64个浮点运算，主频1.15G
申威CPU 16个Core，每core 64个浮点运算，主频1.2G
可以看出在计算单元配置和主频选择上，申威和Fermi Tesla基本一样
但是GPU有一个取巧的地方是GPU有一个Fused MUL ADD运算。这样一个运算顶两个，所
以实际只有32个计算单元，却号称64个浮点运算。而实际上，很少有哪个程序可以全是
用这个特殊运算的。所以GPU的实测速度会低很多。使用GPU的中国的天河1，倭国的つ
ばめ（燕）都实测只能达到理论值的一半
而神威的实测速度达到理论值的74%，可见并不是象GPU那么取巧。但是和其他使用通用
CPU的计算机相比，这个数字又太低。比如使用倭国富士通产SPARC64 VIIIfx CPU的“
京”，可以达到理论值的93%。所以我的判断是，申威更像GPU，每core只有32个浮点运
算单元，但可能有多个类似于Fused Mul Add这样的特殊运算。（这样也更make sense
，因为如果有64个FPU，则芯片的集成度就要大幅增加，目前还没有哪个厂能造的出来
这种妖怪）
这样申威的计算部分就很清楚了，但是其控制部分还是不太能够从公开数据里看出来
可能的选择有以下几个：
1. GPU的CUDA thread
2. CPU的SIMD
3. IBM CELL的异构多核
4. 自主创新
1节省了大量的控制电路（这是GPU在某些方面战胜intel CPU的密技），但是太适用于
通用CPU
2要求宽达64 * 32 = 2048位的超宽操作数。我老判断这个太夸张了，而且和通用CPU里
的其他指令也没有办法做到一起去
3因为申威展板上说了是同构，我们姑且相信不是这种
所以，这里真的是自主创新了，这个大概才是申威最给力的地方
我猜可能是混合了1和3的方式，一个小的类似通用CPU的core处理逻辑、算术运算，处
理IO中断；另外一片浮点运算电路采用GPU的方式。换句话说，就是类似于Intel和AMD
卖的那种带GPU的CPU。但是应该是结合的更紧密，不是简单的装进一个chip了事
二、申威CPU Architecture优劣
如果上面的分析正确的话，申威还是很激动人心的。话说，我老去年就在大力鼓吹CPU
和GPU融合的设计……
不过，这种超超超超宽向量处理器，肯定不适合我们常见那种有很多逻辑分支的程序。
但对于super computer最主要的应用：数值计算来说是绝对合适的。向量机的优劣N十
年前就讨论过了，有兴趣的，自己放狗。
如果申威用的是类似GPU的设计的话，其灵活性比一般的向量机还要差。对常见的解PDE
之类的活都有点不顺手了。
总的来说many core是HPC领域的发展方向。申威在这个方面超过了nVidia和Intel。但
是这个市场需求有限。
以后CPU的设计大概又是分久必合，合久必分了。早年间main frame和mini computer采
用不一样的architecture。最近10多年几乎被X86一统江湖。现在的趋势是移动设备用
ARM，desktop和大部分的server用X86，用于数值计算的super computer用many core(e
.g. 申威)
前两个系列是利润最高的，所以intel，nvidia，qualcomm都是砸了无数的钱在做
最后一个比较鸡肋，大家热情不是很大，所以被我共捡了便宜
千万别以为申威搞好了，就有希望进入另外两个系列。那个竞争的程度可不是一个数量
级。主要的难度不是技术而是资金、商业、法律方面的问题
三、申威的能耗
这个是申威相当惊人的一个地方。前面提到的nVidia Tesla M2050，与申威接近的配置
，要225w的功耗。而申威从展板的数据看，只要100w的样子。少了一半有余。
这里要指出的是GPU已经几乎是榨干了的运算器了，和通用CPU不同，控制电路已经精简
到了不能再减的程度。所以GPU的单位能耗运算能力是遥遥领先CPU的。而申威可是号称
是通用CPU的。就算有什么自主创新，在architecture设计上，我不认为有多少油水可
以榨了。
一年多前推出的M2050，用的是台集电40 nm制程。我们可以来估计一下申威需要什么样
的工艺才能减少一半能耗。Intel的Xeon CPU从45nm的Nehalem到32 westmere，设计基
本不变，功耗下降也不明显。到32nm sandy bridge从新设计过，功耗比Nehalem也没有
省到一半（这里已经考虑了新增功能，扩大cache等因素）。照这个推断，申威用的至
少是某个低功耗22 nm制程
问题是这个东西是哪家造的？Inel自己的22 nm CPU到Oct 19才刚刚量产。台集电才刚
刚量产28 nm
实在很难相信TG自己能造这个东东出来
四、神威计算机的架构
因为用了单片计算能力很强强的CPU，神威不需要像豆腐那种超fancy的设计。infini
band + 光纤交换机就可以了。基本上是些现成的东西。
低能耗+水冷是亮点。一个1 u的rack就能装8个申威CPU。这个密度确实很惊人。以后的
data center可能都得上液冷了。google前两年就有个paper说这个事。细节自己放狗。
就神威目前的这个样子，稍加改造，明年造出一个10倍速度的计算机应该不在话下
总结
如果宣传的这些都是真的，神威真的是很强大

(共1页)

进入Military2版参与讨论

相关主题
● 胡伟武：为什么龙芯不肯与国外巨头合资 (转载)	● 中国新型微处理器领先世界
● 中国已赶超美国的几个关键方面	● 日本二战末期也有制导鱼雷和VT fuse 了
● 日本东京工业大学将用Tesla建全球最强超级计算机	● 不對稱戰略精密武器奏效 ZT 中央社
● 并行计算GPU>>CPU	● 这个主意狠啊：美专家建议台湾发展潜舰等进攻武器
● 前一篇帖子小数点错了一位，汗	● 天河一号: 世界最快的超级计算机
● 龙芯3B流片成功[zz]	● 国产超级计算机2011年底将全部使用中国芯片
● 首台全部采用国产CPU和系统软件的超级计算机正式投入运行	● 胡伟武不容易，开CPU博物馆正好
● 龙芯正积极把 Android 系统移植到MIPS指令集上来	● 龙芯未来10年的前景

相关话题的讨论汇总
话题: cpu话题: 申威话题: gpu话题: 神威话题: 浮点运算

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天