关于乱序执行的讨论汇总 - 话题女王

全部话题 - 话题: 乱序执行

J*******3
发帖数: 1651

来自主题: Hardware版 - Sandy Bridge展望

Sandy Bridge展望
泡泡网笔记本频道1月11日 2011年1月6日注定是个不平凡的日子，在这一天全球最
大的电子消费大展CES 2011在美国赌城拉斯维加斯拉开序幕，去年从头火到尾的苹果也
选择在这一天推出Mac App Store在线商店，而让这一天更加不平凡的便是Intel推出全
新的Sandy Bridge平台，必将引领2011年硬件、笔记本、台式机等领域的重大变革。
浮云还是板砖 Sandy Bridge能飞多久?
Click Here
如果说Intel推出的平台是产业的“领导者”和“定义者”，那么一定会有某些竞
争对手反驳，同时他们也正将此转化为行动，维持住一定市场份额，Sandy Bridge的诞
生虽得到热捧但也受到了一定程度的阻击，该如何面对强劲对手，该如何踏平2011年，
它还有许多路要走，未来的一年里Sandy Bridge到底能火多久？能飞多久？我们一起煮
酒论英雄。

Sandy Bridge简介
Sandy Bridge是英特尔即将在2011年的发布的新一代处理器微架构，仍然保持酷睿
i3、i5、i7三个系列分别针对入门级... 阅读全帖

t******n
发帖数: 2939

来自主题: WaterWorld版 - [合集] 关于使用反证法证明 "素数有无穷多个"

☆─────────────────────────────────────☆
l63 (l63) 于 (Thu May 23 00:34:22 2013, 美东) 提到:
假设素数只有有限个, 记为 p_1,p_2,...,p_k
考察 N = p_1*p_2*...*p_k + 1
可知: 对于任意i = 1,2,3,...,k, p_i 不能整除 N
由素数的定义:
a是素数 <=> a是大于1的自然数, 且a不被任何小于a的素数整除
可知: N是素数
这与素数只有p_1,p_2,...,p_k矛盾.
故假设不成立.
所以素数有无穷多个.
☆─────────────────────────────────────☆
l63 (l63) 于 (Thu May 23 00:37:03 2013, 美东) 提到:
在承认素数的这个等价定义 (即 a是素数 <=> a是大于1的自然数, 且a不被任何小于a
的素数整除) 的前提下, 居然有人会认为这个证明是错的, 或者是不完备的.
我实在不能理解.
求问一下大家, 是不是有的人的脑子天生有缺陷, 根本怎么教都不会明白... 阅读全帖

h*******x
发帖数: 12808

来自主题: PKU版 - 微风看看这个笔记本，329

你这就是非科班出身的geeker典型问题，知道很多时髦名词，但是不了解这些名词的具
体含义。忽悠一般人没问题，但别忘了程老大的“高体”可是p大cs研究生的必修课。
你说的这些：多发射，乱序执行按序提交，分支预测都是用来挖掘的指令集并行性的具
体技术，统称为superscalar的技术，核心问题在于解决乱序执行带来的数据冒险和预
测失败的快速恢复，常见算法包括register renaming，scoreboard，tomasulo，牺牲
者trace等等。所有这些算法都是在上个世纪八九十年代的paper里面提出的。在90年代
也基本都被用到了cpu的设计中了。
其实同频比较是没有什么太大的意义，有些cpu的体系结构就是为了简化单条指令功能
以便细化pipeline可以做到更高的频率来提高性能，risc基本理念就是这样，p4，mips
也是这样。有些结构的设计，增加单条指令的功能，做到低频率也有很高的性能，这是
超长指令字的基本理念，比如ia64架构的安腾处理器。具体哪种结构性能好，没搞出之
前谁也不知道，而且受到当时工艺很大的限制。
另外提高工艺可不是想象的那么简单。光刻技术受到光波波... 阅读全帖

x****u
发帖数: 44466

来自主题: Programming版 - 看了这篇文章，脑子有点不够用了

volatile不是干这个用的啊，它不能禁止优化，控制程序执行路径啊。
程序被乱序编译或被乱序执行是常识，在OS的代码里面就可以看到大量的执行次序敏感
代码，看看就明白了。

c****p
发帖数: 6474

来自主题: JobHunting版 - 写个IC Design的面经吧

版上基本没有IC design的面经，所以在这里写下我自己的经历。有些内容不太方便说，
只是大体讲讲。与其说面经，不如说是面前复习的思路和面后的自我总结。总体感觉是
，对于我来说，只要课程的东西都掌握了，应付HW的面试实际上是比系统地准备算法写
SW代码要轻松一些的。
这个职位说是处理器设计，实际上是验证为主；这也和现在的主流相符：要验证的多，
要设计的少；但是与之矛盾的是，学校教学多强调设计而不重视验证，所以很多学生面
对验证职位都很打怵。我个人感觉是，没必要怕，一方面做过实际project的往往也都做
过验证，另一方面公司也都明白学校验证教得不好，毕业生这方面如果不强他们也理解
。我本人验证方向也很弱，电面和onsite的时候都答得很烂，但是其他方面没出什么纰
漏，所以最后拿到offer。
电面和onsite都主要会考查这几个方面：逻辑验证；逻辑设计；计算机架构；汇编语言
；C、脚本语言；FPGA。
面完的感觉是，他们不会在难度上为难学校出来的学生，但是他们的题一定能把有背景
和没相关背景的学生区分出来。没背景而突击的学生，可能电面的时候回答概念题答得
很好，但是在onsite的时... 阅读全帖

x****u
发帖数: 44466

来自主题: Programming版 - 请问一个多线程与volatile关键字的问题。

他说的实际上是CPU乱序执行对多线程产生的问题。
比如有如下两个指令，如果你假定B为2的时候A一定为1，就可能产生问题，因为另一个
CPU可能对其乱序执行，B在A前被赋值。
A=1
B=2

c****p
发帖数: 6474

来自主题: EE版 - 写个IC Design的面经吧

【以下文字转载自 JobHunting 讨论区】
发信人: chenpp (chenpp), 信区: JobHunting
标题: 写个IC Design的面经吧
发信站: BBS 未名空间站 (Mon Sep 12 22:02:13 2011, 美东)
版上基本没有IC design的面经，所以在这里写下我自己的经历。有些内容不太方便说，
只是大体讲讲。与其说面经，不如说是面前复习的思路和面后的自我总结。总体感觉是
，对于我来说，只要课程的东西都掌握了，应付HW的面试实际上是比系统地准备算法写
SW代码要轻松一些的。
这个职位说是处理器设计，实际上是验证为主；这也和现在的主流相符：要验证的多，
要设计的少；但是与之矛盾的是，学校教学多强调设计而不重视验证，所以很多学生面
对验证职位都很打怵。我个人感觉是，没必要怕，一方面做过实际project的往往也都做
过验证，另一方面公司也都明白学校验证教得不好，毕业生这方面如果不强他们也理解
。我本人验证方向也很弱，电面和onsite的时候都答得很烂，但是其他方面没出什么纰
漏，所以最后拿到offer。
电面和onsite都主要会考查这... 阅读全帖

a****a
发帖数: 5763

来自主题: TVGame版 - 游戏主机性能谎言zz

http://baike.baidu.com/view/6735801.html?fromTaglist
游戏主机性能谎言
目录
引言
正文
写在最后
展开
编辑本段
引言
优化极好的COD系列也难逃图像缩水我们通常认为像XBOX360，PS3这种次世代主
机是专业的游戏机拥有着卓越的游戏性能和PC平台难以比拟的游戏种类支持。在此谎言
被彻底戳穿之前，真相屡次浮出水面，先是Crytek公司在其他游戏产商试图讨好游戏主
机时反对其性能嗤之以鼻，然后是跨平台游戏生化危机5先行试玩DEMO爆出后，在PC上
测试成绩的令人瞠目结舌（在原生1080P，全特效，DX10主流PC的为全程近120帧，而
PS3成绩在DX9，不到720P，特效严重缩水的情况也只有26FPS的平均帧数），许多人不
禁惊愕道，“微软和索尼对我们撒了谎！”
主机与08年主流PC参数对比
09年主流PC与家用机对比游戏机间参数对比
编辑本段
正文
一款游戏的画面效果其实是由游戏引擎和显卡共同决定的,二者之间的分工与协同
非常重要.在PC于家用游戏机”不相往来”的时代,游戏引擎与显卡的关系比较简单,加
上Direct... 阅读全帖

D***n
发帖数: 6804

来自主题: Programming版 - 请不要盲目崇拜FP语言

Functional 语言在学术上解决特定问题i可以，在实践中大规模应用不行。这样的语言
严重依赖虚拟机/编译器，因为当前计算机体系结构本质并不是这么设计的：
===============================
例如：打印100行Hello world，用如果用汇编语言里面无非就是
1)）往ECX 中装入一个100
2）打印hello world
3）ECX减去1
4）测试ECX
5）根据结果跳转（JNZ比如）。
这个和C 里面的For语言对应的很好，一条对一条。而FP呢？如果编译器不够智能地猜
出你要做记数循环，采用递归实现意味着你需要执行100次calling convention （以
X86为例）：
1）上级栈地址压栈，设新栈地址
2）参数和返回结果压栈（100， 99，98...）
3）执行函数（函数里一个if statement判断是否到头，再打印Hello world）
4）清理堆栈，返回结果
然后这破事要在栈上搞弄100次。执行效率至少慢了400-1000%（Call/Ret指令很费CPU
周期，而且函数压栈这些都是内存操作），这么差的效率怎么玩I/O？
除... 阅读全帖

x****u
发帖数: 44466

来自主题: Programming版 - 看了这篇文章，脑子有点不够用了

典型小p孩写的垃圾文章，胡说八道并且故弄玄虚。
概要意思就是说编译器优化可能会乱序执行某些东西，所以关掉优化就好了。好个p啊。
如果用了互斥原语以外的机制做同步互斥，就可能会出现问题。但是问题在于，使用互
斥原语外的方法来做同步互斥本身就是有问题。就算编译器不优化，CPU也是有乱序执
行的技术的。
无数例子警告我们，除非万不得已并且花了很大代价调研，否则绝对不要轻易使用某些
想当然的重复自创的技巧，哪怕是OS课上老师讲过的。
至于多线程关掉优化，就两个字，胡扯。C++03的做法一点没错，因为你管得住编译器
也管不住CPU。
讲个笑话，某个小p孩曾经鄙视过我，说你还用WaitForSingleObject这么土的WinAPI，
我用汇编写的自旋锁又快又简单，微软还搞个API，真是猪头。我的伟大的SDK里面就是
不用它！

a*******g
发帖数: 3500

来自主题: Stock版 - zz通俗理解这次牙膏厂的bug (spectre)

Amd的乱须执行有boundary check 貌似
intel的乱序执行没有。
所以intel快一些但有危险。
我今天忘记在哪儿看到的

k***e
发帖数: 1931

来自主题: Stock版 - 读完paper，谈谈感想

貌似是乱序执行执行了不必要的指令，那么预先检测一下这个指令能不能执行就行了，
但是这就会影响效率了吧？

s********e
发帖数: 13723

来自主题: Military版 - 第六代龙芯探秘：下代产品将用28nm制程制作

龙芯处理器的首席架构设计师，中科院计算技术研究所（ICT）的胡伟武教授透露，
2011年龙芯将推出数款基于65nm制程的产品，同时下一代龙芯处理器则将采用28nm制
程进行制作。胡伟武同时透露他们将推出一系列龙芯新产品，其型号包括一款服务器用
，内部设置有向量处理器单元的龙芯产品。
龙芯3B处理器：
自从2001年推出龙芯第一代架构之后，龙芯目前已经发展到了第六代产品。胡伟武并在
最近举办的HotChips会展上就龙芯系列最新产品：龙芯3B做了演示。这款处理器采用8
核设计，工作频率高至1GHz，采用意法半导体公司的65nm制程技术制作，耗电量为40W
。这款处理器于今年五月份完成流片设计，将于今年9月份开始量产，处理器核心的面
积为300平方毫米，浮点运算能力为128GFLOPS。
龙芯3B的核心部分是采用64bit设计的464V核心，核心兼容MIPS指令集，该核心的乱序
执行管线每时钟周期可执行完成4条指令，另外还可以支持200条可模拟Intel x86运行
的指令。至于464V中的字母“V”，则代表这款龙芯内部加入了向量处理器单元。
464V核心在前一代核心采用的64bit浮点

z**c
发帖数: 7595

来自主题: Joke版 - （ZT）匪夷所思。胡师傅是靠什么把这个玩下去的？

[转贴]第六代龙芯闪亮登场
112230 次点击
774 个回复
0 次转到微评
掘墓鞭尸于 2010-8-28 0:36:06 发布在凯迪社区 > 猫眼看人
据龙芯处理器的首席架构设计师，中科院计算技术研究所(ICT)的胡伟武教授透露，
2011年龙芯将推出数款基于65nm制程的产品，同时下一代龙芯处理器则将采用28nm制程
进行制作。胡伟武同时透露他们将推出一系列龙芯新产品，其型号包括一款服务器用，
内部设置有向量处理器单元的龙芯产品。
龙芯3B处理器：
自从2001年推出龙芯第一代架构之后，龙芯目前已经发展到了第六代产品。胡伟武
并在最近举办的HotChips会展上就龙芯系列最新产品：龙芯3B做了演示。这款处理器采
用8核设计，工作频率高至1GHz，采用意法半导体公司的65nm制程技术制作，耗电量为
40W。这款处理器于今年五月份完成流片设计，将于今年9月份开始量产，处理器核心的
面积为300平方毫米，浮点运算能力为128GFLOPS。
龙芯3B的核心部分是采用64bit设计的464V核心，核心兼容MIPS指令集，该核心的
乱序执行管线每时钟周期可执行完成4条指令，另外还可以... 阅读全帖

d***a
发帖数: 13752

来自主题: Programming版 - 应该请dsb之类学物理的来说说

这个要大sb来做什么...
对一个4GHz的处理器来说，1ns是4个时钟周期
1us是4000个时钟周期，0.2us是800个时钟周期
假设处理器是八发射乱序执行，能达到2.0的IPC
这个时间，CPU可以执行1600条指令

S******8
发帖数: 24594

来自主题: Military版 - 龙芯的最新发展

龙芯3B 8核处理器静悄悄地出笼
据龙芯提供的资料显示。龙芯3号是面向高吞吐率计算和高性能计算，降低成本和功耗
的需要而设计的多核芯片。龙芯3A4核处理器是功耗最低的多核服务器芯片。与intel芯
片的高性能相比，龙芯3号更重视性能功耗比这个指标的先进性。而能够充分体现出这
个特色的是最新的龙芯3 B芯片。在其提供的性能对比表里。龙芯3B的双精度峰值达到
128GFLOPS为龙芯3A计算能力的8倍，超过了Intel Core i7 980 XE。尽管还落后AMD
Opteron X12但是龙3B的功耗只有40瓦。
主频 1GHz
微体系结构集成8个64位超标量处理器核，每个处理器核具有如下特点：
支持MIPS64指令集及龙芯扩展指令集；
9级超流水线结构；
四发射乱序执行结构；
2个定点单元、2个浮点单元和1个访存单元；
每个浮点单元支持256位向量运算；
采用交叉开关进行核间互连；
通过HT接口进行片间可伸缩互连
高速缓存每个处理器核的一级指令cache和数据cache各64KB
八个处理器核通过交叉开关共享4MB的二级cache
内... 阅读全帖

f***y
发帖数: 4447

来自主题: Military版 - 中国的ARM构架处理器：打败Intel顶级芯片

http://laoyaoba.com/ss6/html/66/n-570666.html
在刚刚结束的Hotchips 2015会议上，一家成立不久的中国企业公布了一颗代号”火星
”的ARM指令集64核心处理器。令人震惊的是，这颗由中国团队开发的CPU拥有媲美
Intel公司最顶级服务器芯片的性能，毫无疑问是目前ARM阵营最强大的处理器。
Phytium，中文名飞腾，是一家成立于2012年的年轻CPU研发企业。然而光是从公司名称
和所在地——广州，我们就可以知道这家企业的真实身份。飞腾公司是中国国防科技大
学高性能处理器研究团队建立的企业，而国防科大在IT界最为人熟知的作品就是天河2A
超级计算机——连续五届夺得世界超算排行榜性能冠军。天河2A的部分芯片采用了国防
科大自主开发的Sparc指令集CPU，飞腾1500。显然，飞腾公司的名称就是取自这款产品
。公司选址在广州也是为了靠近广州超级计算中心，也就是天河2A的所在地。
与中科院计算所知名的龙芯处理器团队不同，国防科大的CPU研发机构在公众眼中没什
么名气。事实上，早在十年前业内就有传闻指国防科大正在逆向山寨Intel的IA64体... 阅读全帖

x*******6
发帖数: 994

来自主题: Military版 - zt 中国研成ARM构架处理器打败英特尔顶级芯片

在刚刚结束的Hotchips 2015会议上，一家成立不久的中国企业公布了一颗代号“火星
”的ARM指令集64核心处理器。令人震惊的是，这颗由中国团队开发的CPU拥有媲美
Intel公司最顶级服务器芯片的性能，毫无疑问是目前ARM阵营最强大的处理器。
Phytium，中文名飞腾，是一家成立于2012年的年轻CPU研发企业。然而光是从公司
名称和所在地——广州，我们就可以知道这家企业的真实身份。飞腾公司是中国国防科
技大学高性能处理器研究团队建立的企业，而国防科大在IT界最为人熟知的作品就是天
河2A超级计算机——连续五届夺得世界超算排行榜性能冠军。天河2A 的部分芯片采用
了国防科大自主开发的Sparc指令集CPU，飞腾1500。显然，飞腾公司的名称就是取自这
款产品。公司选址在广州也是为了靠近广州超级计算中心，也就是天河2A的所在地。
与中科院计算所知名的龙芯处理器团队不同，国防科大的CPU研发机构在公众眼中
没什么名气。事实上，早在十年前业内就有传闻指国防科大正在逆向山寨Intel的IA64
体系处理器安腾。后来安腾CPU在市场上举步维艰，NUDT（国防科大英文缩写）也停止
了对其... 阅读全帖

g*********n
发帖数: 808

来自主题: Military版 - 中国研成ARM构架处理器打败英特尔顶级芯片阅读详情: http://www.backchina.com/news/2015/08/27/381106.html#ixzz3k2ujyOyW

e****l
发帖数: 3319

来自主题: Military版 - 这次神威的超算最丢人的就是中科院了

不错。搜了一下。江南计算所研发的申威SW26010处理器，架构体系是Alpha 64位RSIC
，乱序执行，频率1.45GHz，260个核心，整个处理器包括4个MPE（Management
Processing Element）管理单元、4个CPE（Computing Processing Element）计算单元
及4个MC内存控制器单元组成，其中CPE单元又由8x8阵列的64核心组成，所以总计是260
个核心（4x64+4=260）。
江南计算技术研究所，即中国人民解放军总参谋部第五十六研究所。

a*****6
发帖数: 1800

来自主题: Military版 - 这次神威的超算最丢人的就是中科院了

一个三流学生组成的中国人民解放军总参谋部第五十六研究所，轻轻松松把中国中科
院的那些院士，博士都打成了一陀狗屎。
放军这次一鸣惊人，和他们的军委的二位贪污犯的军委付主席一样都是一鸣惊人
====================================================================
发信人: entdel (Del), 信区: Military
标题: Re: 这次神威的超算最丢人的就是中科院了
发信站: BBS 未名空间站 (Wed Jun 22 00:19:22 2016, 美东)
不错。搜了一下。江南计算所研发的申威SW26010处理器，架构体系是Alpha 64位RSIC
，乱序执行，频率1.45GHz，260个核心，整个处理器包括4个MPE（Management
Processing Element）管理单元、4个CPE（Computing Processing Element）计算单元
及4个MC内存控制器单元组成，其中CPE单元又由8x8阵列的64核心组成，所以总计是
260
个核心（4x64+4=260）。
... 阅读全帖

发帖数: 1

来自主题: Military版 - 最近有过国产内存

【PConline 资讯】最近有过国产内存、国产闪存的消息很多，显示国内公司对国
产存储芯片越来越有兴趣了。与之相比，其实国内公司在处理器市场上介入的更早，比
如媒体曝光率很高的龙芯，这是最早国产化的处理器之一。龙芯处理器面向的主市场并
不是消费级的，所以对大多数人来说，基于龙芯处理器的产品很少见，之前偶尔曝光的
就是龙芯笔记本之类的。最近龙芯公司宣布开售一款名为2K龙芯派的高端SoC入门平台
，售价1299元，配备了龙芯双核处理器，号称性能比肩Cortex-A53处理器。
龙芯
酷睿i7 8700K
电商价格
苏宁易购：￥3299 京东商城：￥3699 国美：￥2788
龙芯开售的2K龙芯派实际上是一个开发平台，类似树莓派那种，下面的图片看着挺
大，不过从龙芯的描述来看，平台大小跟手掌差不多，还是很小巧的。
龙芯
龙芯
有了这个2K龙芯派，用户可以DIY很多有意思的东西，配上系统、鼠标，那就可以
变成一个开发主机，加上显示屏、传感器等就可以变成物联网平台，刷了Openwrt可以
变成科学上网路由器（龙芯这宣传也没sei了，这么大胆啊），总之跟树莓派差不多，
喜欢折腾的玩家会有无限可能... 阅读全帖

s****e
发帖数: 638

来自主题: Military版 - 中科院的龙芯没搞过

没有先例没胆量另起炉灶, 要不该直接模仿ARM。2001年 ARM在嵌入式RISC已经75%占有
率。其实美国高校研究生CPU课程设计都从头设计ISA。超向量乱序执行转移预测2000年
都烂大街了, 写个放FPGA能跑简单指令2-3个人一个学期就行。难的是市场和生态。

k***n
发帖数: 1557

来自主题: Military版 - 如果没下文，是不是骗局

三年前的消息，如果没下文，是不是骗局？
在刚刚结束的Hotchips2015会议上，一家成立不久的中国企业公布了一颗代号”火星”
的ARM指令集64核心处理器。令人震惊的是，这颗由中国团队开发的CPU拥有媲美Intel
公司最顶级服务器芯片的性能，毫无疑问是目前ARM阵营最强大的处理器。
Phytium，中文名飞腾，是一家成立于2012年的年轻CPU研发企业。然而光是从公司名称
和所在地——广州，我们就可以知道这家企业的真实身份。飞腾公司是中国国防科技大
学高性能处理器研究团队建立的企业，而国防科大在IT界最为人熟知的作品就是天河2A
超级计算机——连续五届夺得世界超算排行榜性能冠军。天河2A的部分芯片采用了国防
科大自主开发的Sparc指令集CPU，飞腾1500。显然，飞腾公司的名称就是取自这款产品
。公司选址在广州也是为了靠近广州超级计算中心，也就是天河2A的所在地。
与中科院计算所知名的龙芯处理器团队不同，国防科大的CPU研发机构在公众眼中没什
么名气。事实上，早在十年前业内就有传闻指国防科大正在逆向山寨Intel的IA64体系
处理器安腾。后来安腾CPU在市场上举步维艰，NUD... 阅读全帖

a***e
发帖数: 27968

来自主题: Military2版 - 龙芯3B流片成功[zz]

没有30~40人的小组也不好称牛人
流个单流水线的，32bits的功能简单的CPU,
和龙芯这种500M+3极管的东西，还是不一样的
这种事情和课题组要求很不一样的
类似架构，缓存，乱序执行这种，牛公司都当机密保管，不见发表的
公司从学术界，得到的是启发，想法。
真正实现，那是赤裸裸的工程，体力活
都是无数的人力物力，外加成本平衡

t*******r
发帖数: 22634

来自主题: Parenting版 - 我来说说做家庭妇女（男）的好处吧

我。。。我手上有两个 highest priority 的东东，还欠楼下的一个算法让楼下
的先用个补丁顶着。。。基于“人不学习要落后，人不吃肉就要瘦”的传统，俺还得
看看 intel 的新乱序执行构架。。。鬼知道会不会某天要写高速算法实现，赤膊
上阵会直接被老板从窗口踹出去的。。。把自己武装到牙齿吧。。其实四年前已经
武装了一次，但 intel 这铁匠吃饱了撑的没事就造新刀新枪新炮。。。看着手头
的鸟枪已经惨不忍睹了。。。更最重要的是，俺还得浪费一大堆时间让自己开心。
。。否则不开心啥都做不了。。。谁说银森的意义是做东东。。。明摆着银森的意义
是不做东东。。。啥都做的话，直接过劳S在计算机屏幕前一了百了。。。不行了，
不能再灌了，老板已经在楼下喊我回 cube 写 code 三百声了。。。

P******e
发帖数: 229

来自主题: Stock版 - Intc 要长？

谷歌第一代的小尺寸平板Nexus 7采用的是NVIDIA首款四核处理器Tegra 3，而2013年的
Nexus 7二代则改为了高通的骁龙S4 Pro四核。据国外最新消息，今年谷歌的新Nexus平
板又要换“芯”了。
早前就有消息称谷歌将要打造一款8寸的小尺寸平板Nexus 8，目前科技网站androidpit
再次证实了这一点，并透露，Nexus 8将会搭载上Intel最新的64位Moorefield平台，主
频为2.3GHz。
据了解，Moorefield是Intel在上月的MWC 2014大会上推出的22nm工艺、全新乱序执行
Silvermont CPU架构，它号称专为Android设计，其中搭配了LTE 4G基带，并且还引入
了PowerVR 6系列GPU。
报道称，Nexus 8如果最终出货版本真的是Moorefield处理器，那么其配备的将会是
PowerVR G6430 GPU。

a*******g
发帖数: 3500

来自主题: Stock版 - 本质是Intel的bugs瞒不下去了

改是很容易改，就是会降低性能。
如何不影响安全性的前提下，提高性能就得想些新东西了。
什么乱序执行，分支预测都得把各种极端情况考虑全了

a*******g
发帖数: 3500

来自主题: Stock版 - 本质是Intel的bugs瞒不下去了

amd说的很清楚啊，
三个漏洞，meltdown没影响。
前两个，所有乱序执行的cpu都有，但能通过打补丁解决。

发帖数: 1

来自主题: EB23版 - 谁能深入浅出的说一下为什么有大退大进

因为现在计算机都是乱序执行的

h**z
发帖数: 9751

来自主题: Arizona版 - 谷歌新Nexus平板曝光：64位Intel“芯” (转载)

【以下文字转载自 PDA 讨论区】
发信人: pathdream (求包养), 信区: PDA
标题: 谷歌新Nexus平板曝光：64位Intel“芯”
发信站: BBS 未名空间站 (Mon Mar 10 22:02:19 2014, 美东)
谷歌第一代的小尺寸平板Nexus 7采用的是NVIDIA首款四核处理器Tegra 3，而2013年的
Nexus 7二代则改为了高通的骁龙S4 Pro四核。据国外最新消息，今年谷歌的新Nexus平
板又要换“芯”了。
早前就有消息称谷歌将要打造一款8寸的小尺寸平板Nexus 8，目前科技网站androidpit
再次证实了这一点，并透露，Nexus 8将会搭载上Intel最新的64位Moorefield平台，主
频为2.3GHz。
据了解，Moorefield是Intel在上月的MWC 2014大会上推出的22nm工艺、全新乱序执行
Silvermont CPU架构，它号称专为Android设计，其中搭配了LTE 4G基带，并且还引入
了PowerVR 6系列GPU。
报道称，Nexus 8如果最终出货版本真的是Moorefield处理... 阅读全帖

s*****e
发帖数: 21415

来自主题: PhotoGear版 - 方韩越来越有意思了

你看你也不清楚，何况HH...
好比不要以为中关村倒腾了几年器材，知道一大堆板卡厂商性能好坏显卡指标如何OC就
算是计算机知识丰富了。真的出去找计算机工作这些通通用不上。。。
总线设计，体系结构，缓存设置，指令cache和数据cache协同，CPU时钟周期的分配，
超标量流水线，分支预测，乱序执行，页面同步的处理，操作系统结构，微内核，中断
调用，进程优先级分配，资源费配和防止死锁，多线程同步处理，线程/进程间通讯，
程序设计语言的数学模型，functional programming，算法复杂度，动态规划，A*搜索
，最小费用最大流，人工智能，统计模型和机器学习……
就算知道上面这些，也只不过是计算机科学刚刚入门……
倒腾电脑的还是省省。。。

t*******r
发帖数: 22634

来自主题: WaterWorld版 - 关于使用反证法证明 "素数有无穷多个"

这个高楼，还是加深俺对码工所用实用数学的体会（或者说是偏见也成）：
中学数学里欧几里德的数学思想，虽然精巧，但对码工而言，帮助不大。
个人觉得对码工所用现代数学思想最有帮助的，恰恰是那些看起来
傻大笨粗的东东，能想起来的是：
数学归纳法
解析几何
泰勒展开
傅立叶变换
第一个编程语言
（过去是 Pascal 或 C，现在可能是 Java）
计算机图论
YACC 和 formal language
乱序执行的超级标量流水线结构

t*******y
发帖数: 21396

来自主题: Joke版 - 中国研成ARM构架处理器打败英特尔顶级芯片

Phytium，中文名飞腾，是一家成立于2012年的年轻CPU研发企业。然而光是从公司名称
和所在地----广州，我们就可以知道这家企业的真实身份。飞腾公司是中国国防科技大
学高性能处理器研究团队建立的企业，而国防科大在IT界最为人熟知的作品就是天河2A
超级计算机----连续五届夺得世界超算排行榜性能冠军。天河2A 的部分芯片采用了国
防科大自主开发的Sparc指令集CPU，飞腾1500。显然，飞腾公司的名称就是取自这款产
品。公司选址在广州也是为了靠近广州超级计算中心，也就是天河2A的所在地。
与中科院计算所知名的龙芯处理器团队不同，国防科大的CPU研发机构在公众眼中没什
么名气。事实上，早在十年前业内就有传闻指国防科大正在逆向山寨Intel的IA64体系
处理器安腾。后来安腾CPU在市场上举步维艰，NUDT（国防科大英文缩写）也停止了对
其模仿的工作，转而开发采用Sparc指令集的高性能芯片。经过数年的努力，NUDT先后
研制出飞腾1000、飞腾1500两款服务器处理器，开始逐渐为业界所知。
天河系列超算开始在全球超算领域崭露头角后，国防科大将眼光放到了更远的未来。天
河2A和之... 阅读全帖

l******n
发帖数: 1683

来自主题: PKU版 - 微风看看这个笔记本，329

你这就是瞎搞了, 无视历史呀. 多发射, 乱序执行, 分支预测这些都被你无视了呀.
p4的问题主要是intel急于在频率上取得领先, 因此采用了超长流水, 导致第一代
的p4同频下性能的后退, 这个主要是商业原因.
单核性能的停滞大概可以从5年前的C2D开始算起, 这些年性能的长进估计主要来源于
片内cache和内存带宽的提高了.

d***a
发帖数: 13752

来自主题: Apple版 - A5 for MBA？

你是PDA版来的吧。
Cortex-A15最高2.5GHz, 15级流水线，单核３发乱序执行，一个处理器上
最多可有８核，最多８MB高速缓存，运行Windows都有余，何况OS X。

d***a
发帖数: 13752

来自主题: Apple版 - A5 for MBA？

Cortex-A15，就是A6用的核，已经有一点实测的benchmark数据。
Dhrystone MIPS测试，2.5GHz的Cortex-A15，单核是8,750，四核
是35,000（A15是四个核组成一个cluster）。
http://en.wikipedia.org/wiki/Instructions_per_second
相比之下，1.6GHz ATOM N270的数据是3,846，只有Cortex-A15单核
的43%。ATOM是16级流水线，双发，没有乱序执行，这个差别是意料
之中的。
2.96GHz的Core 2 Extreme X6800 dual core，单核是13,539.5，双核是
27,079。单线程强于Cortex-A15，多线程后者有可能更强一些。
四核的Intel Core i7 2600K，四核是128,300，是Cortex-A15的3.7倍。
Dhrystone并不是很好的benchmark，但这毕竟是实测的数据，凑合着
看吧。全面的比较，是很复杂的事情。不过OS X在Cortex-A15上运行，
不会有问题。实际上Desktop版的用Cor... 阅读全帖

h*********n
发帖数: 11319

来自主题: Apple版 - 我草，以为这次果子肯定挂了，尼玛还是很多人买啊。

我不是做这一行的，所以我只能简略的解释给你听
我不知道ARM架构是什么意思，我只知道有ARM的指令集，其中又分成不同的v5, v7等等
，新版本总会增加些向量化的多媒体和内存指令。要实现/支持这些指令，有两个办法
，要么用“ip core”，要么自己设计arm兼容的CPU。这里的设计，不是说像前面某id
想象的那样，from scratch.没有哪个公司有钱和时间做这种蠢事。而是在已有的设计
上，fine tuning，有的放矢的做些优化。
ARM提供的恰恰就是类似于“公版”的IP core，之所以说类似，是因为这一个core 并
不是完全不可更改，运算器的数量，cache的大小都可以customize。但是更细节的
design，流水线长度，bypass的通路，顺序/乱序执行的通路，多核cache的一致性协议
，这些都是不可能更改的。这些都是牵一发而动全身的技术细节，ARM公司不可能投入
人力物力帮助每个ip core licencee把关。
architecture license说的是什么？就是给你更改甚至重新设计这些技术细节的机会。
要这么玩，需要大量的熟悉micro arch... 阅读全帖

d***a
发帖数: 13752

来自主题: Apple版 - 高通说上周自己的vp是胡说，其实64位是方向

Conditional execution在低端处理器中并不难做。但在乱序执行的高性能处理器中，
要对每一条指令都做，硬件的复杂度会增加不少。ARMv8只有三种指令有这个feature，
实现起来就比ARMv7容易多了。

c****p
发帖数: 6474

来自主题: Apple版 - 高通说上周自己的vp是胡说，其实64位是方向

该做的还是得做。。因为即使是64位核也得向下兼容（因为至少第一和第二代64位CPU
不可能只跑v8的应用的），所以这个东西免不了。
乱序执行的CPU解决这个问题也不是很困难，就是比较浪费流水线的slot，但是并不用
像分支指令那样一旦预测错误就得清空流水线。

d***a
发帖数: 13752

来自主题: CS版 - 有谁需要GPU Programmer 的么

是这样。补充一下，相对于GPU而言，CPU的优点，一是运行sequential
program快（因为有乱序执行和多发）；二是有大的cache，如果程序的
working set能装入cache，CPU不需要到内存去拿数据，CPU的内存带宽
就不是问题。
以后CPU和GPU会共存。个人预测一下，集成式的GPU的性能会越来越高，
适合多数用户。高端GPU市场也会在，但处于中间的GPU，地位会越来越尴尬。

N****w
发帖数: 21578

来自主题: Hardware版 - zz 网上最全的CPU superpi成绩大全

可能 intel 的并发、乱序执行效率高？

a***e
发帖数: 27968

来自主题: Hardware版 - 推土机 preview，悲剧了。

整个设计理念就是降低单核性能省晶体管，增加核
所以单核几乎肯定比K10慢，跟SNB比更慢
这个应该和调度关系不大
全新的乱序执行和分支预测，这个多牛有待观察
intel的code base更大，似乎分支预测总是比amd的靠谱
另外那个decoder似乎必然成为瓶颈，一个decoder喂俩核
倒是fpu部件比较有创意
cache的问题，8M的尺寸，必然L2比512K的慢很多，比较器就那德行
其实光看延迟不差，但是带宽不行要么是所谓没优化，也有可能就是位宽不行俩核抢道
比较意外的是DDR3的性能，这个东西应该对程序透明了
K10支持ddr3么？
至于内部数据，其实看定价就知道了，这东西就是最好到i5-2500k的水准

正。

c*m
发帖数: 1599

来自主题: Hardware版 - 相比龙芯，申威的“芯”路历程为什么平坦很多？ (转载)

申威基于当年的alpha处理器，还行。
申威5效率和功耗都比NVidia Titan GPU强，还是CPU，已经不错了。
只是申威的单核性能确实不济（虽然性能每瓦不错），做个人使用的桌面电脑确实不行。
放君搞得几款处理器都还行，虽然借（tou）鉴（dao）了别人的设计，但是搞出来的
CPU不算差。例如郭芳科大搞得Sparc指令集CPU和ARMv8指令集CPU,都还可以。
郭芳科大最早是逆向山寨Intel的IA64体系处理器安腾，只是安腾CPU在市场上举步维艰
，这个逆向工程虽然成功了却不得不放弃（立项时迷信intel，没想到intel也有失误的
时候）。然后因为太阳微系统免费开放了Sparc的设计代码，于是郭芳科大就在Sun的设
计基础上改改，弄出了飞腾1500，用在天河2号巨星机的通信上。（Sparc的特点是通
信很牛但是浮点性能不足。）天河2的主要计算节点还是靠intel的CPU。因为Sparc指令
集市小，所以放君又瞄向了ARM指令集。郭芳科大ARMv8指令集，四发射乱序执行，拥有
多达64个核心，主频达到2GHZ的服务器CPU的理论浮点计算能力是512G DP Flops，采... 阅读全帖

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天