由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Hardware版 - 请问ECC内存是不是非常重要
相关主题
Xeon, ECC内存和i7的区别求推荐: 实验室要买一些计算机
都说内存出错,ECC重要,有人遇到过内存错吗?请教个问题
再问关于i7和xeon的cpu请教Xeon和i7 倒底差别在哪里?
dell什么时候开始卖便宜的16核?Dell Precision 690 CPU配置一问
求助内存问题[合集] Dell Precision 690 CPU配置一问
CFD计算该选择哪一个? i7, Xeon, AMD Opteron ....推荐用于科学计算的计算机?
高端内存(单根16或32G的)去哪里买啊?请问Xeon的处理器到底有什么不同?
v3出来的话, v2应该很快降价吧据说i3轻松上4.6G
相关话题的讨论汇总
话题: ecc话题: 内存话题: xeon话题: 出错话题: 错误
进入Hardware版参与讨论
1 (共1页)
p******e
发帖数: 528
1
我知道ECC内存原则上要比一般内存更稳定,而且错误要少。但是我想知道是不是
对于科学计算,我们必须得用ECC内存。换句话说,如果不用ECC内存,会不会说
计算出了错误,而我根本就没法察觉出来呢?
我之所以会有这个问题,是想知道非ECC内存究竟有多不稳定?或者说非ECC内存
会不会产生不可察觉的计算错误。比方说我在一个有ECC内存的服务器上进行计算。
然后把这个结果下载并显示在自己的笔记本上。由于我的笔记本没有ECC内存,
会不会导致在笔记本上的信息产生随机的错误呢?要是非ECC内存真的这么不稳定,
岂不是说我在这个技术的每个环节上都得用服务器才行了吗?
J*******i
发帖数: 2162
2
概率问题吧
比如一个计算持续了一个月才得到最终结果,那么产生错误的概率就比较高
你仅仅拷一下数据最多几个小时,出错的概率还是很低的
ECC的重要性就是把这一个月的计算的出错率大幅降低
a*****s
发帖数: 2663
3
折腾几个小时的东西,你可以轻松再花几个小时confirm一下。折腾几周数月才能出的
结果还是小心为妙。所以归根结底看你干嘛用。
d***a
发帖数: 13752
4
最近有过一个在Google data center做的研究,发现内存出错
的概率很高,平均每天每个内存条会出多个错误。后来也有意见
说可能没有那么高,但出错率高是肯定的。
除了内存之外,CPU也是重要环节。Xeon处理器比非Xeon处理器
出错率要低得多,所以比较重要的计算,应该放到服务器上去做。

【在 p******e 的大作中提到】
: 我知道ECC内存原则上要比一般内存更稳定,而且错误要少。但是我想知道是不是
: 对于科学计算,我们必须得用ECC内存。换句话说,如果不用ECC内存,会不会说
: 计算出了错误,而我根本就没法察觉出来呢?
: 我之所以会有这个问题,是想知道非ECC内存究竟有多不稳定?或者说非ECC内存
: 会不会产生不可察觉的计算错误。比方说我在一个有ECC内存的服务器上进行计算。
: 然后把这个结果下载并显示在自己的笔记本上。由于我的笔记本没有ECC内存,
: 会不会导致在笔记本上的信息产生随机的错误呢?要是非ECC内存真的这么不稳定,
: 岂不是说我在这个技术的每个环节上都得用服务器才行了吗?

t*****z
发帖数: 1598
5
Xeon出错率低是什么原因?Xeon和Core的本质上不是一样的芯片吗?

【在 d***a 的大作中提到】
: 最近有过一个在Google data center做的研究,发现内存出错
: 的概率很高,平均每天每个内存条会出多个错误。后来也有意见
: 说可能没有那么高,但出错率高是肯定的。
: 除了内存之外,CPU也是重要环节。Xeon处理器比非Xeon处理器
: 出错率要低得多,所以比较重要的计算,应该放到服务器上去做。

N**D
发帖数: 10322
6
质量好。
质量好的是xeon, 差点的是core
当然都是合格品

【在 t*****z 的大作中提到】
: Xeon出错率低是什么原因?Xeon和Core的本质上不是一样的芯片吗?
p******e
发帖数: 528
7
其实这是个有意思的问题。这些由于内存和cpu造成的错误是不是几乎不可觉察呢?
换句话说大部分情况下这些错误不会造成系统直接down掉。因为我自己一般在工作
中用的普通台式机也是24x7的开着,如果每天在内存或cpu中都会出现一些随机的
错误,那么我的台式机为什么不会经常自己down掉呢?
另外还有一点,我们用木桶理论,一个木桶能装的水是由最短的木棍所决定的,那么
会不会出现说最后出错的瓶颈不在内存而在其他地方呢?比方说一个银行为了系统
稳定而用服务器来存储数据,但是在具体的某个branch里的工作人员用的是普通
的pc(这个只是猜测。)结果服务器上正确的数据由于client上的错误而导致了
最后的显示是不正确的,那岂不是说在server端所做的努力都废掉了吗?

【在 d***a 的大作中提到】
: 最近有过一个在Google data center做的研究,发现内存出错
: 的概率很高,平均每天每个内存条会出多个错误。后来也有意见
: 说可能没有那么高,但出错率高是肯定的。
: 除了内存之外,CPU也是重要环节。Xeon处理器比非Xeon处理器
: 出错率要低得多,所以比较重要的计算,应该放到服务器上去做。

d***a
发帖数: 13752
8
Xeon内部的寄存器和高速缓存有ECC保护,非Xeon的处理器是没有的。还有一些别的检
错和纠错的功能。

【在 t*****z 的大作中提到】
: Xeon出错率低是什么原因?Xeon和Core的本质上不是一样的芯片吗?
d***a
发帖数: 13752
9
一次出错只有一个bit的错误。对绝大多数的计算应用来说,程序的代码小,数据量大
。比如说做矩阵运算,代码量可以小到1MB以下,数据量可以达到若干个GB。数据出错
(非指针)不会让程序crash。如果代码出错,出错的代码并不一定会被执行,或者执
行了也不一定就crash。
在非服务器级机器上,也是有软件方法,以损失性能的方式增加可靠性。最简单的办法
,是把所有的计算做两次(或三次)。实际上现在有些高性能计算的任务,在服务器上
都选择这样来做,进一步提高可靠性。
有很多玩家喜欢把desktop级的处理器拿来超频。在实际的高性能计算中,超频是从来
不用的,会大大增加出错的风险。

【在 p******e 的大作中提到】
: 其实这是个有意思的问题。这些由于内存和cpu造成的错误是不是几乎不可觉察呢?
: 换句话说大部分情况下这些错误不会造成系统直接down掉。因为我自己一般在工作
: 中用的普通台式机也是24x7的开着,如果每天在内存或cpu中都会出现一些随机的
: 错误,那么我的台式机为什么不会经常自己down掉呢?
: 另外还有一点,我们用木桶理论,一个木桶能装的水是由最短的木棍所决定的,那么
: 会不会出现说最后出错的瓶颈不在内存而在其他地方呢?比方说一个银行为了系统
: 稳定而用服务器来存储数据,但是在具体的某个branch里的工作人员用的是普通
: 的pc(这个只是猜测。)结果服务器上正确的数据由于client上的错误而导致了
: 最后的显示是不正确的,那岂不是说在server端所做的努力都废掉了吗?

a*o
发帖数: 19981
10
我等屌丝对偶尔出个错啥的不是很怕,但是对超频带来的快感那是相当的享受。

来不用的,会大大增加出错的风险。

【在 d***a 的大作中提到】
: 一次出错只有一个bit的错误。对绝大多数的计算应用来说,程序的代码小,数据量大
: 。比如说做矩阵运算,代码量可以小到1MB以下,数据量可以达到若干个GB。数据出错
: (非指针)不会让程序crash。如果代码出错,出错的代码并不一定会被执行,或者执
: 行了也不一定就crash。
: 在非服务器级机器上,也是有软件方法,以损失性能的方式增加可靠性。最简单的办法
: ,是把所有的计算做两次(或三次)。实际上现在有些高性能计算的任务,在服务器上
: 都选择这样来做,进一步提高可靠性。
: 有很多玩家喜欢把desktop级的处理器拿来超频。在实际的高性能计算中,超频是从来
: 不用的,会大大增加出错的风险。

相关主题
CFD计算该选择哪一个? i7, Xeon, AMD Opteron ....求推荐: 实验室要买一些计算机
高端内存(单根16或32G的)去哪里买啊?请教个问题
v3出来的话, v2应该很快降价吧请教Xeon和i7 倒底差别在哪里?
进入Hardware版参与讨论
d***a
发帖数: 13752
11
那是...超频确实是很有意思的事情。不少做硬件的人也喜欢做,虐待一下处理器。:)
对有些应用,超频是可以的。比如说搞搞video encoding,处理照片什么的,出几个
bit的错也不怕。

【在 a*o 的大作中提到】
: 我等屌丝对偶尔出个错啥的不是很怕,但是对超频带来的快感那是相当的享受。
:
: 来不用的,会大大增加出错的风险。

m*****n
发帖数: 3644
12
xeon也可以超。

【在 a*o 的大作中提到】
: 我等屌丝对偶尔出个错啥的不是很怕,但是对超频带来的快感那是相当的享受。
:
: 来不用的,会大大增加出错的风险。

l*****e
发帖数: 227
13
如果ECC和Non-ECC内存混用,ECC将失效。
请问如果Non-ECC内存和Xeon混用,Xeon的ECC等纠错功能还会有效吗?
另外registered,unbuffered这些区别很大吗?
想作电路模拟,TCAD simulation ECC内存是否很关键?
m*****n
发帖数: 3644
14
那我不超频,CPU换个强大点的散热器,内存也全贴上散热片,也可以大大减少出错的
风险了。这个成本比换Xeon低多了

【在 d***a 的大作中提到】
: 一次出错只有一个bit的错误。对绝大多数的计算应用来说,程序的代码小,数据量大
: 。比如说做矩阵运算,代码量可以小到1MB以下,数据量可以达到若干个GB。数据出错
: (非指针)不会让程序crash。如果代码出错,出错的代码并不一定会被执行,或者执
: 行了也不一定就crash。
: 在非服务器级机器上,也是有软件方法,以损失性能的方式增加可靠性。最简单的办法
: ,是把所有的计算做两次(或三次)。实际上现在有些高性能计算的任务,在服务器上
: 都选择这样来做,进一步提高可靠性。
: 有很多玩家喜欢把desktop级的处理器拿来超频。在实际的高性能计算中,超频是从来
: 不用的,会大大增加出错的风险。

d***a
发帖数: 13752
15
CPU的出错概率和温度有关,但低温下一样出错。
内存的出错概率和温度没有强关联,至少目前为止的研究没有证实。

【在 m*****n 的大作中提到】
: 那我不超频,CPU换个强大点的散热器,内存也全贴上散热片,也可以大大减少出错的
: 风险了。这个成本比换Xeon低多了

k*h
发帖数: 3668
16
呃,你这个想法太奇特了。
出错率是个概率,如果XEON的概率是10E(-20),core是10E(-10),然后每降10度,出错
率降一个量级,那core系芯片再怎么散热也赶不上XEON。再说了,core系cpu可以贴散
热片,XEON也可以呀。
当然这些数字都是我瞎说的,只是个大概idea而已。没有官方公布的错误率和温度的关
系(估计也很难测),很难量化差距。对计算精度有要求的,相当于就是花钱买个安心
,尽可能地降低错误率。

【在 m*****n 的大作中提到】
: 那我不超频,CPU换个强大点的散热器,内存也全贴上散热片,也可以大大减少出错的
: 风险了。这个成本比换Xeon低多了

a***e
发帖数: 27968
17
CPU出错概率不大,比内存小多了
内存的概率大多了,挡不住量大
Dram还不是双稳电路
也看你算法,搞蒙特卡罗错点
也就是outlier

【在 m*****n 的大作中提到】
: 那我不超频,CPU换个强大点的散热器,内存也全贴上散热片,也可以大大减少出错的
: 风险了。这个成本比换Xeon低多了

1 (共1页)
进入Hardware版参与讨论
相关主题
据说i3轻松上4.6G求助内存问题
workstation显卡和desktop 显卡CFD计算该选择哪一个? i7, Xeon, AMD Opteron ....
[扫盲贴]Core i系列自动超频能力鉴别表 (转载)高端内存(单根16或32G的)去哪里买啊?
请教大家,都是3.33GHz,12MB L3,Intel(R) Core(TM) i7-980Xv3出来的话, v2应该很快降价吧
Xeon, ECC内存和i7的区别求推荐: 实验室要买一些计算机
都说内存出错,ECC重要,有人遇到过内存错吗?请教个问题
再问关于i7和xeon的cpu请教Xeon和i7 倒底差别在哪里?
dell什么时候开始卖便宜的16核?Dell Precision 690 CPU配置一问
相关话题的讨论汇总
话题: ecc话题: 内存话题: xeon话题: 出错话题: 错误