N******2 发帖数: 436 | 1 刚读了Desktop Engineering上面介绍的Xeon, ECC内存和i7的区别,现学现卖。
Xeon可以接ECC内存,i7不行。
ECC内存的优势是多一个额外的bit,可以通过奇偶校验来矫正很多内存错误。现在的内
存芯片都是由很小的一个个电容上的电压来表示0或者1,这些电容一是会漏电,所以需
要动态刷新,二是有可能受外界的电磁干扰,或者背景宇宙辐射的影响而发生错误。
ECC能够矫正大概99.9998%的错误。Google发现平均每个内存条每年有3751个ECC可以纠
正的错误。
此外,Xeon比i7可以有更多的核,更高的可靠性,更好的数据完整性性能,更大的缓存
,更多的内存带宽,和很多专业软件都对Xeon进行了优化和提供专业认证。
对于银行,长达几天几个月的模型模拟公司来说,可靠,不出错是他们选择Xeon的原因
。这也是为什么工作站和服务器基本上都选用Xeon和ECC内存。
i7基本上就是普通用户用的。 |
m******n 发帖数: 1691 | 2 那i7的cpu运行时,内存出错会有什么危害?OS能不能纠正这些错误?
每年3751个错误,就是每天10个错误。为什么很多i7的服务器跑几个月也不出错呢?
【在 N******2 的大作中提到】 : 刚读了Desktop Engineering上面介绍的Xeon, ECC内存和i7的区别,现学现卖。 : Xeon可以接ECC内存,i7不行。 : ECC内存的优势是多一个额外的bit,可以通过奇偶校验来矫正很多内存错误。现在的内 : 存芯片都是由很小的一个个电容上的电压来表示0或者1,这些电容一是会漏电,所以需 : 要动态刷新,二是有可能受外界的电磁干扰,或者背景宇宙辐射的影响而发生错误。 : ECC能够矫正大概99.9998%的错误。Google发现平均每个内存条每年有3751个ECC可以纠 : 正的错误。 : 此外,Xeon比i7可以有更多的核,更高的可靠性,更好的数据完整性性能,更大的缓存 : ,更多的内存带宽,和很多专业软件都对Xeon进行了优化和提供专业认证。 : 对于银行,长达几天几个月的模型模拟公司来说,可靠,不出错是他们选择Xeon的原因
|
w*x 发帖数: 3456 | |
V**0 发帖数: 889 | 4 很多跑分析数据的,出错了你也不知道出错了,以为是结果
【在 m******n 的大作中提到】 : 那i7的cpu运行时,内存出错会有什么危害?OS能不能纠正这些错误? : 每年3751个错误,就是每天10个错误。为什么很多i7的服务器跑几个月也不出错呢?
|
N******2 发帖数: 436 | 5 设想一下,银行有几十万个储户的账号信息,银行的服务器在处理用户数据的时候,某
一个bit发生错误,你说会有什么样的危害?
或者一个公司在运行一个长达几个星期的模拟的时候,后面的结果依赖于前面的结果,
如果前面的结果有一个bit错误,那后面的结果就全错了。
OS没法纠正这些错误,因为电路根本就不知道自己错了。ECC内存可以通过额外的bit来
纠正大部分错误,当然很多类型的错误ECC也纠正不了,但那些错误要纠正成本太高。
所以很多银行的服务器,超级电脑都有冗余,就是两个电源,两个CPU一起运算,两个
结果比较,如果一致就接受结果,不一致就报错。
你说的那个i7服务器几个月不出错,一是可能内存出错的地方正好在OS没用到的内存地
址处,二是就算出错也不一定会系统崩溃。
但是对关键应用,为保证万无一失,都是用Xeon + ECC。 这个就跟山珍海味能填饱肚
子,清水煮地瓜叶能填饱肚子一样,看你能付多大的成本,接受多大的风险。
【在 m******n 的大作中提到】 : 那i7的cpu运行时,内存出错会有什么危害?OS能不能纠正这些错误? : 每年3751个错误,就是每天10个错误。为什么很多i7的服务器跑几个月也不出错呢?
|
a***e 发帖数: 27968 | 6 the data couldn't be right. DRAM need ECC 10x a day per stick?
we can blame blue screen on windows anymore.
【在 N******2 的大作中提到】 : 刚读了Desktop Engineering上面介绍的Xeon, ECC内存和i7的区别,现学现卖。 : Xeon可以接ECC内存,i7不行。 : ECC内存的优势是多一个额外的bit,可以通过奇偶校验来矫正很多内存错误。现在的内 : 存芯片都是由很小的一个个电容上的电压来表示0或者1,这些电容一是会漏电,所以需 : 要动态刷新,二是有可能受外界的电磁干扰,或者背景宇宙辐射的影响而发生错误。 : ECC能够矫正大概99.9998%的错误。Google发现平均每个内存条每年有3751个ECC可以纠 : 正的错误。 : 此外,Xeon比i7可以有更多的核,更高的可靠性,更好的数据完整性性能,更大的缓存 : ,更多的内存带宽,和很多专业软件都对Xeon进行了优化和提供专业认证。 : 对于银行,长达几天几个月的模型模拟公司来说,可靠,不出错是他们选择Xeon的原因
|
m******n 发帖数: 1691 | 7 我不认为普通内存有这么高的错误率,否则系统稳定性也太差了。
再说现在很多内存自检程序连续跑几个月也不出错。别告诉我说是因为两个内存单元
同时同一个bit出错所以比较时检查不出来啊。
设想一下,银行有几十万个储户的账号信息,银行的服务器在处理用户数据的时候,某
一个bit发生错误,你说会有什么样的危害?
或者一个公司在运行一个长达几个星期的模拟的时候,后面的结果依赖于前面的结果,
如果前面的结果有一个bit错误,那后面的结果就全错了。
OS没法纠正这些错误,因为电路根本就不知道自己错了。ECC内存可以通过额外的bit来
纠正大部分错误,当然很多类型的错误ECC也纠正不了,但那些错误要纠正成本太高。
所以很多银行的服务器,超级电脑都有冗余,就是两个电源,两个CPU一起运算,两个
结果比较,如果一致就接受结果,不一致就报错。
你说的那个i7服务器几个月不出错,一是可能内存出错的地方正好在OS没用到的内存地
址处,二是就算出错也不一定会系统崩溃。
但是对关键应用,为保证万无一失,都是用Xeon + ECC。 这个就跟山珍海味能填饱肚
子,清水煮地瓜叶能填饱肚子一样,看你能付多大的成本,接受多大的风险。
【在 N******2 的大作中提到】 : 设想一下,银行有几十万个储户的账号信息,银行的服务器在处理用户数据的时候,某 : 一个bit发生错误,你说会有什么样的危害? : 或者一个公司在运行一个长达几个星期的模拟的时候,后面的结果依赖于前面的结果, : 如果前面的结果有一个bit错误,那后面的结果就全错了。 : OS没法纠正这些错误,因为电路根本就不知道自己错了。ECC内存可以通过额外的bit来 : 纠正大部分错误,当然很多类型的错误ECC也纠正不了,但那些错误要纠正成本太高。 : 所以很多银行的服务器,超级电脑都有冗余,就是两个电源,两个CPU一起运算,两个 : 结果比较,如果一致就接受结果,不一致就报错。 : 你说的那个i7服务器几个月不出错,一是可能内存出错的地方正好在OS没用到的内存地 : 址处,二是就算出错也不一定会系统崩溃。
|
a***e 发帖数: 27968 | 8 actually memory test couldn't catch such error easily.
memory basically do all kind of read/write and run through all cell in mins
so the data refresh quite often, by CPU read/write.
those with data stay in RAM for hours is more like to see problem.
【在 m******n 的大作中提到】 : 我不认为普通内存有这么高的错误率,否则系统稳定性也太差了。 : 再说现在很多内存自检程序连续跑几个月也不出错。别告诉我说是因为两个内存单元 : 同时同一个bit出错所以比较时检查不出来啊。 : : 设想一下,银行有几十万个储户的账号信息,银行的服务器在处理用户数据的时候,某 : 一个bit发生错误,你说会有什么样的危害? : 或者一个公司在运行一个长达几个星期的模拟的时候,后面的结果依赖于前面的结果, : 如果前面的结果有一个bit错误,那后面的结果就全错了。 : OS没法纠正这些错误,因为电路根本就不知道自己错了。ECC内存可以通过额外的bit来 : 纠正大部分错误,当然很多类型的错误ECC也纠正不了,但那些错误要纠正成本太高。
|
d***a 发帖数: 13752 | 9 Google的人确实写了那样一篇文章。后来被指出,Google的人高估了出错率。但确确实
实,现在的内存出错的频率很高,是以天为单位来计算的。
没有硬件支持,操作系统并不能有效检测内存出错。有的时候引起进程崩溃,有
的时候悄无声息,但运行结果是错的,这种情况一般更糟糕。
前一阵子版上讨论N40L/N54L的NAS。和为家用设计的NAS相比,N40L/N54L的
一大好处就是用ECC内存,内存出错概率极低。
【在 m******n 的大作中提到】 : 那i7的cpu运行时,内存出错会有什么危害?OS能不能纠正这些错误? : 每年3751个错误,就是每天10个错误。为什么很多i7的服务器跑几个月也不出错呢?
|
m******n 发帖数: 1691 | 10 内存出错并不简单就是内存的结果不对。文件也会被破坏。
我曾经买到过一根内存,有一个bit就老出错。很多文件都被破坏了,因为文件的读写
都是要经过内存的。视频文件还好,一个bit出错就只是影响几帧而已。很多压缩文件
就惨了,一个bit出错整个包就坏了。后来换了内存做文件比较才发现经常是200G的文
件有一个bit不对。
所以我认为,内存出错的表现是很明显的。读写大量文件必然会有文件被破坏,假设内
存单元出错的概率是uniform的分布。
【在 d***a 的大作中提到】 : Google的人确实写了那样一篇文章。后来被指出,Google的人高估了出错率。但确确实 : 实,现在的内存出错的频率很高,是以天为单位来计算的。 : 没有硬件支持,操作系统并不能有效检测内存出错。有的时候引起进程崩溃,有 : 的时候悄无声息,但运行结果是错的,这种情况一般更糟糕。 : 前一阵子版上讨论N40L/N54L的NAS。和为家用设计的NAS相比,N40L/N54L的 : 一大好处就是用ECC内存,内存出错概率极低。
|
|
|
d***a 发帖数: 13752 | 11 有故障或质量问题的内存,出错率那就高得多了。
现在的问题是,质量完全符合工业标准的内存,出错率也高到了不能忽略的地步。
【在 m******n 的大作中提到】 : 内存出错并不简单就是内存的结果不对。文件也会被破坏。 : 我曾经买到过一根内存,有一个bit就老出错。很多文件都被破坏了,因为文件的读写 : 都是要经过内存的。视频文件还好,一个bit出错就只是影响几帧而已。很多压缩文件 : 就惨了,一个bit出错整个包就坏了。后来换了内存做文件比较才发现经常是200G的文 : 件有一个bit不对。 : 所以我认为,内存出错的表现是很明显的。读写大量文件必然会有文件被破坏,假设内 : 存单元出错的概率是uniform的分布。
|
N******2 发帖数: 436 | 12 可能google的估计是高了。我读过的另外一篇文章说普通台式机平均4个小时会经历一
次内存错误,当然计算机也不一定就崩溃。
还有一个原因是现在内存容量和密度越来越高,每个内存单元的电容占的体积越来越小
,受外界电磁干扰和宇宙射线的背景辐射影响而出错的可能性也就变大。
【在 d***a 的大作中提到】 : 有故障或质量问题的内存,出错率那就高得多了。 : 现在的问题是,质量完全符合工业标准的内存,出错率也高到了不能忽略的地步。
|
t******i 发帖数: 2688 | 13 second on this.
【在 m******n 的大作中提到】 : 我不认为普通内存有这么高的错误率,否则系统稳定性也太差了。 : 再说现在很多内存自检程序连续跑几个月也不出错。别告诉我说是因为两个内存单元 : 同时同一个bit出错所以比较时检查不出来啊。 : : 设想一下,银行有几十万个储户的账号信息,银行的服务器在处理用户数据的时候,某 : 一个bit发生错误,你说会有什么样的危害? : 或者一个公司在运行一个长达几个星期的模拟的时候,后面的结果依赖于前面的结果, : 如果前面的结果有一个bit错误,那后面的结果就全错了。 : OS没法纠正这些错误,因为电路根本就不知道自己错了。ECC内存可以通过额外的bit来 : 纠正大部分错误,当然很多类型的错误ECC也纠正不了,但那些错误要纠正成本太高。
|
d***a 发帖数: 13752 | 14 是的,这个数字比Google的更靠谱。
【在 N******2 的大作中提到】 : 可能google的估计是高了。我读过的另外一篇文章说普通台式机平均4个小时会经历一 : 次内存错误,当然计算机也不一定就崩溃。 : 还有一个原因是现在内存容量和密度越来越高,每个内存单元的电容占的体积越来越小 : ,受外界电磁干扰和宇宙射线的背景辐射影响而出错的可能性也就变大。
|
t**t 发帖数: 27760 | 15 主要是出错了,也不知道。
【在 m******n 的大作中提到】 : 那i7的cpu运行时,内存出错会有什么危害?OS能不能纠正这些错误? : 每年3751个错误,就是每天10个错误。为什么很多i7的服务器跑几个月也不出错呢?
|
a***e 发帖数: 27968 | 16 most of time is gabage data anyway.
【在 t**t 的大作中提到】 : 主要是出错了,也不知道。
|
y**c 发帖数: 6307 | 17 宇宙线影响也很明显,据说超级计算机节点太多,基本上就是总出错,这是一个非常关
键的问题。 |
y******o 发帖数: 921 | |
a**u 发帖数: 492 | 19 单路的Xeon并不比i7有更多的核吧
双路多路的...本来也没有i7啥事了
另外Intel很多比i7便宜的CPU
比如i3/Pentium/Celeron倒都是支持ECC
所以看起来是各个价位上的CPU都有ECC可选
价差主要是由主板和内存来体现
【在 N******2 的大作中提到】 : 刚读了Desktop Engineering上面介绍的Xeon, ECC内存和i7的区别,现学现卖。 : Xeon可以接ECC内存,i7不行。 : ECC内存的优势是多一个额外的bit,可以通过奇偶校验来矫正很多内存错误。现在的内 : 存芯片都是由很小的一个个电容上的电压来表示0或者1,这些电容一是会漏电,所以需 : 要动态刷新,二是有可能受外界的电磁干扰,或者背景宇宙辐射的影响而发生错误。 : ECC能够矫正大概99.9998%的错误。Google发现平均每个内存条每年有3751个ECC可以纠 : 正的错误。 : 此外,Xeon比i7可以有更多的核,更高的可靠性,更好的数据完整性性能,更大的缓存 : ,更多的内存带宽,和很多专业软件都对Xeon进行了优化和提供专业认证。 : 对于银行,长达几天几个月的模型模拟公司来说,可靠,不出错是他们选择Xeon的原因
|
t**t 发帖数: 27760 | 20 E3-1230 V2
性价比之王
【在 a**u 的大作中提到】 : 单路的Xeon并不比i7有更多的核吧 : 双路多路的...本来也没有i7啥事了 : 另外Intel很多比i7便宜的CPU : 比如i3/Pentium/Celeron倒都是支持ECC : 所以看起来是各个价位上的CPU都有ECC可选 : 价差主要是由主板和内存来体现
|
|
|
n*******0 发帖数: 2002 | 21 内存出错,就会蓝屏,五国语言啥的。然后微软苹果背黑锅。
【在 m******n 的大作中提到】 : 那i7的cpu运行时,内存出错会有什么危害?OS能不能纠正这些错误? : 每年3751个错误,就是每天10个错误。为什么很多i7的服务器跑几个月也不出错呢?
|
d********l 发帖数: 741 | 22 我用普通内存加超频到4.5g的 i5-3570k,也很稳定。从不关机,长时间运行数值计算
程序。
【在 y******o 的大作中提到】 : 我现在用的是Xeon+ECC : 很稳定
|
n******7 发帖数: 12463 | 23 是啊
我现在机器是xeon+16G ECC
当时买机器的时候很想说给我i7+32G 普通内存吧
但是组里别人都是用的这个,我作为新人也没好意思说
【在 d********l 的大作中提到】 : 我用普通内存加超频到4.5g的 i5-3570k,也很稳定。从不关机,长时间运行数值计算 : 程序。
|
a***e 发帖数: 27968 | 24 你这个数值计算怎么确定结果正确的?
3570k超频是改倍频,对内存又没什么特别要求
【在 d********l 的大作中提到】 : 我用普通内存加超频到4.5g的 i5-3570k,也很稳定。从不关机,长时间运行数值计算 : 程序。
|
d***a 发帖数: 13752 | 25 这样用,建议所有计算做两次,校验计算结果。
不过,也有些应用不要求结果的绝对正确性。
【在 d********l 的大作中提到】 : 我用普通内存加超频到4.5g的 i5-3570k,也很稳定。从不关机,长时间运行数值计算 : 程序。
|
r******n 发帖数: 4522 | 26 除了ECC以外,Xeon在同等散热条件下温度比i7低,适合7X24跑,装rack server里可以
用low profile heatsink. |
N******2 发帖数: 436 | 27 他这个没法确定结果是对还是错的。
不过,很多时候,内存出错的地方正好是操作系统没用到的空闲地方,或者操作系统或
软件有纠错机制,可以判断和修正一些错误,还有就是操作系统或者软件对些微的错误
不敏感。还有很多算法都是收敛的,偶尔出错,最后还是慢慢收敛到正确结果上来了。
但是对于银行,机场等关键应用,一个是不要出错,还有内存出错导致死机的话,代价
太大了;超级计算机的机时费那么贵,用户也不愿意出错,所以对比较critical的应用
,或者长时间的数值模拟,还是用Xeon + ECC。反正还是那句话,清水煮地瓜能填饱肚
子,山珍海味也能填饱肚子。各有各的需求。
【在 a***e 的大作中提到】 : 你这个数值计算怎么确定结果正确的? : 3570k超频是改倍频,对内存又没什么特别要求
|
x*********s 发帖数: 5554 | 28 其实最后的那个比喻应该改了,早些年,普通pc是清水地瓜,然在已经晋升为普通家常
菜了。
在普通pc可靠性大幅增加的情况下,除了如你所说的机场、银行,大型超算什么的需要
“极高”可靠性的应用,研究组自建小型cluster时,选择普通内存都差不多够了。
我们04年48台p4-3.0G组建的机群也好好的24x7的用了3年半,最后大批主板的电容爆浆
,才更换的。。。
【在 N******2 的大作中提到】 : 他这个没法确定结果是对还是错的。 : 不过,很多时候,内存出错的地方正好是操作系统没用到的空闲地方,或者操作系统或 : 软件有纠错机制,可以判断和修正一些错误,还有就是操作系统或者软件对些微的错误 : 不敏感。还有很多算法都是收敛的,偶尔出错,最后还是慢慢收敛到正确结果上来了。 : 但是对于银行,机场等关键应用,一个是不要出错,还有内存出错导致死机的话,代价 : 太大了;超级计算机的机时费那么贵,用户也不愿意出错,所以对比较critical的应用 : ,或者长时间的数值模拟,还是用Xeon + ECC。反正还是那句话,清水煮地瓜能填饱肚 : 子,山珍海味也能填饱肚子。各有各的需求。
|
t**t 发帖数: 27760 | 29 这个应该是少了个核显的事
【在 r******n 的大作中提到】 : 除了ECC以外,Xeon在同等散热条件下温度比i7低,适合7X24跑,装rack server里可以 : 用low profile heatsink.
|
t******i 发帖数: 2688 | 30 其实就是intel的各种阉割手法而已。i7是完整的,xeon阉割了核心显卡,i5阉割了ht |
|
|
a***e 发帖数: 27968 | 31 1235带iGPU的
ht
【在 t******i 的大作中提到】 : 其实就是intel的各种阉割手法而已。i7是完整的,xeon阉割了核心显卡,i5阉割了ht
|
t**t 发帖数: 27760 | 32 E5 Xeon比I7强许多
ht
【在 t******i 的大作中提到】 : 其实就是intel的各种阉割手法而已。i7是完整的,xeon阉割了核心显卡,i5阉割了ht
|
l******n 发帖数: 1683 | 33 同代同频普通场合下性能应该E5 Xeon是搞不过I7的. 不过E5可以堆CPU, 而且大的
cache在多事务处理中还是比较有用的.
【在 t**t 的大作中提到】 : E5 Xeon比I7强许多 : : ht
|
t**t 发帖数: 27760 | 34 E5有8核,I7只要6核
【在 l******n 的大作中提到】 : 同代同频普通场合下性能应该E5 Xeon是搞不过I7的. 不过E5可以堆CPU, 而且大的 : cache在多事务处理中还是比较有用的.
|
m******n 发帖数: 1691 | 35 i7只要6核是什么意思? 太多核了它不要?
【在 t**t 的大作中提到】 : E5有8核,I7只要6核
|
t**t 发帖数: 27760 | 36 不好意思
只有6核
i7只要6核是什么意思? 太多核了它不要?
【在 m******n 的大作中提到】 : i7只要6核是什么意思? 太多核了它不要?
|
s*****e 发帖数: 16824 | 37 显卡这个不能叫阉割吧,我从来都讨厌cpu自带显卡的,没用,反正总是要用外接显卡
的。
ht
【在 t******i 的大作中提到】 : 其实就是intel的各种阉割手法而已。i7是完整的,xeon阉割了核心显卡,i5阉割了ht
|
n*******0 发帖数: 2002 | 38 xeon的代号和i7的都不一样,qpi数量,core数量和缓存数量都是会不一样的。xeon可
以有8核16线程 这种东西。
i7 extreme才6核12线程。
不懂别乱喷
ht
【在 t******i 的大作中提到】 : 其实就是intel的各种阉割手法而已。i7是完整的,xeon阉割了核心显卡,i5阉割了ht
|
a**u 发帖数: 492 | 39 现在单路的E5也只到6核吧
双/多路的E5 8核可比6核的贵了不止一点点...
【在 t**t 的大作中提到】 : E5有8核,I7只要6核
|
t**t 发帖数: 27760 | 40 不就是说明Xeon不是I7的阉割品
【在 a**u 的大作中提到】 : 现在单路的E5也只到6核吧 : 双/多路的E5 8核可比6核的贵了不止一点点...
|
|
|
c****p 发帖数: 6474 | 41 现在的DDR每秒刷新数据(全部数据)若干次。
数据出错概率和数据呆在内存中的时间长短无关。
mins
【在 a***e 的大作中提到】 : actually memory test couldn't catch such error easily. : memory basically do all kind of read/write and run through all cell in mins : so the data refresh quite often, by CPU read/write. : those with data stay in RAM for hours is more like to see problem.
|
c****p 发帖数: 6474 | 42 关键应用应该也有针对内存出错的冗余机制吧。
【在 N******2 的大作中提到】 : 他这个没法确定结果是对还是错的。 : 不过,很多时候,内存出错的地方正好是操作系统没用到的空闲地方,或者操作系统或 : 软件有纠错机制,可以判断和修正一些错误,还有就是操作系统或者软件对些微的错误 : 不敏感。还有很多算法都是收敛的,偶尔出错,最后还是慢慢收敛到正确结果上来了。 : 但是对于银行,机场等关键应用,一个是不要出错,还有内存出错导致死机的话,代价 : 太大了;超级计算机的机时费那么贵,用户也不愿意出错,所以对比较critical的应用 : ,或者长时间的数值模拟,还是用Xeon + ECC。反正还是那句话,清水煮地瓜能填饱肚 : 子,山珍海味也能填饱肚子。各有各的需求。
|
d***a 发帖数: 13752 | 43 这个说法是不对的。DRAM刷新时并不做检错和纠错,错误的数据
读出来,还是照错的样子写回去。
【在 c****p 的大作中提到】 : 现在的DDR每秒刷新数据(全部数据)若干次。 : 数据出错概率和数据呆在内存中的时间长短无关。 : : mins
|
a***e 发帖数: 27968 | 44 CPU检测内存,是从寄存器里读,往内存写,再读回来
寄存器没记错的话是纠错编码的,一般情况这个数据
只要不是DRAM漏电是检测不到任何问题的
这种情况出现软错误的概率极低
基本上就是cpu读写这么个小时间段里正好有比如射线的干扰
而且这个干扰还正好落在正在读写的区域才有可能
一把就成了二阶的小量了
你如果是整个内存大面积写满,然后等,让错误积累
再读,才会出问题
【在 c****p 的大作中提到】 : 现在的DDR每秒刷新数据(全部数据)若干次。 : 数据出错概率和数据呆在内存中的时间长短无关。 : : mins
|
m******n 发帖数: 1691 | 45 你说的这个错误积累程序上一点不难实现,内存自检程序也就是这么做的。
【在 a***e 的大作中提到】 : CPU检测内存,是从寄存器里读,往内存写,再读回来 : 寄存器没记错的话是纠错编码的,一般情况这个数据 : 只要不是DRAM漏电是检测不到任何问题的 : 这种情况出现软错误的概率极低 : 基本上就是cpu读写这么个小时间段里正好有比如射线的干扰 : 而且这个干扰还正好落在正在读写的区域才有可能 : 一把就成了二阶的小量了 : 你如果是整个内存大面积写满,然后等,让错误积累 : 再读,才会出问题
|
a***e 发帖数: 27968 | 46 of course it is simple as long as you willing to
wait for a day or two to accumulate the errors.
for typical test the sweep the 4GB within mins,
you never see this kind of ECC soft error.
【在 m******n 的大作中提到】 : 你说的这个错误积累程序上一点不难实现,内存自检程序也就是这么做的。
|
c****p 发帖数: 6474 | 47 我说的意思是数据不会因为诸如内存漏电之类的原因而出错。
换句话说,我说的数据单位时间内出错的概率不受数据呆在内存中的时间影响
你说的是数据呆得时间越长,出错概率越大。
两者并不矛盾。
【在 d***a 的大作中提到】 : 这个说法是不对的。DRAM刷新时并不做检错和纠错,错误的数据 : 读出来,还是照错的样子写回去。
|
c****p 发帖数: 6474 | 48 咱俩说的不是一个问题。
另外Cache带ECC比较常见。民用CPU的Register带ECC的比较少见(如果不是没有的话)
吧。
【在 a***e 的大作中提到】 : CPU检测内存,是从寄存器里读,往内存写,再读回来 : 寄存器没记错的话是纠错编码的,一般情况这个数据 : 只要不是DRAM漏电是检测不到任何问题的 : 这种情况出现软错误的概率极低 : 基本上就是cpu读写这么个小时间段里正好有比如射线的干扰 : 而且这个干扰还正好落在正在读写的区域才有可能 : 一把就成了二阶的小量了 : 你如果是整个内存大面积写满,然后等,让错误积累 : 再读,才会出问题
|
d***a 发帖数: 13752 | 49 内存soft error的主要来源不是漏电,是高能粒子撞击
这是为什么数据呆在内存的时间越长,出错概率越大
这是教科书内容
【在 c****p 的大作中提到】 : 我说的意思是数据不会因为诸如内存漏电之类的原因而出错。 : 换句话说,我说的数据单位时间内出错的概率不受数据呆在内存中的时间影响 : 你说的是数据呆得时间越长,出错概率越大。 : 两者并不矛盾。
|
c****p 发帖数: 6474 | 50 还是和我说的不矛盾哦。。。。
【在 d***a 的大作中提到】 : 内存soft error的主要来源不是漏电,是高能粒子撞击 : 这是为什么数据呆在内存的时间越长,出错概率越大 : 这是教科书内容
|
|
|
d***a 发帖数: 13752 | 51 和你说的,不是不矛盾,是不相干 :)
数据在内存呆的时间越长,出soft error的概率越大
这和刷新没有关系
【在 c****p 的大作中提到】 : 还是和我说的不矛盾哦。。。。
|
c***r 发帖数: 4631 | 52 ECC memory啊!
这么烂的坑我都跳……
【在 c****p 的大作中提到】 : 关键应用应该也有针对内存出错的冗余机制吧。
|