w***a 发帖数: 313 | 1 http://www.networkworld.com/news/2010/111010-red-hat-releases-rhel.html
The highlights...
"Overall, RHEL 6 has more than 2,000 packages, and an 85 percent
increase in the amount of code from the previous version, said Jim
Totton, vice president of Red Hat's platform business unit. The company
has added 1,800 features to the OS and resolved more than 14,000 bug
issues.
"The company focused its development efforts on improving the Linux
kernel, contributing more than 3,500 changes to the Linux ker... 阅读全帖 |
|
l****1 发帖数: 215 | 2 感谢.我的config里是没开,看来要自己重新build kernel了.
not |
|
l*****o 发帖数: 473 | 3 lz的机器好cool,是NUMA的吗? 什么时候可以借来Try一下程序吗,我们老板不给买这
么好的机器。 |
|
s********k 发帖数: 6180 | 4 来自主题: Programming版 - 大坑看晕了 NUMA下呢? |
|
s********k 发帖数: 6180 | 5 来自主题: Programming版 - 大坑看晕了 NUMA的思想应该就是共享能少就少,毕竟保持所有core的SMP很大overhead吧。大部分
这样的情况scheduler是在local core上先做,然后再不行的话switch到其他core? |
|
x****u 发帖数: 44466 | 6 来自主题: Programming版 - 大坑看晕了 前面不知道回了那个小孩一次,后来他删贴了我也删了。举例NUMA还不如说CPU内置
cache。 |
|
T********i 发帖数: 2416 | 7 反正无论我说什么总有人可以不信。空口无凭。
网上仓促间找了一个很古老的benchmark。
http://www.moderntech.com.hk/sites/default/files/whitepaper/Ari
这个benchmark测的是Solarflare SFN4112F。我敢肯定用的是Intel Westmere或者以前
的架构。这个benchmark至少3年新。
用这个配置,用kernel bypass的driver基本上可以发3.5 million UDP/s。但是到了2
million以上收方开始丢包。
其实Intel这些年不显山不露水,Sandy Bridge的I/O能力比前一代提高了一倍都不只。
而Solarflare也已经升级到了7112F。我们现在用的还是6112F。看来又要升级了。
Sandy Bridge以前,Intel的I/O控制器在芯片组里面。直到Sandy Bridge,才集成到
CPU封装里面。这样每个CPU带一个IOH。每个IOH可以带自己的PCI总线。在之前IOH是芯
片组共享的,只有一个。
这种硬件,已经把PCI性能发挥到了极限。因此一台... 阅读全帖 |
|
w***g 发帖数: 5958 | 8 这课P用没有。主要是讲超级计算机CPU(NUMA)之间的data routing和cache protocol。
跟hadoop上那一套一点关系都没有。如果非要说有用,GPU里有一点点HPCA的影子。 |
|
T********i 发帖数: 2416 | 9
一般的allocator都复杂多了,而且不能保证determinism。我的简单但是速度快。
看来allocator如何工作的,我还没解释清楚:
假定我们规定内存分配最小16 bytes,最大4G。我的free list是一个32个指针的数组
。初始化都是NULL。
假定我们分配1000 bytes。我先round up to最近的2的n次方,1024bytes。是2的10次
方。free_list[10]是NULL。则从更底层分配1024 + 16 = 1040bytes。前面16 bytes是
meta data包含size and double linked list指针。返回此块的第16 bytes的指针就好
了。
free,就把指针减16,取得meta data。知道是一个1024 bytes块。就把这个块放到
free_list[10]的link list里面好了。
下次再分配1024 bytes,如果free_list[10]里面有,直接取出。
这样,内存浪费多一些。但是每次操作优势纳秒级别。
不知道有没有,反正我自己有。C++的template,顺便把initiali... 阅读全帖 |
|
a***n 发帖数: 538 | 10 哦不知道,我一般都设成一样的了。另外超过一个物理cpu的话,好像还可以打开numa。 |
|
t**********1 发帖数: 550 | 11 L1 L2 L3 cache, prefetch。
你自己算算DDR3的带宽。
话说这种应用,多核就是linear scalability。假定都在同一个numa node上。
1 |
|
t**********1 发帖数: 550 | 12 你漏了一句,假定都在同一个numa node上。
你给我一个证明,说这个不是linear scalability就好了。比如什么地方有non-linear
scale的latency不就行了?
qxc貌似是想正经讨论,你来秀下限么? |
|
j******a 发帖数: 100 | 13 来自主题: Programming版 - 代码开源了 用家里台式机跑的,
Intel(R) Core(TM) i5-4670K CPU @ 3.40GHz
100 million...
start benchmark
Total time = 11.105101
我觉得最后会要牛刀杀鸡了
魏老师的强项应该还是在系统这边,现在出的版本不能scale,只能跑单线程,
还是想看看怎么handle I/O,numa,barrier, race condition, OS/BIOS 这边怎么
tuning
pereietence也好容错也好,不是问题,大家可以找NVMe最近出来的performance数据,
还嫌不快不够酷,现在有NVDIMM,下一代intel apache pass出来,NVDIMM都是CPU标配了 |
|
j******a 发帖数: 100 | 14 来自主题: Programming版 - 代码开源了 用家里台式机跑的,
Intel(R) Core(TM) i5-4670K CPU @ 3.40GHz
100 million...
start benchmark
Total time = 11.105101
我觉得最后会要牛刀杀鸡了
魏老师的强项应该还是在系统这边,现在出的版本不能scale,只能跑单线程,
还是想看看怎么handle I/O,numa,barrier, race condition, OS/BIOS 这边怎么
tuning
pereietence也好容错也好,不是问题,大家可以找NVMe最近出来的performance数据,
还嫌不快不够酷,现在有NVDIMM,下一代intel apache pass出来,NVDIMM都是CPU标配了 |
|
T********i 发帖数: 2416 | 15 赞。我以前一直都用OpenIOnLoad。比latency DPDK没戏。throughput DPDK一点不差。
Hugepage和numa之类的优化我也玩了很多年了。
老兄貌似是搞这个方向的,有兴趣一起折腾么?
packets |
|
T********i 发帖数: 2416 | 16 抢票核任何时候都是100%。
我建议你numactrl确保mem都用同一个numa node看看。
172. |
|
T********i 发帖数: 2416 | 17 你这个配置不对。
我的进程需要至少2个core.
请确保两个core和网卡都在同一个cpu socket上。然后控制numa内存分配也在那个
socket上才是最优的。
172. |
|
T********i 发帖数: 2416 | 18 turbo的影响比numa小多了。
这个cache miss很严重的。
你的xeon cache比我的大多了。搞好了应该能超10M/s。 |
|
T********i 发帖数: 2416 | 19 你用numactl把CPU 和memory都限制在同一个numa node上面了? |
|
T********i 发帖数: 2416 | 20 Nehalem架构勉强支持10G。现在的架构,Sandy Bridge以后基本没大改动,单Numa
Node支持40G估计没问题。
这个100G支持起来我估计有点费力。估计要超大包超高throughout的应用。俺40G都没
用过,只是猜测。 |
|
T********i 发帖数: 2416 | 21 Depends on application. If I need a C10M application, only thing that
matters is the consistent throughput. Let's say if I will be satisfied with
10G per NUMA node, I can't see how FPGA is going to help me. Most
importantly, I even doubt if any FPGA is designed for that kind of problem
at all?
optimization |
|
s******u 发帖数: 501 | 22 OpenMP不如MPI确实是很奇怪,而且测试的程序是基本完全数据独立,不需要共享和加
锁的那种理想算法,横竖应该跟MPI差不多,但是实际上效率只有MPI的一半到三分之二
左右。从Intel和AMD的CPU,到knights corner, knights landing都是这样子。要说是
memory access的问题,但是multisock的CPU都是NUMA,而MIC还是UMA,按说更好才是
。最后不光是我们自己,去那些HPC的workshop,大家都是一样的说法。结果就是平常
那种常见的32核心的机器,通常都是跑4MPIx8OpenMP或者8MPIx4OpenMP |
|
T********i 发帖数: 2416 | 23 根据我对有限文档的理解,根本不是你说的那回事。
这货有一个primary process。就是busy polling。实现一个bsd的socket栈。
你的程序是另外一个process。要link它那个socket库。Api都改名了。你这个process
的socket操作要通过primary。通信是shared memory。
貌似他们保留了huge page内存。给dpdk和他们自己的框架使用。我一般用huge page保
留我自己的numa memory pool。被他们用了,我自己就用不着了。
: 上次搞DPDK还是几年前,恍若隔世啊。 我记得上次看的时候唯一能用的user-
space
: stack是seastar。 据说f-stack性能不如seastar,但是在公网环境下稳定性更
好。
: 差别应该在于seastar是custom stack,f-stack用的是freebsd的stack。
: 刚刚看了一眼,DPDK自己的TCP/IP stack好像也起来了。
: 这货应该没啥threading model。就是一个core... 阅读全帖 |
|
w***g 发帖数: 5958 | 24 其实是一个NUMA架构vector processor。
这其实是“计算”机的经典架构,早就有了。
之所以之前这种架构没火起来,是因为人类前几十年
对电脑的应用,比如办公和上网,其实都是“处理”
而不是“计算”。现在只不过是风水轮流转了。
Intel之所以能在挤这么多年牙膏,就是因为
“处理”这方面的快的需求其实已经到顶了。
(从“省”的角度看Intel其实一直在进步。)
老黄的兴起,其时代背景是“计算”需求将要被
大众化了。CS能发明的原理其实都已经被发明了,
只是短板轮流转而已。所以完全有可能能从
故纸堆里挖掘出牛逼东西来。
资本主义其实效率很高的。一方面就体现在一个
市场,如果只是同质性技术竞争,龙头企业
往往几十年都不会倒,直到颠覆性技术
出现。比如INTC, MSFT。反例是柯达和雅虎。
我自己觉得NVDA就是这样的龙头企业。
买股票另说。我长期持有的是AMD。 |
|
T*******x 发帖数: 8565 | 25 处理和计算,确实是两大模式。
:其实是一个NUMA架构vector processor。
:这其实是“计算”机的经典架构,早就有了。 |
|
发帖数: 1 | 26 軟件設計太重要了,今天測試golang algernon http server靜態文件性能,比nginx差
了幾十倍以上。在我們硬件CPU領域,別說差幾倍,性能提升5%都叫大改進,可以更新
一代架構了。
這使我對golang寫的多核應用程序性能產生懷疑:一個http server在48核處理器上居
然搞出124個threads,而且沒有pin to core,不識別numa,簡單靜態文件性能還沒有
nginx的零頭多,75% CPU都是idle,有失golang的水準。
這讓我想到了EE工程師的悲哀:世界上硬件CPU公司屈指可數,最牛的CPU公司性能比最
差的快也不到一倍。而不合格的軟件工程師寫的爛程序糟蹋多核CPU,性能可能下降上
百倍,而且還有安全漏洞。所以軟件公司願意多花幾倍的包裹雇用優秀軟件工程師還是
省錢的。大多數互聯網公司對硬件的要求是穩定就好,不關心性能。而他們自己的軟件
開發部門不停的refactoring,翻修輪子製造工作崗位,才能保證軟件質量和性能。這
樣對於優秀的硬件工程師,跳槽也就一兩家公司競爭offer,而同樣優秀的軟件工程師
會有十幾家或更多公司競爭,包裹... 阅读全帖 |
|
s********k 发帖数: 6180 | 27 同学,这些语言的目的就是让人不需要了解硬件底层都可以写,要不又懂CPU,又懂多
核,NUMA架构,还懂服务器设计的人才实在太少,怎么满足的了人民群众日益增长的需
求啊 |
|
|
|
s********k 发帖数: 6180 | 30 如果本来就是在VM上面再加pod上运行container,这个NUMA的作用还会很大吗?因为没
法控制底层的OS,golang也很难做好scheduler把?
miss |
|
发帖数: 1 | 31 所以我前面提到的golang性能的第二個問題不是algernon獨有,也是golang區別於c的
最大特點:goroutine。目前golang最多能有一千萬併發goroutines,換成內存也就是
幾十GB,對於AWS上的只有幾十GB的VM小系統估計夠用了,但是對於多路1TB共享內存大
系統,golang目前沒有NUMA調度架構顯然不行。
測試golang http,其實變成了測試Linux sys_futex(),唉。。。 |
|
发帖数: 1 | 32 軟件設計太重要了,今天測試golang algernon http server靜態文件性能,比nginx差
了幾十倍以上。在我們硬件CPU領域,別說差幾倍,性能提升5%都叫大改進,可以更新
一代架構了。
這使我對golang寫的多核應用程序性能產生懷疑:一個http server在48核處理器上居
然搞出124個threads,而且沒有pin to core,不識別numa,簡單靜態文件性能還沒有
nginx的零頭多,75% CPU都是idle,有失golang的水準。
這讓我想到了EE工程師的悲哀:世界上硬件CPU公司屈指可數,最牛的CPU公司性能比最
差的快也不到一倍。而不合格的軟件工程師寫的爛程序糟蹋多核CPU,性能可能下降上
百倍,而且還有安全漏洞。所以軟件公司願意多花幾倍的包裹雇用優秀軟件工程師還是
省錢的。大多數互聯網公司對硬件的要求是穩定就好,不關心性能。而他們自己的軟件
開發部門不停的refactoring,翻修輪子製造工作崗位,才能保證軟件質量和性能。這
樣對於優秀的硬件工程師,跳槽也就一兩家公司競爭offer,而同樣優秀的軟件工程師
會有十幾家或更多公司競爭,包裹... 阅读全帖 |
|
s********k 发帖数: 6180 | 33 同学,这些语言的目的就是让人不需要了解硬件底层都可以写,要不又懂CPU,又懂多
核,NUMA架构,还懂服务器设计的人才实在太少,怎么满足的了人民群众日益增长的需
求啊 |
|
|
|
s********k 发帖数: 6180 | 36 如果本来就是在VM上面再加pod上运行container,这个NUMA的作用还会很大吗?因为没
法控制底层的OS,golang也很难做好scheduler把?
miss |
|
发帖数: 1 | 37 所以我前面提到的golang性能的第二個問題不是algernon獨有,也是golang區別於c的
最大特點:goroutine。目前golang最多能有一千萬併發goroutines,換成內存也就是
幾十GB,對於AWS上的只有幾十GB的VM小系統估計夠用了,但是對於多路1TB共享內存大
系統,golang目前沒有NUMA調度架構顯然不行。
測試golang http,其實變成了測試Linux sys_futex(),唉。。。 |
|
T********i 发帖数: 2416 | 38 另外这种架构,如果不考虑latency因素,其实NUMA带来的性能提升有限。也就30%左右
吧。反正现在CPU LLC都很大。
关键的是你如何思考整个系统?如何实现?这世界上你要取舍。没有斩尽天下便宜的那
个好事。你要这么做,就不要考虑那么做! |
|
z***e 发帖数: 5393 | 39 Should be YES.
Windows Internal 4th edition is based on XP, and there are lots of
discussion on MultiCore and NUMA.
Vista has some changes in thread scheduling, but it's just algorithm change,
maybe better, maybe not. |
|
|
s*********t 发帖数: 600 | 41 K channel structure fits perfect well into the category of milestones in
nerve conductance:
Discovery of action potential (called action current in the 1800s)
Recording of action potential (Erlanger and Gasser, 1920s and 1930s),
properties of action potential on single
nerve fiber (Edgar Adrian, 1930s)
Voltage clamp and ionic basis of action potential (Cole, Hudgkin and Huxley,
1930s to 1950s)
Patch clamp and recording of single channels (Sakman and Neher, 1970s)
Cloning of cDNAs for ion channel... 阅读全帖 |
|
s*********t 发帖数: 600 | 42 K channel structure fits perfect well into the category of milestones in
nerve conductance:
Discovery of action potential (called action current in the 1800s)
Recording of action potential (Erlanger and Gasser, 1920s and 1930s),
properties of action potential on single
nerve fiber (Edgar Adrian, 1930s)
Voltage clamp and ionic basis of action potential (Cole, Hudgkin and Huxley,
1930s to 1950s)
Patch clamp and recording of single channels (Sakman and Neher, 1970s)
Cloning of cDNAs for ion channel... 阅读全帖 |
|
s*******7 发帖数: 399 | 43
=============================
其实说到Nav,最可惜的还是Numa,死的早。他一生中换了3个研究方向,结果在每个方
向都是先驱:脂肪酸β氧化;第一个克隆nAchR基因和钠钾泵;首先克隆Nav和Cav,并
把Cav最重要的工作做完以致后人似乎找不到东西可做。
阿戈觉得吧,他在这3个领域贡献中任何1个都是诺贝尔奖工作,由此阿戈看到的后人写
给他的纪念文章比他paper还多。 |
|
t********n 发帖数: 64 | 44 Numa确实可惜,如果没死那么早,估计lily jan什么的还有可能顺风搭车跟他一块拿个
炸药奖;又或者后面mackinnon拿奖的时候应该没克隆水通道那位老兄什么事了 |
|
s*******7 发帖数: 399 | 45
=============================
其实说到Nav,最可惜的还是Numa,死的早。他一生中换了3个研究方向,结果在每个方
向都是先驱:脂肪酸β氧化;第一个克隆nAchR基因和钠钾泵;首先克隆Nav和Cav,并
把Cav最重要的工作做完以致后人似乎找不到东西可做。
阿戈觉得吧,他在这3个领域贡献中任何1个都是诺贝尔奖工作,由此阿戈看到的后人写
给他的纪念文章比他paper还多。 |
|
t********n 发帖数: 64 | 46 Numa确实可惜,如果没死那么早,估计lily jan什么的还有可能顺风搭车跟他一块拿个
炸药奖;又或者后面mackinnon拿奖的时候应该没克隆水通道那位老兄什么事了 |
|
发帖数: 1 | 47
不知道,换方向了吧。也可能是独立之后,就“狐假虎威”了,1991后的文章就没有
Shosaku Numa这个人署名了。
听说他读博士的时候跟老师一样,一边做自己的研究,还一边帮导师带博士和博后。后
来自己当老师,动不动就拍桌子踢凳子,对学生说你怎么这么笨,滚出我的实验室…… |
|
发帖数: 1 | 48 沼正作Shosaku Numa是野田昌晴Masaharu Noda的老板,属于准诺贝尔奖得主,92年之
前他还在世时自然CNS随便发,92年沼正作去世、野田自己当家后发的文章就一年不如
一年了 |
|