o*******p 发帖数: 27 | 1 准备跟风学习Deep Learning,试着在CyberPowerPC配了一个Threadripper 1950X,
64GB,1080Ti,大概$3,300,准备以后自己再加1-2块1080Ti。各位大牛觉得怎么样?
*BASE_PRICE: [+3179]
CAS: Syber XL Series E-ATX Full-Tower Gaming Case w/ USB 3.0, 7 Color RGB &
Full Side Tempered Window Panel [-102]
CS_FAN: 3X 120mm Case Fans for your selected case [+9]
CPU: AMD Ryzen Threadripper 1950X 3.4GHz [4.0GHz Turbo] Sixteen-Core 32MB L3
Cache 180W Processor
CPU_FAN: Enermax LIQTECH TR4 360mm CPU Liquid Cooler w/ Full AMD
Threadripper IHS Coverage [+77] (3 x Standard 120MM Fans)
VIDEO: EVGA GeForce® GTX 1080 Ti SC GAMING iCX Black Edition 11GB
GDDR5X (Pascal)[VR Ready] (Single Card)
MOTHERBOARD: ASRock Fatal1ty X399 Taichi ATX w/ RGB, 802.11ac, USB 3.1, 4
PCIe x16, 1 PCIe x1, 8 SATA3, 3 M.2 SATA/PCIe
HDD: 256GB WD Black Series PCIe NVMe M.2 SSD - Seq R/W: Up to 2050/700 MB/s,
Rnd R/W up to 170/130k [-110] (Single Drive) (自己有一个1TB的SSD)
MEMORY: 64GB (16GBx4) DDR4/3000MHz Quad Channel Memory [+480] (ADATA XPG Z1)
POWERSUPPLY: 1,000 Watts - Standard 80 Plus Gold Power Supply
_PRICE: (+3267)
Updated: 类似的配置在pcpartpicker.com大概$3,200
https://pcpartpicker.com/list/MZLdbX |
w***g 发帖数: 5958 | 2 我很感兴趣,不过没能力评价。你买了请回来报告下。
:准备跟风学习Deep Learning,试着在CyberPowerPC配了一个Threadripper 1950X,
:64GB,1080Ti,大概$3,300,准备以后自己再加1-2块1080Ti。各位大牛觉得怎么样? |
f*******t 发帖数: 7549 | |
o*******p 发帖数: 27 | 4 想请大牛看看这个配置有没有什么问题,性价比如何。主板能加到8条RAM,128GB,但
是感觉要是上四个1080Ti的话电源小了一些。
样?
【在 w***g 的大作中提到】 : 我很感兴趣,不过没能力评价。你买了请回来报告下。 : : :准备跟风学习Deep Learning,试着在CyberPowerPC配了一个Threadripper 1950X, : :64GB,1080Ti,大概$3,300,准备以后自己再加1-2块1080Ti。各位大牛觉得怎么样?
|
h*********2 发帖数: 1 | 5 我印象中mc的cpu打折到过$600还是$700
GPU现在$750可以比较容易买到
内存$700-$750左右
自己装能便宜大概$500? |
o*******p 发帖数: 27 | 6 听说1950X有64条PCIe lane,比Intel的多。
【在 f*******t 的大作中提到】 : Cpu可以用amd的?
|
o*******p 发帖数: 27 | 7 我去pcpartpicker.com看了,好像总价差不多。主要是上次装机是20年前了,有点怕麻
烦。CyberPowerPC的选项也有一些,不知道搭配得怎么样。我再去看看。
【在 h*********2 的大作中提到】 : 我印象中mc的cpu打折到过$600还是$700 : GPU现在$750可以比较容易买到 : 内存$700-$750左右 : 自己装能便宜大概$500?
|
l*******m 发帖数: 1096 | 8 如果一块GPU OK,多卡要谨慎。我有测试
http://www.mitbbs.com/article_t/Programming/31528233.html
&
L3
【在 o*******p 的大作中提到】 : 准备跟风学习Deep Learning,试着在CyberPowerPC配了一个Threadripper 1950X, : 64GB,1080Ti,大概$3,300,准备以后自己再加1-2块1080Ti。各位大牛觉得怎么样? : *BASE_PRICE: [+3179] : CAS: Syber XL Series E-ATX Full-Tower Gaming Case w/ USB 3.0, 7 Color RGB & : Full Side Tempered Window Panel [-102] : CS_FAN: 3X 120mm Case Fans for your selected case [+9] : CPU: AMD Ryzen Threadripper 1950X 3.4GHz [4.0GHz Turbo] Sixteen-Core 32MB L3 : Cache 180W Processor : CPU_FAN: Enermax LIQTECH TR4 360mm CPU Liquid Cooler w/ Full AMD : Threadripper IHS Coverage [+77] (3 x Standard 120MM Fans)
|
w***g 发帖数: 5958 | 9 我总觉得农企的U靠不住。pci lane多点,但是速度未必快。
据我考察的结果,牙膏厂的U抗4个gpu是没问题的。
但我也是道听途说。
【在 f*******t 的大作中提到】 : Cpu可以用amd的?
|
o*******p 发帖数: 27 | 10 多谢。看来只要从GPU出发的传输都要慢4到10倍。这些对DL training影响有多大?
【在 l*******m 的大作中提到】 : 如果一块GPU OK,多卡要谨慎。我有测试 : http://www.mitbbs.com/article_t/Programming/31528233.html : : & : L3
|
|
|
l*******m 发帖数: 1096 | 11 GPU TO CPU 和 GPU TO GPU慢,主要影响gradient reduce的速度。AMD主要优化打游戏
,所以不注意反向的性能
【在 o*******p 的大作中提到】 : 多谢。看来只要从GPU出发的传输都要慢4到10倍。这些对DL training影响有多大?
|
o*******p 发帖数: 27 | 12 明白了。要不还是等Intel的28 core吧。至少要明年了...
【在 l*******m 的大作中提到】 : GPU TO CPU 和 GPU TO GPU慢,主要影响gradient reduce的速度。AMD主要优化打游戏 : ,所以不注意反向的性能
|
l*******m 发帖数: 1096 | 13 intel 现在新的desktop CPU大都只有28线PCI-E。如果三个卡或以上,最好是DUAL
INTEL CPUS。你这个配置,单GPU PCI-E的问题估计会只有2~3%的下降,但CPU快,可
能能把缺口补上。DUAL GPUS的话,只能用CPU的 gradient reduce, 其实性能不差,
就是别人的code如果太慢,要自己改,多些麻烦。自己写OK了。
总之,什么事情都别等,该干嘛就干嘛。早学到知识,机会会更多。
【在 o*******p 的大作中提到】 : 明白了。要不还是等Intel的28 core吧。至少要明年了...
|
o*******p 发帖数: 27 | 14 说得有道理。又看了一下,像Intel Core i7-8700K之类的只有16 PCIe lanes,看来现
阶段还是买了这个Threadripper的先开始学上再说。再次谢谢指教。
【在 l*******m 的大作中提到】 : intel 现在新的desktop CPU大都只有28线PCI-E。如果三个卡或以上,最好是DUAL : INTEL CPUS。你这个配置,单GPU PCI-E的问题估计会只有2~3%的下降,但CPU快,可 : 能能把缺口补上。DUAL GPUS的话,只能用CPU的 gradient reduce, 其实性能不差, : 就是别人的code如果太慢,要自己改,多些麻烦。自己写OK了。 : 总之,什么事情都别等,该干嘛就干嘛。早学到知识,机会会更多。
|
l*******m 发帖数: 1096 | 15 还有如果单GPU,什么都行。如果多GPU,最好(至少n-1)要用blower cooling. 因为
blower直接把热气排除,你这个是把热气排到机箱里。
&
L3
【在 o*******p 的大作中提到】 : 准备跟风学习Deep Learning,试着在CyberPowerPC配了一个Threadripper 1950X, : 64GB,1080Ti,大概$3,300,准备以后自己再加1-2块1080Ti。各位大牛觉得怎么样? : *BASE_PRICE: [+3179] : CAS: Syber XL Series E-ATX Full-Tower Gaming Case w/ USB 3.0, 7 Color RGB & : Full Side Tempered Window Panel [-102] : CS_FAN: 3X 120mm Case Fans for your selected case [+9] : CPU: AMD Ryzen Threadripper 1950X 3.4GHz [4.0GHz Turbo] Sixteen-Core 32MB L3 : Cache 180W Processor : CPU_FAN: Enermax LIQTECH TR4 360mm CPU Liquid Cooler w/ Full AMD : Threadripper IHS Coverage [+77] (3 x Standard 120MM Fans)
|
o*******p 发帖数: 27 | 16 选这个EVGA GeForce GTX 1080Ti SC是因为便宜($749);SC2是hybrid cooling。好
像Founder Edition是blower,前一阵NVIDIA官网有货($699)。你觉得在多GPU的情况
下blower比fan或者liquid cooling更好吗?
【在 l*******m 的大作中提到】 : 还有如果单GPU,什么都行。如果多GPU,最好(至少n-1)要用blower cooling. 因为 : blower直接把热气排除,你这个是把热气排到机箱里。 : : & : L3
|
w***g 发帖数: 5958 | 17 lambdal用的那个6850k有40 lane。 就是要600多。
不知道和28 lane的有多少区别。
我所有的GPU都是2xxx/3xxxx在推。 有一个3930k推两个titan xp。都是pcie 2.0的,
没的比较,也没觉出慢。 早年攒下的家当。
【在 l*******m 的大作中提到】 : intel 现在新的desktop CPU大都只有28线PCI-E。如果三个卡或以上,最好是DUAL : INTEL CPUS。你这个配置,单GPU PCI-E的问题估计会只有2~3%的下降,但CPU快,可 : 能能把缺口补上。DUAL GPUS的话,只能用CPU的 gradient reduce, 其实性能不差, : 就是别人的code如果太慢,要自己改,多些麻烦。自己写OK了。 : 总之,什么事情都别等,该干嘛就干嘛。早学到知识,机会会更多。
|
l*******m 发帖数: 1096 | 18 散热不好,也是可以跑的,因为会自动降频。我发现夏天会比冬天慢一些,估计是环境
温度的影响。
:选这个EVGA GeForce GTX 1080Ti SC是因为便宜($749);SC2是hybrid cooling。好
:像Founder Edition是blower,前一阵NVIDIA官网有货($699)。你觉得在多GPU的情
况下blower比fan或者liquid cooling更好吗? |
l*******m 发帖数: 1096 | 19 如果你的pci-e 2.0是16线,和3.0 8线一个速度,比全速3.0 16线在imagenet上就慢5
%,还行,segmentation上的差距更小些。28线最多3个8线的。反正8线OK,4线就太惨
了。买主板要仔细读说明书。你说的那个600块的主板有一个pci-e switch。所以4个
gpu可以全速, 所以贵。当然p2p还是不行,p2p还是要靠nvlink.
:lambdal用的那个6850k有40 lane。 就是要600多。
:不知道和28 lane的有多少区别。 |
w***g 发帖数: 5958 | 20 楼上好专业,佩服佩服!
5
【在 l*******m 的大作中提到】 : 如果你的pci-e 2.0是16线,和3.0 8线一个速度,比全速3.0 16线在imagenet上就慢5 : %,还行,segmentation上的差距更小些。28线最多3个8线的。反正8线OK,4线就太惨 : 了。买主板要仔细读说明书。你说的那个600块的主板有一个pci-e switch。所以4个 : gpu可以全速, 所以贵。当然p2p还是不行,p2p还是要靠nvlink. : : :lambdal用的那个6850k有40 lane。 就是要600多。 : :不知道和28 lane的有多少区别。
|
|
|
o*******p 发帖数: 27 | 21 同赞专业。学习了。
【在 w***g 的大作中提到】 : 楼上好专业,佩服佩服! : : 5
|
w*****r 发帖数: 197 | 22 我这的一台Titan V x 4的性能benchmark跟你侧的结果很像, 但是我是intel cpu, 至
今不知道问什么.
一想起这茬来,就心塞...
【在 l*******m 的大作中提到】 : 如果一块GPU OK,多卡要谨慎。我有测试 : http://www.mitbbs.com/article_t/Programming/31528233.html : : & : L3
|
w*****r 发帖数: 197 | 23 如果是28线pcie带4个gpu, 每个gpu是constantly用7线, 4线, 还是可以根据数据动态
调度?
我刚刚发现那个无良奸商给我的cpu就是28线的...
【在 l*******m 的大作中提到】 : intel 现在新的desktop CPU大都只有28线PCI-E。如果三个卡或以上,最好是DUAL : INTEL CPUS。你这个配置,单GPU PCI-E的问题估计会只有2~3%的下降,但CPU快,可 : 能能把缺口补上。DUAL GPUS的话,只能用CPU的 gradient reduce, 其实性能不差, : 就是别人的code如果太慢,要自己改,多些麻烦。自己写OK了。 : 总之,什么事情都别等,该干嘛就干嘛。早学到知识,机会会更多。
|
l*******m 发帖数: 1096 | 24 没法动态的,在bios里可以设。估计可以x8x8x8x4, 如果这样就x4的托后腿。你可以试
试用三个x8的快,还是把4个都用上快。
【在 w*****r 的大作中提到】 : 如果是28线pcie带4个gpu, 每个gpu是constantly用7线, 4线, 还是可以根据数据动态 : 调度? : 我刚刚发现那个无良奸商给我的cpu就是28线的...
|
w***g 发帖数: 5958 | 25 你用fp16同时跑4个model,应该还是能发挥威力的。
我看benchmark, fp16比fp32快一倍。
【在 w*****r 的大作中提到】 : 如果是28线pcie带4个gpu, 每个gpu是constantly用7线, 4线, 还是可以根据数据动态 : 调度? : 我刚刚发现那个无良奸商给我的cpu就是28线的...
|
w*****r 发帖数: 197 | 26 pcie 3.0 的理论峰值是985MB/s, 如果一张图像算1280x800x3, pcie不会是瓶颈
吧? |
l*******m 发帖数: 1096 | 27 你说的是一条线的峰值。16线的实际峰值一般12GB/s。对于imagenet, 每次喂一个GPU
224x224x3x32=5.7MB, 所以CPU-->GPU数据传输至少要花0.5ms。一块1080 ti训练
resnet-50应该在200ms搞定, titan v可以在130ms搞定。如果多块的话要把gradients
传出去。模型有多大,gradient就要多大。resnet-50有100MB, 所以GPU->CPU/peer
GPU要8ms. NVLINK最快有200GB/s,所以老黄把titan v的NVLINK给割掉了。
【在 w*****r 的大作中提到】 : pcie 3.0 的理论峰值是985MB/s, 如果一张图像算1280x800x3, pcie不会是瓶颈 : 吧?
|