C*****5 发帖数: 8812 | 1 cuda让你方便的用c++,fortran和GPU硬件打交道做并行计算。cudnn是基于cuda的深度
学习底层库,定义了深度学习基本常用的一些操作。不夸张的说,cuda/cudnn之于nvda
就好比windows之于intel。
DL软件主流的几个库,torch,tensorflow,lasagne/keras/theano,caffe,mxnet等
都是开源的,,我用过前面三个,感觉各有千秋,但也大同小异,早晚要整合至最多两
三个并存。以上提到的库
如果用GPU加速都需要调用nvda的cudnn(非nvda的卡是不支持的)。用CPU时不用,但
是速度无法忍受。Google的Tensorflow估计除了建立在cuda/cudnn的开源版之外估计内
部还有自
行开发的和cudnn类似的底层库以支持自己的特殊硬件(TPU)。
胡言乱语了几句。再高深的问题可以去问莱布妮子。他是专家。 |
|
C*****5 发帖数: 8812 | 2 楼下看官说amd不是也有gpu吗?可是amd没有cuda,没有cudnn,周末试了试cudnn.
torch,发现nvda对deep learning是真爱,动了感情的。
那为啥要买deep learning呢,想不通这个准备错过10年翻10倍的机会。 |
|
C*****5 发帖数: 8812 | 3 关键不在硬件。NVDA的cudnn是deep learning事实上的国际标准库。要用cudnn必须要
NVDA的GPU。 |
|
p**f 发帖数: 3549 | 4 NV现在就有解决方案,cuDNN,已有无数客户,GOOGLE/FB/AMAZON/MSFT/IBM/BABA/BIDU
。。。基本大网络商大数据商都在用,大银行大投行搞投资策略分析的也都在用。现在
CES已确认又有豪车制造商排着队来求合作,因为谁也不愿意在新技术上落后竞争对手
。产品已有,就是特斯拉的无人驾驶。Feature至少超同类豪车5年。所以其他豪车都急
了,都来跪舔。你去看你看网上无人驾驶视频,人离开车了,车自动在停车场找趴车位
,很震撼。
在炒AI之前,CUDA以前本来就有一些应用,比如医疗诊断之类的。现在也没没落。
你去网上看看OpenCL和CUDA对比文章。OpenCL虽然open source,但code难写,调试麻
烦。同样code,在CUDA里性能就是比OpenCL高。且不说CUDA已有cuDNN这样的武器。跟
Android vs. iOS一样。无数厂商支持的开源未必就比闭源的好。
从你回复看,你根本就不是这一行的。一个已有大规模商业应用,一个还在玩老一套,
使劲PPT,靠官透benchmark跑分吸引眼球。还弯道超车呢,玩过火直接掉到悬崖下去。
AMD |
|
P**H 发帖数: 1897 | 5 作坊还是上GPU。跑demo,k600都把xeon12线程秒了。这方面cudnn的优势太大了。弄个
960也就不到200。实在不行750ti也凑合了。
tensor flow刚出来。用的cudnn v2速度一般。以后可能会快点。Google的重点不是单
机,他家有海量的CPU GPU可用。
mxnet好像也很火。
单机CPU真没必要折腾。 |
|
P**H 发帖数: 1897 | 6 作坊还是上GPU。跑demo,k600都把xeon12线程秒了。这方面cudnn的优势太大了。弄个
960也就不到200。实在不行750ti也凑合了。
tensor flow刚出来。用的cudnn v2速度一般。以后可能会快点。Google的重点不是单
机,他家有海量的CPU GPU可用。
mxnet好像也很火。
单机CPU真没必要折腾。 |
|
C*****5 发帖数: 8812 | 7 说Deep Learning是bubble, hype的,我觉得是大错特错。同意的买点相关股票,老马
虽然是个冒牌基金经理喜欢装神弄鬼,long NVDA我是同意的。NVDA现在基本把持了
Deep Learning的生态系统,所有的主流的library都是建立在cudnn之上,软硬件结合
,护城河很深。 |
|
r*****e 发帖数: 7853 | 8 动车哥,你是这个领域的吗?
我勇dnn做过几个应用,感觉华而不实啊。而且,learn出来的model无法解释,
generalization的问题很大。用来炒股碰上一没见过的case只怕会外婆
[在 CRH1235 (江左没狼) 的大作中提到:]
:说Deep Learning是bubble, hype的,我觉得是大错特错。同意的买点相关股票,老马
:虽然是个冒牌基金经理喜欢装神弄鬼,long NVDA我是同意的。NVDA现在基本把持了
:Deep Learning的生态系统,所有的主流的library都是建立在cudnn之上,软硬件结合
:,护城河很深。 |
|
s*********r 发帖数: 1728 | 9 大牛 展开说说 CUDA / CUDNN 都是啥?
现在 DL 软件 硬件 都有哪些重要player ?
不过我看大家都不想 10年翻10倍
大家要的是 一年翻10倍 |
|
z******i 发帖数: 59 | 10 1. Intel still has better Silicon process. NVidia depends on TSMC on
manufacturing.
2. Intel missed and behind Nvidia AI several years. Right now is doing catch
up.
* buy Nervana @about 400m.
* buy Movidius.
* change Xeon Phi roadmap to include deep learning specific instruction.
* buy Altera @16.7B, trying co-processing concept.
* All the other AI investment through intel capital.
3. Nvidia is way ahead of Intel on AI eco-system. Cuda, cudnn lib on lower
level. All exiting AI software library, ... 阅读全帖 |
|
C*****5 发帖数: 8812 | 11 关键还是软件的生态。
Nervana得尽快搞出像cuda,cudnn这样的库来,而且主流平台比如torch,tensorflow,
theano等必须支持。现在轮子已经够多的了,intel再重新发明新的轮子真没空搭理。 |
|
C*****5 发帖数: 8812 | 12 每次upgrade Tensorflow 就要折腾一遍cuda/cudnn。再搞这些有点自虐的感觉。 |
|
C*****5 发帖数: 8812 | 13 Means you can build your own embedded inference engine that runs on cuda/
cudnn.
AI for everybody, everywhere.
in
’s
its |
|
C*****5 发帖数: 8812 | 14 问题是今时今日,光有芯片没有软件是没用的呀。nvda如果没有cuda/cudnn,我也不会
买他们的GPU |
|
l*******m 发帖数: 1096 | 15 女大的深学库CUDNN是binary的,AMD还不是要自己写 |
|
F****s 发帖数: 3761 | 16 看看日期,注意原创,注意脸皮。
发信人: Forbes (福布斯), 信区: Stock
标 题: NVDA
发信站: BBS 未名空间站 (Mon Feb 22 12:31:49 2016, 美东)
继续上爆。
关注,不多说。
---
发信人: Forbes (福布斯), 信区: Stock
标 题: Re: GTX 1080 显卡已然成了深度学习的标配
发信站: BBS 未名空间站 (Thu Sep 01 17:51:06 2016, 美东)
没说搞deep learning啊,不是这专业的。
作为一个投资者,看好GTX 1080对于降低deep learning门槛的市场需求。
---
发信人: Forbes (福布斯), 信区: Stock
标 题: Re: [BSSD]老马看进来
发信站: BBS 未名空间站 (Fri Sep 02 16:33:07 2016, 美东)
你放心,市场会把deep learning做成白菜的。
你要真的讲逻辑,不用急着下结论,等一两年看季报。
---
发信人: CRH1235 (江左没狼), 信区: Stock
标 题: [BSSD]千万不要... 阅读全帖 |
|
p**f 发帖数: 3549 | 17 CUDA是女大proprietary开发平台,闭源。
AMD GPU用的开源OpenCL。
开源搞不过闭源很正常,类似:
桌面系统,Linux搞不过Windows
手机系统,Android搞不过iOS
写个操作系统不难,难得是有人帮你写software,也就是eco system. 果子NB在它家
iOS是独占,eco system (app) 超级强大。CUDA也是,起步早,support好。别家AI还
没起步的时候,他家就已经有cuDNN/TensorRT全套解决方案了。
所以女大最NB的不是GPU本身(硬件),而是建立其上的CUDA library(软件)。女大
至少有一半R&D是软件。
64- |
|
w*******g 发帖数: 9932 | 18 你们公司在什么位置?我写了个deep learning 的DSL. 是编译成Java 的,调用nvidia
cudnn。速度普遍高过caffe和tensorflow. 内存使用更少。不是能否适用
in |
|
P**H 发帖数: 1897 | 19 06那次应该是gpu的应用。试了几个demo,cudnn可以比cup快十几倍到几十倍。即使亮
机卡都比6core cpu快。后面的model没啥新的。就是应用可行了。以前学一个月,现在
一天就够了。
这次是把Google的分布式资源全用上。看能不能量变到质变了。除了计算资源,还有海
量的训练data。这些都是小作坊难以达到的。所以这些只对Google,FB这些巨头有用。
BP
deep |
|
|
x****u 发帖数: 44466 | 21 现在做NN的人基本上就是调参,组合各种模块外加刷数据。将来搞个IDE直接拖拉拽也
能干一样的事情。编程只是底层体力活。
而且辛苦的实现了并行算法,又出了CUDA把你虐了。你搞定了CUDA,又有了cuDNN还TMD
不开源,仿都仿不了。
就算你辛苦加入了nvadia,混到了开发第一线,其他厂搞的ANN专用芯片又出来了。。。 |
|
z***t 发帖数: 10817 | 22 【 以下文字转载自 Stock 讨论区 】
发信人: zhangfei (Leo Kamis), 信区: Stock
标 题: Re: 谁给讲讲NVDA和INTC的关系
发信站: BBS 未名空间站 (Fri Nov 11 12:53:28 2016, 美东)
1. Intel still has better Silicon process. NVidia depends on TSMC on
manufacturing.
2. Intel missed and behind Nvidia AI several years. Right now is doing catch
up.
* buy Nervana @about 400m.
* buy Movidius.
* change Xeon Phi roadmap to include deep learning specific instruction.
* buy Altera @16.7B, trying co-processing concept.
* All the other AI investment throug... 阅读全帖 |
|
x****u 发帖数: 44466 | 23 跟风问两个TF的问题:)
TF CPU和TF GPU的权值混用,出错率会高多少?
我把keras后端设成TH用TF权值,发现大部分都错,这是cuDNN的锅吗? |
|
w***g 发帖数: 5958 | 24 好像用的人少。底下都是cudnn,用tf应该没错。现在鸡毛框架层出不穷好烦。
update:
打算开始学pytorch了。这两天开始train imagenet,发现确实跟小数据不一样。
死慢死慢死慢死慢的。据说pytorch速度不错。
caffe应该是死了。theano应该也快了。 |
|
L****8 发帖数: 3938 | 25 要有人搞基础设施建设 例如 cuDNN 否则没人用 |
|
x****u 发帖数: 44466 | 26 没有cuDNN的时候也有直接调用编译器加速的啊 |
|
发帖数: 1 | 27 那就更搞笑了,請用全靜態實現opencv和cuDNN
沒有這些,怎麼實現L5自動駕駛? |
|
发帖数: 1 | 28 你不是說不需要OS,自己寫while loop麼?
系統管理當然要全IP,automotive ethernet就是backbone,CAN就是接sensor的。現在
飛機都fly-by-wire了,就是ethernet。如果固件很大,你升級一天?(支持cuDNN很可
能固件非常大)
我說了核心板自帶wifi麼?是你說用wifi娛樂板升級主控板固件的。
聽過5G V2X沒?愛立信五年前早就做了。
你的小作坊是搞不了自動駕駛的,別丟人現眼了。 |
|
发帖数: 1 | 29 這是目前ADAS的Reference Boards,看來QNX要all-in ARM啦,不錯。
Renesas H3 Starter
• OpenGL on GPU
• OpenCV / OpenCL on IMP/IMR cores
• H.264 video encode/decode
Renesas V3M Starter
• OpenCV / OpenCL on IMP and IMR cores
• H.264 encoding
NXP S32V Treerunner
• Native APEX SDK
• OpenCV with APEX acceleration
• OpenCL on GPU
• OpenCL on APEX with limitations
• OpenGL on GPU
Nvidia Drive PX2
• Cuda, CuDNN and several other GPU accelerated technologie... 阅读全帖 |
|
发帖数: 1 | 30 看在你寫這麼多的份上,我告訴你自動駕駛的核心是什麼:實時感知系統
舉一個最最簡單的例子,怎麼識別路邊各種各樣的限速牌?Google那個論文專門討論過。
如果連限速都不知道,那車開多少邁合適?
別告訴我用GPS和地圖,如果警察臨時搞一個Working Sign怎麼辦,黑天看不清怎麼辦
?牌子歪了怎麼辦?工人突然衝出來了怎麼辦?馬路中央橫一輛工程車怎麼辦?
你識別準確率都不行,還搞啥算法規劃路線?自動駕駛一定要上DNN,而且是實時帶反
饋的增強型,同時inference和training。老黃現有板子都300W了,就是往這個方向走
。集成度越高越穩定,這也是VLSI比分立元件更穩定的原因。
總結,我認為的L5自動駕駛關鍵技術:
1. 實時感知和深度學習包(OpenCV + cuDNN)。
2. 便宜的固體器件LIDAR,不帶機械轉動的。
3. 廉價小型相控陣雷達。
4. 精密3D街景地圖,精確到釐米。
5. 精密GPS,精確到釐米。
6. 5G高速網路,絕對不是Wifi,支持雲端輔助計算。
7. 符合ASIL D的高集成SoC,包含MCU、CPU、GPU、IPU、TPU,支持lockste... 阅读全帖 |
|
g****t 发帖数: 31659 | 31 L3,L4,L5还是你在这贴里学的呢。估计你不明白那是怎么回事。
我早就不干汽车车行了。
半导体是敏感产业。哪有人会讲自己干的工作。站出来说自己是自动驾驶半导体的,那
都是假的。
我所有的公开资料都和我做的东西无关。
另外本版极大可能水平远高于你常见论文上的人。不管什么大公司,什么论文。你别拿
任何一个大公司或者一个什么牛人来当作authority。那没用。
: 看在你寫這麼多的份上,我告訴你自動駕駛的核心是什麼:實時感知系統
: 舉一個最最簡單的例子,怎麼識別路邊各種各樣的限速牌?Google那個論
文專門
討論過。
: 如果連限速都不知道,那車開多少邁合適?
: 別告訴我用GPS和地圖,如果警察臨時搞一個Working Sign怎麼辦,黑天
看不清
怎麼辦
: ?牌子歪了怎麼辦?工人突然衝出來了怎麼辦?馬路中央橫一輛工程車怎
麼辦?
: 你識別準確率都不行,還搞啥算法規劃路線?自動駕駛一定要上DNN,而
且是實
時帶反
: 饋的增強型,同時inference和training。老黃現有板子都300W了,就是
往這個
方向走
... 阅读全帖 |
|
发帖数: 1 | 32 那就更搞笑了,請用全靜態實現opencv和cuDNN
沒有這些,怎麼實現L5自動駕駛? |
|
发帖数: 1 | 33 你不是說不需要OS,自己寫while loop麼?
系統管理當然要全IP,automotive ethernet就是backbone,CAN就是接sensor的。現在
飛機都fly-by-wire了,就是ethernet。如果固件很大,你升級一天?(支持cuDNN很可
能固件非常大)
我說了核心板自帶wifi麼?是你說用wifi娛樂板升級主控板固件的。
聽過5G V2X沒?愛立信五年前早就做了。
你的小作坊是搞不了自動駕駛的,別丟人現眼了。 |
|
发帖数: 1 | 34 這是目前ADAS的Reference Boards,看來QNX要all-in ARM啦,不錯。
Renesas H3 Starter
• OpenGL on GPU
• OpenCV / OpenCL on IMP/IMR cores
• H.264 video encode/decode
Renesas V3M Starter
• OpenCV / OpenCL on IMP and IMR cores
• H.264 encoding
NXP S32V Treerunner
• Native APEX SDK
• OpenCV with APEX acceleration
• OpenCL on GPU
• OpenCL on APEX with limitations
• OpenGL on GPU
Nvidia Drive PX2
• Cuda, CuDNN and several other GPU accelerated technologie... 阅读全帖 |
|
发帖数: 1 | 35 看在你寫這麼多的份上,我告訴你自動駕駛的核心是什麼:實時感知系統
舉一個最最簡單的例子,怎麼識別路邊各種各樣的限速牌?Google那個論文專門討論過。
如果連限速都不知道,那車開多少邁合適?
別告訴我用GPS和地圖,如果警察臨時搞一個Working Sign怎麼辦,黑天看不清怎麼辦
?牌子歪了怎麼辦?工人突然衝出來了怎麼辦?馬路中央橫一輛工程車怎麼辦?
你識別準確率都不行,還搞啥算法規劃路線?自動駕駛一定要上DNN,而且是實時帶反
饋的增強型,同時inference和training。老黃現有板子都300W了,就是往這個方向走
。集成度越高越穩定,這也是VLSI比分立元件更穩定的原因。
總結,我認為的L5自動駕駛關鍵技術:
1. 實時感知和深度學習包(OpenCV + cuDNN)。
2. 便宜的固體器件LIDAR,不帶機械轉動的。
3. 廉價小型相控陣雷達。
4. 精密3D街景地圖,精確到釐米。
5. 精密GPS,精確到釐米。
6. 5G高速網路,絕對不是Wifi,支持雲端輔助計算。
7. 符合ASIL D的高集成SoC,包含MCU、CPU、GPU、IPU、TPU,支持lockste... 阅读全帖 |
|
g****t 发帖数: 31659 | 36 L3,L4,L5还是你在这贴里学的呢。估计你不明白那是怎么回事。
我早就不干汽车车行了。
半导体是敏感产业。哪有人会讲自己干的工作。站出来说自己是自动驾驶半导体的,那
都是假的。
我所有的公开资料都和我做的东西无关。
另外本版极大可能水平远高于你常见论文上的人。不管什么大公司,什么论文。你别拿
任何一个大公司或者一个什么牛人来当作authority。那没用。
: 看在你寫這麼多的份上,我告訴你自動駕駛的核心是什麼:實時感知系統
: 舉一個最最簡單的例子,怎麼識別路邊各種各樣的限速牌?Google那個論
文專門
討論過。
: 如果連限速都不知道,那車開多少邁合適?
: 別告訴我用GPS和地圖,如果警察臨時搞一個Working Sign怎麼辦,黑天
看不清
怎麼辦
: ?牌子歪了怎麼辦?工人突然衝出來了怎麼辦?馬路中央橫一輛工程車怎
麼辦?
: 你識別準確率都不行,還搞啥算法規劃路線?自動駕駛一定要上DNN,而
且是實
時帶反
: 饋的增強型,同時inference和training。老黃現有板子都300W了,就是
往這個
方向走
... 阅读全帖 |
|
w*****r 发帖数: 197 | 37 我觉得是cudnn现在还没真正对tensor core做优化 |
|