n******7 发帖数: 12463 | 1 最近看一篇文章,GPU计算的
用的deep learning
其中提到NN的计算复杂度是O(MN+LN^2)
M是输入的unit,N是所有layer的hidden unit,L是layer数
然后用GPU并行之后,就是M,N的linear时间复杂度了?
说原因是,计算两个N dimension vector的内积,用CPU是O(N)的,用GPU是O(1)
这是鬼扯吧?
我怀疑实际原因是,他们的GPU平台有近3K个core,计算中M在2000左右,N在几千数量级
所以他们是用core的数量K 抵消的一个N的复杂度
大家看是不是这样? |
d****n 发帖数: 1637 | |
n******7 发帖数: 12463 | |
d****i 发帖数: 4809 | 4 都是瞎jb扯蛋的,计算复杂度和并不并行没有关系,只和神经网络的节点数有关。
量级
【在 n******7 的大作中提到】 : 最近看一篇文章,GPU计算的 : 用的deep learning : 其中提到NN的计算复杂度是O(MN+LN^2) : M是输入的unit,N是所有layer的hidden unit,L是layer数 : 然后用GPU并行之后,就是M,N的linear时间复杂度了? : 说原因是,计算两个N dimension vector的内积,用CPU是O(N)的,用GPU是O(1) : 这是鬼扯吧? : 我怀疑实际原因是,他们的GPU平台有近3K个core,计算中M在2000左右,N在几千数量级 : 所以他们是用core的数量K 抵消的一个N的复杂度 : 大家看是不是这样?
|
n******7 发帖数: 12463 | 5 thx
我也这么觉得,我看他们还是informatics dept的,琢磨是不是有啥我不明白的
【在 d****i 的大作中提到】 : 都是瞎jb扯蛋的,计算复杂度和并不并行没有关系,只和神经网络的节点数有关。 : : 量级
|
d****i 发帖数: 4809 | 6 现在的人哪,尤其是学术界出来的人,啥jb都敢吹,工业界干实际活的要多一份自己的
基本的判断力。什么新语言忽悠两下基本都是扯的。
【在 n******7 的大作中提到】 : thx : 我也这么觉得,我看他们还是informatics dept的,琢磨是不是有啥我不明白的
|
w***g 发帖数: 5958 | 7 扯淡。O(N)是N趋向于无穷大时的notation。GPU的core是常数。按他们的说法,还不如
说在他们的平台上复杂度是O(1)。再说各层的N根本就不一样。2012年Hinto组做
imagenet那个经典的架构,其中一个最大的fully connected层就占计算量的近80%,就
是个矩阵乘法。
Deep learning的文章,建议除了几个有名的大组,以及NIPS CVPR/ICCV水平的paper看
看。别的blog啥的最好不要看。误导性太强了,因为作者都不知道自己是错的。
就是高水平的paper,都不能保证结果是对的。我前两天还提过Jeff Dean那篇论文。
训练速度基本上是O(log(N)), N=机器台数。N>1000以后,增加机器/core的个数对提高
速度帮助甚小。
量级
【在 n******7 的大作中提到】 : 最近看一篇文章,GPU计算的 : 用的deep learning : 其中提到NN的计算复杂度是O(MN+LN^2) : M是输入的unit,N是所有layer的hidden unit,L是layer数 : 然后用GPU并行之后,就是M,N的linear时间复杂度了? : 说原因是,计算两个N dimension vector的内积,用CPU是O(N)的,用GPU是O(1) : 这是鬼扯吧? : 我怀疑实际原因是,他们的GPU平台有近3K个core,计算中M在2000左右,N在几千数量级 : 所以他们是用core的数量K 抵消的一个N的复杂度 : 大家看是不是这样?
|
n******7 发帖数: 12463 | 8 谢谢,学习了。这是审的一篇论文,因为觉得太假以至于不敢确定他们错了
【在 w***g 的大作中提到】 : 扯淡。O(N)是N趋向于无穷大时的notation。GPU的core是常数。按他们的说法,还不如 : 说在他们的平台上复杂度是O(1)。再说各层的N根本就不一样。2012年Hinto组做 : imagenet那个经典的架构,其中一个最大的fully connected层就占计算量的近80%,就 : 是个矩阵乘法。 : Deep learning的文章,建议除了几个有名的大组,以及NIPS CVPR/ICCV水平的paper看 : 看。别的blog啥的最好不要看。误导性太强了,因为作者都不知道自己是错的。 : 就是高水平的paper,都不能保证结果是对的。我前两天还提过Jeff Dean那篇论文。 : 训练速度基本上是O(log(N)), N=机器台数。N>1000以后,增加机器/core的个数对提高 : 速度帮助甚小。 :
|
n******7 发帖数: 12463 | 9 我是学术界混,杀老鼠的。学术界确实吹的多,不然大部分能力平平的人怎么混饭吃啊
【在 d****i 的大作中提到】 : 现在的人哪,尤其是学术界出来的人,啥jb都敢吹,工业界干实际活的要多一份自己的 : 基本的判断力。什么新语言忽悠两下基本都是扯的。
|
N********n 发帖数: 8363 | 10
O(N)->O(1)是不可能的。不过十个COMPUTING UNIT并行降一个MAGNITUE
还是不错的,学术界提速10%就能出PAPER吹了。
【在 n******7 的大作中提到】 : 我是学术界混,杀老鼠的。学术界确实吹的多,不然大部分能力平平的人怎么混饭吃啊
|
|
|
h*******u 发帖数: 15326 | 11 非并行算法改成并行,用gpu,也算有点贡献。
并行算法直接上gpu那算个毛啊
【在 n******7 的大作中提到】 : 谢谢,学习了。这是审的一篇论文,因为觉得太假以至于不敢确定他们错了
|
a***n 发帖数: 538 | |
n******7 发帖数: 12463 | 13 还是有错,因为core数不能无限大,n可以无限大
【在 a***n 的大作中提到】 : 如果core的数大于n,这么理解也没有错吧。
|
l*******m 发帖数: 1096 | 14 并行计算的瓶颈主要在IO。就是单机GPU。把DATA从CPU推到GPU就不少时间。而且CUDA
async queue好像有些问题。nvidia 的新的接口nvidia-link据说不错。
【在 n******7 的大作中提到】 : 还是有错,因为core数不能无限大,n可以无限大
|
T********i 发帖数: 2416 | 15 只有量子计算机能做到NP=P。相当于无穷CPU的非确定图灵机。
最牛的也就只能做到无穷个平行宇宙参与计算所有分支。哪个先停机状态就会首先坍塌。
没准我们灌水等行为其实也是外星人算题的一部分。
恭喜古德霸终于找到了他生命的意义。虽然他生命意义就是帮助外星人计算pi的第一亿
亿位是几?
量级
【在 n******7 的大作中提到】 : 最近看一篇文章,GPU计算的 : 用的deep learning : 其中提到NN的计算复杂度是O(MN+LN^2) : M是输入的unit,N是所有layer的hidden unit,L是layer数 : 然后用GPU并行之后,就是M,N的linear时间复杂度了? : 说原因是,计算两个N dimension vector的内积,用CPU是O(N)的,用GPU是O(1) : 这是鬼扯吧? : 我怀疑实际原因是,他们的GPU平台有近3K个core,计算中M在2000左右,N在几千数量级 : 所以他们是用core的数量K 抵消的一个N的复杂度 : 大家看是不是这样?
|