由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 并行可以降低计算复杂度??
相关主题
请问程序同时在多个cpu上运行需要怎么改程序?C++ Software Engineer 工作求内推(Boston)
请问该学点啥?等到32位MCU一节电池待机一年,5块一片
老中在深度学习领域丢脸了什么FP能替代python
CUDA 和 Hadoop 是不是算并行和分布的两个比较有前途的技术?问个选语言的问题
C#程序并行化招GPU工程师 (转载)
有没有玩CUDA的?有熟悉CUDA的吗?不胜感谢赐教
我写的CUDA屏保软件 (转载)MacBook Pro is more powerful than NVDA GPU?
我写的CUDA屏保软件-公开源码 (转载)基本适合深度学习的笔记本laptop
相关话题的讨论汇总
话题: gpu话题: 复杂度话题: 计算话题: 并行话题: core
进入Programming版参与讨论
1 (共1页)
n******7
发帖数: 12463
1
最近看一篇文章,GPU计算的
用的deep learning
其中提到NN的计算复杂度是O(MN+LN^2)
M是输入的unit,N是所有layer的hidden unit,L是layer数
然后用GPU并行之后,就是M,N的linear时间复杂度了?
说原因是,计算两个N dimension vector的内积,用CPU是O(N)的,用GPU是O(1)
这是鬼扯吧?
我怀疑实际原因是,他们的GPU平台有近3K个core,计算中M在2000左右,N在几千数量级
所以他们是用core的数量K 抵消的一个N的复杂度
大家看是不是这样?
d****n
发帖数: 1637
n******7
发帖数: 12463
3
这个link的意思是啥?
他们用的tesla k40c,有2880个units

【在 d****n 的大作中提到】
: http://gamedev.stackexchange.com/questions/17243/how-many-paral
d****i
发帖数: 4809
4
都是瞎jb扯蛋的,计算复杂度和并不并行没有关系,只和神经网络的节点数有关。

量级

【在 n******7 的大作中提到】
: 最近看一篇文章,GPU计算的
: 用的deep learning
: 其中提到NN的计算复杂度是O(MN+LN^2)
: M是输入的unit,N是所有layer的hidden unit,L是layer数
: 然后用GPU并行之后,就是M,N的linear时间复杂度了?
: 说原因是,计算两个N dimension vector的内积,用CPU是O(N)的,用GPU是O(1)
: 这是鬼扯吧?
: 我怀疑实际原因是,他们的GPU平台有近3K个core,计算中M在2000左右,N在几千数量级
: 所以他们是用core的数量K 抵消的一个N的复杂度
: 大家看是不是这样?

n******7
发帖数: 12463
5
thx
我也这么觉得,我看他们还是informatics dept的,琢磨是不是有啥我不明白的

【在 d****i 的大作中提到】
: 都是瞎jb扯蛋的,计算复杂度和并不并行没有关系,只和神经网络的节点数有关。
:
: 量级

d****i
发帖数: 4809
6
现在的人哪,尤其是学术界出来的人,啥jb都敢吹,工业界干实际活的要多一份自己的
基本的判断力。什么新语言忽悠两下基本都是扯的。

【在 n******7 的大作中提到】
: thx
: 我也这么觉得,我看他们还是informatics dept的,琢磨是不是有啥我不明白的

w***g
发帖数: 5958
7
扯淡。O(N)是N趋向于无穷大时的notation。GPU的core是常数。按他们的说法,还不如
说在他们的平台上复杂度是O(1)。再说各层的N根本就不一样。2012年Hinto组做
imagenet那个经典的架构,其中一个最大的fully connected层就占计算量的近80%,就
是个矩阵乘法。
Deep learning的文章,建议除了几个有名的大组,以及NIPS CVPR/ICCV水平的paper看
看。别的blog啥的最好不要看。误导性太强了,因为作者都不知道自己是错的。
就是高水平的paper,都不能保证结果是对的。我前两天还提过Jeff Dean那篇论文。
训练速度基本上是O(log(N)), N=机器台数。N>1000以后,增加机器/core的个数对提高
速度帮助甚小。

量级

【在 n******7 的大作中提到】
: 最近看一篇文章,GPU计算的
: 用的deep learning
: 其中提到NN的计算复杂度是O(MN+LN^2)
: M是输入的unit,N是所有layer的hidden unit,L是layer数
: 然后用GPU并行之后,就是M,N的linear时间复杂度了?
: 说原因是,计算两个N dimension vector的内积,用CPU是O(N)的,用GPU是O(1)
: 这是鬼扯吧?
: 我怀疑实际原因是,他们的GPU平台有近3K个core,计算中M在2000左右,N在几千数量级
: 所以他们是用core的数量K 抵消的一个N的复杂度
: 大家看是不是这样?

n******7
发帖数: 12463
8
谢谢,学习了。这是审的一篇论文,因为觉得太假以至于不敢确定他们错了

【在 w***g 的大作中提到】
: 扯淡。O(N)是N趋向于无穷大时的notation。GPU的core是常数。按他们的说法,还不如
: 说在他们的平台上复杂度是O(1)。再说各层的N根本就不一样。2012年Hinto组做
: imagenet那个经典的架构,其中一个最大的fully connected层就占计算量的近80%,就
: 是个矩阵乘法。
: Deep learning的文章,建议除了几个有名的大组,以及NIPS CVPR/ICCV水平的paper看
: 看。别的blog啥的最好不要看。误导性太强了,因为作者都不知道自己是错的。
: 就是高水平的paper,都不能保证结果是对的。我前两天还提过Jeff Dean那篇论文。
: 训练速度基本上是O(log(N)), N=机器台数。N>1000以后,增加机器/core的个数对提高
: 速度帮助甚小。
:

n******7
发帖数: 12463
9
我是学术界混,杀老鼠的。学术界确实吹的多,不然大部分能力平平的人怎么混饭吃啊

【在 d****i 的大作中提到】
: 现在的人哪,尤其是学术界出来的人,啥jb都敢吹,工业界干实际活的要多一份自己的
: 基本的判断力。什么新语言忽悠两下基本都是扯的。

N********n
发帖数: 8363
10

O(N)->O(1)是不可能的。不过十个COMPUTING UNIT并行降一个MAGNITUE
还是不错的,学术界提速10%就能出PAPER吹了。

【在 n******7 的大作中提到】
: 我是学术界混,杀老鼠的。学术界确实吹的多,不然大部分能力平平的人怎么混饭吃啊
相关主题
有没有玩CUDA的?C++ Software Engineer 工作求内推(Boston)
我写的CUDA屏保软件 (转载)等到32位MCU一节电池待机一年,5块一片
我写的CUDA屏保软件-公开源码 (转载)什么FP能替代python
进入Programming版参与讨论
h*******u
发帖数: 15326
11
非并行算法改成并行,用gpu,也算有点贡献。
并行算法直接上gpu那算个毛啊

【在 n******7 的大作中提到】
: 谢谢,学习了。这是审的一篇论文,因为觉得太假以至于不敢确定他们错了
a***n
发帖数: 538
12
如果core的数大于n,这么理解也没有错吧。
n******7
发帖数: 12463
13
还是有错,因为core数不能无限大,n可以无限大

【在 a***n 的大作中提到】
: 如果core的数大于n,这么理解也没有错吧。
l*******m
发帖数: 1096
14
并行计算的瓶颈主要在IO。就是单机GPU。把DATA从CPU推到GPU就不少时间。而且CUDA
async queue好像有些问题。nvidia 的新的接口nvidia-link据说不错。

【在 n******7 的大作中提到】
: 还是有错,因为core数不能无限大,n可以无限大
T********i
发帖数: 2416
15
只有量子计算机能做到NP=P。相当于无穷CPU的非确定图灵机。
最牛的也就只能做到无穷个平行宇宙参与计算所有分支。哪个先停机状态就会首先坍塌。
没准我们灌水等行为其实也是外星人算题的一部分。
恭喜古德霸终于找到了他生命的意义。虽然他生命意义就是帮助外星人计算pi的第一亿
亿位是几?

量级

【在 n******7 的大作中提到】
: 最近看一篇文章,GPU计算的
: 用的deep learning
: 其中提到NN的计算复杂度是O(MN+LN^2)
: M是输入的unit,N是所有layer的hidden unit,L是layer数
: 然后用GPU并行之后,就是M,N的linear时间复杂度了?
: 说原因是,计算两个N dimension vector的内积,用CPU是O(N)的,用GPU是O(1)
: 这是鬼扯吧?
: 我怀疑实际原因是,他们的GPU平台有近3K个core,计算中M在2000左右,N在几千数量级
: 所以他们是用core的数量K 抵消的一个N的复杂度
: 大家看是不是这样?

1 (共1页)
进入Programming版参与讨论
相关主题
基本适合深度学习的笔记本laptopC#程序并行化
写GPU的汇编 - mission impossible有没有玩CUDA的?
有没有人用过AMD的GPU我写的CUDA屏保软件 (转载)
并行程序能做到不用专门写么?我写的CUDA屏保软件-公开源码 (转载)
请问程序同时在多个cpu上运行需要怎么改程序?C++ Software Engineer 工作求内推(Boston)
请问该学点啥?等到32位MCU一节电池待机一年,5块一片
老中在深度学习领域丢脸了什么FP能替代python
CUDA 和 Hadoop 是不是算并行和分布的两个比较有前途的技术?问个选语言的问题
相关话题的讨论汇总
话题: gpu话题: 复杂度话题: 计算话题: 并行话题: core