由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - guvest,问你个问题
相关主题
学习C++是浪费你的生命懂deepmind得说说
sparse linear Ax = b , 有什么好办法解 x ?FPGA-based DNNs
成了个deep learning版面如何?请问Python初学者怎么学
ffmpeg 移植为 javascript 了用eclipse的看过来
比特币的算法可以被破解吗?linx desktop里的arm toolchain升级会影响system lib吗?
魏老师聊聊FPGA吧This Mysterious Chip In The iPhone 7 Could Be Key To Apple's AI Push
ee这个行当是不是就是搞点电器之类的?question regarding standard library
最近内存加个飙升啊matlab C API 怎么用啊??
相关话题的讨论汇总
话题: br话题: 芯片话题: guvest话题: cpu话题: 软件
进入Programming版参与讨论
1 (共1页)
w*****r
发帖数: 197
1
如果输入信号(以图像为例)有很多零,但零的位置是随机的。CNN的芯片实现可以利
用这个特征,显著减少计算量吗?
g****t
发帖数: 31659
2
不知道。假如这问题等价于

在输入中随机插入0,达到同等
效果的情况下,能否减少训练时间。我猜答案是否定的。
因为信息损失了。
w***g
发帖数: 5958
3
sparse blas. CPU做因为cache的问题讨不了太多好。
或许可以通过数学方式把几层sparse合成一层优化。
按风水轮流转的原理,这方面将来肯定要突破的。
不然没法做symbolic inference。

【在 g****t 的大作中提到】
: 不知道。假如这问题等价于
: :
: 在输入中随机插入0,达到同等
: 效果的情况下,能否减少训练时间。我猜答案是否定的。
: 因为信息损失了。

w*****r
发帖数: 197
4
不确定我是否表述清楚了。我们可以认为一个二维稀疏矩阵,当做图像送入CNN,与非
稀疏矩阵比,在芯片上能否做优化?
一个简单的想法是,在做卷积时,如果一旦乘法的一个输入是0,输出直接赋值为0,不
需要常规的乘法器了
CPU/GPU上估计讨不到便宜,我问的是如果是ASIC,有没有实现手段可以省下这部分运算?


: 不知道。假如这问题等价于

: :

: 在输入中随机插入0,达到同等

: 效果的情况下,能否减少训练时间。我猜答案是否定的。

: 因为信息损失了。



【在 g****t 的大作中提到】
: 不知道。假如这问题等价于
: :
: 在输入中随机插入0,达到同等
: 效果的情况下,能否减少训练时间。我猜答案是否定的。
: 因为信息损失了。

w***g
发帖数: 5958
5
如果对sparsity做某种假设,比如一个3*3的window最多一个输入非零(算上channel,其
实一个不算少),那么conv指令的电路就能简化。训练的时候对应做drop out就行。这
个省了8次乘法外加8次加法,快十倍了。不过对底层网络输出稠密时就不起作用了。这
个软件模拟很容易验证有效性。
搞一个这种巧妙的计算单元,软件验证有效性后申请专利,估计是比较好的赚钱方法了
吧。
g****t
发帖数: 31659
6
他问的是芯片问题。这种问题网上是不宜讨论的。
另外不管什么技术,离赚钱都挺远的。我刚和一个你们
北大做图像的哥们喝了两杯。他说之前拿下来海康威
视的芯片生意。然后就被整残废了。公司都没法呆了。
他说美国白人觉得你们这些老中都是讨饭的。
当奴隶是应该的,拿走你的credit也是应该的。
所以他现在只和欧洲人合作。欧洲人在美国的公司
混饭吃比较靠谱。本身都是移民。


: 如果对sparsity做某种假设,比如一个3*3的window最多一个输入非零(算上
channel,其

: 实一个不算少),那么conv指令的电路就能简化。训练的时候对应做drop
out就
行。这

: 个省了8次乘法外加8次加法,快十倍了。不过对底层网络输出稠密时就不
起作用
了。这

: 个软件模拟很容易验证有效性。

: 搞一个这种巧妙的计算单元,软件验证有效性后申请专利,估计是比较好
的赚钱
方法了

: 吧。



【在 w***g 的大作中提到】
: 如果对sparsity做某种假设,比如一个3*3的window最多一个输入非零(算上channel,其
: 实一个不算少),那么conv指令的电路就能简化。训练的时候对应做drop out就行。这
: 个省了8次乘法外加8次加法,快十倍了。不过对底层网络输出稠密时就不起作用了。这
: 个软件模拟很容易验证有效性。
: 搞一个这种巧妙的计算单元,软件验证有效性后申请专利,估计是比较好的赚钱方法了
: 吧。

g****t
发帖数: 31659
7
如果纯矩阵计算速度。那wdong说的没问题。
或者手册上更细节的算法也有。你进一步
把矩阵拆行拆列,内存优化下。
这些都可以做。
但是同样都是训练数据集。
稀疏的和非稀疏的,哪个信息多?
这问题不好回答。
芯片问题网上不宜讨论。
算法属于纯数学,
可以讨论。
矩阵乘法芯片
现有的专利很多,例如:
https://www.google.com/patents/US20140108481
Www.google.com/patents/US20140108481


: 不确定我是否表述清楚了。我们可以认为一个二维稀疏矩阵,当做图像送
入CNN
,与非

: 稀疏矩阵比,在芯片上能否做优化?

: 一个简单的想法是,在做卷积时,如果一旦乘法的一个输入是0,输出直
接赋值
为0,不

: 需要常规的乘法器了

: CPU/GPU上估计讨不到便宜,我问的是如果是ASIC,有没有实现手段可以省
下这部
分运算?



【在 w*****r 的大作中提到】
: 不确定我是否表述清楚了。我们可以认为一个二维稀疏矩阵,当做图像送入CNN,与非
: 稀疏矩阵比,在芯片上能否做优化?
: 一个简单的想法是,在做卷积时,如果一旦乘法的一个输入是0,输出直接赋值为0,不
: 需要常规的乘法器了
: CPU/GPU上估计讨不到便宜,我问的是如果是ASIC,有没有实现手段可以省下这部分运算?
:
:
: 不知道。假如这问题等价于
:
: :
:
: 在输入中随机插入0,达到同等
:
: 效果的情况下,能否减少训练时间。我猜答案是否定的。

w***g
发帖数: 5958
8
芯片里面主要也是算法,也需要读取内存。
无非就是用verilog写程序。现在好像都可以用C写了。
AWS上好像有FPGA instance可以用。
我感觉内存方面一个可能的创新就是完全抛开cache,
直接利用庞大的主机内存进行随机sparse操作。

【在 g****t 的大作中提到】
: 如果纯矩阵计算速度。那wdong说的没问题。
: 或者手册上更细节的算法也有。你进一步
: 把矩阵拆行拆列,内存优化下。
: 这些都可以做。
: 但是同样都是训练数据集。
: 稀疏的和非稀疏的,哪个信息多?
: 这问题不好回答。
: 芯片问题网上不宜讨论。
: 算法属于纯数学,
: 可以讨论。

g****t
发帖数: 31659
9
原理多年没有什么大变化。但是现实设计的话。约束变化
会导致实际设计很多变化
一条spec做错就全死了。发热,耗电等等。内存主要是
会影响价格。每一条细节都需要大量的工作才能定下来。
之前高通一代CPU发热丢了三星的单子,
到今天还没收场。说不定要分拆并购都有可能。
他们那CPU的带头VP是个老印,以前把我所在公司一
个CPU组废了,打一枪换个地方几年前去了高通。


: 芯片里面主要也是算法,也需要读取内存。

: 无非就是用verilog写程序。现在好像都可以用C写了。

: AWS上好像有FPGA instance可以用。

: 我感觉内存方面一个可能的创新就是完全抛开cache,

: 直接利用庞大的主机内存进行随机sparse操作。



【在 w***g 的大作中提到】
: 芯片里面主要也是算法,也需要读取内存。
: 无非就是用verilog写程序。现在好像都可以用C写了。
: AWS上好像有FPGA instance可以用。
: 我感觉内存方面一个可能的创新就是完全抛开cache,
: 直接利用庞大的主机内存进行随机sparse操作。

w*****r
发帖数: 197
10
你这话说得会让硅工吐血的。。。
虽然芯片设计起初跟软件一样,也是编程,当它的toolchain要比软件长很多,不像写
出脚本或是再用gcc编译一下源码就能干活了。而且描述硬件逻辑和描述软件逻辑也不
太一样。
深度学习如果真成了未来的方向(其实这个我还不太确定),做到极致,我感觉必须要
摆脱常规计算机体系结构的束缚,作为系统中的一个特殊“模块“存在。

【在 w***g 的大作中提到】
: 芯片里面主要也是算法,也需要读取内存。
: 无非就是用verilog写程序。现在好像都可以用C写了。
: AWS上好像有FPGA instance可以用。
: 我感觉内存方面一个可能的创新就是完全抛开cache,
: 直接利用庞大的主机内存进行随机sparse操作。

g****t
发帖数: 31659
11
数据---->算法--->软件--->硬件
第一层还没收敛。感觉硬件DL收敛到统一的结构还早。另外也许这条路永远走不完。只能
很小一部分出硬件。例如特殊的部分问题的ML计算协处理器。
因为Web browser 也出统一的硬件。(Steve jobs倒是
有这个眼光。当初他废除flash 那封信,thoughts on flash
有一条就是说H.264 )


: 你这话说得会让硅工吐血的。。。

: 虽然芯片设计起初跟软件一样,也是编程,当它的toolchain要比软件长
很多,
不像写

: 出脚本或是再用gcc编译一下源码就能干活了。而且描述硬件逻辑和描述
软件逻
辑也不

: 太一样。

: 深度学习如果真成了未来的方向(其实这个我还不太确定),做到极致,
我感觉
必须要

: 摆脱常规计算机体系结构的束缚,作为系统中的一个特殊“模块&
ldquo;存在。



【在 w*****r 的大作中提到】
: 你这话说得会让硅工吐血的。。。
: 虽然芯片设计起初跟软件一样,也是编程,当它的toolchain要比软件长很多,不像写
: 出脚本或是再用gcc编译一下源码就能干活了。而且描述硬件逻辑和描述软件逻辑也不
: 太一样。
: 深度学习如果真成了未来的方向(其实这个我还不太确定),做到极致,我感觉必须要
: 摆脱常规计算机体系结构的束缚,作为系统中的一个特殊“模块“存在。

w***g
发帖数: 5958
12
这个我同意。现在出硬件的,很可能算法一改全军覆没。
毕竟现在的CNN基本还是80年代的算法,而钱又已经砸下去这么多了,
可以期望一点突破了。

只能

【在 g****t 的大作中提到】
: 数据---->算法--->软件--->硬件
: 第一层还没收敛。感觉硬件DL收敛到统一的结构还早。另外也许这条路永远走不完。只能
: 很小一部分出硬件。例如特殊的部分问题的ML计算协处理器。
: 因为Web browser 也出统一的硬件。(Steve jobs倒是
: 有这个眼光。当初他废除flash 那封信,thoughts on flash
: 有一条就是说H.264 )
:
:
: 你这话说得会让硅工吐血的。。。
:
: 虽然芯片设计起初跟软件一样,也是编程,当它的toolchain要比软件长
: 很多,

g****t
发帖数: 31659
13
狭窄的小领域,可能具备条件可以上硬件。例如人脸识别芯片。
但是和cloud service要竞争。amzon出了recognization service了。

【在 w***g 的大作中提到】
: 这个我同意。现在出硬件的,很可能算法一改全军覆没。
: 毕竟现在的CNN基本还是80年代的算法,而钱又已经砸下去这么多了,
: 可以期望一点突破了。
:
: 只能

s*******g
发帖数: 187
14
在compiler层面实现是不是就足够了
http://tensor-compiler.org/publications.html

【在 w*****r 的大作中提到】
: 如果输入信号(以图像为例)有很多零,但零的位置是随机的。CNN的芯片实现可以利
: 用这个特征,显著减少计算量吗?

1 (共1页)
进入Programming版参与讨论
相关主题
matlab C API 怎么用啊??比特币的算法可以被破解吗?
gnu c++ 自带的库能解矩阵方程吗?魏老师聊聊FPGA吧
什么风格是pythonic?ee这个行当是不是就是搞点电器之类的?
郁闷啊最近内存加个飙升啊
学习C++是浪费你的生命懂deepmind得说说
sparse linear Ax = b , 有什么好办法解 x ?FPGA-based DNNs
成了个deep learning版面如何?请问Python初学者怎么学
ffmpeg 移植为 javascript 了用eclipse的看过来
相关话题的讨论汇总
话题: br话题: 芯片话题: guvest话题: cpu话题: 软件