guvest，问你个问题 - Programming版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - guvest，问你个问题

相关主题
● 学习C++是浪费你的生命	● 懂deepmind得说说
● sparse linear Ax = b , 有什么好办法解 x ?	● FPGA-based DNNs
● 成了个deep learning版面如何？	● 请问Python初学者怎么学
● ffmpeg 移植为 javascript 了	● 用eclipse的看过来
● 比特币的算法可以被破解吗？	● linx desktop里的arm toolchain升级会影响system lib吗？
● 魏老师聊聊FPGA吧	● This Mysterious Chip In The iPhone 7 Could Be Key To Apple's AI Push
● ee这个行当是不是就是搞点电器之类的？	● question regarding standard library
● 最近内存加个飙升啊	● matlab C API 怎么用啊？？

相关话题的讨论汇总
话题: br话题: 芯片话题: guvest话题: cpu话题: 软件

进入Programming版参与讨论

1

(共1页)

w*****r 发帖数: 197	1 如果输入信号（以图像为例）有很多零，但零的位置是随机的。CNN的芯片实现可以利用这个特征，显著减少计算量吗？
g****t 发帖数: 31659	2 不知道。假如这问题等价于：在输入中随机插入0，达到同等效果的情况下，能否减少训练时间。我猜答案是否定的。因为信息损失了。
w***g 发帖数: 5958	3 sparse blas. CPU做因为cache的问题讨不了太多好。或许可以通过数学方式把几层sparse合成一层优化。按风水轮流转的原理，这方面将来肯定要突破的。不然没法做symbolic inference。【在 g****t 的大作中提到】 : 不知道。假如这问题等价于 : ： : 在输入中随机插入0，达到同等 : 效果的情况下，能否减少训练时间。我猜答案是否定的。 : 因为信息损失了。
w*****r 发帖数: 197	4 不确定我是否表述清楚了。我们可以认为一个二维稀疏矩阵，当做图像送入CNN，与非稀疏矩阵比，在芯片上能否做优化？一个简单的想法是，在做卷积时，如果一旦乘法的一个输入是0，输出直接赋值为0，不需要常规的乘法器了 CPU/GPU上估计讨不到便宜，我问的是如果是ASIC,有没有实现手段可以省下这部分运算？ : 不知道。假如这问题等价于 : ： : 在输入中随机插入0，达到同等 : 效果的情况下，能否减少训练时间。我猜答案是否定的。 : 因为信息损失了。【在 g****t 的大作中提到】 : 不知道。假如这问题等价于 : ： : 在输入中随机插入0，达到同等 : 效果的情况下，能否减少训练时间。我猜答案是否定的。 : 因为信息损失了。
w***g 发帖数: 5958	5 如果对sparsity做某种假设，比如一个3*3的window最多一个输入非零(算上channel,其实一个不算少)，那么conv指令的电路就能简化。训练的时候对应做drop out就行。这个省了8次乘法外加8次加法，快十倍了。不过对底层网络输出稠密时就不起作用了。这个软件模拟很容易验证有效性。搞一个这种巧妙的计算单元，软件验证有效性后申请专利，估计是比较好的赚钱方法了吧。
g****t 发帖数: 31659	6 他问的是芯片问题。这种问题网上是不宜讨论的。另外不管什么技术，离赚钱都挺远的。我刚和一个你们北大做图像的哥们喝了两杯。他说之前拿下来海康威视的芯片生意。然后就被整残废了。公司都没法呆了。他说美国白人觉得你们这些老中都是讨饭的。当奴隶是应该的，拿走你的credit也是应该的。所以他现在只和欧洲人合作。欧洲人在美国的公司混饭吃比较靠谱。本身都是移民。 : 如果对sparsity做某种假设，比如一个33的window最多一个输入非零(算上 channel,其 : 实一个不算少)，那么conv指令的电路就能简化。训练的时候对应做drop out就行。这 : 个省了8次乘法外加8次加法，快十倍了。不过对底层网络输出稠密时就不起作用了。这 : 个软件模拟很容易验证有效性。 : 搞一个这种巧妙的计算单元，软件验证有效性后申请专利，估计是比较好的赚钱方法了 : 吧。【在 w*g 的大作中提到】 : 如果对sparsity做某种假设，比如一个33的window最多一个输入非零(算上channel,其 : 实一个不算少)，那么conv指令的电路就能简化。训练的时候对应做drop out就行。这 : 个省了8次乘法外加8次加法，快十倍了。不过对底层网络输出稠密时就不起作用了。这 : 个软件模拟很容易验证有效性。 : 搞一个这种巧妙的计算单元，软件验证有效性后申请专利，估计是比较好的赚钱方法了 : 吧。
g****t 发帖数: 31659	7 如果纯矩阵计算速度。那wdong说的没问题。或者手册上更细节的算法也有。你进一步把矩阵拆行拆列，内存优化下。这些都可以做。但是同样都是训练数据集。稀疏的和非稀疏的，哪个信息多？这问题不好回答。芯片问题网上不宜讨论。算法属于纯数学，可以讨论。矩阵乘法芯片现有的专利很多，例如： https://www.google.com/patents/US20140108481 Www.google.com/patents/US20140108481 : 不确定我是否表述清楚了。我们可以认为一个二维稀疏矩阵，当做图像送入CNN ，与非 : 稀疏矩阵比，在芯片上能否做优化？ : 一个简单的想法是，在做卷积时，如果一旦乘法的一个输入是0，输出直接赋值为0，不 : 需要常规的乘法器了 : CPU/GPU上估计讨不到便宜，我问的是如果是ASIC,有没有实现手段可以省下这部分运算？【在 w*****r 的大作中提到】 : 不确定我是否表述清楚了。我们可以认为一个二维稀疏矩阵，当做图像送入CNN，与非 : 稀疏矩阵比，在芯片上能否做优化？ : 一个简单的想法是，在做卷积时，如果一旦乘法的一个输入是0，输出直接赋值为0，不 : 需要常规的乘法器了 : CPU/GPU上估计讨不到便宜，我问的是如果是ASIC,有没有实现手段可以省下这部分运算？ : : : 不知道。假如这问题等价于 : : ： : : 在输入中随机插入0，达到同等 : : 效果的情况下，能否减少训练时间。我猜答案是否定的。
w***g 发帖数: 5958	8 芯片里面主要也是算法，也需要读取内存。无非就是用verilog写程序。现在好像都可以用C写了。 AWS上好像有FPGA instance可以用。我感觉内存方面一个可能的创新就是完全抛开cache，直接利用庞大的主机内存进行随机sparse操作。【在 g****t 的大作中提到】 : 如果纯矩阵计算速度。那wdong说的没问题。 : 或者手册上更细节的算法也有。你进一步 : 把矩阵拆行拆列，内存优化下。 : 这些都可以做。 : 但是同样都是训练数据集。 : 稀疏的和非稀疏的，哪个信息多？ : 这问题不好回答。 : 芯片问题网上不宜讨论。 : 算法属于纯数学， : 可以讨论。
g****t 发帖数: 31659	9 原理多年没有什么大变化。但是现实设计的话。约束变化会导致实际设计很多变化一条spec做错就全死了。发热，耗电等等。内存主要是会影响价格。每一条细节都需要大量的工作才能定下来。之前高通一代CPU发热丢了三星的单子，到今天还没收场。说不定要分拆并购都有可能。他们那CPU的带头VP是个老印，以前把我所在公司一个CPU组废了，打一枪换个地方几年前去了高通。 : 芯片里面主要也是算法，也需要读取内存。 : 无非就是用verilog写程序。现在好像都可以用C写了。 : AWS上好像有FPGA instance可以用。 : 我感觉内存方面一个可能的创新就是完全抛开cache， : 直接利用庞大的主机内存进行随机sparse操作。【在 w***g 的大作中提到】 : 芯片里面主要也是算法，也需要读取内存。 : 无非就是用verilog写程序。现在好像都可以用C写了。 : AWS上好像有FPGA instance可以用。 : 我感觉内存方面一个可能的创新就是完全抛开cache， : 直接利用庞大的主机内存进行随机sparse操作。
w*****r 发帖数: 197	10 你这话说得会让硅工吐血的。。。虽然芯片设计起初跟软件一样，也是编程，当它的toolchain要比软件长很多，不像写出脚本或是再用gcc编译一下源码就能干活了。而且描述硬件逻辑和描述软件逻辑也不太一样。深度学习如果真成了未来的方向（其实这个我还不太确定），做到极致，我感觉必须要摆脱常规计算机体系结构的束缚，作为系统中的一个特殊“模块“存在。【在 w***g 的大作中提到】 : 芯片里面主要也是算法，也需要读取内存。 : 无非就是用verilog写程序。现在好像都可以用C写了。 : AWS上好像有FPGA instance可以用。 : 我感觉内存方面一个可能的创新就是完全抛开cache， : 直接利用庞大的主机内存进行随机sparse操作。
g****t 发帖数: 31659	11 数据---->算法--->软件--->硬件第一层还没收敛。感觉硬件DL收敛到统一的结构还早。另外也许这条路永远走不完。只能很小一部分出硬件。例如特殊的部分问题的ML计算协处理器。因为Web browser 也出统一的硬件。(Steve jobs倒是有这个眼光。当初他废除flash 那封信，thoughts on flash 有一条就是说H.264 ) : 你这话说得会让硅工吐血的。。。 : 虽然芯片设计起初跟软件一样，也是编程，当它的toolchain要比软件长很多，不像写 : 出脚本或是再用gcc编译一下源码就能干活了。而且描述硬件逻辑和描述软件逻辑也不 : 太一样。 : 深度学习如果真成了未来的方向（其实这个我还不太确定），做到极致，我感觉必须要 : 摆脱常规计算机体系结构的束缚，作为系统中的一个特殊“模块& ldquo;存在。【在 w*****r 的大作中提到】 : 你这话说得会让硅工吐血的。。。 : 虽然芯片设计起初跟软件一样，也是编程，当它的toolchain要比软件长很多，不像写 : 出脚本或是再用gcc编译一下源码就能干活了。而且描述硬件逻辑和描述软件逻辑也不 : 太一样。 : 深度学习如果真成了未来的方向（其实这个我还不太确定），做到极致，我感觉必须要 : 摆脱常规计算机体系结构的束缚，作为系统中的一个特殊“模块“存在。
w***g 发帖数: 5958	12 这个我同意。现在出硬件的，很可能算法一改全军覆没。毕竟现在的CNN基本还是80年代的算法，而钱又已经砸下去这么多了，可以期望一点突破了。只能【在 g****t 的大作中提到】 : 数据---->算法--->软件--->硬件 : 第一层还没收敛。感觉硬件DL收敛到统一的结构还早。另外也许这条路永远走不完。只能 : 很小一部分出硬件。例如特殊的部分问题的ML计算协处理器。 : 因为Web browser 也出统一的硬件。(Steve jobs倒是 : 有这个眼光。当初他废除flash 那封信，thoughts on flash : 有一条就是说H.264 ) : : : 你这话说得会让硅工吐血的。。。 : : 虽然芯片设计起初跟软件一样，也是编程，当它的toolchain要比软件长 : 很多，
g****t 发帖数: 31659	13 狭窄的小领域，可能具备条件可以上硬件。例如人脸识别芯片。但是和cloud service要竞争。amzon出了recognization service了。【在 w***g 的大作中提到】 : 这个我同意。现在出硬件的，很可能算法一改全军覆没。 : 毕竟现在的CNN基本还是80年代的算法，而钱又已经砸下去这么多了， : 可以期望一点突破了。 : : 只能
s*******g 发帖数: 187	14 在compiler层面实现是不是就足够了 http://tensor-compiler.org/publications.html 【在 w*****r 的大作中提到】 : 如果输入信号（以图像为例）有很多零，但零的位置是随机的。CNN的芯片实现可以利 : 用这个特征，显著减少计算量吗？

1

(共1页)

进入Programming版参与讨论

相关主题
● matlab C API 怎么用啊？？	● 比特币的算法可以被破解吗？
● gnu c++ 自带的库能解矩阵方程吗？	● 魏老师聊聊FPGA吧
● 什么风格是pythonic？	● ee这个行当是不是就是搞点电器之类的？
● 郁闷啊	● 最近内存加个飙升啊
● 学习C++是浪费你的生命	● 懂deepmind得说说
● sparse linear Ax = b , 有什么好办法解 x ?	● FPGA-based DNNs
● 成了个deep learning版面如何？	● 请问Python初学者怎么学
● ffmpeg 移植为 javascript 了	● 用eclipse的看过来

相关话题的讨论汇总
话题: br话题: 芯片话题: guvest话题: cpu话题: 软件

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)