由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 我觉得正真的云计算时代要来了
相关主题
妈的怎么那么多鸡毛语言/软件没人讨论这个?
这个总结的 ai 最新趋势真不错并行可以降低计算复杂度??
AI的终极优化目标tensorflow serving
GPU高手谈谈怎么利用GPU做data intensive的计算和mapreduce 吧可以简单粗暴的矩阵化的程序,都会被...
请问程序同时在多个cpu上运行需要怎么改程序?ubuntu apt-get 404了
谈谈想学好底层必不可少的东西芯片應該為軟件服務,譬如硬件加速的虛擬內存MMU、虛擬GPU、虛
写给对系统感兴趣的人这种数值的问题怎么办呢
nv的显卡能战胜intel的CPU么问个加号重载的问题
相关话题的讨论汇总
话题: 算力话题: 寄存器话题: 无限话题: br话题: 计算
进入Programming版参与讨论
1 (共1页)
w*****r
发帖数: 197
1
云计算刚被提出来时,主要是做存储和伺服器。后来大数据来了,可以挖掘,但是产生
价值的效率有瓶颈,所以显得有点不痛不痒。再后来,就是深度学习了,确实火了,但
是训练规模还是小。接下来,我觉得会有一个近乎无限数据,无限算力的时代,ML模型
将是软件的常态。
m*****n
发帖数: 3575
2
“我觉得会有一个近乎无限数据,无限算力的时代”
显卡都上10纳米 7纳米了
这已经是硅基芯片的极限了
所以目前的算力已经是极限算力了
x****u
发帖数: 44466
3
现在的CPU是优化低延迟和逻辑运算,数值上的优化空间还很大
如果人类决定走神经网络的路线,保守估计单机7nm也能做到现在的1000倍速度

【在 m*****n 的大作中提到】
: “我觉得会有一个近乎无限数据,无限算力的时代”
: 显卡都上10纳米 7纳米了
: 这已经是硅基芯片的极限了
: 所以目前的算力已经是极限算力了

m******r
发帖数: 1033
4
你们又在关心人类的未来,宇宙的极限。 佩服佩服。
s******y
发帖数: 172
5
能不能展开讲讲?多谢。

【在 x****u 的大作中提到】
: 现在的CPU是优化低延迟和逻辑运算,数值上的优化空间还很大
: 如果人类决定走神经网络的路线,保守估计单机7nm也能做到现在的1000倍速度

x****u
发帖数: 44466
6
把现有ic上做巨大的多级cache,分支预测流水线乱序等等黑魔法全去掉然后往死里堆
只支持一二种激活函数的简单alu,ram连接本地化
这样的架构算神经网络死快,跑传统程序退回20年前的速度

【在 s******y 的大作中提到】
: 能不能展开讲讲?多谢。
w*****r
发帖数: 197
7
单卡瓶颈在云面前都不是事儿


: “我觉得会有一个近乎无限数据,无限算力的时代”

: 显卡都上10纳米 7纳米了

: 这已经是硅基芯片的极限了

: 所以目前的算力已经是极限算力了



【在 m*****n 的大作中提到】
: “我觉得会有一个近乎无限数据,无限算力的时代”
: 显卡都上10纳米 7纳米了
: 这已经是硅基芯片的极限了
: 所以目前的算力已经是极限算力了

m*****n
发帖数: 3575
8
花钱啊

【在 w*****r 的大作中提到】
: 单卡瓶颈在云面前都不是事儿
:
:
: “我觉得会有一个近乎无限数据,无限算力的时代”
:
: 显卡都上10纳米 7纳米了
:
: 这已经是硅基芯片的极限了
:
: 所以目前的算力已经是极限算力了
:

g****t
发帖数: 31659
9
乘法是可以查表的...
以前的大型计算机也有过纯rom,ram的。
现在这套intc的东西和早先的CPU其实不太对的上号。
我之前讲过,微处理器是个学神经网络的博士发明的。
现在估计做软件的没几个知道microCPU和CPU不是一回事了。
实际上你要是查表算乘法,不走通用指令集,专门出一个深学协处理器。那速度限制就
只在IO
了。
不要笑,99乘法表类似的东西做乘法最快。


: “我觉得会有一个近乎无限数据,无限算力的时代”

: 显卡都上10纳米 7纳米了

: 这已经是硅基芯片的极限了

: 所以目前的算力已经是极限算力了



【在 m*****n 的大作中提到】
: 花钱啊
G*******d
发帖数: 8
10
查表是很慢的。深度学习现在慢的不是在计算部分,“一次”计算至少要访问“三次”
操作数(两次读,一次写)。寄存器的瓶颈压力极大。要增加寄存器数目的话,寄存器
访问速度会严重下降,不要说去访问L1,L2,L3 cache了。目前nvidia的所有架构都存在
这个问题。
“数据搬运”是非常昂贵的,大部分功耗发生在数据搬运上面。计算单元器件可以做到
local,但是寄存器,cache微观地看,距离计算单元较远,汇入连线的密度也不能无限
制增加,这是物理制程决定的。

【在 g****t 的大作中提到】
: 乘法是可以查表的...
: 以前的大型计算机也有过纯rom,ram的。
: 现在这套intc的东西和早先的CPU其实不太对的上号。
: 我之前讲过,微处理器是个学神经网络的博士发明的。
: 现在估计做软件的没几个知道microCPU和CPU不是一回事了。
: 实际上你要是查表算乘法,不走通用指令集,专门出一个深学协处理器。那速度限制就
: 只在IO
: 了。
: 不要笑,99乘法表类似的东西做乘法最快。
:

x****u
发帖数: 44466
11
x86缺寄存器,把cache当寄存器用是非常变态的,引入了无数肮脏的优化技巧

【在 G*******d 的大作中提到】
: 查表是很慢的。深度学习现在慢的不是在计算部分,“一次”计算至少要访问“三次”
: 操作数(两次读,一次写)。寄存器的瓶颈压力极大。要增加寄存器数目的话,寄存器
: 访问速度会严重下降,不要说去访问L1,L2,L3 cache了。目前nvidia的所有架构都存在
: 这个问题。
: “数据搬运”是非常昂贵的,大部分功耗发生在数据搬运上面。计算单元器件可以做到
: local,但是寄存器,cache微观地看,距离计算单元较远,汇入连线的密度也不能无限
: 制增加,这是物理制程决定的。

g****t
发帖数: 31659
12
把CPU等同於x86架構是不對的。我們半導體公司一般稱之為
Micro processor。
你們可以看一下乘法的電路。
數字電路借助編碼,可以靈活運用於不同的問題域。但是如果是狹窄的領域,則不需要
數字電路也可以做實用的計算。


: x86缺寄存器,把cache当寄存器用是非常变态的,引入了无数肮脏的优化
技巧



【在 x****u 的大作中提到】
: x86缺寄存器,把cache当寄存器用是非常变态的,引入了无数肮脏的优化技巧
x****u
发帖数: 44466
13
x86是典型的通用CPU,GPU也是图灵完全的,但是一般称之为GPU不叫micro processor
什么任务做专用数字电路,什么任务用软件模拟,归根结底要看软件发展水平和硬件成本

【在 g****t 的大作中提到】
: 把CPU等同於x86架構是不對的。我們半導體公司一般稱之為
: Micro processor。
: 你們可以看一下乘法的電路。
: 數字電路借助編碼,可以靈活運用於不同的問題域。但是如果是狹窄的領域,則不需要
: 數字電路也可以做實用的計算。
:
:
: x86缺寄存器,把cache当寄存器用是非常变态的,引入了无数肮脏的优化
: 技巧
:

1 (共1页)
进入Programming版参与讨论
相关主题
a[i]=i++请问程序同时在多个cpu上运行需要怎么改程序?
About volatile in C谈谈想学好底层必不可少的东西
C怪问题一个写给对系统感兴趣的人
如何实现微秒精度的time stampnv的显卡能战胜intel的CPU么
妈的怎么那么多鸡毛语言/软件没人讨论这个?
这个总结的 ai 最新趋势真不错并行可以降低计算复杂度??
AI的终极优化目标tensorflow serving
GPU高手谈谈怎么利用GPU做data intensive的计算和mapreduce 吧可以简单粗暴的矩阵化的程序,都会被...
相关话题的讨论汇总
话题: 算力话题: 寄存器话题: 无限话题: br话题: 计算