由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 有同学见过Titan V数值精度问题吗?
相关主题
胡扯几句什么叫Deep Learning入门volta一出,业余玩家都要玩完啦
马工能转数据分析师吗?GPU的本质
想上手deep learning的看过来问个docker做pipeline的基础问题
问wdong一个问题,学习openGL从哪儿开始学好问几个神经网络的问题
golang為什麼語法和關鍵詞這麼冷門?我来科普下深度学习的应用范围吧
被docker气死了业余时间想做一个project
linux怎么快速重装系统保持原来的配置?计算和学习根本就是两回事
请推荐java 机器学习库 。。。LSTM 是不是坨屎?
相关话题的讨论汇总
话题: cudnn话题: nan话题: titan话题: cuda话题: 问题
进入Programming版参与讨论
1 (共1页)
w***g
发帖数: 5958
1
同样的model,上了titan v几个iteration后loss就爆炸了(快速增长直到NaN)
我开始以为是docker的问题,但是在docker外面跑也还是爆炸。
并不是所有的程序都有这个问题,有的程序在titan v上跑得很正常。
有同学见过么?
l*******m
发帖数: 1096
2
和Titan v没关系吧。把var init减小些,特别是dense layer的 init

:同样的model,上了titan v几个iteration后loss就爆炸了(快速增长直到NaN)
:我开始以为是docker的问题,但是在docker外面跑也还是爆炸。
s*********1
发帖数: 12
3
楼主用的是什么framework,什么cuda/cudnn版本?
1.model里用了batchNormalizaiton没有,试试去掉batchNorm还会不会出NaN? 如果是的
话,试试调小LR,楼上说的把var init减小应该也有帮助
2.如果model里有RNN,GV100 + cuDNN 7.1.4/7.1.3有小概率会产生NaN,换成新的cuDNN
7.2.1就好了
m*****k
发帖数: 58
4
https://www.theregister.co.uk/2018/03/21/nvidia_titan_v_reproducibility/
单位IT跟我提过,没想到真有人遇到这个问题了

【在 w***g 的大作中提到】
: 同样的model,上了titan v几个iteration后loss就爆炸了(快速增长直到NaN)
: 我开始以为是docker的问题,但是在docker外面跑也还是爆炸。
: 并不是所有的程序都有这个问题,有的程序在titan v上跑得很正常。
: 有同学见过么?

w***g
发帖数: 5958
5
这个问题还没有解决。真是堵心。本来能用到牛卡还是很高兴的。

【在 m*****k 的大作中提到】
: https://www.theregister.co.uk/2018/03/21/nvidia_titan_v_reproducibility/
: 单位IT跟我提过,没想到真有人遇到这个问题了

l*******m
发帖数: 1096
6
安装最新的driver,CUDA9.2和patch。9.1莫名地被拿下了,可能和V有关

【在 w***g 的大作中提到】
: 这个问题还没有解决。真是堵心。本来能用到牛卡还是很高兴的。
L****8
发帖数: 3938
7
1080ti 有类似问题么?

【在 w***g 的大作中提到】
: 同样的model,上了titan v几个iteration后loss就爆炸了(快速增长直到NaN)
: 我开始以为是docker的问题,但是在docker外面跑也还是爆炸。
: 并不是所有的程序都有这个问题,有的程序在titan v上跑得很正常。
: 有同学见过么?

w***g
发帖数: 5958
8
10x0 大部分我都用过,没这问题。
更新驱动tf不支持啊。我会试试。

:1080ti 有类似问题么?
:【 在 wdong (万事休) 的大作中提到: 】
s*********1
发帖数: 12
9
关键要装新的cuDNN, 因为所有数值操作都是cuDNN在算, 如果碰到cuDNN的bug就有可能
会出NaN
装新的cuda toolkit没有用, 因为cuDNN并不depend on cuda toolkit, 但是装新的驱
动不会有坏处,不会有不支持的情况
4楼说的问题八成是因为driver或者cuDNN, cuBLAS里面有个软件bug, 硬件bug很难碰到
s*********1
发帖数: 12
10
@wdong既然已经发布了就可以跟你说了, 试试最新的cuDNN7.3.1吧.之前有一个
batchNorm的bug可能会产生NaN, 现在已经修复了, 具体看7.3.0的release notes第四点
https://docs.nvidia.com/deeplearning/sdk/cudnn-release-notes/rel_730.html#
rel_730
相关主题
linux怎么快速重装系统保持原来的配置?GPU的本质
请推荐java 机器学习库 。。。问个docker做pipeline的基础问题
volta一出,业余玩家都要玩完啦问几个神经网络的问题
进入Programming版参与讨论
l*******m
发帖数: 1096
11
tf应该没用cudnn的batch norm

:@wdong既然已经发布了就可以跟你说了, 试试最新的cuDNN7.3.1吧.之前有一个
:batchNorm的bug可能会产生NaN, 现在已经修复了, 具体看7.3.0的release notes第
四点
w***g
发帖数: 5958
12
谢谢! 看来近期必须升级工具链了。我还在用tf1.6。

四点

【在 s*********1 的大作中提到】
: @wdong既然已经发布了就可以跟你说了, 试试最新的cuDNN7.3.1吧.之前有一个
: batchNorm的bug可能会产生NaN, 现在已经修复了, 具体看7.3.0的release notes第四点
: https://docs.nvidia.com/deeplearning/sdk/cudnn-release-notes/rel_730.html#
: rel_730

s*********1
发帖数: 12
13
有可能会用到吧,至少tf里有它的wrapper
https://github.com/tensorflow/tensorflow/blob/
1cb8940078f6be9313899734e1307a69fffc4b6f/tensorflow/stream_executor/cuda/
cuda_dnn.cc

【在 l*******m 的大作中提到】
: tf应该没用cudnn的batch norm
:
: :@wdong既然已经发布了就可以跟你说了, 试试最新的cuDNN7.3.1吧.之前有一个
: :batchNorm的bug可能会产生NaN, 现在已经修复了, 具体看7.3.0的release notes第
: 四点

w***g
发帖数: 5958
14
同样的model,上了titan v几个iteration后loss就爆炸了(快速增长直到NaN)
我开始以为是docker的问题,但是在docker外面跑也还是爆炸。
并不是所有的程序都有这个问题,有的程序在titan v上跑得很正常。
有同学见过么?
l*******m
发帖数: 1096
15
和Titan v没关系吧。把var init减小些,特别是dense layer的 init

:同样的model,上了titan v几个iteration后loss就爆炸了(快速增长直到NaN)
:我开始以为是docker的问题,但是在docker外面跑也还是爆炸。
s*********1
发帖数: 12
16
楼主用的是什么framework,什么cuda/cudnn版本?
1.model里用了batchNormalizaiton没有,试试去掉batchNorm还会不会出NaN? 如果是的
话,试试调小LR,楼上说的把var init减小应该也有帮助
2.如果model里有RNN,GV100 + cuDNN 7.1.4/7.1.3有小概率会产生NaN,换成新的cuDNN
7.2.1就好了
m*****k
发帖数: 58
17
https://www.theregister.co.uk/2018/03/21/nvidia_titan_v_reproducibility/
单位IT跟我提过,没想到真有人遇到这个问题了

【在 w***g 的大作中提到】
: 同样的model,上了titan v几个iteration后loss就爆炸了(快速增长直到NaN)
: 我开始以为是docker的问题,但是在docker外面跑也还是爆炸。
: 并不是所有的程序都有这个问题,有的程序在titan v上跑得很正常。
: 有同学见过么?

w***g
发帖数: 5958
18
这个问题还没有解决。真是堵心。本来能用到牛卡还是很高兴的。

【在 m*****k 的大作中提到】
: https://www.theregister.co.uk/2018/03/21/nvidia_titan_v_reproducibility/
: 单位IT跟我提过,没想到真有人遇到这个问题了

l*******m
发帖数: 1096
19
安装最新的driver,CUDA9.2和patch。9.1莫名地被拿下了,可能和V有关

【在 w***g 的大作中提到】
: 这个问题还没有解决。真是堵心。本来能用到牛卡还是很高兴的。
L****8
发帖数: 3938
20
1080ti 有类似问题么?

【在 w***g 的大作中提到】
: 同样的model,上了titan v几个iteration后loss就爆炸了(快速增长直到NaN)
: 我开始以为是docker的问题,但是在docker外面跑也还是爆炸。
: 并不是所有的程序都有这个问题,有的程序在titan v上跑得很正常。
: 有同学见过么?

相关主题
我来科普下深度学习的应用范围吧LSTM 是不是坨屎?
业余时间想做一个project对于现在machine learning有个问题,请指教
计算和学习根本就是两回事CNN做NLP工程多吗?
进入Programming版参与讨论
w***g
发帖数: 5958
21
10x0 大部分我都用过,没这问题。
更新驱动tf不支持啊。我会试试。

:1080ti 有类似问题么?
:【 在 wdong (万事休) 的大作中提到: 】
s*********1
发帖数: 12
22
关键要装新的cuDNN, 因为所有数值操作都是cuDNN在算, 如果碰到cuDNN的bug就有可能
会出NaN
装新的cuda toolkit没有用, 因为cuDNN并不depend on cuda toolkit, 但是装新的驱
动不会有坏处,不会有不支持的情况
4楼说的问题八成是因为driver或者cuDNN, cuBLAS里面有个软件bug, 硬件bug很难碰到
s*********1
发帖数: 12
23
@wdong既然已经发布了就可以跟你说了, 试试最新的cuDNN7.3.1吧.之前有一个
batchNorm的bug可能会产生NaN, 现在已经修复了, 具体看7.3.0的release notes第四点
https://docs.nvidia.com/deeplearning/sdk/cudnn-release-notes/rel_730.html#
rel_730
l*******m
发帖数: 1096
24
tf应该没用cudnn的batch norm

:@wdong既然已经发布了就可以跟你说了, 试试最新的cuDNN7.3.1吧.之前有一个
:batchNorm的bug可能会产生NaN, 现在已经修复了, 具体看7.3.0的release notes第
四点
w***g
发帖数: 5958
25
谢谢! 看来近期必须升级工具链了。我还在用tf1.6。

四点

【在 s*********1 的大作中提到】
: @wdong既然已经发布了就可以跟你说了, 试试最新的cuDNN7.3.1吧.之前有一个
: batchNorm的bug可能会产生NaN, 现在已经修复了, 具体看7.3.0的release notes第四点
: https://docs.nvidia.com/deeplearning/sdk/cudnn-release-notes/rel_730.html#
: rel_730

s*********1
发帖数: 12
26
有可能会用到吧,至少tf里有它的wrapper
https://github.com/tensorflow/tensorflow/blob/
1cb8940078f6be9313899734e1307a69fffc4b6f/tensorflow/stream_executor/cuda/
cuda_dnn.cc

【在 l*******m 的大作中提到】
: tf应该没用cudnn的batch norm
:
: :@wdong既然已经发布了就可以跟你说了, 试试最新的cuDNN7.3.1吧.之前有一个
: :batchNorm的bug可能会产生NaN, 现在已经修复了, 具体看7.3.0的release notes第
: 四点

L****8
发帖数: 3938
27
请问 这个问题解决了么?
打算买titan V 怕浪费钱了

【在 w***g 的大作中提到】
: 谢谢! 看来近期必须升级工具链了。我还在用tf1.6。
:
: 四点

1 (共1页)
进入Programming版参与讨论
相关主题
对于现在machine learning有个问题,请指教golang為什麼語法和關鍵詞這麼冷門?
CNN做NLP工程多吗?被docker气死了
为什么grid search伤人品linux怎么快速重装系统保持原来的配置?
groovy 不错啊请推荐java 机器学习库 。。。
胡扯几句什么叫Deep Learning入门volta一出,业余玩家都要玩完啦
马工能转数据分析师吗?GPU的本质
想上手deep learning的看过来问个docker做pipeline的基础问题
问wdong一个问题,学习openGL从哪儿开始学好问几个神经网络的问题
相关话题的讨论汇总
话题: cudnn话题: nan话题: titan话题: cuda话题: 问题