有同学见过Titan V数值精度问题吗？ - Programming版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - 有同学见过Titan V数值精度问题吗？

相关主题
● 胡扯几句什么叫Deep Learning入门	● volta一出，业余玩家都要玩完啦
● 马工能转数据分析师吗？	● GPU的本质
● 想上手deep learning的看过来	● 问个docker做pipeline的基础问题
● 问wdong一个问题，学习openGL从哪儿开始学好	● 问几个神经网络的问题
● golang為什麼語法和關鍵詞這麼冷門？	● 我来科普下深度学习的应用范围吧
● 被docker气死了	● 业余时间想做一个project
● linux怎么快速重装系统保持原来的配置？	● 计算和学习根本就是两回事
● 请推荐java 机器学习库。。。	● LSTM 是不是坨屎？

相关话题的讨论汇总
话题: cudnn话题: nan话题: titan话题: cuda话题: 问题

进入Programming版参与讨论

(共1页)

w***g
发帖数: 5958

同样的model，上了titan v几个iteration后loss就爆炸了（快速增长直到NaN)
我开始以为是docker的问题，但是在docker外面跑也还是爆炸。
并不是所有的程序都有这个问题，有的程序在titan v上跑得很正常。
有同学见过么？

l*******m
发帖数: 1096

和Titan v没关系吧。把var init减小些，特别是dense layer的 init

：同样的model，上了titan v几个iteration后loss就爆炸了（快速增长直到NaN)
：我开始以为是docker的问题，但是在docker外面跑也还是爆炸。

s*********1
发帖数: 12

楼主用的是什么framework,什么cuda/cudnn版本?
1.model里用了batchNormalizaiton没有,试试去掉batchNorm还会不会出NaN? 如果是的
话,试试调小LR,楼上说的把var init减小应该也有帮助
2.如果model里有RNN,GV100 + cuDNN 7.1.4/7.1.3有小概率会产生NaN,换成新的cuDNN
7.2.1就好了

m*****k
发帖数: 58

https://www.theregister.co.uk/2018/03/21/nvidia_titan_v_reproducibility/
单位IT跟我提过，没想到真有人遇到这个问题了

【在 w***g 的大作中提到】

: 同样的model，上了titan v几个iteration后loss就爆炸了（快速增长直到NaN)
: 我开始以为是docker的问题，但是在docker外面跑也还是爆炸。
: 并不是所有的程序都有这个问题，有的程序在titan v上跑得很正常。
: 有同学见过么？

w***g
发帖数: 5958

这个问题还没有解决。真是堵心。本来能用到牛卡还是很高兴的。

【在 m*****k 的大作中提到】

: https://www.theregister.co.uk/2018/03/21/nvidia_titan_v_reproducibility/
: 单位IT跟我提过，没想到真有人遇到这个问题了

l*******m
发帖数: 1096

安装最新的driver，CUDA9.2和patch。9.1莫名地被拿下了，可能和V有关

【在 w***g 的大作中提到】

: 这个问题还没有解决。真是堵心。本来能用到牛卡还是很高兴的。

L****8
发帖数: 3938

1080ti 有类似问题么？

【在 w***g 的大作中提到】

w***g
发帖数: 5958

10x0 大部分我都用过，没这问题。
更新驱动tf不支持啊。我会试试。

：1080ti 有类似问题么？
：【在 wdong (万事休) 的大作中提到: 】

s*********1
发帖数: 12

关键要装新的cuDNN, 因为所有数值操作都是cuDNN在算, 如果碰到cuDNN的bug就有可能
会出NaN
装新的cuda toolkit没有用, 因为cuDNN并不depend on cuda toolkit, 但是装新的驱
动不会有坏处,不会有不支持的情况
4楼说的问题八成是因为driver或者cuDNN, cuBLAS里面有个软件bug, 硬件bug很难碰到
的

s*********1
发帖数: 12

@wdong既然已经发布了就可以跟你说了, 试试最新的cuDNN7.3.1吧.之前有一个
batchNorm的bug可能会产生NaN, 现在已经修复了, 具体看7.3.0的release notes第四点
https://docs.nvidia.com/deeplearning/sdk/cudnn-release-notes/rel_730.html#
rel_730

相关主题
● linux怎么快速重装系统保持原来的配置？	● GPU的本质
● 请推荐java 机器学习库。。。	● 问个docker做pipeline的基础问题
● volta一出，业余玩家都要玩完啦	● 问几个神经网络的问题
进入Programming版参与讨论

l*******m
发帖数: 1096

tf应该没用cudnn的batch norm

：@wdong既然已经发布了就可以跟你说了, 试试最新的cuDNN7.3.1吧.之前有一个
：batchNorm的bug可能会产生NaN, 现在已经修复了, 具体看7.3.0的release notes第
四点

w***g
发帖数: 5958

谢谢！看来近期必须升级工具链了。我还在用tf1.6。

四点

【在 s*********1 的大作中提到】

: @wdong既然已经发布了就可以跟你说了, 试试最新的cuDNN7.3.1吧.之前有一个
: batchNorm的bug可能会产生NaN, 现在已经修复了, 具体看7.3.0的release notes第四点
: https://docs.nvidia.com/deeplearning/sdk/cudnn-release-notes/rel_730.html#
: rel_730

s*********1
发帖数: 12

有可能会用到吧,至少tf里有它的wrapper
https://github.com/tensorflow/tensorflow/blob/
1cb8940078f6be9313899734e1307a69fffc4b6f/tensorflow/stream_executor/cuda/
cuda_dnn.cc

【在 l*******m 的大作中提到】

: tf应该没用cudnn的batch norm
:
: ：@wdong既然已经发布了就可以跟你说了, 试试最新的cuDNN7.3.1吧.之前有一个
: ：batchNorm的bug可能会产生NaN, 现在已经修复了, 具体看7.3.0的release notes第
: 四点

w***g
发帖数: 5958

l*******m
发帖数: 1096

s*********1
发帖数: 12

m*****k
发帖数: 58

https://www.theregister.co.uk/2018/03/21/nvidia_titan_v_reproducibility/
单位IT跟我提过，没想到真有人遇到这个问题了

【在 w***g 的大作中提到】

w***g
发帖数: 5958

这个问题还没有解决。真是堵心。本来能用到牛卡还是很高兴的。

【在 m*****k 的大作中提到】

: https://www.theregister.co.uk/2018/03/21/nvidia_titan_v_reproducibility/
: 单位IT跟我提过，没想到真有人遇到这个问题了

l*******m
发帖数: 1096

安装最新的driver，CUDA9.2和patch。9.1莫名地被拿下了，可能和V有关

【在 w***g 的大作中提到】

: 这个问题还没有解决。真是堵心。本来能用到牛卡还是很高兴的。

L****8
发帖数: 3938

1080ti 有类似问题么？

【在 w***g 的大作中提到】

相关主题
● 我来科普下深度学习的应用范围吧	● LSTM 是不是坨屎？
● 业余时间想做一个project	● 对于现在machine learning有个问题，请指教
● 计算和学习根本就是两回事	● CNN做NLP工程多吗？
进入Programming版参与讨论

w***g
发帖数: 5958

10x0 大部分我都用过，没这问题。
更新驱动tf不支持啊。我会试试。

：1080ti 有类似问题么？
：【在 wdong (万事休) 的大作中提到: 】

s*********1
发帖数: 12

l*******m
发帖数: 1096

w***g
发帖数: 5958

谢谢！看来近期必须升级工具链了。我还在用tf1.6。

四点

【在 s*********1 的大作中提到】

s*********1
发帖数: 12

L****8
发帖数: 3938

请问这个问题解决了么？
打算买titan V 怕浪费钱了

【在 w***g 的大作中提到】

: 谢谢！看来近期必须升级工具链了。我还在用tf1.6。
:
: 四点

(共1页)

进入Programming版参与讨论

相关主题
● 对于现在machine learning有个问题，请指教	● golang為什麼語法和關鍵詞這麼冷門？
● CNN做NLP工程多吗？	● 被docker气死了
● 为什么grid search伤人品	● linux怎么快速重装系统保持原来的配置？
● groovy 不错啊	● 请推荐java 机器学习库。。。
● 胡扯几句什么叫Deep Learning入门	● volta一出，业余玩家都要玩完啦
● 马工能转数据分析师吗？	● GPU的本质
● 想上手deep learning的看过来	● 问个docker做pipeline的基础问题
● 问wdong一个问题，学习openGL从哪儿开始学好	● 问几个神经网络的问题

相关话题的讨论汇总
话题: cudnn话题: nan话题: titan话题: cuda话题: 问题

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天