解决深度学习训练时“unspecified launch failure”问题

https://blog.csdn.net/weixin_40051325/article/details/107560480?spm=1001.2101.3001.6650.1&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7Edefault-1.highlightwordscore&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7Edefault-1.highlightwordscore

首先,感谢大佬们贡献的文章!接下来,我按自己的实践效果来总结~
声明
出现该问题不是你代码的问题~是电脑配置出现了bug。。。

解决路线:
方法一(成本低,推荐,若还不行,再用方法二):
出处:CUDA 错误unspecified launch failure
具体步骤整理(win7)如下:
1.开始菜单 --> 所有程序 --> NVIDIA Corporation --> Nsight Visual Studio Edition 6.0 --> Nsight Monitor
2.打开Nsight Monitor后,右下角有一个“Nsight Monitor options”,General - - Microsoft display driver - - WDDM TDR enable 设为False即可,因为该选项导致kernel运行时间超过指定值会中断。

方法二(会起到“根治”的疗效~)
出处:https://github.com/tensorflow/tensorflow/issues/33536
解决办法:降低Nvidia驱动版本,比如 Nvidia 436.** 降至 431.60。(未亲测,但是拿两台其他配置相同的电脑做了比较,Nvidia驱动版本低的电脑没有出现这个问题~)

发表新评论