admin管理员组文章数量:1122846
Windows 2016 server NVIDIA k20c cuda toolkit11.3 pytorch-gpu 踩坑教程
巨坑 兄弟们 各种bug,按照文档一步一步来。
1. 环境
操作系统:Windows 2016 server
显卡:NVIDIA k20c
因为我已经安装过python环境了,以下我就不再重复演示了,直接上链接;
多版本python安装方式
单版本python安装方式
注意:Tesla K20c(显卡算力小于3.5)安装pytorch(要求显卡算力3.7以上)
所以python也需要安装3.5~3.7版本,高版本不兼容
2. cuda toolkit 安装
检测显卡型号:如何查看电脑显卡型号
查看自己显卡是否支持CUDA安装:查看地址
选择和自己显卡驱动一样的型号,因为我的显卡是K20C 所以我选择这个,如图:
所以得出我的显卡支持支持CUDA安装,无需下载任何东西,只要查看到即可
更新 显卡驱动
第一种 NVIDIA 驱动程序下载方法,如下:官方地址
找到和自己显卡所对应的 点击搜索,跳转到其他页面,进行下载。
第二种NVIDIA 驱动程序下载方法,如下:
跟据驱动的版本号选择toolkit的版本号:CUDA版本与显卡驱动对照表
我的是396.37左右,所以选择9.2版本的
从官网下载toolkit:官网地址
点击之后会跳转到如下界面 选择系统版本,点击下载;
下载完成后,双击安装包
这时候会选择解压目录,选择非C盘就行(其实哪也无所谓,安装完成后会自动删掉)
检查兼容性会时间长一些
将Visual Studio integration 的勾 取消掉,点击下一步
这个时候有个报错。报错是 内容 Microsoft Visual C++ Redistributable is not installed, this may lead to the DLL load failure
解决方案:
点击链接 https://aka.ms/vs/16/release/vc_redist.x64.exe
之后下载安装即可
还有一种暴力安装方式, 如果安装到某个组件报错了,下次安装的时候就不要勾选这个组件
安装路径选择:只要不是C盘,其他地方都可以。这三个路径不可以安装到一个文件夹里面,必须建三个文件夹,而且这三个文件夹不可以和上面NVIDIA文件夹放在一起,因为NVIDIA程序安装完成之后,文件夹自动删除了, ######重中之重#######
经过漫长的10分钟等待,终于安装好了
测试toolkit环节:
打开CMD,输入 nvcc -V
3.cuDNN安装
cuDNN下载(下载和toolkit对应的版本就行)下载官方地址
下载完成后解压,然后复制文件到安装cuda toolkit的目录下(我的目录名是9.2)
直接Ctrl +c Ctrl+V 覆盖
这个目录下原本就有这几个文件,如果没有的话,就看你自己把上面3个路径放在哪了,
三个路径的文件我都copy到一个目录下了,安装时分三个目录,安装完成之后可以copy到一个目录下。
copy到下面的路径里面
4. pytorch-gpu安装
在官网选择安装语句:官方路径
直接 copy + F 搜索关键字
在最近将一些代码升级到更新版本的 PyTorch之后,我发现它无法再在 NVIDIA Tesla K40 GPU
上成功执行。特别是,每当.forward() 调用模型的函数时,我都会看到以下错误:RuntimeError: CUDA error: no kernel image is available for execution
on the device
事实证明,PyTorch v1.3.1在它们的预构建二进制文件中放弃了对具有 NVIDIA 计算能力 3.5 的GPU 的支持,pip或者conda- 声明的原因是支持这些较旧的 GPU 会使二进制文件大小超过可接受的分发限制。
---------------------官方文档是这样说的---------------------
意思就是 1.3版本以上就不支持 K40 GPU了,何况我这是 K20呢
用于较旧 GPU 的较新 PyTorch 二进制文件会不兼容 ,所以我只能安装1.3版本以下的
如果在以上链接找不太好找,我记录了两个链接,分别是所有的torch 文件
低版本
高版本
复制命令去cmd 执行,必须是使用 管理员用户运行 cmd
一般来说安装完pytorch-gpu就会有conda命令,只需设置个环境变量即可
如果cmd没有识别 conda 命令,简单粗暴方式:继续安装软件
安装 conda
访问 conda 官网, 然后下载对应平台的安装包:
平台链接地址
正常情况下,浏览器会自动识别出当前系统类型,然后提供对应的安装包下载,另外,你也可以点击下方的系统图标,下载自己想要的 conda 安装包。
点击下载
下载完成后,双击 .exe 后缀的安装包:
如图·操作即可
这一步就比较关键了,建议两个都勾上。其中第二个选项必须勾选,至于第一个选项,它的意思是会把 anconda 添加进环境变量,勾选后可直接可以在 cmd 命令控制台中使用 conda 命令,否则必须在开始菜单的 (Anaconda (64-bit)) 这个程序去运行 conda 命令。
然后安装即可
安装需要花费一点时间,耐心等待即可;
验证 conda 是否安装成功
同时按住快捷键 win + r ,调出 cmd 命令行,点击 确定 按钮:
执行命令 conda --version , 若输出了 conda 的版本号,则表示 conda 安装成功。
在CMD中激活conda环境后,先卸载pytorch-cpu:
conda uninstall pytorch
conda uninstall libtorch
pip uninstall torch (这条命令会报错,无需排除)
然后粘贴安装pytorch-gpu语句
conda install pytorch==1.1.0 torchvision==0.4.0 cudatoolkit=10.0 -c pytorch
等待即可
最后安装完成后,在CMD python中测试是否有GPU,
我们需要运行简单的样例代码测试,例如打印出随机生成的张量矩阵,以及gpu是否可以使用。
先在命令行输入python,进入python的解释器,依次输入以下命令,每输入一句回车
import torch
x = torch.rand(5,3)
print(x)
输出的内容应该类似于以下:
tensor([[0.8224, 0.1163, 0.6721],
[0.1477, 0.6822, 0.5136],
[0.3805, 0.0996, 0.2719],
[0.3358, 0.5633, 0.6164],
[0.5203, 0.4628, 0.6428]])
如果OK,则说明pytorch安装基本成功。
如果输入 import torch 报错
解决办法:
输入 conda info --envs #查看安装包是否已经安装
如果已经安装未识别到
conda activate D:\ProgramFiles\Anaconda3\envs\你的目标环境 (此路径是conda info --envs 识别出来的路径 )
如果 conda info --envs 未识别到路径
打开pytorch的官方安装方法:
https://pytorch/get-started/previous-versions/
官网推荐的安装代码如下,我使用的是Cuda9.2的版本:
# CUDA 10.0
pip install torch===1.2.0 torchvision===0.4.0 -f https://download.pytorch/whl/torch_stable.html
# CUDA 9.2
pip install torch==1.2.0+cu92 torchvision==0.4.0+cu92 -f https://download.pytorch/whl/torch_stable.html
# CPU only
pip install torch==1.2.0+cpu torchvision==0.4.0+cpu -f https://download.pytorch/whl/torch_stable.html
需要注意的是,直接这样安装似乎特别慢,因此我们可以进入如下网址:
https://download.pytorch/whl/torch_stable.html
然后找到安装包下载
在cmd定位过来后,利用文件全名进行安装就行了!
安装完成之后,重启电脑;
再输入
>>> torch.cuda.is_available()
True
如果输出“True”,则说明GPU驱动和CUDA可以支持pytorch的加速计算!
恭喜安装成功!
本文标签: 教程ServerNvidiaWindowspytorch
版权声明:本文标题:Windows 2016 server NVIDIA cuda toolkit11.3 pytorch-gpu 踩坑教程 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.betaflare.com/biancheng/1735097883a1835631.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论