智星云文档智星云文档
返回官网
返回官网
  • 新手入门

    • 算力租用流程
    • 常见问题
    • 如何选择GPU
  • 技术相关

    • 智星云修改HOST解决跨网域名解析问题
    • turbovnc安装配置
    • 智星云huggingface加速节点使用教程
    • AI模型库:服务器预载,极速下载
    • linux安装cuda和pytorch方法
    • 测试服务器带宽的方法
    • windows常见问题
    • GPU测速
    • Linux实用基础
    • jupyter notebook连接linux
    • VSCode连接到云主机
    • macOS系统连接到云主机
    • 拓展磁盘
    • 端口映射
    • GPU无法调用
    • ssh链接保持
    • ssh在云主机后台运行
    • 基于SSH的链接异常
    • VSCode远程连接失败
    • centos7-epel加速
    • conda使用源
    • docker镜像压缩
    • dynslam安装
    • huggingface下载
    • ubuntu安装显卡驱动
    • 编译tensorflow
    • linux上传文件&数据上传Windows
    • 更新git到最新
    • 回环设备
    • nvidia-smi输出解析
    • Topaz 视频处理教程

Linux 安装 CUDA 和 PyTorch 方法

目录

  • 1. 安装 NVIDIA 显卡驱动
    • 1.1 apt 安装方式(推荐)
    • 1.2 编译安装方式
  • 2. CUDA 安装
    • 2.1 下载 CUDA
    • 2.2 安装 CUDA
    • 2.3 安装步骤
    • 2.4 配置环境变量
  • 3. PyTorch 安装
    • 3.1 官方安装方式(推荐)
    • 3.2 历史版本安装
  • 4. 验证安装
  • 常见问题

1. 安装 NVIDIA 显卡驱动

1.1 apt 安装方式(推荐)

安装驱动之前建议先更新镜像源

sudo apt update -y
sudo apt install nvidia-driver-550-server -y

img

注意:当前最新版本为 550 版本,其他版本需要自行下载编译包安装。

img

1.2 编译安装方式

不推荐:建议优先使用 apt 方式安装驱动。仅在特殊情况下使用编译安装方式。

  1. 下载新版 NVIDIA 官方驱动

    • 驱动可以从 NVIDIA 官网下载安装最新的显卡驱动
    • cuda version 表示支持的最高 CUDA 版本,兼容该版本以下的 CUDA
  2. 下载到服务器后执行安装命令:

sh NVIDIA-Linux-x86_64-535.113.01.run -no-x-check -no-nouveau-check -no-opengl-files --no-cc-version-check --kernel-source-path="/usr/src/kernels/linux-headers-5.4.0-42-generic"

重要提示:/usr/src/kernels/linux-headers-5.4.0-42-generic 是系统的内核版本路径,请根据自己的内核版本修改对应参数。可以通过以下命令查看内核版本:

uname -r

进入安装界面后,按默认选项不要做修改。安装完成后执行以下命令验证驱动是否安装成功:

nvidia-smi

如果显示 GPU 信息,说明驱动安装成功。 img

2. CUDA 安装

2.1 下载 CUDA

NVIDIA 官方各版本下载地址:CUDA Toolkit Archive

注意:国内访问 NVIDIA 官网可能很慢,存在加载不出来的情况,建议使用科学上网或镜像源。

2.2 安装 CUDA

以下提供 Linux 版本的下载地址和安装方式:

CUDA 12.4.1

wget https://developer.download.nvidia.com/compute/cuda/12.4.1/local_installers/cuda_12.4.1_550.54.15_linux.run
sudo sh cuda_12.4.1_550.54.15_linux.run

CUDA 12.3.0

wget https://developer.download.nvidia.com/compute/cuda/12.3.0/local_installers/cuda_12.3.0_545.23.06_linux.run
sudo sh cuda_12.3.0_545.23.06_linux.run

CUDA 12.2.2

wget https://developer.download.nvidia.com/compute/cuda/12.2.2/local_installers/cuda_12.2.2_535.104.05_linux.run
sudo sh cuda_12.2.2_535.104.05_linux.run

CUDA 12.1.1

wget https://developer.download.nvidia.com/compute/cuda/12.1.1/local_installers/cuda_12.1.1_530.30.02_linux.run
sudo sh cuda_12.1.1_530.30.02_linux.run

CUDA 12.0.1

wget https://developer.download.nvidia.com/compute/cuda/12.0.1/local_installers/cuda_12.0.1_525.85.12_linux.run
sudo sh cuda_12.0.1_525.85.12_linux.run

CUDA 11.8.0

wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda_11.8.0_520.61.05_linux.run
sudo sh cuda_11.8.0_520.61.05_linux.run

CUDA 11.7.1

wget https://developer.download.nvidia.com/compute/cuda/11.7.1/local_installers/cuda_11.7.1_515.65.01_linux.run
sudo sh cuda_11.7.1_515.65.01_linux.run

2.3 安装步骤

  1. 下载完成后,在软件包所在目录执行 sh 命令进行安装 img
  2. 在安装界面输入 accept 然后按 Enter img
  3. 在组件选择界面,按空格键只保留 CUDA Toolkit(取消勾选驱动等其他组件,如果已安装驱动),然后选择 Install 进行安装

重要提示:如果已经安装了 NVIDIA 驱动,安装 CUDA 时请取消勾选驱动组件,只安装 CUDA Toolkit。

2.4 配置环境变量

正常安装完成后,Linux 系统内默认是没有 nvcc 命令的,需要配置环境变量。

编辑当前用户的 ~/.bashrc 文件,在最后一行添加以下内容(请根据实际安装的 CUDA 版本修改路径中的版本号):

# 以 CUDA 11.8 为例,如果安装的是其他版本,请修改对应的版本号
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-11.8/lib64
export PATH=$PATH:/usr/local/cuda-11.8/bin
export CUDA_HOME=/usr/local/cuda-11.8

img 保存后执行以下命令使配置生效:

source ~/.bashrc

验证 CUDA 是否安装成功:

nvcc --version

img 如果显示 CUDA 版本信息,说明安装成功。

3. PyTorch 安装

3.1 官方安装方式(推荐)

推荐使用 PyTorch 官网安装,选择自己的安装方式和 CUDA 版本即可安装。

访问 PyTorch 官网,根据你的系统配置选择相应的安装命令。

3.2 历史版本安装

其他版本安装可在此链接找到:PyTorch 历史版本

示例:安装 PyTorch 2.0.0(CUDA 11.8)

pip install torch==2.0.0 torchvision==0.15.0 torchaudio==2.0.0 --index-url https://download.pytorch.org/whl/cu118

示例:安装 PyTorch 2.0.0(CUDA 12.1)

pip install torch==2.0.0 torchvision==0.15.0 torchaudio==2.0.0 --index-url https://download.pytorch.org/whl/cu121

4. 验证安装

4.1 验证 NVIDIA 驱动

nvidia-smi

4.2 验证 CUDA

nvcc --version

4.3 验证 PyTorch

python -c "import torch; print(f'PyTorch 版本: {torch.__version__}'); print(f'CUDA 可用: {torch.cuda.is_available()}'); print(f'CUDA 版本: {torch.version.cuda if torch.cuda.is_available() else \"N/A\"}')"

或者交互式验证:

>>> import torch
>>> print(torch.__version__)
2.0.0+cu118
>>> print(torch.cuda.is_available())
True
>>> print(torch.cuda.get_device_name(0))
NVIDIA GeForce RTX 3090

常见问题

  1. 驱动安装失败:确保系统已更新,检查内核版本是否兼容
  2. CUDA 安装后找不到 nvcc:检查环境变量是否正确配置,并执行 source ~/.bashrc
  3. PyTorch 无法检测到 CUDA:确保 PyTorch 版本与 CUDA 版本匹配,检查驱动是否正确安装
  4. 下载速度慢:使用科学上网或国内镜像源
Prev
AI模型库:服务器预载,极速下载
Next
测试服务器带宽的方法