GPU 사용하기
GPU 타입의 인스턴스를 사용하기 위해서는 적절한 드라이버를 설치해야 합니다.
드라이버가 설치된 GPU 전용 OS 이미지를 사용하여 인스턴스를 생성하거나, 기본 이미지로 인스턴스를 생성한 후 별도로 퍼블릭 드라이버를 다운로드하여 설치할 수 있습니다. 운영체제별 GPU 드라이버를 설치하여 GPU를 사용하는 방법은 다음과 같습니다.
Linux
Linux 운영체제에서 GPU 드라이버를 설치하는 방법은 다음과 같습니다.
안내
현재 카카오 i 클라우드에서 제공 중인 Ubuntu 20.04 이미지, NVIDIA A100을 기준으로 안내합니다.
Step 1. NVIDIA 드라이버 설치하기
NVIDIA 드라이버를 설치합니다.
표 권장 드라이버 및 CUDA 버전
GPU유형 | NVIDIA 버전 | CUDA 버전 |
---|---|---|
NVIDIA A100 | 450.80.02 이상 | CUDA Toolkit 11.1 이상 |
안내
- NVIDIA 드라이버 다운로드에 대한 자세한 설명은 NVIDIA 공식 사이트 Driver Downloads를 참고하시기 바랍니다.
- NVIDIA 드라이버 설치 및 구성에 대한 자세한 설명은 NVIDIA 공식 사이트 > NVIDIA Driver Installation Quickstart Guide를 참고하시기 바랍니다.
-
NVIDIA 드라이버를 설치할 인스턴스에 NVIDA 장비가 있는지 명령을 실행해 확인합니다.
코드 예제 NVIDA 장비 검색 명령어
$ lspci | grep -i NVIDIA
- 설치할 수 있는 드라이버 버전을 확인합니다. 표. 권장 드라이버 및 CUDA 버전을 참고하시기 바랍니다.
- 참고 : 설치된 드라이버가 최신 버전이 아닐 경우,
apt update -y
명령어를 실행하여 업데이트를 실행합니다. -
참고 :
Command ‘ubuntu-drivers’ not found
라는 메시지가 나올 시,sudo apt install ubuntu-drivers-common
명령을 입력하여 ubuntu-drivers-common을 설치합니다.코드 예제 설치할 드라이버 버전 확인 명령어
$ ubuntu-drivers devices
코드 예제 드라이버 버전 확인 예시
$ ubuntu-drivers devices **==** /sys/devices/pci0000:00/0000:00:04.0 **==** modalias : pci:v000010DEd000020B0sv000010DEsd0000134Fbc03sc02i00 vendor : NVIDIA Corporation driver : nvidia-driver-515-server - distro non-free driver : nvidia-driver-470 - distro non-free driver : nvidia-driver-470-server - distro non-free driver : nvidia-driver-510-server - distro non-free driver : nvidia-driver-510 - distro non-free driver : nvidia-driver-450-server - distro non-free driver : nvidia-driver-515 - distro non-free recommended driver : xserver-xorg-video-nouveau - distro free builtin
- 참고 : 설치된 드라이버가 최신 버전이 아닐 경우,
-
설치 가능한 드라이버를 선택하여 설치를 진행합니다.
코드 예제 드라이버 설치
$ sudo apt install nvidia-driver-470
-
재부팅을 실행합니다.
코드 예제 재부팅 명령어
$ sudo reboot
-
설치한 드라이버 정보를 확인합니다.
코드 예제 설치한 드라이버 정보 확인 명령어
$ nvidia-smi
코드 예제 설치한 드라이버 정보 확인 예시
$ nvidia-smi +-----------------------------------------------------------------------------+ | NVIDIA-SMI 470.141.03 Driver Version: 470.141.03 CUDA Version: 11.4 | |-------------------------------+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |===============================+======================+======================| | 0 NVIDIA A100 80G... Off | 00000000:00:05.0 Off | 0 | | N/A 33C P0 41W / 300W | 35MiB / 80994MiB | 0% Default | | | | Disabled | +-------------------------------+----------------------+----------------------+ | 1 NVIDIA A100 80G... Off | 00000000:00:06.0 Off | 0 | | N/A 34C P0 43W / 300W | 35MiB / 80994MiB | 0% Default | | | | Disabled | +-------------------------------+----------------------+----------------------+
Step 2. NVIDIA CUDA Toolkit 설치하기
NVIDIA CUDA Toolkit를 설치합니다.
-
CUDA Toolkit를 재설치하는 경우, 다음의 설치 환경을 준비합니다. 단, 신규 설치의 경우에는 2번부터 진행합니다.
a. 기존 CUDA 관련 설정을 삭제합니다.
코드 예제 CUDA 설정 삭제 명령어
$ sudo rm -rf /usr/local/cuda*
b.
~/.bashrc
또는/etc/profile
에 다음의 기존 설정이 있는 경우, 삭제합니다.코드 예제 기존 설정 삭제
export PATH=$PATH:/usr/local/cuda-11.4/bin export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-11.4/lib64 export CUDADIR=/usr/local/cuda-11.4
c. 모든 기존 설정을 삭제한 후,
nvcc -V
명령을 실행해 해당 명령이 실행되지 않는 것을 확인합니다.코드 예제
nvcc -V
명령 실행 결과$ nvcc -V Command 'nvcc' not found, but can be installed with: sudo apt install nvidia-cuda-toolkit
-
NVIDIA 공식 사이트 > CUDA Toolkit Archive에서 설치할 CUDA Toolkit 버전을 선택합니다. 버전 선택 시 하단에서 Base Installer 명령어를 확인할 수 있습니다.
이미지 CUDA Toolkit 버전 선택 및 Base Installer 명령어 확인
-
Base Installer의 명령어(첫째 줄)를 실행하여 CUDA Toolkit 설치용 파일을 다운로드합니다.
코드 예제 CUDA Toolkit 설치용 파일 다운로드 명령어 예시
$ wget https://developer.download.nvidia.com/compute/cuda/11.4.0/local_installers/cuda_11.4.0_470.42.01_linux.run
이미지 Base Installer의 Toolkit 설치용 파일 다운로드 명령 실행 결과
- Base Installer의 명령어(둘째 줄)를 실행하여 CUDA Toolkit 설치용 파일을 실행합니다.
-
CUDA Toolkit 설치용 파일 실행 시 1분 이상의 시간이 소요됩니다.
코드 예제 CUDA Toolkit 설치용 파일 실행 명령어
$ sudo sh cuda_11.4.0_470.42.01_linux.run
-
-
방향키를 눌러 Continue를 선택하고, Enter를 누릅니다.
이미지 Continue 선택
-
accept
를 입력하고, Enter를 누릅니다.이미지 accept 입력
- Space를 눌러 Driver의 체크 박스의 선택을 해제하고 Install을 선택한 후, Enter를 누릅니다.
- 기존 설정이 있는 경우,
Existing installation of CUDA Toolkit 11.x found
메시지가 나타납니다. 해당 경우 Upgrade all 을 선택하고 Enter를 누릅니다.
이미지 Install 선택
- 기존 설정이 있는 경우,
-
CUDA Toolkit이 정상적으로 설치 완료된 경우, 다음의 화면을 확인할 수 있습니다.
이미지 CUDA Toolkit 설치 완료
-
다음의 명령을 실행하여 CUDA Toolkit 관련 환경 변수를 추가합니다.
코드 예제 CUDA Toolkit 관련 환경 변수 추가 명령어
$ sudo sh -c "echo 'export PATH=$PATH:/usr/local/cuda-11.4/bin' >> /etc/profile" $ sudo sh -c "echo 'export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-11.4/lib64' >> /etc/profile" $ sudo sh -c "echo 'export CUDADIR=/usr/local/cuda-11.4' >> /etc/profile" $ source /etc/profile
-
nvcc -V
명령을 실행하여 설치된 CUDA Toolkit을 확인합니다.이미지 CUDA Toolkit 설치 확인 결과