GPU 사용하기

페이지 이동경로

GPU 사용하기

GPU 타입의 인스턴스를 사용하기 위해서는 적절한 드라이버를 설치해야 합니다. 드라이버가 설치된 GPU 전용 OS 이미지를 사용하여 인스턴스를 생성하거나, 기본 이미지로 인스턴스를 생성한 후 별도로 퍼블릭 드라이버를 다운로드하여 설치할 수 있습니다. 운영체제별 GPU 드라이버를 설치하여 GPU를 사용하는 방법은 다음과 같습니다.

Linux

Linux 운영체제에서 GPU 드라이버를 설치하는 방법은 다음과 같습니다.

안내
현재 카카오 i 클라우드에서 제공 중인 Ubuntu 20.04 이미지, NVIDIA A100을 기준으로 안내합니다.

Step 1. NVIDIA 드라이버 설치하기

NVIDIA 드라이버를 설치합니다.

권장 드라이버 및 CUDA 버전

GPU유형 NVIDIA 버전 CUDA 버전
NVIDIA A100 450.80.02 이상 CUDA Toolkit 11.1 이상

안내
- NVIDIA 드라이버 다운로드에 대한 자세한 설명은 NVIDIA 공식 사이트 Driver Downloads를 참고하시기 바랍니다. - NVIDIA 드라이버 설치 및 구성에 대한 자세한 설명은 NVIDIA 공식 사이트 > NVIDIA Driver Installation Quickstart Guide를 참고하시기 바랍니다.

  1. NVIDIA 드라이버를 설치할 인스턴스에 NVIDA 장비가 있는지 명령을 실행해 확인합니다.

    코드 예제 NVIDA 장비 검색 명령어

      $ lspci | grep -i NVIDIA
    
  2. 설치할 수 있는 드라이버 버전을 확인합니다. 표. 권장 드라이버 및 CUDA 버전을 참고하시기 바랍니다.
    • 참고 : 설치된 드라이버가 최신 버전이 아닐 경우, apt update -y명령어를 실행하여 업데이트를 실행합니다.
    • 참고 : Command ‘ubuntu-drivers’ not found라는 메시지가 나올 시, sudo apt install ubuntu-drivers-common 명령을 입력하여 ubuntu-drivers-common을 설치합니다

    코드 예제 설치할 드라이버 버전 확인 명령어

      $ ubuntu-drivers devices
    

    코드 예제 드라이버 버전 확인 예시

      $ ubuntu-drivers devices
      **==** /sys/devices/pci0000:00/0000:00:04.0 **==**
      modalias : pci:v000010DEd000020B0sv000010DEsd0000134Fbc03sc02i00
      vendor   : NVIDIA Corporation
      driver   : nvidia-driver-515-server - distro non-free
      driver   : nvidia-driver-470 - distro non-free
      driver   : nvidia-driver-470-server - distro non-free
      driver   : nvidia-driver-510-server - distro non-free
      driver   : nvidia-driver-510 - distro non-free
      driver   : nvidia-driver-450-server - distro non-free
      driver   : nvidia-driver-515 - distro non-free recommended
      driver   : xserver-xorg-video-nouveau - distro free builtin
    
  3. 설치 가능한 드라이버를 선택하여 설치를 진행합니다.

    코드 예제 드라이버 설치

      $ sudo apt install nvidia-driver-470
    

    이미지

  4. 재부팅을 실행합니다.

    코드 예제 재부팅 명령어

      $ sudo reboot
    
  5. 설치한 드라이버 정보를 확인합니다.

    코드 예제 설치한 드라이버 정보 확인 명령어

      $ nvidia-smi
    

    코드 예제 설치한 드라이버 정보 확인 예시

      $ nvidia-smi
      +-----------------------------------------------------------------------------+
      | NVIDIA-SMI 470.141.03   Driver Version: 470.141.03   CUDA Version: 11.4     |
      |-------------------------------+----------------------+----------------------+
      | GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
      | Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
      |                               |                      |               MIG M. |
     |===============================+======================+======================|
      |   0  NVIDIA A100 80G...  Off  | 00000000:00:05.0 Off |                    0 |
      | N/A   33C    P0    41W / 300W |     35MiB / 80994MiB |      0%      Default |
      |                               |                      |             Disabled |
      +-------------------------------+----------------------+----------------------+
      |   1  NVIDIA A100 80G...  Off  | 00000000:00:06.0 Off |                    0 |
      | N/A   34C    P0    43W / 300W |     35MiB / 80994MiB |      0%      Default |
      |                               |                      |             Disabled |
      +-------------------------------+----------------------+----------------------+
    

Step 2. NVIDIA CUDA Toolkit 설치하기

NVIDIA CUDA Toolkit를 설치합니다.

  1. CUDA Toolkit를 재설치하는 경우, 다음의 설치 환경을 준비합니다. 단, 신규 설치의 경우에는 2번부터 진행합니다.

    a. 기존 CUDA 관련 설정을 삭제합니다.

     <em class="caption-table">코드 예제 <span class="txt-bar"></span>CUDA 설정 삭제 명령어</em>
    
     ```bash
      $ sudo rm -rf /usr/local/cuda*
     ```
    

    b. ~/.bashrc 또는 /etc/profile에 다음의 기존 설정이 있는 경우, 삭제합니다.

     <em class="caption-table">코드 예제 <span class="txt-bar"></span>기존 설정 삭제</em>
        
     ```bash
      export PATH=$PATH:/usr/local/cuda-11.4/bin
      export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-11.4/lib64
      export CUDADIR=/usr/local/cuda-11.4
     ```
    

    c. 모든 기존 설정을 삭제한 후, nvcc -V 명령을 실행해 해당 명령이 실행되지 않는 것을 확인합니다.

     <em class="caption-table">코드 예제 <span class="txt-bar"></span>`nvcc -V` 명령 실행 결과</em>
      
     ```bash
      $ nvcc -V
      Command 'nvcc' not found, but can be installed with: sudo apt install nvidia-cuda-toolkit
     ```
    
  2.  NVIDIA 공식 사이트 > CUDA Toolkit Archive에서 설치할 CUDA Toolkit 버전을 선택합니다. 버전 선택 시 하단에서 Base Installer 명령어를 확인할 수 있습니다.

    이미지 이미지 CUDA Toolkit 버전 선택 및 Base Installer 명령어 확인

  3. Base Installer의 명령어(첫째 줄)를 실행하여 CUDA Toolkit 설치용 파일을 다운로드합니다.

    코드 예제 CUDA Toolkit 설치용 파일 다운로드 명령어 예시

      $ wget https://developer.download.nvidia.com/compute/cuda/11.4.0/local_installers/cuda_11.4.0_470.42.01_linux.run
    

    Base Installer의 Toolkit 설치용 파일 다운로드 명령 실행 결과 이미지 Base Installer의 Toolkit 설치용 파일 다운로드 명령 실행 결과

  4. Base Installer의 명령어(둘째 줄)를 실행하여 CUDA Toolkit 설치용 파일을 실행합니다.
    • CUDA Toolkit 설치용 파일 실행 시 1분 이상의 시간이 소요됩니다.

    코드 예제 CUDA Toolkit 설치용 파일 실행 명령어

      $ sudo sh cuda_11.4.0_470.42.01_linux.run
    
  5. 방향키를 눌러 Continue를 선택하고, Enter를 누릅니다.

    이미지 이미지 Continue 선택

  6. accept를 입력하고, Enter를 누릅니다.

    이미지 이미지 accept 입력

  7. Space를 눌러 Driver의 체크 박스의 선택을 해제하고 Install을 선택한 후, Enter를 누릅니다.
    • 기존 설정이 있는 경우, Existing installation of CUDA Toolkit 11.x found 메시지가 나타납니다. 해당 경우 Upgrade all 을 선택하고 Enter를 누릅니다.

    이미지 이미지 Install 선택

  8. CUDA Toolkit이 정상적으로 설치 완료된 경우, 다음의 화면을 확인할 수 있습니다.

    이미지 이미지 CUDA Toolkit 설치 완료

  9. 다음의 명령을 실행하여 CUDA Toolkit 관련 환경 변수를 추가합니다.

    코드 예제 CUDA Toolkit 관련 환경 변수 추가 명령어

    $ sudo sh -c "echo 'export PATH=$PATH:/usr/local/cuda-11.4/bin' >> /etc/profile"
     $ sudo sh -c "echo 'export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-11.4/lib64' >> /etc/profile"
     $ sudo sh -c "echo 'export CUDADIR=/usr/local/cuda-11.4' >> /etc/profile"
    $ source /etc/profile
    
  10. nvcc -V 명령을 실행하여 설치된 CUDA Toolkit을 확인합니다.

    이미지 이미지 CUDA Toolkit 설치 확인 결과