DevOps/Docker
[DevOps/Docker] Failed to initialize NVML: Unknown Error
scii
2024. 8. 15. 00:53
nvidia 도커 컨테이너 사용을 위한 패키지와 설정도 모두 하였는데... 다음과 같은 에러가 발생했다.
도커가 nvidia 설정이 잘 되었는지 테스트할 겸 아래와 같이 명령을 실행했다.
docker run --gpus all nvidia/cuda:11.5.2-base-ubuntu20.04 nvidia-smi
그러나 "Failed to initialize NVML: Unknown Error" 에러가 나타났다... 어쩐지... ai가 응답하는 것이 영... 시원찮았다. GPU가 아닌 CPU로만 응답을 했었구나...아...
Solution
sudo vim /etc/nvidia-container-runtime/config.toml
위의 명령을 통해 config.toml 파일에 접근한다. 그 후 다음과 같이 변경해주자.
no-cgroups가 "true" 로 되어있다면 "false"로 변경해준 후 저장한다. 그 후 docker를 재시작해준다.
sudo systemctrl restart docker
위의 작업을 모두 완료했다면, 다음과 같이 docker 명령을 실행하여 nvidia 정보가 잘 나오는지 확인하자!
docker run --gpus all nvidia/cuda:11.5.2-base-ubuntu20.04 nvidia-smi
출처:
Failed to initialize NVML: Unknown Error in Docker after Few hours
I am having interesting and weird issue. When I start docker container with gpu it works fine and I see all the gpus in docker. However, few hours or few days later, I can't use gpus in docker. Whe...
stackoverflow.com