Notice
Recent Posts
Recent Comments
Link
«   2024/12   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31
Archives
Today
Total
관리 메뉴

nomad-programmer

[DevOps/Docker] Failed to initialize NVML: Unknown Error 본문

DevOps/Docker

[DevOps/Docker] Failed to initialize NVML: Unknown Error

scii 2024. 8. 15. 00:53

nvidia 도커 컨테이너 사용을 위한 패키지와 설정도 모두 하였는데... 다음과 같은 에러가 발생했다.

도커가 nvidia 설정이 잘 되었는지 테스트할 겸 아래와 같이 명령을 실행했다. 

docker run --gpus all nvidia/cuda:11.5.2-base-ubuntu20.04 nvidia-smi

그러나 "Failed to initialize NVML: Unknown Error" 에러가 나타났다... 어쩐지... ai가 응답하는 것이 영... 시원찮았다. GPU가 아닌 CPU로만 응답을 했었구나...아...


Solution

sudo vim /etc/nvidia-container-runtime/config.toml

위의 명령을 통해 config.toml 파일에 접근한다. 그 후 다음과 같이 변경해주자.

변경한 모습

no-cgroups가 "true" 로 되어있다면 "false"로 변경해준 후 저장한다. 그 후 docker를 재시작해준다.

sudo systemctrl restart docker

위의 작업을 모두 완료했다면, 다음과 같이 docker 명령을 실행하여 nvidia 정보가 잘 나오는지 확인하자!

docker run --gpus all nvidia/cuda:11.5.2-base-ubuntu20.04 nvidia-smi

출처:

https://stackoverflow.com/questions/72932940/failed-to-initialize-nvml-unknown-error-in-docker-after-few-hours

 

Failed to initialize NVML: Unknown Error in Docker after Few hours

I am having interesting and weird issue. When I start docker container with gpu it works fine and I see all the gpus in docker. However, few hours or few days later, I can't use gpus in docker. Whe...

stackoverflow.com

 

Comments