SharedIT | 묻고 답하기(AMP)

DL380aGEN11과 A100 80G 리눅스에서 호환성 및 커널 업데이트 문의 드립니다.

안녕하세요. DL380aGEN11에서 A100 80G를 설치가 되지 않아 문의 드립니다. 


장비명 : HPE DL380aGEN11

OS : Ubuntu 22.04.1~4 LTS (서버용)

OS 설치 후 장비는 인식을 하는데 A100 80G 드라이브를 설치를 하면 

ERROR: Unable to load the kernel module 'nvidia.ko'.  This happens most frequently when this

         kernel module was built against the wrong or improperly configured kernel sources, with a

         version of gcc that differs from the one used to build the target kernel, or if another

         driver, such as nouveau, is present and prevents the NVIDIA kernel module from obtaining

         ownership of the NVIDIA device(s), or no NVIDIA device installed in this system is

         supported by this NVIDIA Linux graphics driver release.


         Please see the log entries 'Kernel module load error' and 'Kernel messages' at the end of

         the file '/var/log/nvidia-installer.log' for more information.


커널 부분에 때문에 계속해서 문제가 생기는것 같은데 


5.15.0-94 generic에서 


커널을 6.2로 업데이트 하려고 


udo apt update && sudo apt full-upgrade


명령어를 입력해도 5.15.0.101로만 업데이트 되는데 


다른 방법이 있는지요?


고수님들 도움 부탁 드립니다. 

Tags : 태그가 없습니다.

5개의 답변이 있습니다.

Genghis Khan
  0 추천 | 27일 전

https://ubuntu.com/server/docs/nvidia-drivers-installation

위 방법으로 해보시고 안되면  설치된 버전에 대해 삭제후 재설치 해보시길 바랍니다.

앵그리파파
  0 추천 | 27일 전

A100 80G 드라이브 설치할 때 발생하는 커널 모듈 로드 오류는 NVIDIA 그래픽 드라이버의 호환성 문제일 경우가 많은데, 최신 드라이버를 설치해보세요.

sudo apt update

sudo apt install nvidia-driver

설치 완료되면 시스템을 다시 부팅하고 A100 80G 드라이브를 설치하세요.

그런다음 커널 업그레이드를 해야하는데,

Ubuntu 22.04 LTS에서는 5.15.0-101-generic 커널이 이미 설치되어 있으므로 더 높은 버전의 커널로 업그레이드할 필요는 없습니다. 다만 필요하다면 

sudo apt update

sudo apt update

이렇게 하면 시스템의 모든 패키지가 최신 버전으로 업드레이드 됩니다. 그런 후 시스템을 재부팅하고 다시 시도해 보세요. 

그리고, 때로는 Nouveau가 NVIDIA 그래픽 드라이버의 설치와 호환성 문제를 일으킬 수 있으니,

Nouveau는 비활성화하고 NVIDIA 드라이버를 설치하세요.

sudo nano /etc/modprobe.d/blacklist-nouveau.conf

파일에 내용을 추가하고 저장합니다.

blacklist nouveau

options nouveau modeset=0

그런 다음, 

sudo update-initramfs -u

sudo reboot

하면 initramfs를 업데이트하고 시스템을 다시 부팅합니다.

이래도 저래도 안되면 공식 채널을 통해 기술지원을 받아보세요. 혹은 게시판 등에 글을 남겨보세요.


deerokgo
  0 추천 | 28일 전

지난번 게시글에 답변 달았던 내용이 있는데, 해보셨는지 궁금 합니다. 

지난번 게시글은 아래와 같습니다.

드라이버 충돌 때문인 것으로 보여서 아래에 진행 단계를 적어 놨었고요.

  • 1.드라이버 충돌 여부 확인 : lspci -k. .

  • 2.파일 생성해서 blacklist 정보 생성

  • 3.생성된 파일 적용

  • 4.리부팅

위 순서로 하시면 되고 아래는 관련된 명령어 입니다.

  • 1. lspci -k

  • 2. /etc/modprobe.d/nvidia.conf 파일 생성 

  • 3.해당 파일에 내용 추가 : blacklist <driver you found> 여기서 드라이버는 1번에서 나온 것 입니다

  • 4.initramfs 를 빌드 : update-initramfs -u

  • 5.리부팅

위 내용으로 해보셨는지요

여기서 blacklist로 처리하는게 중요합니다.


위 방법으로 해결이 안된다면 커널 업데이트 해보시기 바랍니다.

커널 업데이트는 우분투에서 제공하는 아래 URL 참고 하세요.

https://guide.ncloud-docs.com/docs/ubuntu20-kernel-update

areumdaun | 27일 전

말씀 하신 내용과 같이 몇몇분들과 같이 진행했는데 잘 안되네요. 

ㅜ............ㅜ


wansoo
  0 추천 | 28일 전

앞에 올렸던 

https://www.sharedit.co.kr/qnaboards/26753 의 후속 질문인가 보네요.


커널을 6.2로 업그레이드 하는 방법으로



sudo apt update && sudo apt full-upgrade

를 사용하거나...


아니면,

sudo apt dist-upgrade


아니면,

sudo apt install linux-image-generic-hwe-22.04


를 사용해서 업그레이드 할 수 있는 걸로 나오네요.

areumdaun | 28일 전

네.. 장비 다시 들어오면 실행 해 보겠습니다. 

감사합니다. 

topkslee
  0 추천 | 28일 전

아래 명령어로 설치해보세요.


sudo apt install linux-generic-hwe-22.04





areumdaun | 28일 전

네.. 장비 다시 들어오면 실행 해 보겠습니다. 

감사합니다.