fos-blog/study
01 / 홈02 / 카테고리03 / 시리즈
01 / 홈02 / 카테고리03 / 시리즈

카테고리

  • AI 페이지로 이동
    • RAG 페이지로 이동
    • langgraph 페이지로 이동
    • agents.md
    • BMAD Method — AI 에이전트로 애자일 개발하는 방법론
    • Claude Code 메모리: CLAUDE.md와 .claude/rules를 규칙으로 쓰는 법
    • Claude Code의 Skill 시스템 - 개발자를 위한 AI 자동화의 새로운 차원
    • Claude Code를 5주 더 쓴 결과 — 스킬·CLAUDE.md를 키워가는 방식
    • Claude Code를 11일 동안 쓴 결과 — 데이터로 본 나의 사용 패턴
    • Claude Code 멀티 에이전트 — Teams
    • AI 에이전트와 디자인의 새 컨벤션 — DESIGN.md, Google Stitch, Claude Design
    • Docling — IBM Research 의 문서 파싱 toolkit 상세 정리
    • 하네스 엔지니어링 실전 — 4인 에이전트 팀으로 코딩 파이프라인 구축하기
    • 하네스 엔지니어링 — 오래 실행되는 AI 에이전트를 위한 설계
    • 멀티모달 LLM (Multimodal Large Language Model)
    • AI 에이전트와 함께 MVP 만들기 — dooray-cli 사례
    • OpenClaw는 context와 memory를 어떻게 관리하나 — 나만의 에이전트를 구성하는 법
    • OpenClaw vs Hermes Agent — 갈아탈까 고민하며 정리한 비교
    • 스킬 문서를 신경망처럼 학습시킨다 — Microsoft SkillOpt 분석
  • ai 페이지로 이동
    • agent 페이지로 이동
    • [초안] AI 제품 백엔드 안정성 — 지연·비용·권한·관측·도구 실패·폴백/재시도/사람 에스컬레이션
    • [초안] LLM 평가 프레임워크: 골든셋, 회귀 테스트, LLM-as-a-judge, 사람 피드백 루프
  • algorithm 페이지로 이동
    • live-coding 페이지로 이동
    • 분산 계산을 위한 알고리즘
  • apartment 페이지로 이동
    • 구리 럭키아파트 24평 인테리어 레퍼런스 모음
  • architecture 페이지로 이동
    • [초안] 시니어 백엔드를 위한 API 설계 실전 스터디 팩 — REST · 멱등성 · 페이지네이션 · 버전 전략
    • [초안] API Versioning과 Backward Compatibility: 시니어 백엔드 관점 정리
    • 캐시 설계 전략 총정리
    • [초안] 커머스 Spring 서비스에 Clean/Hexagonal Architecture를 실용적으로 적용하기
    • [초안] 커머스 도메인 모델링: 주문·재고·노출의 세 축을 분리해서 설계하기
    • 커머스 주문 상태와 데이터 정합성 기본기
    • [초안] 쿠폰/프로모션 동시성과 정합성 기본기 — 선착순·중복 사용 방지·발급/사용/복구
    • [초안] DDD와 도메인 모델링: 시니어 백엔드 관점의 전술/전략 패턴 실전 가이드
    • [초안] Decorator & Chain of Responsibility — 행동을 체인으로 조립하는 두 가지 방식
    • 디자인 패턴
    • [초안] 분산 아키텍처 완전 정복: Java 백엔드 시니어 인터뷰 대비 실전 가이드
    • [초안] 분산 트랜잭션과 Outbox 패턴 — 왜 2PC를 피하고 어떻게 대신할 것인가
    • 분산 트랜잭션
    • [초안] e-Commerce 주문·결제 도메인 모델링: 상태머신, 멱등성, Outbox/Saga 실전 정리
    • [초안] Event Sourcing과 CQRS — 상태가 아니라 변화를 저장한다는 발상
    • [초안] F&B 쿠폰·프로모션·멤버십·포인트 설계
    • [초안] F&B · e-Commerce 디지털 채널 도메인 한 장 정리
    • [초안] F&B 주문/매장/픽업 상태머신 설계
    • [초안] F&B 이커머스 결제·환불·정산 운영 가이드
    • [초안] Hexagonal / Clean Architecture를 Spring 백엔드에 적용하기
    • [초안] 대규모 커머스 트래픽 처리 패턴 — 대규모 회원과 메가 프로모션을 버티는 설계
    • [초안] 레거시 JSP/jQuery 화면과 신규 API가 공존하는 백엔드 운영 전략
    • [초안] MSA 서비스 간 통신: Redis [Cache-Aside](../database/redis/cache-aside.md) × Kafka 이벤트 하이브리드 설계
    • [초안] Observability 입문: 시니어 백엔드가 장애를 탐지하고 대응하는 방식
    • [초안] Outbox / Inbox Pattern 심화 — 분산 메시징의 정합성 문제를 DB 트랜잭션으로 풀어내기
    • [초안] 결제 도메인 멱등성과 트랜잭션 재시도 기본기
    • [초안] 시니어 백엔드를 위한 Resilience 패턴 실전 가이드 — Timeout, Retry, Circuit Breaker, Bulkhead, Backpressure
    • [초안] REST API 버저닝과 모바일 앱 하위 호환성 — 디지털 채널 백엔드 관점
    • [초안] Spring Batch vs Event-Driven — 같은 비동기처럼 보이지만 전혀 다른 두 패러다임
    • [초안] Strategy Pattern — 분기문을 없애는 설계, 시니어 백엔드 인터뷰 핵심 패턴
    • [초안] 시니어 백엔드를 위한 시스템 설계 입문 스터디 팩
    • [초안] 템플릿 메서드 패턴 - 백엔드 처리 골격을 강제하는 가장 오래되고 가장 위험한 패턴
    • [초안] 대규모 트래픽 중 무중단 마이그레이션 — Feature Flag + Shadow Mode 실전
  • database 페이지로 이동
    • mysql 페이지로 이동
    • opensearch 페이지로 이동
    • redis 페이지로 이동
    • 김영한의-실전-데이터베이스-설계 페이지로 이동
    • [초안] DB Connection Pool Saturation과 Thread Pool 격리
    • 커넥션 풀 크기는 얼마나 조정해야 할까?
    • 인덱스 - DB 성능 최적화의 핵심
    • [초안] JPA N+1과 커머스 조회 모델: 주문/메뉴/쿠폰 도메인에서 살아남기
    • [초안] MyBatis 기본기 — XML Mapper, resultMap, 동적 SQL, 운영 패턴 정리
    • [초안] MyBatis와 JPA/Hibernate 트레이드오프 — 레거시 백엔드를 다루는 시니어 관점
    • 역정규화 (Denormalization)
    • 데이터 베이스 정규화
  • devops 페이지로 이동
    • docker 페이지로 이동
    • k8s 페이지로 이동
    • k8s-in-action 페이지로 이동
    • observability 페이지로 이동
    • [초안] 커머스/F&B 채널 장애 첫 5분과 관측성 기본기
    • [초안] 운영 데이터 정합성 장애 대응 — 결제 취소 누락과 중복 적재 런북
    • Envoy Proxy
    • [초안] F&B / e-Commerce 운영 장애 대응과 모니터링 — 백엔드 관점 정리
    • Graceful Shutdown
    • [초안] 시니어 백엔드를 위한 SLO와 Error Budget 기반 장애 대응
  • finance 페이지로 이동
    • industry-cycle 페이지로 이동
    • investing 페이지로 이동
  • http 페이지로 이동
    • HTTP Connection Pool
    • HTTPS는 어떻게 안전한가 — TLS, 인증서, 그리고 termination
  • interview 페이지로 이동
    • [초안] AI 서비스 팀 경험 기반 시니어 백엔드 면접 질문 뱅크 — Spring Batch RAG / gRPC graceful shutdown / 전략 패턴 / 12일 AI 웹툰 MVP
    • Observability — 면접 답변 프레임
    • [초안] 시니어 Java 백엔드 면접 마스터 플레이북 — 김병태
    • [초안] NSC 슬롯팀 경험 기반 질문 은행 — 도메인 모델링·동시성·성능·AI 협업
  • java 페이지로 이동
    • concurrency 페이지로 이동
    • jdbc 페이지로 이동
    • opentelemetry 페이지로 이동
    • spring 페이지로 이동
    • spring-batch 페이지로 이동
    • 더_자바_코드를_조작하는_다양한_방법 페이지로 이동
    • [초안] Java 동시성 락 정리 — 커머스 메뉴/프로모션 정책 캐시 갱신 관점
    • [초안] JVM 튜닝 실전: 메모리 구조부터 Virtual Threads, GC 튜닝, 프로파일링까지
    • Java의 로깅 환경
    • MDC (Mapped Diagnostic Context)
    • Java StampedLock — 읽기 폭주에도 쓰기가 밀리지 않는 락
    • Virtual Thread와 Project Loom
  • javascript 페이지로 이동
    • typescript 페이지로 이동
    • AbortController
    • Async Iterator와 제너레이터
    • CommonJS와 ECMAScript Modules
    • 제너레이터(Generator)
    • Http Client
    • Node 백엔드 운영 패턴 — Streams 백프레셔, pipe/pipeline, 멱등성 vs 분산 락
    • Node.js
    • npm vs pnpm — 어떤 기준으로 선택했나
    • `setImmediate()`
  • kafka 페이지로 이동
    • [초안] Kafka 기본 개념 — 토픽, 파티션, 오프셋, 복제
    • Kafka를 사용하여 **데이터 정합성**은 어떻게 유지해야 할까?
    • [초안] Kafka 실전 설계: 파티션 전략, 컨슈머 그룹, 전달 보장, 재시도, 순서 보장 트레이드오프
    • 메시지 전송 신뢰성
    • [초안] Spring Kafka 컨슈머 오프셋 커밋과 트랜잭션 정렬: AckMode, manual ack, 멱등 처리
  • linux 페이지로 이동
    • fsync — 리눅스 파일 동기화 시스템 콜
    • tmux — Terminal Multiplexer
  • mlops 페이지로 이동
    • Python CUDA 버전 생태계 — nvidia-smi, nvcc, pip, conda가 다 다른 버전을 말하는 이유
    • GPU 컨테이너의 CUDA 버전 호환성 — nvidia-smi부터 이미지 다이어트까지
    • Kubernetes GPU 노드에서 /run tmpfs가 꽉 차서 Pod가 안 뜰 때
    • GPU·CUDA·MPS 기초 — 자바 백엔드 개발자가 처음 만나는 그림
    • Multi-process GPU 워크로드 — 자바 ThreadPool 사용자가 만나는 모델 차이
    • ML 서비스 성능 분석 워크플로 — 자바 백엔드 트러블슈팅과 다른 점
  • network 페이지로 이동
    • L2(스위치)와 L3(라우터)의 역할 차이
    • L4와 VIP(Virtual IP Address)
    • IP Subnet
  • python 페이지로 이동
    • Python async/await — CompletableFuture·Reactor 와 다른 점, 그리고 blocking I/O 함정
    • Python 의존성 관리 — Java Maven/Gradle 사용자가 만나는 첫 충격
    • FastAPI 기초 — Spring Boot 사용자가 빠르게 익히는 법
    • Java 개발자를 위한 Python 심화 — OOP·데코레이터·컨텍스트 매니저
    • PyTorch 기초 — 텐서, 디바이스, 그리고 모델 로딩이 무거운 이유
    • Java 개발자를 위한 Python 문법 핵심
    • OCR 동작 원리 — Layout · Text · Post-process 3단계
    • Python 서버의 RSS 가 안 줄어드는 이유 — gc.collect 의 한계와 malloc_trim
  • rabbitmq 페이지로 이동
    • [초안] RabbitMQ Basics — 실전 백엔드 관점에서 정리하는 메시지 브로커 기본기
    • [초안] RabbitMQ vs Kafka — 백엔드 메시징 선택 기준과 실전 운영 관점
  • security 페이지로 이동
    • [초안] 시니어 백엔드를 위한 보안 / 인증 스터디 팩 — Spring Security, JWT, OAuth2, OWASP Top 10
    • [초안] Spring Security 6.x OAuth2 + JWT 상용 인증 설계 — Grant 선택, Resource Server, Refresh Rotation, 로그아웃
  • task 페이지로 이동
    • ai-service-team 페이지로 이동
    • nsc-slot 페이지로 이동
    • sb-dev-team 페이지로 이동
    • the-future-company 페이지로 이동
  • testing 페이지로 이동
    • [초안] 시니어 Java 백엔드를 위한 테스트 전략 완전 정리 — 피라미드부터 TestContainers, 마이크로벤치, Contract까지
  • travel 페이지로 이동
    • 오사카 3박 4일 일정표: 우메다 쇼핑, USJ, 난바·도톤보리, 오사카성
  • web 페이지로 이동
    • [초안] HTTP / Cookie / Session / Token 인증 기본기 — 레거시 JSP와 모바일 API가 공존하는 백엔드 관점
FOS-BLOG · FOOTERall systems normal·v0.1 · 2026.04.27·seoul, kr
Ffos-blog/study

개발 학습 기록을 정리하는 블로그입니다. 공부하면서 기록하고, 기록하면서 다시 배웁니다.

visitors
01site
  • Home↗
  • Posts↗
  • Categories↗
  • About↗
02policy
  • 소개/about
  • 개인정보처리방침/privacy
  • 연락처/contact
03categories
  • AI↗
  • Algorithm↗
  • DB↗
  • DevOps↗
  • Java/Spring↗
  • JS/TS↗
  • React↗
  • Next.js↗
  • System↗
04connect
  • GitHub@jon890↗
  • Source repositoryjon890/fos-study↗
  • RSS feed/rss.xml↗
  • Newsletter매주 1 회 · 한 편의 글→
© 2026 FOS Study. All posts MIT-licensed.
built with·Next.js·Tailwind v4·Geist·Pretendard·oklch
fos-blog/mlops/GPU 컨테이너의 CUDA 버전 호환성 — …
system

GPU 컨테이너의 CUDA 버전 호환성 — nvidia-smi부터 이미지 다이어트까지

GPU로 모델을 추론하는 문서 파싱 서비스의 컨테이너 이미지가 압축 기준 10GB, 디스크에 풀면 30GB까지 부푼 걸 마주했다. 줄여보려고 들여다보다가, 정작 내가 GPU 컨테이너의 버전 체계를 제대로 모른다는 걸 알았다. nvidia-smi가 찍어주는 두 개의 버전 숫자가 무슨 뜻인지, 왜 컨테이너 안 CUDA를 마음대로 못 올리는지부터 막혔다. 이 글...

2026.06.16·7 min read·0 views

GPU로 모델을 추론하는 문서 파싱 서비스의 컨테이너 이미지가 압축 기준 10GB, 디스크에 풀면 30GB까지 부푼 걸 마주했다. 줄여보려고 들여다보다가, 정작 내가 GPU 컨테이너의 버전 체계를 제대로 모른다는 걸 알았다. nvidia-smi가 찍어주는 두 개의 버전 숫자가 무슨 뜻인지, 왜 컨테이너 안 CUDA를 마음대로 못 올리는지부터 막혔다.

이 글은 그때 정리한 내용이다. 드라이버와 CUDA 런타임과 cuDNN이 어떻게 층을 이루는지, 컨테이너가 그 사이에서 어떻게 끼는지, 그리고 그 이해가 이미지 다이어트로 어떻게 이어졌는지를 적는다.

nvidia-smi가 찍는 두 개의 버전

GPU가 붙은 호스트에서 nvidia-smi를 치면 맨 윗줄에 이런 게 나온다.

plaintext
NVIDIA-SMI 535.154.05   Driver Version: 535.154.05   CUDA Version: 12.2
...
  0  Tesla T4   On  | 00000000:00:05.0 Off |  3944MiB / 15360MiB | 0% Default

처음엔 Driver Version과 CUDA Version이 둘 다 떠서 헷갈렸다. "드라이버는 535인데 CUDA는 12.2를 설치했다는 건가?" 싶었는데, 아니었다.

여기서 CUDA Version: 12.2는 설치된 CUDA Toolkit 버전이 아니다. 이 드라이버가 지원하는 가장 높은 CUDA 버전이다. 정확히는 드라이버에 같이 들어 있는 CUDA Driver API의 호환 상한이다. 실제로 시스템에 어떤 CUDA Toolkit이 깔렸는지는 이 줄이 말해주지 않는다.

그래서 같은 머신에서 nvcc --version을 치면 다른 숫자가 나올 수 있다. nvcc는 실제로 설치된 Toolkit 버전, 즉 Runtime API 쪽을 보고한다. 정리하면 이렇다.

  • nvidia-smi의 CUDA 버전 = 드라이버가 받아줄 수 있는 최대 CUDA (호환성 상한)
  • nvcc의 CUDA 버전 = 실제로 깔린 Toolkit (컴파일에 쓰이는 버전)

나머지 줄도 읽어두면 운영에서 유용하다.

  • Tesla T4 — GPU 모델. Turing 세대, Compute Capability 7.5
  • 3944MiB / 15360MiB — 메모리 사용량. T4는 16GB 카드라 약 15GB가 가용
  • 아래 Processes 표 — 지금 GPU 메모리를 잡고 있는 프로세스들. 워커가 몇 개 떠 있는지, 각자 얼마를 쓰는지가 보인다

위 출력에서 python 프로세스 다섯 개가 GPU를 나눠 쓰고 있었는데, 이게 나중에 중요한 단서가 된다.

드라이버, CUDA 런타임, cuDNN — 누가 어디에 사는가

버전 호환성을 이해하려면 세 가지가 각각 어디에 사는지를 먼저 그려야 한다.

  • NVIDIA 드라이버는 호스트에 산다. 커널 모듈과 libcuda.so로, GPU 하드웨어를 직접 제어한다.
  • CUDA 런타임(cudart, cublas, cufft 등)은 애플리케이션이나 컨테이너 안에 산다. 드라이버 위에서 돈다.
  • cuDNN은 딥러닝 가속 라이브러리로, 역시 앱/컨테이너 쪽에 산다. PyTorch 같은 프레임워크가 자기 버전을 끼고 다닌다.

핵심 규칙은 하나다. 드라이버 쪽 CUDA 버전이 런타임 쪽 CUDA 버전보다 같거나 높아야 한다. 즉 호스트 드라이버가 535(CUDA 12.2 상한)면, 그 위에서 도는 CUDA 런타임은 12.2 이하여야 안전하다는 게 기본 원칙이다.

컨테이너를 쓰면 이 그림이 한 겹 더 접힌다. 컨테이너 안에는 CUDA 런타임만 들어 있고 드라이버는 없다. 대신 nvidia-container-toolkit이 호스트 드라이버를 컨테이너 안으로 연결해준다. 그러니까 컨테이너가 GPU를 쓴다는 건, 컨테이너 자기 런타임 + 호스트가 빌려준 드라이버의 조합으로 도는 것이다.

이 구조 때문에 컨테이너 안 CUDA를 무작정 최신으로 올릴 수가 없다. 호스트 드라이버가 그만큼 못 받아주면 GPU 초기화 단계에서 깨진다.

minor version compatibility — 규칙에 난 구멍

기본 원칙이 "드라이버 ≥ 런타임"이라면, 드라이버 535(12.2 상한)에서 CUDA 12.6으로 빌드한 라이브러리는 못 도는 게 맞아야 한다. 그런데 현실은 더 너그럽다.

CUDA 11부터 도입된 minor version compatibility 덕분이다. 같은 메이저 버전(12.x) 안에서 컴파일한 애플리케이션은, 그 메이저의 최소 드라이버만 있으면 돈다. NVIDIA가 공식적으로 정한 메이저별 최소 드라이버는 이렇다.

  • CUDA 11.x — 드라이버 450 이상
  • CUDA 12.x — 드라이버 525 이상
  • CUDA 13.x — 드라이버 580 이상

그러니까 CUDA 12.6으로 빌드한 라이브러리도, 호스트 드라이버가 525 이상이면 minor compat로 돈다. 535는 525보다 높으니 12.6 런타임이 돌 수 있다는 뜻이다. 단 NVIDIA 문서가 못박는 단서가 있다. 일부 기능은 toolkit과 드라이버 양쪽에 걸쳐 있어서, 호환 모드에서는 제한된 기능으로만 동작할 수 있다.

여기서 한 가지를 꼭 구분해야 한다. 나도 이걸 섞어서 한참 헤맸다.

  • minor compat가 보장하는 최소 드라이버: CUDA 12.x는 525면 동작 (제한 기능)
  • 어떤 CUDA를 네이티브로 완전 지원하는 드라이버: CUDA 12.6은 560.28 이상

이 둘이 다르다. 12.6을 525에서 돌리는 건 "호환 모드로 됨"이고, 12.6을 온전히 받는 건 560이다. 이 구분이 다음 함정으로 이어진다.

컨테이너가 시작도 못 하고 거부당하는 이유

CUDA 12.6 베이스 이미지(nvidia/cuda:12.6.0-runtime 류)를 535 드라이버 호스트에서 띄우면, minor compat 이론상 될 것 같은데 컨테이너가 아예 시작을 거부한다.

plaintext
nvidia-container-cli: requirement error: unsatisfied condition:
cuda>=12.6, please update your driver to a newer version,
or use an earlier cuda container

이건 CUDA 런타임이 실제로 못 돌아서 나는 에러가 아니다. 컨테이너가 뜨기도 전에 nvidia-container-toolkit이 막은 것이다.

NVIDIA가 배포하는 CUDA 베이스 이미지에는 NVIDIA_REQUIRE_CUDA라는 환경 라벨이 박혀 있다. nvidia/cuda:12.6 이미지면 cuda>=12.6 같은 조건이 들어 있다. 컨테이너 런타임이 이걸 호스트 드라이버 능력(여기선 12.2)과 비교해서, 조건을 못 채우면 GPU 연결 자체를 거부한다.

그래서 minor compat가 "런타임 라이브러리는 돌 수 있다"고 해도, 베이스 이미지의 REQUIRE 체크는 별개의 관문이다. 이 관문은 드라이버가 12.6을 네이티브로 받을 때(560+)만 통과한다.

정리하면 같은 "CUDA 12.6"이라도 경로에 따라 운명이 갈린다.

  • 베이스 이미지의 시스템 CUDA를 12.6으로 = REQUIRE 체크에 걸림 = 드라이버 560 필요
  • pip 휠이 끼고 들어온 CUDA 12.6 = REQUIRE 라벨 없음 = minor compat로 525+에서 동작

이게 실측에서 그대로 드러났다. 앞의 nvidia-smi에서 python 프로세스 다섯 개가 GPU를 잘 쓰고 있었는데, 그 컨테이너의 베이스는 CUDA 11.8이었고 그 위에 깔린 PyTorch는 CUDA 12.6 빌드였다. 베이스가 11.8이라 REQUIRE 라벨이 cuda>=11.8이고, PyTorch 휠에는 그런 라벨이 없으니, 12.6 런타임이 535 드라이버에서 minor compat로 멀쩡히 돌고 있던 것이다.

이 한 가지 관찰이 다이어트 방향을 정해줬다. 베이스 이미지의 CUDA를 올리는 건 드라이버를 묶지만(운영 모든 호스트의 드라이버 업그레이드라는 인프라 작업이 선행되어야 한다), 프레임워크가 끼고 오는 CUDA는 그 제약에서 비교적 자유롭다는 것.

GPU를 여러 프로세스로 나눠 쓰는 워커 풀 구성은 Java 개발자가 본 Python 멀티프로세스 GPU 워커 풀에 따로 정리해두었다.

30GB는 어디서 왔나 — pull 없이 레이어를 뜯어보기

방향을 잡았으니 실제로 이미지를 뜯어봐야 했다. 그런데 문제의 이미지가 30GB다. 받아서 docker history로 보기엔 너무 무겁다.

다행히 Docker Registry HTTP API v2로 이미지를 받지 않고도 레이어 구성을 볼 수 있다.

  • GET /v2/<repo>/manifests/<tag> — 레이어별 압축 크기 목록과 config blob 다이제스트
  • GET /v2/<repo>/blobs/<config-digest> — 각 레이어를 만든 빌드 명령(history)

manifest의 레이어 크기와 config의 history를 순서대로 맞물리면, "어느 빌드 명령이 만든 레이어가 몇 MB인지"가 나온다. 받은 건 JSON 수십 KB뿐인데 30GB 이미지의 구조가 손에 잡혔다.

뜯어보니 거대화의 정체는 CUDA 라이브러리의 삼중 중복이었다.

  • 베이스 이미지의 시스템 CUDA 11.8 + cudnn8
  • PyTorch가 끌어온 CUDA 12.6 라이브러리 묶음 (nvidia-cudnn-cu12 등 십수 개)
  • PaddlePaddle이 끌어온 CUDA 11.8 라이브러리

세 벌의 CUDA가 한 이미지에 쌓여 있었다. 게다가 PyTorch는 자기 CUDA 12.6 번들을 쓰니, 베이스 이미지가 품고 있는 cudnn8은 PyTorch 입장에서 죽은 무게였다.

다이어트 레버 — MLOps 관점에서 무엇을 먼저 자르나

레이어 분석이 끝나니 자를 곳의 우선순위가 정리됐다. GPU 추론 이미지를 줄일 때 일반적으로 적용되는 레버들이다.

  • 베이스 이미지를 최소화한다. devel이 아니라 runtime 계열을 쓰고, 프레임워크가 cudnn을 자기 번들로 들고 오면 베이스의 cudnn은 뺄 수 있는지 검증한다.
  • 빌드 도구를 런타임에서 분리한다. 멀티스테이지 빌드로 컴파일러, 헤더, 빌드 캐시를 builder 스테이지에 가두고, 최종 이미지에는 실행에 필요한 것만 복사한다.
  • 안 쓰는 의존성을 들어낸다. import가 한 번도 안 되는데 따라 들어온 패키지(특히 전이 의존성으로 무거운 것을 끌고 오는 패키지)를 찾아 제거한다.
  • CUDA 버전을 통일한다. 같은 메이저 안에서 프레임워크들의 CUDA 버전을 맞추면 라이브러리 정합성이 올라간다. 다만 이미지 크기 절감 효과 자체는 생각보다 작을 수 있어서, 줄이는 효과와 정합성 효과를 분리해서 기대해야 한다.

여기서 MLOps 관점의 교훈이 하나 나온다. "CUDA를 최신으로 올리면 더 좋아지겠지"라는 직관이 운영에서는 자주 빗나간다. 최신 CUDA로 통일하려면 호스트 드라이버를 그만큼 올려야 하고, 그건 GPU 노드 전체를 건드리는 인프라 작업이다. 모델 추론 컨테이너만 새로 빌드한다고 끝나지 않는다. 그래서 이미지 최적화는 "라이브러리를 어디까지 올릴 수 있나"가 아니라 "호스트 드라이버가 받쳐주는 선이 어디까지인가"에서 거꾸로 출발하는 게 맞다.

정리

GPU 컨테이너의 버전 문제는 결국 세 층의 관계로 환원된다. 호스트 드라이버, 컨테이너 안 CUDA 런타임, 그리고 그 둘을 잇는 nvidia-container-toolkit.

  • nvidia-smi의 CUDA 버전은 설치된 Toolkit이 아니라 드라이버가 받아줄 수 있는 상한이다.
  • 드라이버는 호스트에 있고 컨테이너가 빌려 쓴다. 그래서 컨테이너 CUDA는 드라이버 능력에 묶인다.
  • minor version compatibility로 같은 메이저 안에서는 더 새 런타임도 돌지만, 베이스 이미지의 NVIDIA_REQUIRE_CUDA 관문은 별개라 네이티브 드라이버를 요구한다.
  • 그래서 베이스 이미지 CUDA를 올리는 것과 프레임워크가 끼고 오는 CUDA는 제약의 무게가 다르다.

이미지를 줄이겠다고 시작했는데, 정작 가장 크게 배운 건 버전 호환성의 층위였다. 30GB를 어떻게 자를지보다, 왜 그렇게 쌓였고 무엇은 못 건드리는지를 아는 게 먼저였다.

참고 링크

  • CUDA Compatibility — NVIDIA 공식 문서
  • Minor Version Compatibility — NVIDIA
  • NVIDIA Container Toolkit Troubleshooting
  • CUDA Compatibility — Lei Mao's Log Book
  • Docker Registry HTTP API V2
on this page
  • 01nvidia-smi가 찍는 두 개의 버전
  • 02드라이버, CUDA 런타임, cuDNN — 누가 어디에 사는가
  • 03minor version compatibility — 규칙에 난 구멍
  • 04컨테이너가 시작도 못 하고 거부당하는 이유
  • 0530GB는 어디서 왔나 — pull 없이 레이어를 뜯어보기
  • 06다이어트 레버 — MLOps 관점에서 무엇을 먼저 자르나
  • 07정리
  • 08참고 링크

이런 글도

  • Python CUDA 버전 생태계 — nvidia-smi, nvcc, pip, conda가 다 다른 버전을 말하는 이유
    PyTorch를 pip install로 깔았는데 시스템에 CUDA Toolkit을 따로 안 깔아도 GPU가 돌았다. 그러다 nvidia-smi는 CUDA 12.2라고 하고, nvcc --version은 아예 명령이 없다고 하고, python -c "import torch; print(torch.version.cuda)"는 12.6이라고 한다. 같은 머신에서...
    📁 system
    system
    2026.06.16
  • Kubernetes GPU 노드에서 /run tmpfs가 꽉 차서 Pod가 안 뜰 때
    NHN Cloud OCR 리얼 배포 중 ArgoCD sync가 Degraded로 떨어졌다. pod sandbox 생성 단계에서 no space left on device 에러가 반복 발생했고, 원인은 GPU 노드의 /run tmpfs 포화였다. 루트 디스크는 16%밖에 안 쓰고 있는데 pod가 안 뜨는 상황이라 처음엔 혼란스러웠다. 이 글에서는 /run t...
    📁 system
    system
    2026.06.16
  • GPU·CUDA·MPS 기초 — 자바 백엔드 개발자가 처음 만나는 그림
    자바로 백엔드만 짤 때는 컴퓨팅 자원이 단순했다. CPU 코어 수, JVM heap (-Xmx), 시스템 RAM. 워크로드가 커지면 인스턴스를 늘리거나 스레드를 늘리는 게 답이었다. ML 서비스를 다루기 시작하면 그림이 한 층 더 생긴다. GPU 라는 별도 컴퓨팅 장치, 그 안의 VRAM 이라는 별도 메모리, 그리고 그것들을 다루는 CUDA·cuDNN·MP...
    📁 system
    system
    2026.06.16
  • Multi-process GPU 워크로드 — 자바 ThreadPool 사용자가 만나는 모델 차이
    자바 백엔드에서 ThreadPoolExecutor 는 거의 만능이었다. CPU bound 든 I/O bound 든 스레드 풀 크기만 잘 잡으면 동시성을 챙길 수 있었다. JVM 안에서 메모리를 공유하니 작업 간 데이터 전달도 가볍다. Python ML 서비스는 그림이 다르다. ThreadPoolExecutor 가 있지만 CPU/GPU 작업에서는 거의 안 쓰...
    📁 system
    system
    2026.06.16

댓글 (0)