fos-blog/study
01 / 홈02 / 카테고리03 / 시리즈
01 / 홈02 / 카테고리03 / 시리즈

카테고리

  • AI 페이지로 이동
    • RAG 페이지로 이동
    • langgraph 페이지로 이동
    • agents.md
    • BMAD Method — AI 에이전트로 애자일 개발하는 방법론
    • Claude Code 메모리: CLAUDE.md와 .claude/rules를 규칙으로 쓰는 법
    • Claude Code의 Skill 시스템 - 개발자를 위한 AI 자동화의 새로운 차원
    • Claude Code를 5주 더 쓴 결과 — 스킬·CLAUDE.md를 키워가는 방식
    • Claude Code를 11일 동안 쓴 결과 — 데이터로 본 나의 사용 패턴
    • Claude Code 멀티 에이전트 — Teams
    • AI 에이전트와 디자인의 새 컨벤션 — DESIGN.md, Google Stitch, Claude Design
    • Docling — IBM Research 의 문서 파싱 toolkit 상세 정리
    • 하네스 엔지니어링 실전 — 4인 에이전트 팀으로 코딩 파이프라인 구축하기
    • 하네스 엔지니어링 — 오래 실행되는 AI 에이전트를 위한 설계
    • 멀티모달 LLM (Multimodal Large Language Model)
    • AI 에이전트와 함께 MVP 만들기 — dooray-cli 사례
    • OpenClaw는 context와 memory를 어떻게 관리하나 — 나만의 에이전트를 구성하는 법
    • OpenClaw vs Hermes Agent — 갈아탈까 고민하며 정리한 비교
    • 스킬 문서를 신경망처럼 학습시킨다 — Microsoft SkillOpt 분석
  • ai 페이지로 이동
    • agent 페이지로 이동
    • [초안] AI 제품 백엔드 안정성 — 지연·비용·권한·관측·도구 실패·폴백/재시도/사람 에스컬레이션
    • [초안] LLM 평가 프레임워크: 골든셋, 회귀 테스트, LLM-as-a-judge, 사람 피드백 루프
  • algorithm 페이지로 이동
    • live-coding 페이지로 이동
    • 분산 계산을 위한 알고리즘
  • apartment 페이지로 이동
    • 구리 럭키아파트 24평 인테리어 레퍼런스 모음
  • architecture 페이지로 이동
    • [초안] 시니어 백엔드를 위한 API 설계 실전 스터디 팩 — REST · 멱등성 · 페이지네이션 · 버전 전략
    • [초안] API Versioning과 Backward Compatibility: 시니어 백엔드 관점 정리
    • 캐시 설계 전략 총정리
    • [초안] 커머스 Spring 서비스에 Clean/Hexagonal Architecture를 실용적으로 적용하기
    • [초안] 커머스 도메인 모델링: 주문·재고·노출의 세 축을 분리해서 설계하기
    • 커머스 주문 상태와 데이터 정합성 기본기
    • [초안] 쿠폰/프로모션 동시성과 정합성 기본기 — 선착순·중복 사용 방지·발급/사용/복구
    • [초안] DDD와 도메인 모델링: 시니어 백엔드 관점의 전술/전략 패턴 실전 가이드
    • [초안] Decorator & Chain of Responsibility — 행동을 체인으로 조립하는 두 가지 방식
    • 디자인 패턴
    • [초안] 분산 아키텍처 완전 정복: Java 백엔드 시니어 인터뷰 대비 실전 가이드
    • [초안] 분산 트랜잭션과 Outbox 패턴 — 왜 2PC를 피하고 어떻게 대신할 것인가
    • 분산 트랜잭션
    • [초안] e-Commerce 주문·결제 도메인 모델링: 상태머신, 멱등성, Outbox/Saga 실전 정리
    • [초안] Event Sourcing과 CQRS — 상태가 아니라 변화를 저장한다는 발상
    • [초안] F&B 쿠폰·프로모션·멤버십·포인트 설계
    • [초안] F&B · e-Commerce 디지털 채널 도메인 한 장 정리
    • [초안] F&B 주문/매장/픽업 상태머신 설계
    • [초안] F&B 이커머스 결제·환불·정산 운영 가이드
    • [초안] Hexagonal / Clean Architecture를 Spring 백엔드에 적용하기
    • [초안] 대규모 커머스 트래픽 처리 패턴 — 대규모 회원과 메가 프로모션을 버티는 설계
    • [초안] 레거시 JSP/jQuery 화면과 신규 API가 공존하는 백엔드 운영 전략
    • [초안] MSA 서비스 간 통신: Redis [Cache-Aside](../database/redis/cache-aside.md) × Kafka 이벤트 하이브리드 설계
    • [초안] Observability 입문: 시니어 백엔드가 장애를 탐지하고 대응하는 방식
    • [초안] Outbox / Inbox Pattern 심화 — 분산 메시징의 정합성 문제를 DB 트랜잭션으로 풀어내기
    • [초안] 결제 도메인 멱등성과 트랜잭션 재시도 기본기
    • [초안] 시니어 백엔드를 위한 Resilience 패턴 실전 가이드 — Timeout, Retry, Circuit Breaker, Bulkhead, Backpressure
    • [초안] REST API 버저닝과 모바일 앱 하위 호환성 — 디지털 채널 백엔드 관점
    • [초안] Spring Batch vs Event-Driven — 같은 비동기처럼 보이지만 전혀 다른 두 패러다임
    • [초안] Strategy Pattern — 분기문을 없애는 설계, 시니어 백엔드 인터뷰 핵심 패턴
    • [초안] 시니어 백엔드를 위한 시스템 설계 입문 스터디 팩
    • [초안] 템플릿 메서드 패턴 - 백엔드 처리 골격을 강제하는 가장 오래되고 가장 위험한 패턴
    • [초안] 대규모 트래픽 중 무중단 마이그레이션 — Feature Flag + Shadow Mode 실전
  • database 페이지로 이동
    • mysql 페이지로 이동
    • opensearch 페이지로 이동
    • redis 페이지로 이동
    • 김영한의-실전-데이터베이스-설계 페이지로 이동
    • [초안] DB Connection Pool Saturation과 Thread Pool 격리
    • 커넥션 풀 크기는 얼마나 조정해야 할까?
    • 인덱스 - DB 성능 최적화의 핵심
    • [초안] JPA N+1과 커머스 조회 모델: 주문/메뉴/쿠폰 도메인에서 살아남기
    • [초안] MyBatis 기본기 — XML Mapper, resultMap, 동적 SQL, 운영 패턴 정리
    • [초안] MyBatis와 JPA/Hibernate 트레이드오프 — 레거시 백엔드를 다루는 시니어 관점
    • 역정규화 (Denormalization)
    • 데이터 베이스 정규화
  • devops 페이지로 이동
    • docker 페이지로 이동
    • k8s 페이지로 이동
    • k8s-in-action 페이지로 이동
    • observability 페이지로 이동
    • [초안] 커머스/F&B 채널 장애 첫 5분과 관측성 기본기
    • [초안] 운영 데이터 정합성 장애 대응 — 결제 취소 누락과 중복 적재 런북
    • Envoy Proxy
    • [초안] F&B / e-Commerce 운영 장애 대응과 모니터링 — 백엔드 관점 정리
    • Graceful Shutdown
    • [초안] 시니어 백엔드를 위한 SLO와 Error Budget 기반 장애 대응
  • finance 페이지로 이동
    • industry-cycle 페이지로 이동
    • investing 페이지로 이동
  • http 페이지로 이동
    • HTTP Connection Pool
    • HTTPS는 어떻게 안전한가 — TLS, 인증서, 그리고 termination
  • interview 페이지로 이동
    • [초안] AI 서비스 팀 경험 기반 시니어 백엔드 면접 질문 뱅크 — Spring Batch RAG / gRPC graceful shutdown / 전략 패턴 / 12일 AI 웹툰 MVP
    • Observability — 면접 답변 프레임
    • [초안] 시니어 Java 백엔드 면접 마스터 플레이북 — 김병태
    • [초안] NSC 슬롯팀 경험 기반 질문 은행 — 도메인 모델링·동시성·성능·AI 협업
  • java 페이지로 이동
    • concurrency 페이지로 이동
    • jdbc 페이지로 이동
    • opentelemetry 페이지로 이동
    • spring 페이지로 이동
    • spring-batch 페이지로 이동
    • 더_자바_코드를_조작하는_다양한_방법 페이지로 이동
    • [초안] Java 동시성 락 정리 — 커머스 메뉴/프로모션 정책 캐시 갱신 관점
    • [초안] JVM 튜닝 실전: 메모리 구조부터 Virtual Threads, GC 튜닝, 프로파일링까지
    • Java의 로깅 환경
    • MDC (Mapped Diagnostic Context)
    • Java StampedLock — 읽기 폭주에도 쓰기가 밀리지 않는 락
    • Virtual Thread와 Project Loom
  • javascript 페이지로 이동
    • typescript 페이지로 이동
    • AbortController
    • Async Iterator와 제너레이터
    • CommonJS와 ECMAScript Modules
    • 제너레이터(Generator)
    • Http Client
    • Node 백엔드 운영 패턴 — Streams 백프레셔, pipe/pipeline, 멱등성 vs 분산 락
    • Node.js
    • npm vs pnpm — 어떤 기준으로 선택했나
    • `setImmediate()`
  • kafka 페이지로 이동
    • [초안] Kafka 기본 개념 — 토픽, 파티션, 오프셋, 복제
    • Kafka를 사용하여 **데이터 정합성**은 어떻게 유지해야 할까?
    • [초안] Kafka 실전 설계: 파티션 전략, 컨슈머 그룹, 전달 보장, 재시도, 순서 보장 트레이드오프
    • 메시지 전송 신뢰성
    • [초안] Spring Kafka 컨슈머 오프셋 커밋과 트랜잭션 정렬: AckMode, manual ack, 멱등 처리
  • linux 페이지로 이동
    • fsync — 리눅스 파일 동기화 시스템 콜
    • tmux — Terminal Multiplexer
  • mlops 페이지로 이동
    • Python CUDA 버전 생태계 — nvidia-smi, nvcc, pip, conda가 다 다른 버전을 말하는 이유
    • GPU 컨테이너의 CUDA 버전 호환성 — nvidia-smi부터 이미지 다이어트까지
    • Kubernetes GPU 노드에서 /run tmpfs가 꽉 차서 Pod가 안 뜰 때
    • GPU·CUDA·MPS 기초 — 자바 백엔드 개발자가 처음 만나는 그림
    • Multi-process GPU 워크로드 — 자바 ThreadPool 사용자가 만나는 모델 차이
    • ML 서비스 성능 분석 워크플로 — 자바 백엔드 트러블슈팅과 다른 점
  • network 페이지로 이동
    • L2(스위치)와 L3(라우터)의 역할 차이
    • L4와 VIP(Virtual IP Address)
    • IP Subnet
  • python 페이지로 이동
    • Python async/await — CompletableFuture·Reactor 와 다른 점, 그리고 blocking I/O 함정
    • Python 의존성 관리 — Java Maven/Gradle 사용자가 만나는 첫 충격
    • FastAPI 기초 — Spring Boot 사용자가 빠르게 익히는 법
    • Java 개발자를 위한 Python 심화 — OOP·데코레이터·컨텍스트 매니저
    • PyTorch 기초 — 텐서, 디바이스, 그리고 모델 로딩이 무거운 이유
    • Java 개발자를 위한 Python 문법 핵심
    • OCR 동작 원리 — Layout · Text · Post-process 3단계
    • Python 서버의 RSS 가 안 줄어드는 이유 — gc.collect 의 한계와 malloc_trim
  • rabbitmq 페이지로 이동
    • [초안] RabbitMQ Basics — 실전 백엔드 관점에서 정리하는 메시지 브로커 기본기
    • [초안] RabbitMQ vs Kafka — 백엔드 메시징 선택 기준과 실전 운영 관점
  • security 페이지로 이동
    • [초안] 시니어 백엔드를 위한 보안 / 인증 스터디 팩 — Spring Security, JWT, OAuth2, OWASP Top 10
    • [초안] Spring Security 6.x OAuth2 + JWT 상용 인증 설계 — Grant 선택, Resource Server, Refresh Rotation, 로그아웃
  • task 페이지로 이동
    • ai-service-team 페이지로 이동
    • nsc-slot 페이지로 이동
    • sb-dev-team 페이지로 이동
    • the-future-company 페이지로 이동
  • testing 페이지로 이동
    • [초안] 시니어 Java 백엔드를 위한 테스트 전략 완전 정리 — 피라미드부터 TestContainers, 마이크로벤치, Contract까지
  • travel 페이지로 이동
    • 오사카 3박 4일 일정표: 우메다 쇼핑, USJ, 난바·도톤보리, 오사카성
  • web 페이지로 이동
    • [초안] HTTP / Cookie / Session / Token 인증 기본기 — 레거시 JSP와 모바일 API가 공존하는 백엔드 관점
FOS-BLOG · FOOTERall systems normal·v0.1 · 2026.04.27·seoul, kr
Ffos-blog/study

개발 학습 기록을 정리하는 블로그입니다. 공부하면서 기록하고, 기록하면서 다시 배웁니다.

visitors
01site
  • Home↗
  • Posts↗
  • Categories↗
  • About↗
02policy
  • 소개/about
  • 개인정보처리방침/privacy
  • 연락처/contact
03categories
  • AI↗
  • Algorithm↗
  • DB↗
  • DevOps↗
  • Java/Spring↗
  • JS/TS↗
  • React↗
  • Next.js↗
  • System↗
04connect
  • GitHub@jon890↗
  • Source repositoryjon890/fos-study↗
  • RSS feed/rss.xml↗
  • Newsletter매주 1 회 · 한 편의 글→
© 2026 FOS Study. All posts MIT-licensed.
built with·Next.js·Tailwind v4·Geist·Pretendard·oklch
fos-blog/mlops/Python CUDA 버전 생태계 — nvi…
system

Python CUDA 버전 생태계 — nvidia-smi, nvcc, pip, conda가 다 다른 버전을 말하는 이유

PyTorch를 pip install로 깔았는데 시스템에 CUDA Toolkit을 따로 안 깔아도 GPU가 돌았다. 그러다 nvidia-smi는 CUDA 12.2라고 하고, nvcc --version은 아예 명령이 없다고 하고, python -c "import torch; print(torch.version.cuda)"는 12.6이라고 한다. 같은 머신에서...

2026.06.16·5 min read·0 views

PyTorch를 pip install로 깔았는데 시스템에 CUDA Toolkit을 따로 안 깔아도 GPU가 돌았다. 그러다 nvidia-smi는 CUDA 12.2라고 하고, nvcc --version은 아예 명령이 없다고 하고, python -c "import torch; print(torch.version.cuda)"는 12.6이라고 한다. 같은 머신에서 CUDA 버전이 세 가지로 갈렸다.

처음엔 환경이 꼬인 줄 알았는데, 알고 보니 셋 다 정상이고 각자 다른 걸 말하고 있었다. 이 글은 그 생태계를 정리한 것이다. GPU 컨테이너에서의 드라이버 호환성은 GPU 컨테이너의 CUDA 버전 호환성에 따로 적었고, 이 글은 로컬 Python 환경에서 CUDA가 어떻게 여러 층으로 쪼개지는지를 다룬다.

CUDA에는 API가 두 개다

혼란의 뿌리는 CUDA가 하나가 아니라는 데 있다. CUDA는 두 개의 API 층으로 나뉜다.

  • Driver API — 드라이버에 들어 있는 저수준 API다. libcuda.so로 제공되고, NVIDIA 드라이버를 깔면 같이 들어온다. GPU에 직접 명령을 내리는 가장 아래층이다.
  • Runtime API — 그 위에 얹히는 고수준 API다. libcudart.so로 제공되고, CUDA Toolkit이나 PyTorch 같은 라이브러리에 묶여 들어온다. 우리가 코드에서 쓰는 대부분의 CUDA 함수가 여기에 있다.

이 두 층이 별도로 버전을 가진다. 드라이버 쪽 CUDA 버전(Driver API)과 런타임 쪽 CUDA 버전(Runtime API)이 서로 다를 수 있고, 그게 정상이다.

기본 규칙은 하나다. Driver API 버전이 Runtime API 버전보다 같거나 높아야 한다. 드라이버가 더 낮은 CUDA를 보면 못 돌린다. 반대로 드라이버가 더 높은 CUDA를 보는 건 괜찮다. 이게 forward compatibility다.

nvidia-smi와 nvcc는 서로 다른 층을 본다

이제 두 명령이 왜 다른 숫자를 말하는지가 풀린다.

nvidia-smi는 드라이버와 함께 설치되고, Driver API 쪽 버전을 보고한다. 정확히는 이 드라이버가 받아줄 수 있는 가장 높은 CUDA 버전, 즉 호환 상한이다. 실제로 무엇이 설치됐는지가 아니라 무엇까지 받아줄 수 있는지를 말한다.

nvcc는 CUDA Toolkit과 함께 설치되고, Runtime API 쪽 버전을 보고한다. 실제로 시스템에 깔린 Toolkit 버전이다. 컴파일에 쓰이는 버전이라 이게 정확해야 빌드가 맞물린다.

그래서 둘이 다르면 이렇게 읽으면 된다.

  • nvidia-smi가 12.2 = 이 드라이버는 CUDA 12.2까지 받아줄 수 있다
  • nvcc가 11.8 = 시스템에 깔린 Toolkit은 11.8이다
  • 11.8 ≤ 12.2 이므로 정상이다

nvcc가 아예 없다고 나오는 경우도 흔하다. CUDA Toolkit을 시스템에 설치하지 않았다는 뜻인데, 뒤에서 보겠지만 PyTorch만 쓸 거라면 이게 오히려 정상이다.

Python에서는 CUDA가 패키지로 따라온다

여기가 Python 생태계의 핵심이다.

pip install torch를 하면, PyTorch 휠은 자기가 쓸 CUDA 런타임 라이브러리를 의존성으로 같이 끌어온다. 요즘 PyTorch는 nvidia-cuda-runtime-cu12, nvidia-cudnn-cu12, nvidia-cublas-cu12 같은 패키지들을 딸려 설치한다. 이것들이 바로 Runtime API 쪽 라이브러리다.

중요한 건 이 패키지들이 런타임 라이브러리만 담고 있다는 점이다. libcudart.so, libcublas.so 같은 실행용 .so는 들어 있지만, nvcc 같은 개발 도구는 없다. 그래서 시스템에 CUDA Toolkit을 안 깔아도 PyTorch가 GPU에서 도는 것이다. PyTorch가 자기 런타임을 통째로 들고 다니고, 호스트에서는 드라이버(libcuda.so)만 빌려 쓴다.

이게 세 번째 버전의 정체다.

python
import torch
print(torch.version.cuda)   # 예: 12.6 — PyTorch 휠이 번들한 CUDA 런타임 버전

torch.version.cuda는 시스템 Toolkit도 드라이버도 아니다. PyTorch 휠 안에 묶여 들어온 CUDA 런타임 버전이다. 그래서 nvidia-smi(드라이버 상한)와도, nvcc(시스템 Toolkit)와도 다를 수 있다.

conda와 pip, 그리고 full toolkit의 차이

설치 경로가 여러 갈래라 더 헷갈린다. 정리하면 이렇다.

  • pip의 nvidia-cuda-runtime-cu12 류 — 런타임 라이브러리만. PyTorch가 의존성으로 끌어온다.
  • conda의 cudatoolkit — 마찬가지로 런타임 라이브러리 중심. conda 환경 안에 CUDA 런타임을 넣어준다. pytorch-cuda 메타패키지는 conda solver가 맞는 PyTorch 빌드를 고르도록 돕는 역할이다.
  • NVIDIA가 배포하는 full CUDA Toolkit — 런타임 + 개발 도구 전부. nvcc, cuda-gdb, cuda-memcheck까지 들어 있다.

여기서 갈린다. PyTorch나 PaddlePaddle로 추론/학습만 한다면 full toolkit이 필요 없다. 런타임 라이브러리만 있으면 되고, 그건 pip/conda가 프레임워크와 함께 넣어준다. full toolkit이 필요한 건 직접 CUDA 커널(.cu 파일)을 작성해서 nvcc로 컴파일할 때다. 커스텀 연산을 빌드하거나, 일부 라이브러리를 소스에서 빌드할 때가 그렇다.

그래서 "GPU 코드를 돌린다"와 "GPU 코드를 컴파일한다"를 구분해야 한다. 돌리기만 하면 런타임으로 충분하고, 컴파일하려면 full toolkit이 필요하다.

PyTorch는 CUDA 버전을 골라서 깐다

PyTorch 휠은 CUDA 버전별로 따로 빌드되어 배포된다. pip 기본 인덱스에서 받으면 PyTorch가 그 시점에 기본으로 정한 CUDA 빌드가 깔리는데, 특정 버전을 원하면 인덱스를 직접 지정한다.

bash
# CUDA 11.8 빌드
pip install torch --index-url https://download.pytorch.org/whl/cu118
 
# CUDA 12.4 빌드
pip install torch --index-url https://download.pytorch.org/whl/cu124

어떤 cu 버전을 고를지는 GPU와 드라이버에 달렸다.

  • cu118 — 가장 안전하고 호환 범위가 넓다. 오래된 카드도 잘 받는다.
  • cu121, cu124, cu126 — 최신 카드에 맞고, 최신 PyTorch가 기본으로 따라가는 쪽이다.

PyTorch 버전마다 제공하는 cu 빌드가 다르다는 점도 주의한다. 예를 들어 어떤 PyTorch 버전은 cu118과 cu124만 주고, 다른 버전은 cu118과 cu126을 준다. 원하는 조합이 실제로 배포되는지를 인덱스에서 먼저 확인하는 게 안전하다.

그리고 앞에서 본 호환성 규칙이 여기서도 작동한다. PyTorch 휠이 cu126으로 빌드됐어도, 호스트 드라이버가 CUDA 12.x를 받을 수 있으면(같은 메이저의 최소 드라이버 이상) 돈다. 드라이버가 그 메이저를 아예 못 받으면 그때 막힌다.

내 환경의 CUDA를 진단하는 법

버전이 꼬였다고 느낄 때 한 번에 훑는 명령들이다.

bash
# 1. 드라이버가 받아줄 수 있는 CUDA 상한 (Driver API)
nvidia-smi
 
# 2. 시스템에 설치된 CUDA Toolkit (Runtime API, 없을 수 있음)
nvcc --version
 
# 3. PyTorch가 번들한 CUDA 런타임 버전
python -c "import torch; print(torch.version.cuda, torch.cuda.is_available())"
 
# 4. pip가 끌어온 CUDA 런타임 패키지들
pip list | grep -i nvidia

이 넷이 다 다른 숫자를 말해도 보통 정상이다.

  • nvidia-smi 숫자 ≥ torch.version.cuda 의 메이저 호환이면 GPU가 돈다
  • nvcc가 없거나 다른 버전이어도 PyTorch 추론에는 영향이 없다
  • torch.cuda.is_available()이 True면 실제로 GPU를 잡은 것이다

마지막 줄이 핵심 판정이다. 버전 숫자가 제각각이어도 is_available()이 True면 일단 동작하는 환경이다.

정리

같은 머신에서 CUDA 버전이 여러 개로 보이는 건 고장이 아니라 구조다.

  • CUDA는 Driver API와 Runtime API 두 층으로 나뉜다.
  • nvidia-smi는 드라이버 상한(Driver API), nvcc는 설치된 Toolkit(Runtime API)을 본다.
  • Python에서는 PyTorch 휠이 자기 CUDA 런타임을 번들로 끌어온다. 그래서 시스템 Toolkit 없이도 GPU가 돈다.
  • pip/conda가 주는 건 런타임 라이브러리고, nvcc가 든 full toolkit은 CUDA 코드를 직접 컴파일할 때만 필요하다.
  • 버전이 다 달라도 드라이버가 런타임의 메이저를 받아주면 동작한다.

결국 외워야 할 한 줄은 이거다. 호스트에는 드라이버만 맞추고, 런타임 CUDA는 프레임워크가 들고 다닌다. 이 구조를 알고 나니 버전 숫자가 제각각인 게 더 이상 불안하지 않았다.

참고 링크

  • CUDA Compatibility — NVIDIA 공식 문서
  • nvcc vs nvidia-smi: Why Different CUDA Versions Are Shown
  • PyTorch Previous Versions — 설치 인덱스
  • CUDA Toolkit: Full vs Conda-installed version
on this page
  • 01CUDA에는 API가 두 개다
  • 02nvidia-smi와 nvcc는 서로 다른 층을 본다
  • 03Python에서는 CUDA가 패키지로 따라온다
  • 04conda와 pip, 그리고 full toolkit의 차이
  • 05PyTorch는 CUDA 버전을 골라서 깐다
  • 06내 환경의 CUDA를 진단하는 법
  • 07정리
  • 08참고 링크

이런 글도

  • GPU 컨테이너의 CUDA 버전 호환성 — nvidia-smi부터 이미지 다이어트까지
    GPU로 모델을 추론하는 문서 파싱 서비스의 컨테이너 이미지가 압축 기준 10GB, 디스크에 풀면 30GB까지 부푼 걸 마주했다. 줄여보려고 들여다보다가, 정작 내가 GPU 컨테이너의 버전 체계를 제대로 모른다는 걸 알았다. nvidia-smi가 찍어주는 두 개의 버전 숫자가 무슨 뜻인지, 왜 컨테이너 안 CUDA를 마음대로 못 올리는지부터 막혔다. 이 글...
    📁 system
    system
    2026.06.16
  • Kubernetes GPU 노드에서 /run tmpfs가 꽉 차서 Pod가 안 뜰 때
    NHN Cloud OCR 리얼 배포 중 ArgoCD sync가 Degraded로 떨어졌다. pod sandbox 생성 단계에서 no space left on device 에러가 반복 발생했고, 원인은 GPU 노드의 /run tmpfs 포화였다. 루트 디스크는 16%밖에 안 쓰고 있는데 pod가 안 뜨는 상황이라 처음엔 혼란스러웠다. 이 글에서는 /run t...
    📁 system
    system
    2026.06.16
  • GPU·CUDA·MPS 기초 — 자바 백엔드 개발자가 처음 만나는 그림
    자바로 백엔드만 짤 때는 컴퓨팅 자원이 단순했다. CPU 코어 수, JVM heap (-Xmx), 시스템 RAM. 워크로드가 커지면 인스턴스를 늘리거나 스레드를 늘리는 게 답이었다. ML 서비스를 다루기 시작하면 그림이 한 층 더 생긴다. GPU 라는 별도 컴퓨팅 장치, 그 안의 VRAM 이라는 별도 메모리, 그리고 그것들을 다루는 CUDA·cuDNN·MP...
    📁 system
    system
    2026.06.16
  • Multi-process GPU 워크로드 — 자바 ThreadPool 사용자가 만나는 모델 차이
    자바 백엔드에서 ThreadPoolExecutor 는 거의 만능이었다. CPU bound 든 I/O bound 든 스레드 풀 크기만 잘 잡으면 동시성을 챙길 수 있었다. JVM 안에서 메모리를 공유하니 작업 간 데이터 전달도 가볍다. Python ML 서비스는 그림이 다르다. ThreadPoolExecutor 가 있지만 CPU/GPU 작업에서는 거의 안 쓰...
    📁 system
    system
    2026.06.16

댓글 (0)