fos-blog/study
01 / 홈02 / 카테고리03 / 시리즈
01 / 홈02 / 카테고리03 / 시리즈

카테고리

  • AI 페이지로 이동
    • RAG 페이지로 이동
    • langgraph 페이지로 이동
    • 사람용 CLI와 AI 에이전트용 CLI는 설계가 다르다
    • agents.md
    • BMAD Method — AI 에이전트로 애자일 개발하는 방법론
    • Claude Code 메모리: CLAUDE.md와 .claude/rules를 규칙으로 쓰는 법
    • Claude Code의 Skill 시스템 - 개발자를 위한 AI 자동화의 새로운 차원
    • Claude Code를 5주 더 쓴 결과 — 스킬·CLAUDE.md를 키워가는 방식
    • Claude Code를 11일 동안 쓴 결과 — 데이터로 본 나의 사용 패턴
    • Claude Code 멀티 에이전트 — Teams
    • AI 에이전트와 디자인의 새 컨벤션 — DESIGN.md, Google Stitch, Claude Design
    • Docling — IBM Research 의 문서 파싱 toolkit 상세 정리
    • 하네스 엔지니어링 실전 — 4인 에이전트 팀으로 코딩 파이프라인 구축하기
    • 하네스 엔지니어링 — 오래 실행되는 AI 에이전트를 위한 설계
    • 멀티모달 LLM (Multimodal Large Language Model)
    • AI 에이전트와 함께 MVP 만들기 — dooray-cli 사례
    • OpenClaw는 context와 memory를 어떻게 관리하나 — 나만의 에이전트를 구성하는 법
    • OpenClaw vs Hermes Agent — 갈아탈까 고민하며 정리한 비교
    • 스킬 문서를 신경망처럼 학습시킨다 — Microsoft SkillOpt 분석
  • ai 페이지로 이동
    • agent 페이지로 이동
    • [초안] AI 제품 백엔드 안정성 — 지연·비용·권한·관측·도구 실패·폴백/재시도/사람 에스컬레이션
    • [초안] LLM 평가 프레임워크: 골든셋, 회귀 테스트, LLM-as-a-judge, 사람 피드백 루프
  • algorithm 페이지로 이동
    • live-coding 페이지로 이동
    • 분산 계산을 위한 알고리즘
  • apartment 페이지로 이동
    • 구리 럭키아파트 24평 인테리어 레퍼런스 모음
  • architecture 페이지로 이동
    • [초안] 시니어 백엔드를 위한 API 설계 실전 스터디 팩 — REST · 멱등성 · 페이지네이션 · 버전 전략
    • [초안] API Versioning과 Backward Compatibility: 시니어 백엔드 관점 정리
    • 캐시 설계 전략 총정리
    • [초안] 커머스 Spring 서비스에 Clean/Hexagonal Architecture를 실용적으로 적용하기
    • [초안] 커머스 도메인 모델링: 주문·재고·노출의 세 축을 분리해서 설계하기
    • 커머스 주문 상태와 데이터 정합성 기본기
    • [초안] 쿠폰/프로모션 동시성과 정합성 기본기 — 선착순·중복 사용 방지·발급/사용/복구
    • [초안] DDD와 도메인 모델링: 시니어 백엔드 관점의 전술/전략 패턴 실전 가이드
    • [초안] Decorator & Chain of Responsibility — 행동을 체인으로 조립하는 두 가지 방식
    • 디자인 패턴
    • [초안] 분산 아키텍처 완전 정복: Java 백엔드 시니어 인터뷰 대비 실전 가이드
    • [초안] 분산 트랜잭션과 Outbox 패턴 — 왜 2PC를 피하고 어떻게 대신할 것인가
    • 분산 트랜잭션
    • [초안] e-Commerce 주문·결제 도메인 모델링: 상태머신, 멱등성, Outbox/Saga 실전 정리
    • [초안] Event Sourcing과 CQRS — 상태가 아니라 변화를 저장한다는 발상
    • [초안] F&B 쿠폰·프로모션·멤버십·포인트 설계
    • [초안] F&B · e-Commerce 디지털 채널 도메인 한 장 정리
    • [초안] F&B 주문/매장/픽업 상태머신 설계
    • [초안] F&B 이커머스 결제·환불·정산 운영 가이드
    • [초안] Hexagonal / Clean Architecture를 Spring 백엔드에 적용하기
    • [초안] 대규모 커머스 트래픽 처리 패턴 — 대규모 회원과 메가 프로모션을 버티는 설계
    • [초안] 레거시 JSP/jQuery 화면과 신규 API가 공존하는 백엔드 운영 전략
    • [초안] MSA 서비스 간 통신: Redis [Cache-Aside](../database/redis/cache-aside.md) × Kafka 이벤트 하이브리드 설계
    • [초안] Observability 입문: 시니어 백엔드가 장애를 탐지하고 대응하는 방식
    • [초안] Outbox / Inbox Pattern 심화 — 분산 메시징의 정합성 문제를 DB 트랜잭션으로 풀어내기
    • [초안] 결제 도메인 멱등성과 트랜잭션 재시도 기본기
    • [초안] 시니어 백엔드를 위한 Resilience 패턴 실전 가이드 — Timeout, Retry, Circuit Breaker, Bulkhead, Backpressure
    • [초안] REST API 버저닝과 모바일 앱 하위 호환성 — 디지털 채널 백엔드 관점
    • [초안] Spring Batch vs Event-Driven — 같은 비동기처럼 보이지만 전혀 다른 두 패러다임
    • [초안] Strategy Pattern — 분기문을 없애는 설계, 시니어 백엔드 인터뷰 핵심 패턴
    • [초안] 시니어 백엔드를 위한 시스템 설계 입문 스터디 팩
    • [초안] 템플릿 메서드 패턴 - 백엔드 처리 골격을 강제하는 가장 오래되고 가장 위험한 패턴
    • [초안] 대규모 트래픽 중 무중단 마이그레이션 — Feature Flag + Shadow Mode 실전
  • database 페이지로 이동
    • milvus 페이지로 이동
    • mysql 페이지로 이동
    • opensearch 페이지로 이동
    • redis 페이지로 이동
    • 김영한의-실전-데이터베이스-설계 페이지로 이동
    • [초안] DB Connection Pool Saturation과 Thread Pool 격리
    • 커넥션 풀 크기는 얼마나 조정해야 할까?
    • 인덱스 - DB 성능 최적화의 핵심
    • [초안] JPA N+1과 커머스 조회 모델: 주문/메뉴/쿠폰 도메인에서 살아남기
    • [초안] MyBatis 기본기 — XML Mapper, resultMap, 동적 SQL, 운영 패턴 정리
    • [초안] MyBatis와 JPA/Hibernate 트레이드오프 — 레거시 백엔드를 다루는 시니어 관점
    • 벡터 DB 어떻게 고를까 — OpenSearch · Milvus · Qdrant · Vespa 비교
    • 벡터 DB를 실제로 도입한 사례 — 빅테크 프로덕션
    • 역정규화 (Denormalization)
    • 데이터 베이스 정규화
  • devops 페이지로 이동
    • docker 페이지로 이동
    • k8s 페이지로 이동
    • k8s-in-action 페이지로 이동
    • observability 페이지로 이동
    • [초안] 커머스/F&B 채널 장애 첫 5분과 관측성 기본기
    • [초안] 운영 데이터 정합성 장애 대응 — 결제 취소 누락과 중복 적재 런북
    • Envoy Proxy
    • [초안] F&B / e-Commerce 운영 장애 대응과 모니터링 — 백엔드 관점 정리
    • Graceful Shutdown
    • [초안] 시니어 백엔드를 위한 SLO와 Error Budget 기반 장애 대응
  • http 페이지로 이동
    • HTTP Connection Pool
    • HTTPS는 어떻게 안전한가 — TLS, 인증서, 그리고 termination
  • interview 페이지로 이동
    • [초안] AI 서비스 팀 경험 기반 시니어 백엔드 면접 질문 뱅크 — Spring Batch RAG / gRPC graceful shutdown / 전략 패턴 / 12일 AI 웹툰 MVP
    • Observability — 면접 답변 프레임
    • [초안] 시니어 Java 백엔드 면접 마스터 플레이북 — 김병태
    • [초안] NSC 슬롯팀 경험 기반 질문 은행 — 도메인 모델링·동시성·성능·AI 협업
  • java 페이지로 이동
    • concurrency 페이지로 이동
    • jdbc 페이지로 이동
    • opentelemetry 페이지로 이동
    • spring 페이지로 이동
    • spring-batch 페이지로 이동
    • 더_자바_코드를_조작하는_다양한_방법 페이지로 이동
    • [초안] Java 동시성 락 정리 — 커머스 메뉴/프로모션 정책 캐시 갱신 관점
    • [초안] JVM 튜닝 실전: 메모리 구조부터 Virtual Threads, GC 튜닝, 프로파일링까지
    • Java의 로깅 환경
    • MDC (Mapped Diagnostic Context)
    • Java StampedLock — 읽기 폭주에도 쓰기가 밀리지 않는 락
    • Virtual Thread와 Project Loom
  • javascript 페이지로 이동
    • typescript 페이지로 이동
    • AbortController
    • Async Iterator와 제너레이터
    • CommonJS와 ECMAScript Modules
    • 제너레이터(Generator)
    • Http Client
    • Node 백엔드 운영 패턴 — Streams 백프레셔, pipe/pipeline, 멱등성 vs 분산 락
    • Node.js
    • npm vs pnpm — 어떤 기준으로 선택했나
    • `setImmediate()`
  • kafka 페이지로 이동
    • [초안] Kafka 기본 개념 — 토픽, 파티션, 오프셋, 복제
    • Kafka를 사용하여 **데이터 정합성**은 어떻게 유지해야 할까?
    • [초안] Kafka 실전 설계: 파티션 전략, 컨슈머 그룹, 전달 보장, 재시도, 순서 보장 트레이드오프
    • 메시지 전송 신뢰성
    • [초안] Spring Kafka 컨슈머 오프셋 커밋과 트랜잭션 정렬: AckMode, manual ack, 멱등 처리
  • linux 페이지로 이동
    • fsync — 리눅스 파일 동기화 시스템 콜
    • tmux — Terminal Multiplexer
  • mlops 페이지로 이동
    • Python CUDA 버전 생태계 — nvidia-smi, nvcc, pip, conda가 다 다른 버전을 말하는 이유
    • GPU 컨테이너의 CUDA 버전 호환성 — nvidia-smi부터 이미지 다이어트까지
    • Kubernetes GPU 노드에서 /run tmpfs가 꽉 차서 Pod가 안 뜰 때
    • GPU·CUDA·MPS 기초 — 자바 백엔드 개발자가 처음 만나는 그림
    • Multi-process GPU 워크로드 — 자바 ThreadPool 사용자가 만나는 모델 차이
    • ML 서비스 성능 분석 워크플로 — 자바 백엔드 트러블슈팅과 다른 점
    • 한 GPU 를 여러 프로세스가 나눠 쓰기 — Time-Slicing 과 MPS
  • network 페이지로 이동
    • L2(스위치)와 L3(라우터)의 역할 차이
    • L4와 VIP(Virtual IP Address)
    • IP Subnet
  • python 페이지로 이동
    • Python async/await — CompletableFuture·Reactor 와 다른 점, 그리고 blocking I/O 함정
    • Python 의존성 관리 — Java Maven/Gradle 사용자가 만나는 첫 충격
    • FastAPI 기초 — Spring Boot 사용자가 빠르게 익히는 법
    • Java 개발자를 위한 Python 심화 — OOP·데코레이터·컨텍스트 매니저
    • PyTorch 기초 — 텐서, 디바이스, 그리고 모델 로딩이 무거운 이유
    • Java 개발자를 위한 Python 문법 핵심
    • OCR 동작 원리 — Layout · Text · Post-process 3단계
    • Python 서버의 RSS 가 안 줄어드는 이유 — gc.collect 의 한계와 malloc_trim
  • rabbitmq 페이지로 이동
    • [초안] RabbitMQ Basics — 실전 백엔드 관점에서 정리하는 메시지 브로커 기본기
    • [초안] RabbitMQ vs Kafka — 백엔드 메시징 선택 기준과 실전 운영 관점
  • security 페이지로 이동
    • [초안] 시니어 백엔드를 위한 보안 / 인증 스터디 팩 — Spring Security, JWT, OAuth2, OWASP Top 10
    • [초안] Spring Security 6.x OAuth2 + JWT 상용 인증 설계 — Grant 선택, Resource Server, Refresh Rotation, 로그아웃
  • task 페이지로 이동
    • ai-service-team 페이지로 이동
    • nsc-slot 페이지로 이동
    • sb-dev-team 페이지로 이동
    • the-future-company 페이지로 이동
  • testing 페이지로 이동
    • [초안] 시니어 Java 백엔드를 위한 테스트 전략 완전 정리 — 피라미드부터 TestContainers, 마이크로벤치, Contract까지
  • travel 페이지로 이동
    • 오사카 3박 4일 일정표: 우메다 쇼핑, USJ, 난바·도톤보리, 오사카성
  • web 페이지로 이동
    • [초안] HTTP / Cookie / Session / Token 인증 기본기 — 레거시 JSP와 모바일 API가 공존하는 백엔드 관점
FOS-BLOG · FOOTERall systems normal·v0.1 · 2026.04.27·seoul, kr
Ffos-blog/study

개발 학습 기록을 정리하는 블로그입니다. 공부하면서 기록하고, 기록하면서 다시 배웁니다.

visitors
01site
  • Home↗
  • Posts↗
  • Categories↗
  • About↗
02policy
  • 소개/about
  • 개인정보처리방침/privacy
  • 연락처/contact
03categories
  • AI↗
  • Algorithm↗
  • DB↗
  • DevOps↗
  • Java/Spring↗
  • JS/TS↗
  • React↗
  • Next.js↗
  • System↗
04connect
  • GitHub@jon890↗
  • Source repositoryjon890/fos-study↗
  • RSS feed/rss.xml↗
  • Newsletter매주 1 회 · 한 편의 글→
© 2026 FOS Study. All posts MIT-licensed.
built with·Next.js·Tailwind v4·Geist·Pretendard·oklch
fos-blog/mlops/한 GPU 를 여러 프로세스가 나눠 쓰기 —…
system

한 GPU 를 여러 프로세스가 나눠 쓰기 — Time-Slicing 과 MPS

GPU·CUDA·MPS 기초 에서 MPS 라는 약어가 NVIDIA 와 Apple 두 가지를 가리킨다는 것까지 정리했다. 그 글 끝에 "multi-process GPU 패턴은 다음 글에서" 라고 미뤄둔 부분을 이어 쓴다. 질문은 단순하다. GPU 는 한 장인데, 그 위에서 추론하는 프로세스가 여러 개면 GPU 를 어떻게 나눠 쓰는가. 여러 워커 프로세스가 각...

2026.06.18·5 min read·2 views·SERIES · AI 서빙 인프라: GPU부터 문서 파싱까지 · 4/11

GPU·CUDA·MPS 기초 에서 MPS 라는 약어가 NVIDIA 와 Apple 두 가지를 가리킨다는 것까지 정리했다. 그 글 끝에 "multi-process GPU 패턴은 다음 글에서" 라고 미뤄둔 부분을 이어 쓴다.

질문은 단순하다. GPU 는 한 장인데, 그 위에서 추론하는 프로세스가 여러 개면 GPU 를 어떻게 나눠 쓰는가.

여러 워커 프로세스가 각자 추론을 하는 서버를 떠올리면 된다. 메인 프로세스가 요청을 받고, 실제 모델 추론은 자식 워커 프로세스 풀에 넘긴다. 워커가 3개면 GPU 하나에 추론 프로세스가 3개 붙는다. 이때 GPU 를 나눠 쓰는 방식이 곧 성능과 안정성을 가른다.

기본 동작 — Time-Slicing

아무 설정도 안 하면 GPU 는 time-slicing 으로 동작한다. 여러 프로세스가 보낸 커널(GPU 연산 단위)을 순서대로 돌아가며 실행한다. 한 순간엔 한 프로세스의 커널만 GPU 전체를 쓰고, 시간이 지나면 다음 프로세스로 넘어간다. 시분할 방식의 OS 스케줄러가 CPU 를 프로세스에 번갈아 주는 것과 같은 그림이다.

이걸 temporal multiplexing(시간 다중화)이라 부른다. GPU 한 장에 여러 프로세스를 올릴 수 있다는 점에서 밀도는 올라간다. 하지만 두 가지 비용이 따라온다.

  • 컨텍스트 전환 오버헤드 — 프로세스를 바꿀 때마다 GPU 가 한 프로세스의 CUDA 컨텍스트를 내리고 다음 것을 올린다. 이 전환이 공짜가 아니다.
  • GPU 유휴 — 한 프로세스의 커널이 GPU 의 일부 연산 유닛만 써도, 그 시간 슬롯 동안 나머지 유닛은 논다. 다른 프로세스가 옆에서 같이 돌 수 없기 때문이다.

특히 짧고 자잘한 커널이 많은 워크로드일수록 전환 비용과 유휴가 누적돼 GPU 활용도가 떨어진다. 추론 서비스는 요청마다 작은 커널이 쏟아지는 패턴이라 이 약점에 정확히 걸린다.

MPS — 공간으로 나눠 쓰기

MPS(Multi-Process Service)는 같은 문제를 시간이 아니라 공간으로 푼다.

GPU 안에는 SM(Streaming Multiprocessor)이라는 연산 유닛이 수십 개 들어 있다. time-slicing 이 "한 순간엔 한 프로세스가 SM 전부를 쓴다" 면, MPS 는 여러 프로세스의 커널이 SM 을 나눠서 동시에 실행되게 한다. 한 프로세스가 GPU 의 절반만 쓰면, 나머지 절반에서 다른 프로세스 커널이 같이 돈다. 이걸 spatial multiplexing(공간 다중화)이라 부른다.

핵심은 여러 프로세스의 커널을 하나의 CUDA 컨텍스트로 합쳐 GPU 에 제출한다는 데 있다. 컨텍스트 전환 없이 커널들이 동시에 인터리빙되므로, time-slicing 의 전환 오버헤드와 유휴가 줄어든다. 프로세스를 늘려도 GPU 가 놀지 않고 채워진다.

MPS control 데몬의 역할

MPS 를 켜면 MPS control 데몬(nvidia-cuda-mps-control)이 뜬다. 이 데몬이 MPS 서버를 관리하고, 각 클라이언트 프로세스가 보낸 커널을 GPU 에 스케줄링하는 중개자 역할을 한다. 클라이언트(워커 프로세스)들은 GPU 에 직접 컨텍스트를 만들지 않고, 이 MPS 서버를 통해 공유 컨텍스트로 커널을 흘려보낸다.

그래서 MPS 를 쓰는 컨테이너는 보통 앱을 띄우기 전에 이 데몬을 먼저 기동하고, 종료 시 정리하는 절차를 둔다. 앱 프로세스 하나만 띄우면 끝이 아니라, GPU 공유를 중개하는 데몬이 함께 살아야 한다.

활용도를 조절하는 손잡이

MPS 서버는 한 클라이언트가 쓸 수 있는 자원에 상한을 걸 수 있다. 대표적으로 active thread percentage 로 "각 클라이언트는 GPU 스레드의 최대 N% 까지" 를 지정한다. 예를 들어 50% 로 두면 한 프로세스가 GPU 를 독식하지 못하고 절반 안에서만 돈다. 최신 아키텍처에서는 SM 을 chunk 단위(Hopper 기준 8 SM)로 떼어 정적으로 나누는 모드도 있다. 워커 수와 워크로드에 맞춰 분할 정책을 조절하는 셈이다.

공짜는 아니다 — 격리가 약해진다

MPS 가 좋아 보이지만 트레이드오프가 분명하다. 가장 중요한 건 에러 격리(fault isolation)가 약하다는 점이다.

MPS 는 여러 클라이언트를 하나의 공유 CUDA 컨텍스트 안에서 다중화한다. 그래서 한 클라이언트가 치명적 GPU 폴트를 내면, 그 공유 컨텍스트가 무너지면서 같이 돌던 다른 클라이언트들도 함께 죽을 수 있다. 누가 사고를 냈는지조차 다른 클라이언트엔 알려지지 않는다. Volta 이후 아키텍처가 클라이언트별 GPU 주소 공간을 분리해 메모리 침범은 막아주지만, 이건 메모리 보호일 뿐 하드웨어 수준의 폴트 격리는 아니다.

정리하면 이렇다.

항목Time-SlicingMPS
다중화 방식시간 (순차 실행)공간 (동시 실행)
GPU 활용도전환 오버헤드·유휴로 낮음SM 공유로 높음
컨텍스트프로세스마다 별도공유 컨텍스트
에러 격리프로세스 독립약함 (한 폴트가 전부 전파 가능)
추가 구성없음MPS control 데몬 필요

그래서 언제 켜는가

MPS 는 추론 워크로드의 GPU 활용을 끌어올리고 싶을 때 잘 맞는다. 여러 프로세스가 GPU 를 잘게 나눠 쓰는데 각자는 GPU 를 다 못 채우는 상황 — 동시성을 높여 처리량을 올리는 게 목적이라면 후보다.

반대로 강한 격리가 중요한 서비스에는 신중해야 한다. 한 워커의 GPU 폴트가 다른 워커까지 끌고 내려갈 수 있으므로, 워커 하나가 죽어도 나머지는 살아야 하는 안정성 요구가 크다면 MPS 의 약한 격리가 부담이 된다. 게다가 데몬 기동·종료라는 운영 절차가 하나 더 늘고, 간섭·메모리·폴트 거동을 워크로드별로 직접 검증해야 한다.

실제로 한 GPU 에 추론 워커 몇 개를 띄우는 서비스에서 MPS 를 환경변수 스위치로만 열어두고 기본은 끈 채 운영하는 선택을 본 적이 있다. 워커 수가 많지 않고 단일 GPU 메모리도 빠듯하면, MPS 가 주는 활용도 이득보다 약한 격리와 운영 복잡도가 더 크게 느껴지기 때문이다. 옵션은 코드에 남겨두되 기본값은 보수적으로 가는, 합리적인 절충이다.

GPU 공유에는 이 둘 말고 MIG(Multi-Instance GPU)라는 세 번째 길도 있다. 하드웨어 수준으로 GPU 를 물리적으로 쪼개 완전히 격리하는 방식인데, 이건 지원 아키텍처(A100 등)가 따로 있어 다음 기회에 따로 다룬다.

한 줄 정리

Time-slicing 은 GPU 를 시간으로 돌려 쓰고(전환 비용·유휴), MPS 는 SM 을 공간으로 나눠 동시에 쓴다(활용도↑, 격리↓). 활용도를 살 것인가 격리를 지킬 것인가의 문제다.

참고

  • When to Use MPS — NVIDIA 공식 문서
  • CUDA Multi-Process Service Overview (NVIDIA PDF)
  • Improving GPU Utilization in Kubernetes — NVIDIA Technical Blog
  • Kubernetes GPU Sharing: Time-Slicing, MPS, and MIG
  • Demystifying NVIDIA MPS (Medium)
on this page
  • 01기본 동작 — Time-Slicing
  • 02MPS — 공간으로 나눠 쓰기
  • MPS control 데몬의 역할
  • 활용도를 조절하는 손잡이
  • 03공짜는 아니다 — 격리가 약해진다
  • 04그래서 언제 켜는가
  • 05한 줄 정리
  • 06참고
tags
📚 AI 서빙 인프라: GPU부터 문서 파싱까지
← PREVIOUSGPU·CUDA·MPS 기초 — 자바 백엔드 개발자가 처음 만나는 그림NEXT →Multi-process GPU 워크로드 — 자바 ThreadPool 사용자가 만나는 모델 차이

이런 글도

  • Python CUDA 버전 생태계 — nvidia-smi, nvcc, pip, conda가 다 다른 버전을 말하는 이유
    PyTorch를 pip install로 깔았는데 시스템에 CUDA Toolkit을 따로 안 깔아도 GPU가 돌았다. 그러다 nvidia-smi는 CUDA 12.2라고 하고, nvcc --version은 아예 명령이 없다고 하고, python -c "import torch; print(torch.version.cuda)"는 12.6이라고 한다. 같은 머신에서...
    📁 system
    system
    2026.06.16
  • GPU 컨테이너의 CUDA 버전 호환성 — nvidia-smi부터 이미지 다이어트까지
    GPU로 모델을 추론하는 문서 파싱 서비스의 컨테이너 이미지가 압축 기준 10GB, 디스크에 풀면 30GB까지 부푼 걸 마주했다. 줄여보려고 들여다보다가, 정작 내가 GPU 컨테이너의 버전 체계를 제대로 모른다는 걸 알았다. nvidia-smi가 찍어주는 두 개의 버전 숫자가 무슨 뜻인지, 왜 컨테이너 안 CUDA를 마음대로 못 올리는지부터 막혔다. 이 글...
    📁 system
    system
    2026.06.16
  • Kubernetes GPU 노드에서 /run tmpfs가 꽉 차서 Pod가 안 뜰 때
    NHN Cloud OCR 리얼 배포 중 ArgoCD sync가 Degraded로 떨어졌다. pod sandbox 생성 단계에서 no space left on device 에러가 반복 발생했고, 원인은 GPU 노드의 /run tmpfs 포화였다. 루트 디스크는 16%밖에 안 쓰고 있는데 pod가 안 뜨는 상황이라 처음엔 혼란스러웠다. 이 글에서는 /run t...
    📁 system
    system
    2026.06.16
  • GPU·CUDA·MPS 기초 — 자바 백엔드 개발자가 처음 만나는 그림
    자바로 백엔드만 짤 때는 컴퓨팅 자원이 단순했다. CPU 코어 수, JVM heap (-Xmx), 시스템 RAM. 워크로드가 커지면 인스턴스를 늘리거나 스레드를 늘리는 게 답이었다. ML 서비스를 다루기 시작하면 그림이 한 층 더 생긴다. GPU 라는 별도 컴퓨팅 장치, 그 안의 VRAM 이라는 별도 메모리, 그리고 그것들을 다루는 CUDA·cuDNN·MP...
    📁 system
    system
    2026.06.16

댓글 (0)