01 / 홈 02 / 카테고리 03 / 시리즈

01 / 홈 02 / 카테고리 03 / 시리즈

카테고리

AI 페이지로 이동
ai 페이지로 이동
algorithm 페이지로 이동
- live-coding 페이지로 이동
- 분산 계산을 위한 알고리즘
architecture 페이지로 이동
database 페이지로 이동
devops 페이지로 이동
http 페이지로 이동
- HTTP Connection Pool
- HTTPS는 어떻게 안전한가 — TLS, 인증서, 그리고 termination
interview 페이지로 이동
java 페이지로 이동
javascript 페이지로 이동
kafka 페이지로 이동
linux 페이지로 이동
- fsync — 리눅스 파일 동기화 시스템 콜
- tmux — Terminal Multiplexer
mlops 페이지로 이동
network 페이지로 이동
python 페이지로 이동
rabbitmq 페이지로 이동
- [초안] RabbitMQ Basics — 실전 백엔드 관점에서 정리하는 메시지 브로커 기본기
- [초안] RabbitMQ vs Kafka — 백엔드 메시징 선택 기준과 실전 운영 관점
resume 페이지로 이동
- [초안] 김병태 경력기술서
- [초안] 김병태 포트폴리오
security 페이지로 이동
- [초안] 시니어 백엔드를 위한 보안 / 인증 스터디 팩 — Spring Security, JWT, OAuth2, OWASP Top 10
- [초안] Spring Security 6.x OAuth2 + JWT 상용 인증 설계 — Grant 선택, Resource Server, Refresh Rotation, 로그아웃
task 페이지로 이동
testing 페이지로 이동
- [초안] 시니어 Java 백엔드를 위한 테스트 전략 완전 정리 — 피라미드부터 TestContainers, 마이크로벤치, Contract까지
thinking 페이지로 이동
- 좋은 일을 넘어 중요한 일을 하는 법

FOS-BLOG · FOOTERall systems normal·v0.1 · 2026.04.27·seoul, kr

Ffos-blog/study

개발 학습 기록을 정리하는 블로그입니다. 공부하면서 기록하고, 기록하면서 다시 배웁니다.

visitors

01site

Home↗
Posts↗
Categories↗
Glossary↗
About↗

02policy

소개/about
개인정보처리방침/privacy
연락처/contact

03categories

AI↗
Algorithm↗
DB↗
DevOps↗
Java/Spring↗
JS/TS↗
React↗
Next.js↗
System↗

04connect

GitHub@jon890↗
Source repositoryjon890/fos-study↗
RSS feed/rss.xml↗
Newsletter매주 1 회 · 한 편의 글→

© 2026 FOS Study. All posts MIT-licensed.

built with·Next.js·Tailwind v4·Geist·Pretendard·oklch

/fos-blog/categories/mlops

MLOPS

mlops

2폴더·7글·category/mlops

READMEmlops 시리즈에 대하여

README.md

README.md

GPU 기반 ML 서비스를 운영하며 정리한 학습 기록. CUDA 버전 생태계, GPU 컨테이너 최적화, 모델 서빙 워커 풀, 추론 성능 분석을 묶었다.

GPU·CUDA 기초

Python CUDA 버전 생태계 — nvidia-smi·nvcc·pip·conda가 다 다른 버전을 말하는 이유
GPU·CUDA·MPS 기초 — 자바 백엔드 개발자가 처음 만나는 그림
한 GPU 를 여러 프로세스가 나눠 쓰기 — Time-Slicing 과 MPS — 한 GPU 를 여러 프로세스가 공유하는 두 방식과 트레이드오프

GPU 컨테이너·이미지

GPU 컨테이너의 CUDA 버전 호환성 — nvidia-smi부터 이미지 다이어트까지
GPU 노드 /run tmpfs 포화 — 컨테이너 GPU 운영 트러블슈팅

모델 서빙·성능

Multi-process GPU 워커 풀 — ThreadPool 사용자가 만나는 프로세스 모델 차이
ML 서비스 성능 분석 워크플로 — 자바 백엔드 트러블슈팅과 다른 점

추론 서빙 프레임워크 비교 (시리즈)

Triton, BentoML, Ray Serve를 층위별로 비교한 스터디 시리즈. OCR 추론 서빙에 어느 프레임워크가 적절한지 판단하기 위한 기록이다.

Triton Inference Server — GPU 추론을 짜내는 모델 실행 런타임
BentoML — Python 코드를 프로덕션 API로 포장하는 프레임워크
Ray Serve — 여러 모델을 분산·오토스케일하는 오케스트레이션 층
Triton vs BentoML vs Ray Serve — 층이 다른 셋을 어떻게 고르나

01하위 폴더

2 folders

llm-serving

serving-frameworks

02이 폴더의 글

7 posts

GPU 컨테이너의 CUDA 버전 호환성 — nvidia-smi부터 이미지 다이어트까지

GPU로 모델을 추론하는 문서 파싱 서비스의 컨테이너 이미지가 압축 기준 10GB, 디스크에 풀면 30GB까지 부푼 걸 마주했다. 줄여보려고 들여다보다가, 정작 내가 GPU 컨테이너의 버전 체계를 제대로 모른다는 걸 알았다. nvidia-smi가 찍어주는 두 개의 버전 숫자가 무슨 뜻인지, 왜 컨테이너 안 CUDA를 마음대로 못 올리는지부터 막혔다. 이 글...

GPU·CUDA·MPS 기초 — 자바 백엔드 개발자가 처음 만나는 그림

자바로 백엔드만 짤 때는 컴퓨팅 자원이 단순했다. CPU 코어 수, JVM heap (-Xmx), 시스템 RAM. 워크로드가 커지면 인스턴스를 늘리거나 스레드를 늘리는 게 답이었다. ML 서비스를 다루기 시작하면 그림이 한 층 더 생긴다. GPU 라는 별도 컴퓨팅 장치, 그 안의 VRAM 이라는 별도 메모리, 그리고 그것들을 다루는 CUDA·cuDNN·MP...

Kubernetes GPU 노드에서 /run tmpfs가 꽉 차서 Pod가 안 뜰 때

NHN Cloud OCR 리얼 배포 중 ArgoCD sync가 Degraded로 떨어졌다. pod sandbox 생성 단계에서 no space left on device 에러가 반복 발생했고, 원인은 GPU 노드의 /run tmpfs 포화였다. 루트 디스크는 16%밖에 안 쓰고 있는데 pod가 안 뜨는 상황이라 처음엔 혼란스러웠다. 이 글에서는 /run t...

ML 서비스 성능 분석 워크플로 — 자바 백엔드 트러블슈팅과 다른 점

이 시리즈의 마무리 글이다. 앞선 글들에서 다음 주제를 자바 백엔드 비교 관점으로 정리했다. - Python 문법 - 의존성 관리 - FastAPI - async/await - GPU·CUDA·MPS - PyTorch - multi-process worker pool - OCR 파이프라인 마지막은 이 모든 개념을 적용해 실제 ML 서비스의 성능을 분석하는...

Multi-process GPU 워크로드 — 자바 ThreadPool 사용자가 만나는 모델 차이

자바 백엔드에서 ThreadPoolExecutor 는 거의 만능이었다. CPU bound 든 I/O bound 든 스레드 풀 크기만 잘 잡으면 동시성을 챙길 수 있었다. JVM 안에서 메모리를 공유하니 작업 간 데이터 전달도 가볍다. Python ML 서비스는 그림이 다르다. ThreadPoolExecutor 가 있지만 CPU/GPU 작업에서는 거의 안 쓰...

Python CUDA 버전 생태계 — nvidia-smi, nvcc, pip, conda가 다 다른 버전을 말하는 이유

PyTorch를 pip install로 깔았는데 시스템에 CUDA Toolkit을 따로 안 깔아도 GPU가 돌았다. 그러다 nvidia-smi는 CUDA 12.2라고 하고, nvcc --version은 아예 명령이 없다고 하고, python -c "import torch; print(torch.version.cuda)"는 12.6이라고 한다. 같은 머신에서...

한 GPU 를 여러 프로세스가 나눠 쓰기 — Time-Slicing 과 MPS

GPU·CUDA·MPS 기초 에서 MPS 라는 약어가 NVIDIA 와 Apple 두 가지를 가리킨다는 것까지 정리했다. 그 글 끝에 "multi-process GPU 패턴은 다음 글에서" 라고 미뤄둔 부분을 이어 쓴다. 질문은 단순하다. GPU 는 한 장인데, 그 위에서 추론하는 프로세스가 여러 개면 GPU 를 어떻게 나눠 쓰는가. 여러 워커 프로세스가 각...