fos-blog/study
01 / 홈02 / 카테고리03 / 시리즈
01 / 홈02 / 카테고리03 / 시리즈

카테고리

  • AI 페이지로 이동
    • RAG 페이지로 이동
    • langgraph 페이지로 이동
    • agents.md
    • BMAD Method — AI 에이전트로 애자일 개발하는 방법론
    • Claude Code의 Skill 시스템 - 개발자를 위한 AI 자동화의 새로운 차원
    • Claude Code를 5주 더 쓴 결과 — 스킬·CLAUDE.md를 키워가는 방식
    • Claude Code를 11일 동안 쓴 결과 — 데이터로 본 나의 사용 패턴
    • Claude Code 멀티 에이전트 — Teams
    • AI 에이전트와 디자인의 새 컨벤션 — DESIGN.md, Google Stitch, Claude Design
    • Docling — IBM Research 의 문서 파싱 toolkit 상세 정리
    • 하네스 엔지니어링 실전 — 4인 에이전트 팀으로 코딩 파이프라인 구축하기
    • 하네스 엔지니어링 — 오래 실행되는 AI 에이전트를 위한 설계
    • 멀티모달 LLM (Multimodal Large Language Model)
    • AI 에이전트와 함께 MVP 만들기 — dooray-cli 사례
  • ai 페이지로 이동
    • agent 페이지로 이동
  • algorithm 페이지로 이동
    • live-coding 페이지로 이동
    • 분산 계산을 위한 알고리즘
  • apartment 페이지로 이동
    • 구리 럭키아파트 24평 인테리어 레퍼런스 모음
  • architecture 페이지로 이동
    • [초안] 시니어 백엔드를 위한 API 설계 실전 스터디 팩 — REST · 멱등성 · 페이지네이션 · 버전 전략
    • [초안] API Versioning과 Backward Compatibility: 시니어 백엔드 관점 정리
    • 캐시 설계 전략 총정리
    • [초안] CJ푸드빌 디지털 채널 면접: 슬롯 도메인 경험을 커머스 도메인 설계 능력으로 번역하기
    • [초안] 커머스 Spring 서비스에 Clean/Hexagonal Architecture를 실용적으로 적용하기
    • [초안] 커머스 도메인 모델링: 주문·재고·노출의 세 축을 분리해서 설계하기
    • 커머스 주문 상태와 데이터 정합성 기본기 — CJ푸드빌 면접 대비
    • [초안] 쿠폰/프로모션 동시성과 정합성 기본기 — 선착순·중복 사용 방지·발급/사용/복구
    • [초안] DDD와 도메인 모델링: 시니어 백엔드 관점의 전술/전략 패턴 실전 가이드
    • [초안] Decorator & Chain of Responsibility — 행동을 체인으로 조립하는 두 가지 방식
    • 디자인 패턴
    • [초안] 분산 아키텍처 완전 정복: Java 백엔드 시니어 인터뷰 대비 실전 가이드
    • [초안] 분산 트랜잭션과 Outbox 패턴 — 왜 2PC를 피하고 어떻게 대신할 것인가
    • 분산 트랜잭션
    • [초안] e-Commerce 주문·결제 도메인 모델링: 상태머신, 멱등성, Outbox/Saga 실전 정리
    • [초안] F&B 쿠폰·프로모션·멤버십·포인트 설계
    • [초안] F&B · e-Commerce 디지털 채널 도메인 한 장 정리 — CJ푸드빌 디지털 채널 백엔드 면접 대비
    • [초안] F&B 주문/매장/픽업 상태머신 설계 — CJ푸드빌 디지털 채널 백엔드 관점
    • [초안] F&B 이커머스 결제·환불·정산 운영 가이드
    • [초안] Hexagonal / Clean Architecture를 Spring 백엔드에 적용하기
    • [초안] 대규모 커머스 트래픽 처리 패턴 — 1,600만 고객과 올영세일을 버티는 설계
    • [초안] 레거시 JSP/jQuery 화면과 신규 API가 공존하는 백엔드 운영 전략
    • [초안] MSA 서비스 간 통신: Redis [Cache-Aside](../database/redis/cache-aside.md) × Kafka 이벤트 하이브리드 설계
    • [초안] Observability 입문: 시니어 백엔드가 장애를 탐지하고 대응하는 방식
    • [초안] Outbox / Inbox Pattern 심화 — 분산 메시징의 정합성 문제를 DB 트랜잭션으로 풀어내기
    • [초안] 결제 도메인 멱등성과 트랜잭션 재시도 기본기
    • [초안] 시니어 백엔드를 위한 Resilience 패턴 실전 가이드 — Timeout, Retry, Circuit Breaker, Bulkhead, Backpressure
    • [초안] REST API 버저닝과 모바일 앱 하위 호환성 — CJ푸드빌 디지털 채널 백엔드 관점
    • [초안] Spring Batch vs Event-Driven — 같은 비동기처럼 보이지만 전혀 다른 두 패러다임
    • [초안] Strategy Pattern — 분기문을 없애는 설계, 시니어 백엔드 인터뷰 핵심 패턴
    • [초안] 시니어 백엔드를 위한 시스템 설계 입문 스터디 팩
    • [초안] 템플릿 메서드 패턴 - 백엔드 처리 골격을 강제하는 가장 오래되고 가장 위험한 패턴
    • [초안] 대규모 트래픽 중 무중단 마이그레이션 — Feature Flag + Shadow Mode 실전
  • database 페이지로 이동
    • mysql 페이지로 이동
    • opensearch 페이지로 이동
    • redis 페이지로 이동
    • 김영한의-실전-데이터베이스-설계 페이지로 이동
    • [초안] DB Connection Pool Saturation과 Thread Pool 격리
    • 커넥션 풀 크기는 얼마나 조정해야 할까?
    • 인덱스 - DB 성능 최적화의 핵심
    • [초안] JPA N+1과 커머스 조회 모델: 주문/메뉴/쿠폰 도메인에서 살아남기
    • [초안] MyBatis 기본기 — XML Mapper, resultMap, 동적 SQL, 운영 패턴 정리
    • [초안] MyBatis와 JPA/Hibernate 트레이드오프 — 레거시 백엔드를 다루는 시니어 관점
    • 역정규화 (Denormalization)
    • 데이터 베이스 정규화
  • devops 페이지로 이동
    • docker 페이지로 이동
    • k8s 페이지로 이동
    • k8s-in-action 페이지로 이동
    • observability 페이지로 이동
    • [초안] 커머스/F&B 채널 장애 첫 5분과 관측성 기본기
    • Envoy Proxy
    • [초안] F&B / e-Commerce 운영 장애 대응과 모니터링 — 백엔드 관점 정리
    • Graceful Shutdown
    • [초안] 시니어 백엔드를 위한 SLO와 Error Budget 기반 장애 대응
  • finance 페이지로 이동
    • industry-cycle 페이지로 이동
    • investing 페이지로 이동
  • http 페이지로 이동
    • HTTP Connection Pool
  • interview 페이지로 이동
    • [초안] AI 서비스 팀 경험 기반 시니어 백엔드 면접 질문 뱅크 — Spring Batch RAG / gRPC graceful shutdown / 전략 패턴 / 12일 AI 웹툰 MVP
    • [초안] 커머스/F&B 면접 답변집 — 슬롯 도메인 경험을 주문·결제·쿠폰·매장 설계로 매핑하기
    • [초안] F&B / e-Commerce 운영 모니터링과 장애 대응 인터뷰 정리
    • Observability — 면접 답변 프레임
    • [초안] 시니어 Java 백엔드 면접 마스터 플레이북 — 김병태
    • [초안] NSC 슬롯팀 경험 기반 질문 은행 — 도메인 모델링·동시성·성능·AI 협업
  • java 페이지로 이동
    • concurrency 페이지로 이동
    • jdbc 페이지로 이동
    • opentelemetry 페이지로 이동
    • spring 페이지로 이동
    • spring-batch 페이지로 이동
    • 더_자바_코드를_조작하는_다양한_방법 페이지로 이동
    • [초안] Java 동시성 락 정리 — 커머스 메뉴/프로모션 정책 캐시 갱신 관점
    • [초안] JVM 튜닝 실전: 메모리 구조부터 Virtual Threads, GC 튜닝, 프로파일링까지
    • Java의 로깅 환경
    • MDC (Mapped Diagnostic Context)
    • Java StampedLock — 읽기 폭주에도 쓰기가 밀리지 않는 락
    • Virtual Thread와 Project Loom
  • javascript 페이지로 이동
    • typescript 페이지로 이동
    • AbortController
    • Async Iterator와 제너레이터
    • CommonJS와 ECMAScript Modules
    • 제너레이터(Generator)
    • Http Client
    • Node 백엔드 운영 패턴 — Streams 백프레셔, pipe/pipeline, 멱등성 vs 분산 락
    • Node.js
    • npm vs pnpm — 어떤 기준으로 선택했나
    • `setImmediate()`
  • kafka 페이지로 이동
    • [초안] Kafka 기본 개념 — 토픽, 파티션, 오프셋, 복제
    • Kafka를 사용하여 **데이터 정합성**은 어떻게 유지해야 할까?
    • [초안] Kafka 실전 설계: 파티션 전략, 컨슈머 그룹, 전달 보장, 재시도, 순서 보장 트레이드오프
    • 메시지 전송 신뢰성
  • linux 페이지로 이동
    • fsync — 리눅스 파일 동기화 시스템 콜
    • tmux — Terminal Multiplexer
  • network 페이지로 이동
    • L2(스위치)와 L3(라우터)의 역할 차이
    • L4와 VIP(Virtual IP Address)
    • IP Subnet
  • python 페이지로 이동
    • Python async/await — CompletableFuture·Reactor 와 다른 점, 그리고 blocking I/O 함정
    • Python 의존성 관리 — Java Maven/Gradle 사용자가 만나는 첫 충격
    • FastAPI 기초 — Spring Boot 사용자가 빠르게 익히는 법
    • GPU·CUDA·MPS 기초 — 자바 백엔드 개발자가 처음 만나는 그림
    • Multi-process GPU 워크로드 — 자바 ThreadPool 사용자가 만나는 모델 차이
    • Java 개발자를 위한 Python 심화 — OOP·데코레이터·컨텍스트 매니저
    • PyTorch 기초 — 텐서, 디바이스, 그리고 모델 로딩이 무거운 이유
    • Java 개발자를 위한 Python 문법 핵심
    • ML 서비스 성능 분석 워크플로 — 자바 백엔드 트러블슈팅과 다른 점
    • OCR 동작 원리 — Layout · Text · Post-process 3단계
    • Python 서버의 RSS 가 안 줄어드는 이유 — gc.collect 의 한계와 malloc_trim
  • rabbitmq 페이지로 이동
    • [초안] RabbitMQ Basics — 실전 백엔드 관점에서 정리하는 메시지 브로커 기본기
    • [초안] RabbitMQ vs Kafka — 백엔드 메시징 선택 기준과 실전 운영 관점
  • security 페이지로 이동
    • [초안] 시니어 백엔드를 위한 보안 / 인증 스터디 팩 — Spring Security, JWT, OAuth2, OWASP Top 10
    • [초안] Spring Security 6.x OAuth2 + JWT 상용 인증 설계 — Grant 선택, Resource Server, Refresh Rotation, 로그아웃
  • task 페이지로 이동
    • ai-service-team 페이지로 이동
    • nsc-slot 페이지로 이동
    • sb-dev-team 페이지로 이동
    • the-future-company 페이지로 이동
  • testing 페이지로 이동
    • [초안] 시니어 Java 백엔드를 위한 테스트 전략 완전 정리 — 피라미드부터 TestContainers, 마이크로벤치, Contract까지
  • travel 페이지로 이동
    • 오사카 3박 4일 일정표: 우메다 쇼핑, USJ, 난바·도톤보리, 오사카성
  • web 페이지로 이동
    • [초안] HTTP / Cookie / Session / Token 인증 기본기 — 레거시 JSP와 모바일 API가 공존하는 백엔드 관점
FOS-BLOG · FOOTERall systems normal·v0.1 · 2026.04.27·seoul, kr
Ffos-blog/study

개발 학습 기록을 정리하는 블로그입니다. 공부하면서 기록하고, 기록하면서 다시 배웁니다.

visitors
01site
  • Home↗
  • Posts↗
  • Categories↗
  • About↗
02policy
  • 소개/about
  • 개인정보처리방침/privacy
  • 연락처/contact
03categories
  • AI↗
  • Algorithm↗
  • DB↗
  • DevOps↗
  • Java/Spring↗
  • JS/TS↗
  • React↗
  • Next.js↗
  • System↗
04connect
  • GitHub@jon890↗
  • Source repositoryjon890/fos-study↗
  • RSS feed/rss.xml↗
  • Newsletter매주 1 회 · 한 편의 글→
© 2026 FOS Study. All posts MIT-licensed.
built with·Next.js·Tailwind v4·Geist·Pretendard·oklch
fos-blog/python/ML 서비스 성능 분석 워크플로 — 자바 백…
system

ML 서비스 성능 분석 워크플로 — 자바 백엔드 트러블슈팅과 다른 점

이 시리즈의 마무리 글이다. 앞선 글들에서 다음 주제를 자바 백엔드 비교 관점으로 정리했다. - Python 문법 - 의존성 관리 - FastAPI - async/await - GPU·CUDA·MPS - PyTorch - multi-process worker pool - OCR 파이프라인 마지막은 이 모든 개념을 적용해 실제 ML 서비스의 성능을 분석하는...

2026.05.19·7 min read·18 views

이 시리즈의 마무리 글이다. 앞선 글들에서 다음 주제를 자바 백엔드 비교 관점으로 정리했다.

  • Python 문법
  • 의존성 관리
  • FastAPI
  • async/await
  • GPU·CUDA·MPS
  • PyTorch
  • multi-process worker pool
  • OCR 파이프라인

마지막은 이 모든 개념을 적용해 실제 ML 서비스의 성능을 분석하는 워크플로를 정리한다.

내가 직접 ML 문서 파싱 서비스를 분석하며 17개의 개선 이슈를 GitHub 에 등록한 경험을 일반화해서 단계별 절차로 옮긴다. 자바 백엔드의 트러블슈팅과 다른 결정적 차이도 함께 짚는다.

자바 vs ML — 무엇이 다른가

자바 백엔드 트러블슈팅의 표준 도구는 거의 정해져 있다.

  • jstack — 스레드 덤프
  • jmap / jcmd — heap 덤프
  • GC log + GCeasy 분석
  • APM (NewRelic, Datadog, Pinpoint) 의 transaction trace
  • JFR / async-profiler

JVM 안에서 일어나는 일은 거의 다 보인다. 한 프로세스, 한 heap, 한 thread pool. 자바 개발자는 이 안에서 코드를 읽고, 락 분석하고, GC 튜닝하면 된다.

ML 서비스는 그림이 다층이다.

계층자바 백엔드ML 서비스
HTTPTomcat thread poolFastAPI + Uvicorn
비동기Reactor / CompletableFutureasyncio event loop
동시성Thread (JVM 안)Process (OS 단위 격리)
컴퓨팅 자원CPU + JVM heapCPU + 시스템 RAM + GPU + VRAM
모니터링JMX, jstack, APMnvidia-smi, ps, profile timings
외부 호출DB, REST APIDB, REST API, 외부 OCR/ML API

자바 트러블슈팅의 80% 가 한 JVM 안에서 끝나는 반면, ML 서비스는 OS 프로세스 단위 분석 + GPU 분석 + 외부 API 분석 까지 동시에 봐야 한다.

분석 워크플로 — 6단계

내가 따른 절차를 일반화하면 다음과 같다.

운영 환경 파악

코드를 열기 전에 운영 인스턴스의 실제 상태를 본다. 자바라면 jps + GC log 위치 확인 같은 단계.

  • 컨테이너 / 프로세스 목록 (docker ps)
  • 환경 변수 (docker exec ... printenv)
  • GPU 상태 (nvidia-smi)
  • 시스템 리소스 (free -h, nproc)
  • 서비스 자체 status 엔드포인트 (/status/*)

이 단계에서 운영자의 의도가 코드 기본값과 다른 부분을 찾는 게 핵심. 내가 분석한 서비스도 MAX_TASKS_PER_WORKER 가 코드 기본값 50 인데 운영 env 가 3 으로 override 되어 있어서 즉시 의심 지점이 됐다.

정적 코드 분석 — 영역별 분리

자바 백엔드에서 IntelliJ + 코드 리뷰만으로 부분 분석하는 단계. ML 서비스는 영역이 넓어서 한꺼번에 보면 산만하다. 다음 4개 축으로 분리해 병렬 분석한다.

  • 요청 진입·스케줄링 — 엔드포인트, GPU 라우팅, RequestTracker
  • 워커 풀·라이프사이클 — spawn/init/recycle, MAX_TASKS, worker death monitor
  • 변환·추론 파이프라인 — PDF 백엔드, OCR, layout 모델
  • I/O 전후처리 — 외부 OCR API, 파일 변환, 후처리 (markdown 생성)

영역마다 "Top 3 의심 지점" 을 file:line 정확도로 뽑아 통합하면 자바의 architecture review 와 같은 효과를 낸다.

추정값 → 실측 교체

자바 트러블슈팅에서 "왜 느릴까" 추측은 거의 항상 틀린다. 실측을 먼저 보는 게 원칙. ML 서비스도 같다.

  • 운영 로그 grep — 단계별 시간, 503 비율, worker 라이프사이클
  • nvidia-smi + Grafana — GPU 메모리 추세, 사용률
  • 워커 PID 별 RSS 추적 (10분 ~ 1시간 간격으로 시계열)
  • DOCLING_PROFILE_TIMINGS 같은 라이브러리 자체 프로파일 활용

내가 한 번 분석에서 추정한 "워커 재시작 30-90초" 가 실측에서 5.74초로 나왔다. 추정과 실측이 5-15배 어긋날 수 있다. 자바 GC 튜닝에서 "stop-the-world 가 길 것 같다" 가 실제로는 안 일어나는 케이스와 같다.

우선순위표 + GitHub 이슈

영역별 발견을 (영향도 × 변경 비용) 으로 정렬한 표로 합친다. 자바 진영의 backlog grooming 과 같은 절차.

이슈 본문에는 다음 6 섹션을 포함한다.

plaintext
1. 배경 / 현재 문제 (실측 수치 + 근거)
2. 제안 조치
3. 변경 위치 (file:line)
4. 구현 계획 (체크리스트)
5. 측정·회귀 검증 방법
6. 완료 조건 (acceptance criteria)

자바 트러블슈팅 티켓과 같은 구조지만 측정·회귀 검증이 더 명시적이어야 한다. ML 서비스는 markdown 출력 같은 비-결정적 산출물의 회귀를 byte-level 로 확인해야 변경의 안전성을 보장할 수 있다.

보안 + 코드 품질 추가 점검

성능 분석이 본격이지만 사이드 패스로 다음도 같이 본다.

  • 보안 — SSRF (/parse/url), 운영 엔드포인트 무인증 (/restart), 파일 다운로드 크기 검증, 시크릿 로깅 (OWASP Top 10 매핑)
  • silent failure — bare except: 패턴, 에러 삼키기, fallback 의 잘못된 결과 반환
  • race condition — multi-process / multi-thread 공유 상태의 lock 누락 (이번 분석에선 OCR 플러그인의 lock TOCTOU race 가 발견됨)

자바 백엔드와 다른 점: ML 라이브러리는 OSS 인 경우가 많아 외부 코드도 같이 봐야 할 때가 있다. native 바인딩의 락 처리 같은 부분.

로컬 테스트 환경 + 카나리 배포

Mac M-series 에서 CPU 모드로 환경을 세팅해 정확성 (correctness) 회귀 테스트. GPU 성능 검증은 운영 클러스터의 한 인스턴스를 LB 에서 빼서 처리. 자바 진영의 Kubernetes rolling deployment 와 같은 그림인데, GPU 워커가 비싸서 한 인스턴스 빼는 것의 trade-off 가 크다.

검증 항목Mac 가능?
markdown 출력 동일성✓ CPU 모드
보안·인증·async 동작✓
race condition✓
GPU 성능 수치✗
VRAM 추세✗
503 폭풍 검증✗

GPU 검증은 운영 카나리로 미루는 게 자연스럽다. 자바라면 staging 환경에서 부하 테스트로 처리하는 단계.

자바와 결정적으로 다른 두 가지

위 워크플로 안에서 자바 백엔드 경험만으로는 안 보이는 두 가지 함정.

모델 로딩 비용이 누적 비용이라는 점

자바 Spring Boot 부팅은 한 번이고 그 뒤로는 무관하다. ML 서비스의 모델 로딩은 워커가 죽고 다시 spawn 될 때마다 반복된다. MAX_TASKS_PER_WORKER 가 작으면 누적 부담이 폭증한다.

이 패턴을 처음 보는 자바 개발자는 "그냥 worker 더 띄우면 되지 않나" 라고 생각하기 쉽다. 실제로는 VRAM·CUDA context 비용이 따라 붙어 worker 수에 자연스러운 상한이 있다. Multi-process GPU 글 에서 다룬 트레이드오프.

async / blocking 의 경계가 동시성 전체를 결정

자바 @Async 또는 Reactor 의 blocking 호출 함정은 알려진 패턴이지만, FastAPI 에서 async def 핸들러 안의 동기 호출이 이벤트 루프를 통째로 막는다는 사실은 더 가혹하다. worker 가 3개뿐인 환경에서 한 요청이 30초 동안 이벤트 루프를 점유하면 그 동안 들어온 모든 요청이 503 으로 거부된다.

내가 분석한 서비스의 12시간 데이터에서 거부율 96.7% 가 정확히 이 패턴의 누적이었다. 자바라면 thread pool 의 thread starvation 으로 표현되는 문제가 Python async 모델에서는 더 결정적 영향으로 나온다.

측정 → 변경 → 검증의 자바와 다른 점

자바 트러블슈팅의 단위는 보통 하나의 메서드, 하나의 쿼리, 하나의 GC pause. ML 서비스 변경은 단위가 더 굵다.

  • 모델 옵션 한 줄 변경 (예: images_scale=3.0 → 2.0) 이 처리량과 품질을 동시에 흔든다. byte-level diff + 인식률 A/B 가 필요.
  • env 한 줄 변경 (MAX_TASKS=3 → 50) 이 워커 라이프사이클 전반을 바꾼다. 24시간 RAM 추세 + 503 비율 비교 필요.
  • 외부 API 호출 패턴 (직렬 → 병렬) 변경이 rate limit 위반 위험까지 동반.

자바 단위 테스트보다 한 단계 위의 A/B 테스트 + 카나리 운영 측정 이 거의 항상 필요하다. 자바 진영에서도 큰 변경은 같은 절차를 따르지만 ML 은 더 자주, 더 명시적으로 필요하다.

시리즈 마무리

자바 백엔드 시각에서 Python ML 서비스를 처음 본 사람의 학습 경로를 10개 글로 정리했다.

  • Python 문법 핵심 (Post 1) + OOP·데코레이터 심화 (Post 2) — 코드를 읽기 위한 전제
  • 의존성 관리 (Post 3) — venv, uv, pyproject.toml
  • FastAPI 기초 (Post 4) — Spring Boot 사용자가 빠르게 익히는 법
  • async/await + blocking I/O (Post 5) — CompletableFuture·Reactor 와 다른 점
  • GPU·CUDA·MPS (Post 6) — 새로운 컴퓨팅 평면
  • PyTorch 텐서·모델 로딩 (Post 7) — 워커 spawn 이 무거운 이유
  • Multi-process worker pool (Post 8) — ThreadPool 모델과 다른 점
  • OCR 동작 원리 (Post 9) — Layout · Text · Post-process 파이프라인
  • ML 서비스 성능 분석 워크플로 (이 글)

자바 백엔드 개발자가 ML 서비스를 두려워하지 않고 분석·개선할 수 있는 도구는 충분히 갖춰져 있다. 핵심은 JVM 안에서만 보던 그림을 멀티 프로세스 + GPU + 외부 API 까지 확장하는 시각. 그 위에 자바에서 익힌 트러블슈팅 감각을 그대로 옮기면 된다.

참고

  • Python Performance Tips
  • PyTorch Performance Tuning Guide
  • FastAPI Concurrency
  • NVIDIA Performance Analysis Tools
  • Real Python — Optimizing Python Performance
on this page
  • 01자바 vs ML — 무엇이 다른가
  • 02분석 워크플로 — 6단계
  • 운영 환경 파악
  • 정적 코드 분석 — 영역별 분리
  • 추정값 → 실측 교체
  • 우선순위표 + GitHub 이슈
  • 보안 + 코드 품질 추가 점검
  • 로컬 테스트 환경 + 카나리 배포
  • 03자바와 결정적으로 다른 두 가지
  • 모델 로딩 비용이 누적 비용이라는 점
  • async / blocking 의 경계가 동시성 전체를 결정
  • 04측정 → 변경 → 검증의 자바와 다른 점
  • 05시리즈 마무리
  • 06참고

이런 글도

  • Python 서버의 RSS 가 안 줄어드는 이유 — gc.collect 의 한계와 malloc_trim
    Python 으로 long-running 서버 (FastAPI / Flask / Celery / uWSGI 등) 를 운영하다 보면 한 번쯤 마주치는 증상이 있다. - 워커 프로세스의 RSS 가 시간이 지날수록 단조 증가한다 - 큰 객체를 del 하고 gc.collect() 를 불러도 RSS 가 줄지 않는다 - 결국 max-requests / workerma...
    📁 system
    system
    2026.05.22
  • OCR 동작 원리 — Layout · Text · Post-process 3단계
    자바 백엔드만 다뤄오다가 OCR (Optical Character Recognition) 서비스를 분석할 일이 생겼다. "이미지에서 글자를 뽑는다" 라는 한 줄 요약은 알았지만, 실제 코드를 열어보면 모델이 둘이상이고, 여러 단계가 직렬·병렬로 엮여 있고, "왜 이 단계가 따로 있지" 같은 의문이 계속 생긴다. 이 글은 OCR 파이프라인의 표준 구조를 정리...
    📁 system
    system
    2026.05.19
  • Multi-process GPU 워크로드 — 자바 ThreadPool 사용자가 만나는 모델 차이
    자바 백엔드에서 ThreadPoolExecutor 는 거의 만능이었다. CPU bound 든 I/O bound 든 스레드 풀 크기만 잘 잡으면 동시성을 챙길 수 있었다. JVM 안에서 메모리를 공유하니 작업 간 데이터 전달도 가볍다. Python ML 서비스는 그림이 다르다. ThreadPoolExecutor 가 있지만 CPU/GPU 작업에서는 거의 안 쓰...
    📁 system
    system
    2026.05.19
  • PyTorch 기초 — 텐서, 디바이스, 그리고 모델 로딩이 무거운 이유
    자바 백엔드에서 Spring Boot 가 부팅하는 시간이 5-30초 걸리는 게 일반적이다. 클래스 로딩, 컴포넌트 스캔, 의존성 주입, EntityManagerFactory 초기화 등이 누적된다. 한 번 부팅하면 그 뒤로는 요청 처리에 거의 영향이 없다. PyTorch 기반 ML 서비스는 비슷하지만 한 단계 더 무겁다. 우리 프로젝트의 KR Worker 가...
    📁 system
    system
    2026.05.19

댓글 (0)