fos-blog/study
01 / 홈02 / 카테고리03 / 시리즈
01 / 홈02 / 카테고리03 / 시리즈

카테고리

  • AI 페이지로 이동
    • RAG 페이지로 이동
    • langgraph 페이지로 이동
    • agents.md
    • BMAD Method — AI 에이전트로 애자일 개발하는 방법론
    • Claude Code의 Skill 시스템 - 개발자를 위한 AI 자동화의 새로운 차원
    • Claude Code를 5주 더 쓴 결과 — 스킬·CLAUDE.md를 키워가는 방식
    • Claude Code를 11일 동안 쓴 결과 — 데이터로 본 나의 사용 패턴
    • Claude Code 멀티 에이전트 — Teams
    • AI 에이전트와 디자인의 새 컨벤션 — DESIGN.md, Google Stitch, Claude Design
    • Docling — IBM Research 의 문서 파싱 toolkit 상세 정리
    • 하네스 엔지니어링 실전 — 4인 에이전트 팀으로 코딩 파이프라인 구축하기
    • 하네스 엔지니어링 — 오래 실행되는 AI 에이전트를 위한 설계
    • 멀티모달 LLM (Multimodal Large Language Model)
    • AI 에이전트와 함께 MVP 만들기 — dooray-cli 사례
  • ai 페이지로 이동
    • agent 페이지로 이동
  • algorithm 페이지로 이동
    • live-coding 페이지로 이동
    • 분산 계산을 위한 알고리즘
  • apartment 페이지로 이동
    • 구리 럭키아파트 24평 인테리어 레퍼런스 모음
  • architecture 페이지로 이동
    • [초안] 시니어 백엔드를 위한 API 설계 실전 스터디 팩 — REST · 멱등성 · 페이지네이션 · 버전 전략
    • [초안] API Versioning과 Backward Compatibility: 시니어 백엔드 관점 정리
    • 캐시 설계 전략 총정리
    • [초안] CJ푸드빌 디지털 채널 면접: 슬롯 도메인 경험을 커머스 도메인 설계 능력으로 번역하기
    • [초안] 커머스 Spring 서비스에 Clean/Hexagonal Architecture를 실용적으로 적용하기
    • [초안] 커머스 도메인 모델링: 주문·재고·노출의 세 축을 분리해서 설계하기
    • 커머스 주문 상태와 데이터 정합성 기본기 — CJ푸드빌 면접 대비
    • [초안] 쿠폰/프로모션 동시성과 정합성 기본기 — 선착순·중복 사용 방지·발급/사용/복구
    • [초안] DDD와 도메인 모델링: 시니어 백엔드 관점의 전술/전략 패턴 실전 가이드
    • [초안] Decorator & Chain of Responsibility — 행동을 체인으로 조립하는 두 가지 방식
    • 디자인 패턴
    • [초안] 분산 아키텍처 완전 정복: Java 백엔드 시니어 인터뷰 대비 실전 가이드
    • [초안] 분산 트랜잭션과 Outbox 패턴 — 왜 2PC를 피하고 어떻게 대신할 것인가
    • 분산 트랜잭션
    • [초안] e-Commerce 주문·결제 도메인 모델링: 상태머신, 멱등성, Outbox/Saga 실전 정리
    • [초안] F&B 쿠폰·프로모션·멤버십·포인트 설계
    • [초안] F&B · e-Commerce 디지털 채널 도메인 한 장 정리 — CJ푸드빌 디지털 채널 백엔드 면접 대비
    • [초안] F&B 주문/매장/픽업 상태머신 설계 — CJ푸드빌 디지털 채널 백엔드 관점
    • [초안] F&B 이커머스 결제·환불·정산 운영 가이드
    • [초안] Hexagonal / Clean Architecture를 Spring 백엔드에 적용하기
    • [초안] 대규모 커머스 트래픽 처리 패턴 — 1,600만 고객과 올영세일을 버티는 설계
    • [초안] 레거시 JSP/jQuery 화면과 신규 API가 공존하는 백엔드 운영 전략
    • [초안] MSA 서비스 간 통신: Redis [Cache-Aside](../database/redis/cache-aside.md) × Kafka 이벤트 하이브리드 설계
    • [초안] Observability 입문: 시니어 백엔드가 장애를 탐지하고 대응하는 방식
    • [초안] Outbox / Inbox Pattern 심화 — 분산 메시징의 정합성 문제를 DB 트랜잭션으로 풀어내기
    • [초안] 결제 도메인 멱등성과 트랜잭션 재시도 기본기
    • [초안] 시니어 백엔드를 위한 Resilience 패턴 실전 가이드 — Timeout, Retry, Circuit Breaker, Bulkhead, Backpressure
    • [초안] REST API 버저닝과 모바일 앱 하위 호환성 — CJ푸드빌 디지털 채널 백엔드 관점
    • [초안] Spring Batch vs Event-Driven — 같은 비동기처럼 보이지만 전혀 다른 두 패러다임
    • [초안] Strategy Pattern — 분기문을 없애는 설계, 시니어 백엔드 인터뷰 핵심 패턴
    • [초안] 시니어 백엔드를 위한 시스템 설계 입문 스터디 팩
    • [초안] 템플릿 메서드 패턴 - 백엔드 처리 골격을 강제하는 가장 오래되고 가장 위험한 패턴
    • [초안] 대규모 트래픽 중 무중단 마이그레이션 — Feature Flag + Shadow Mode 실전
  • database 페이지로 이동
    • mysql 페이지로 이동
    • opensearch 페이지로 이동
    • redis 페이지로 이동
    • 김영한의-실전-데이터베이스-설계 페이지로 이동
    • [초안] DB Connection Pool Saturation과 Thread Pool 격리
    • 커넥션 풀 크기는 얼마나 조정해야 할까?
    • 인덱스 - DB 성능 최적화의 핵심
    • [초안] JPA N+1과 커머스 조회 모델: 주문/메뉴/쿠폰 도메인에서 살아남기
    • [초안] MyBatis 기본기 — XML Mapper, resultMap, 동적 SQL, 운영 패턴 정리
    • [초안] MyBatis와 JPA/Hibernate 트레이드오프 — 레거시 백엔드를 다루는 시니어 관점
    • 역정규화 (Denormalization)
    • 데이터 베이스 정규화
  • devops 페이지로 이동
    • docker 페이지로 이동
    • k8s 페이지로 이동
    • k8s-in-action 페이지로 이동
    • observability 페이지로 이동
    • [초안] 커머스/F&B 채널 장애 첫 5분과 관측성 기본기
    • Envoy Proxy
    • [초안] F&B / e-Commerce 운영 장애 대응과 모니터링 — 백엔드 관점 정리
    • Graceful Shutdown
    • [초안] 시니어 백엔드를 위한 SLO와 Error Budget 기반 장애 대응
  • finance 페이지로 이동
    • industry-cycle 페이지로 이동
    • investing 페이지로 이동
  • http 페이지로 이동
    • HTTP Connection Pool
  • interview 페이지로 이동
    • [초안] AI 서비스 팀 경험 기반 시니어 백엔드 면접 질문 뱅크 — Spring Batch RAG / gRPC graceful shutdown / 전략 패턴 / 12일 AI 웹툰 MVP
    • [초안] 커머스/F&B 면접 답변집 — 슬롯 도메인 경험을 주문·결제·쿠폰·매장 설계로 매핑하기
    • [초안] F&B / e-Commerce 운영 모니터링과 장애 대응 인터뷰 정리
    • Observability — 면접 답변 프레임
    • [초안] 시니어 Java 백엔드 면접 마스터 플레이북 — 김병태
    • [초안] NSC 슬롯팀 경험 기반 질문 은행 — 도메인 모델링·동시성·성능·AI 협업
  • java 페이지로 이동
    • concurrency 페이지로 이동
    • jdbc 페이지로 이동
    • opentelemetry 페이지로 이동
    • spring 페이지로 이동
    • spring-batch 페이지로 이동
    • 더_자바_코드를_조작하는_다양한_방법 페이지로 이동
    • [초안] Java 동시성 락 정리 — 커머스 메뉴/프로모션 정책 캐시 갱신 관점
    • [초안] JVM 튜닝 실전: 메모리 구조부터 Virtual Threads, GC 튜닝, 프로파일링까지
    • Java의 로깅 환경
    • MDC (Mapped Diagnostic Context)
    • Java StampedLock — 읽기 폭주에도 쓰기가 밀리지 않는 락
    • Virtual Thread와 Project Loom
  • javascript 페이지로 이동
    • typescript 페이지로 이동
    • AbortController
    • Async Iterator와 제너레이터
    • CommonJS와 ECMAScript Modules
    • 제너레이터(Generator)
    • Http Client
    • Node 백엔드 운영 패턴 — Streams 백프레셔, pipe/pipeline, 멱등성 vs 분산 락
    • Node.js
    • npm vs pnpm — 어떤 기준으로 선택했나
    • `setImmediate()`
  • kafka 페이지로 이동
    • [초안] Kafka 기본 개념 — 토픽, 파티션, 오프셋, 복제
    • Kafka를 사용하여 **데이터 정합성**은 어떻게 유지해야 할까?
    • [초안] Kafka 실전 설계: 파티션 전략, 컨슈머 그룹, 전달 보장, 재시도, 순서 보장 트레이드오프
    • 메시지 전송 신뢰성
  • linux 페이지로 이동
    • fsync — 리눅스 파일 동기화 시스템 콜
    • tmux — Terminal Multiplexer
  • network 페이지로 이동
    • L2(스위치)와 L3(라우터)의 역할 차이
    • L4와 VIP(Virtual IP Address)
    • IP Subnet
  • python 페이지로 이동
    • Python async/await — CompletableFuture·Reactor 와 다른 점, 그리고 blocking I/O 함정
    • Python 의존성 관리 — Java Maven/Gradle 사용자가 만나는 첫 충격
    • FastAPI 기초 — Spring Boot 사용자가 빠르게 익히는 법
    • GPU·CUDA·MPS 기초 — 자바 백엔드 개발자가 처음 만나는 그림
    • Multi-process GPU 워크로드 — 자바 ThreadPool 사용자가 만나는 모델 차이
    • Java 개발자를 위한 Python 심화 — OOP·데코레이터·컨텍스트 매니저
    • PyTorch 기초 — 텐서, 디바이스, 그리고 모델 로딩이 무거운 이유
    • Java 개발자를 위한 Python 문법 핵심
    • ML 서비스 성능 분석 워크플로 — 자바 백엔드 트러블슈팅과 다른 점
    • OCR 동작 원리 — Layout · Text · Post-process 3단계
    • Python 서버의 RSS 가 안 줄어드는 이유 — gc.collect 의 한계와 malloc_trim
  • rabbitmq 페이지로 이동
    • [초안] RabbitMQ Basics — 실전 백엔드 관점에서 정리하는 메시지 브로커 기본기
    • [초안] RabbitMQ vs Kafka — 백엔드 메시징 선택 기준과 실전 운영 관점
  • security 페이지로 이동
    • [초안] 시니어 백엔드를 위한 보안 / 인증 스터디 팩 — Spring Security, JWT, OAuth2, OWASP Top 10
    • [초안] Spring Security 6.x OAuth2 + JWT 상용 인증 설계 — Grant 선택, Resource Server, Refresh Rotation, 로그아웃
  • task 페이지로 이동
    • ai-service-team 페이지로 이동
    • nsc-slot 페이지로 이동
    • sb-dev-team 페이지로 이동
    • the-future-company 페이지로 이동
  • testing 페이지로 이동
    • [초안] 시니어 Java 백엔드를 위한 테스트 전략 완전 정리 — 피라미드부터 TestContainers, 마이크로벤치, Contract까지
  • travel 페이지로 이동
    • 오사카 3박 4일 일정표: 우메다 쇼핑, USJ, 난바·도톤보리, 오사카성
  • web 페이지로 이동
    • [초안] HTTP / Cookie / Session / Token 인증 기본기 — 레거시 JSP와 모바일 API가 공존하는 백엔드 관점
FOS-BLOG · FOOTERall systems normal·v0.1 · 2026.04.27·seoul, kr
Ffos-blog/study

개발 학습 기록을 정리하는 블로그입니다. 공부하면서 기록하고, 기록하면서 다시 배웁니다.

visitors
01site
  • Home↗
  • Posts↗
  • Categories↗
  • About↗
02policy
  • 소개/about
  • 개인정보처리방침/privacy
  • 연락처/contact
03categories
  • AI↗
  • Algorithm↗
  • DB↗
  • DevOps↗
  • Java/Spring↗
  • JS/TS↗
  • React↗
  • Next.js↗
  • System↗
04connect
  • GitHub@jon890↗
  • Source repositoryjon890/fos-study↗
  • RSS feed/rss.xml↗
  • Newsletter매주 1 회 · 한 편의 글→
© 2026 FOS Study. All posts MIT-licensed.
built with·Next.js·Tailwind v4·Geist·Pretendard·oklch
fos-blog/python/Python async/await — Com…
system

Python async/await — CompletableFuture·Reactor 와 다른 점, 그리고 blocking I/O 함정

자바에서 비동기를 다루는 방법은 시대마다 달랐다. Future.get() 의 블로킹 시절, CompletableFuture 의 콜백 체인, Reactor·RxJava 의 스트림. 모두 별도 스레드에서 작업을 돌리고 결과를 받아오는 모델이다. Python 의 async/await 는 다르다. 단일 스레드 안에서 이벤트 루프가 코루틴을 번갈아 실행한다. 처음...

2026.05.19·6 min read·16 views

자바에서 비동기를 다루는 방법은 시대마다 달랐다. Future.get() 의 블로킹 시절, CompletableFuture 의 콜백 체인, Reactor·RxJava 의 스트림. 모두 별도 스레드에서 작업을 돌리고 결과를 받아오는 모델이다.

Python 의 async/await 는 다르다. 단일 스레드 안에서 이벤트 루프가 코루틴을 번갈아 실행한다. 처음 보면 자바 모델과 비슷해 보이지만, 한 번 잘못 쓰면 동시성이 통째로 무너진다. 우리가 분석한 FastAPI 코드에서도 async def 안에서 requests.get(...) 을 호출하는 부분이 이벤트 루프 전체를 block 시켜 동시성을 깎고 있었다.

이 글은 async/await 의 개념을 자바 비동기 모델과 비교하면서, blocking I/O 함정과 회피법까지 정리한다.

단일 스레드 이벤트 루프라는 모델

자바 CompletableFuture 는 보통 ForkJoinPool.commonPool() 의 워커 스레드에서 작업을 돌린다. 콜백을 등록하면 어떤 스레드에서 실행될지는 라이브러리가 결정한다. 멀티스레드 + 콜백 조합.

Python async/await 는 단일 스레드 안에서 이벤트 루프가 코루틴들을 협력적으로 스케줄한다. 하나의 코루틴이 await 로 양보해야 다른 코루틴이 돌아간다. 자바의 협력적 스레드 yield 와 비슷하지만, Python 은 OS 스레드를 더 만들지 않는 점이 결정적이다.

python
import asyncio
 
async def fetch(url: str) -> str:
    print(f"start {url}")
    await asyncio.sleep(1)        # 양보 — 다른 코루틴 실행 기회
    print(f"done {url}")
    return f"{url} body"
 
async def main():
    results = await asyncio.gather(
        fetch("/a"),
        fetch("/b"),
        fetch("/c"),
    )
 
asyncio.run(main())

세 fetch 가 거의 동시에 시작하고 1초 뒤 거의 동시에 끝난다. 스레드 3개를 만든 게 아니라 같은 스레드 안에서 await 시점마다 다른 코루틴으로 점프하는 것뿐이다.

자바 CompletableFuture.allOf(...) 와 결과는 비슷하지만 내부 메커니즘이 다르다. 자바는 풀의 여러 스레드가 동시에 돈다. Python 은 한 스레드가 빠르게 왔다 갔다 한다.

왜 Python 은 단일 스레드를 골랐나 — GIL

이 모델을 이해하려면 GIL (Global Interpreter Lock) 을 짚어야 한다. CPython 은 한 번에 하나의 스레드만 바이트코드를 실행하도록 인터프리터에 락을 박았다. 멀티스레드를 만들어도 CPU 작업은 직렬화된다.

자바라면 synchronized 로 일부 임계 구역만 직렬화하는데, Python 은 인터프리터 자체가 큰 모니터 락 하나로 묶여 있는 셈. 결과적으로 Python 멀티스레드는 CPU bound 작업에서 자바 멀티스레드만큼 빨라지지 않는다.

I/O 작업은 다르다. 시스템 콜을 기다리는 동안 GIL 을 놓는다. 그래서 자바 multithreaded I/O 와 비슷한 동시성이 나온다. 다만 비동기 모델이 더 가볍다 — OS 스레드 1만 개는 메모리만 수 GB 인데, 코루틴 1만 개는 메가바이트 수준.

ML 워크로드처럼 CPU/GPU 가 무거운 작업은 multiprocessing (각 프로세스마다 독립 인터프리터·독립 GIL) 으로 풀어야 한다. 우리 프로젝트가 워커를 ProcessPoolExecutor 로 띄우는 이유가 정확히 이것. 자바라면 그냥 ThreadPool 로 충분했을 일이다. 이 주제는 다음 글에서 깊게 본다.

코루틴이 자바 Reactor 와 가까운 점, 다른 점

Reactor 와 async/await 의 공통점:

  • 둘 다 callback hell 을 피하기 위해 선언적 체인을 제공
  • 둘 다 단일 스레드 모델 (Reactor 의 Scheduler.single(), asyncio 의 기본 루프) 위에서 효율적
  • 둘 다 backpressure 비슷한 개념이 있음 (asyncio 는 큐 사이즈, Reactor 는 onBackpressureBuffer)

차이점:

  • Reactor 는 Stream-of-N 추상 (Flux). async/await 는 단일 값 비동기 (Future 비슷). 스트림은 async for + 제너레이터 로 풀어야 한다.
  • Reactor 는 명시적으로 subscribe() 해야 실행. asyncio 는 await 또는 gather/create_task 가 실행 트리거.
  • Reactor 의 Mono.fromCallable(...).subscribeOn(Schedulers.boundedElastic()) 패턴이 asyncio 의 run_in_executor(...) 와 의도는 같다 (블로킹 작업을 별도 스레드로).

자바에서 CompletableFuture 든 Reactor 든 "이 작업이 어떤 스레드에서 도는가" 가 항상 명시적 또는 암묵적으로 추적된다. Python async 는 "이 작업이 이벤트 루프를 양보하는가" 가 중심 질문이 된다.

결정적 함정 — async 안의 blocking I/O

이 글의 핵심이다. async def 함수 안에서 동기 I/O 호출 (네트워크·파일) 을 직접 부르면 이벤트 루프 전체가 멈춘다. 동시에 들어온 다른 요청도 같이 멈춘다.

python
@app.get("/parse/url")
async def parse_url(req: ParseRequest):
    response = requests.get(req.url, timeout=30)   # ⚠️ 30초 동안 모든 요청 block
    return process(response.content)

우리가 분석한 코드에 정확히 이 패턴이 있었다. FastAPI 가 async def 핸들러는 이벤트 루프에서 직접 돌리는데, 그 안에서 requests.get(...) 같은 동기 호출은 시스템 콜에서 GIL 만 놓을 뿐 이벤트 루프에는 양보하지 않는다. 결과적으로 동시에 들어온 다른 비동기 핸들러도 처리 못 한다.

worker 가 3개뿐인 환경에서 한 요청이 30초 동안 이벤트 루프를 점유하면, 그 동안 큐에 쌓인 요청은 503 으로 거부되거나 timeout 까지 대기한다. 단일 요청 latency 가 아니라 전체 동시성이 무너진다.

자바 비교: Spring WebFlux 에서 Mono<String> 안에 restTemplate.getForObject(...) (동기) 를 쓰는 것과 같다. Reactor 스레드가 막혀서 다른 요청을 못 받는다. 그래서 WebFlux 진영은 WebClient (논블로킹) 를 강제한다. Python 도 같은 원칙이다.

회피 방법 1: 진짜 비동기 라이브러리 사용

requests (동기) 대신 httpx.AsyncClient (비동기) 또는 aiohttp:

python
import httpx
 
@app.get("/parse/url")
async def parse_url(req: ParseRequest):
    async with httpx.AsyncClient(timeout=30) as client:
        response = await client.get(str(req.url))
    return process(response.content)

await client.get(...) 의 await 가 이벤트 루프에 양보 신호. 다른 코루틴이 그 사이 실행 가능.

파일 I/O 도 open() 대신 aiofiles:

python
import aiofiles
 
async def save_upload(file, path):
    async with aiofiles.open(path, "wb") as f:
        while chunk := await file.read(8192):
            await f.write(chunk)

회피 방법 2: run_in_executor 로 별도 스레드 위임

이미 동기 라이브러리를 쓰고 있고 즉시 교체가 어렵다면, blocking 호출만 별도 스레드 풀에 위임한다.

python
import asyncio
 
@app.get("/parse/url")
async def parse_url(req: ParseRequest):
    loop = asyncio.get_event_loop()
    response = await loop.run_in_executor(
        None,                       # 기본 ThreadPoolExecutor
        lambda: requests.get(str(req.url), timeout=30)
    )
    return process(response.content)

run_in_executor 는 자바 Reactor 의 subscribeOn(Schedulers.boundedElastic()) 패턴과 정확히 같은 의도다. 동기 작업을 별도 스레드에서 돌리고 결과만 이벤트 루프로 반환.

장점은 코드 변경이 작다. 단점은 스레드 풀이 별도로 돌고, GIL 때문에 CPU bound 작업이면 큰 이득이 없다 (I/O bound 에는 유효).

회피 방법 3: 핸들러를 동기로

FastAPI 의 트릭. 핸들러를 def (동기) 로 정의하면 FastAPI 가 알아서 별도 스레드에서 실행한다. 이벤트 루프는 막히지 않는다.

python
@app.get("/parse/url")
def parse_url(req: ParseRequest):       # async 가 아니라 그냥 def
    response = requests.get(str(req.url), timeout=30)
    return process(response.content)

핸들러가 async def 일 필요가 없는 경우 (예: 안에 비동기 호출이 없거나, 즉시 동기 라이브러리로 충분한 경우) 가장 간단한 회피책. 다만 스레드 풀 크기에 따라 동시성이 제한된다는 점은 알아둬야 한다.

우리 프로젝트의 실측 영향

분석 과정에서 app.py 의 다음 위치들이 blocking I/O 함정에 걸려 있었다.

  • app.py:2153 — parse_document_from_url (async def) 안에서 download_file_from_url → requests.get 동기 호출, 최대 30초 block
  • app.py:1907 — get_file_extension_from_url 의 fallback requests.head 동기 호출, 최대 10초 block
  • app.py:2261 — parse_document_from_file (async def) 안에서 shutil.copyfileobj 동기 파일 복사

worker 3개 환경에서 이 패턴들이 누적되어 동시성이 거의 의미를 잃은 상태였다. 단일 요청 응답시간은 같더라도 5요청 동시 처리 시 p95 가 폭증한다. GitHub 이슈로 따로 등록해 둔 부분.

정리 — 자바 개발자가 기억할 한 가지

자바 비동기는 "어느 스레드에서 도는가" 를 묻는다. Python 비동기는 "이벤트 루프를 양보하는가" 를 묻는다. await 키워드가 양보 신호다.

이걸 한 줄로 외워두면 다음 두 규칙이 자연스럽다.

async def 안에서는 모든 I/O 가 await 와 함께 호출되어야 한다. await 없는 동기 호출은 이벤트 루프를 인질로 잡는다.

동기 라이브러리를 어쩔 수 없이 써야 하면 run_in_executor 또는 핸들러를 def (동기) 로.

다음 글은 이 모델이 ML 워크로드를 만났을 때의 한계 — GIL 과 multiprocessing, worker pool 패턴 — 을 자바 ThreadPool 과 비교해 정리한다.

참고

  • PEP 492 — Coroutines with async and await syntax
  • asyncio — Python docs
  • FastAPI — Concurrency and async / await
  • httpx — Async usage
  • Real Python — Async IO in Python: A Complete Walkthrough
on this page
  • 01단일 스레드 이벤트 루프라는 모델
  • 02왜 Python 은 단일 스레드를 골랐나 — GIL
  • 03코루틴이 자바 Reactor 와 가까운 점, 다른 점
  • 04결정적 함정 — async 안의 blocking I/O
  • 회피 방법 1: 진짜 비동기 라이브러리 사용
  • 회피 방법 2: run_in_executor 로 별도 스레드 위임
  • 회피 방법 3: 핸들러를 동기로
  • 05우리 프로젝트의 실측 영향
  • 06정리 — 자바 개발자가 기억할 한 가지
  • 07참고

이런 글도

  • Python 서버의 RSS 가 안 줄어드는 이유 — gc.collect 의 한계와 malloc_trim
    Python 으로 long-running 서버 (FastAPI / Flask / Celery / uWSGI 등) 를 운영하다 보면 한 번쯤 마주치는 증상이 있다. - 워커 프로세스의 RSS 가 시간이 지날수록 단조 증가한다 - 큰 객체를 del 하고 gc.collect() 를 불러도 RSS 가 줄지 않는다 - 결국 max-requests / workerma...
    📁 system
    system
    2026.05.22
  • ML 서비스 성능 분석 워크플로 — 자바 백엔드 트러블슈팅과 다른 점
    이 시리즈의 마무리 글이다. 앞선 글들에서 다음 주제를 자바 백엔드 비교 관점으로 정리했다. - Python 문법 - 의존성 관리 - FastAPI - async/await - GPU·CUDA·MPS - PyTorch - multi-process worker pool - OCR 파이프라인 마지막은 이 모든 개념을 적용해 실제 ML 서비스의 성능을 분석하는...
    📁 system
    system
    2026.05.19
  • OCR 동작 원리 — Layout · Text · Post-process 3단계
    자바 백엔드만 다뤄오다가 OCR (Optical Character Recognition) 서비스를 분석할 일이 생겼다. "이미지에서 글자를 뽑는다" 라는 한 줄 요약은 알았지만, 실제 코드를 열어보면 모델이 둘이상이고, 여러 단계가 직렬·병렬로 엮여 있고, "왜 이 단계가 따로 있지" 같은 의문이 계속 생긴다. 이 글은 OCR 파이프라인의 표준 구조를 정리...
    📁 system
    system
    2026.05.19
  • Multi-process GPU 워크로드 — 자바 ThreadPool 사용자가 만나는 모델 차이
    자바 백엔드에서 ThreadPoolExecutor 는 거의 만능이었다. CPU bound 든 I/O bound 든 스레드 풀 크기만 잘 잡으면 동시성을 챙길 수 있었다. JVM 안에서 메모리를 공유하니 작업 간 데이터 전달도 가볍다. Python ML 서비스는 그림이 다르다. ThreadPoolExecutor 가 있지만 CPU/GPU 작업에서는 거의 안 쓰...
    📁 system
    system
    2026.05.19

댓글 (0)