fos-blog/study
01 / 홈02 / 카테고리03 / 시리즈
01 / 홈02 / 카테고리03 / 시리즈

카테고리

  • AI 페이지로 이동
    • RAG 페이지로 이동
    • langgraph 페이지로 이동
    • agents.md
    • BMAD Method — AI 에이전트로 애자일 개발하는 방법론
    • Claude Code의 Skill 시스템 - 개발자를 위한 AI 자동화의 새로운 차원
    • Claude Code를 5주 더 쓴 결과 — 스킬·CLAUDE.md를 키워가는 방식
    • Claude Code를 11일 동안 쓴 결과 — 데이터로 본 나의 사용 패턴
    • Claude Code 멀티 에이전트 — Teams
    • AI 에이전트와 디자인의 새 컨벤션 — DESIGN.md, Google Stitch, Claude Design
    • Docling — IBM Research 의 문서 파싱 toolkit 상세 정리
    • 하네스 엔지니어링 실전 — 4인 에이전트 팀으로 코딩 파이프라인 구축하기
    • 하네스 엔지니어링 — 오래 실행되는 AI 에이전트를 위한 설계
    • 멀티모달 LLM (Multimodal Large Language Model)
    • AI 에이전트와 함께 MVP 만들기 — dooray-cli 사례
  • ai 페이지로 이동
    • agent 페이지로 이동
  • algorithm 페이지로 이동
    • live-coding 페이지로 이동
    • 분산 계산을 위한 알고리즘
  • apartment 페이지로 이동
    • 구리 럭키아파트 24평 인테리어 레퍼런스 모음
  • architecture 페이지로 이동
    • [초안] 시니어 백엔드를 위한 API 설계 실전 스터디 팩 — REST · 멱등성 · 페이지네이션 · 버전 전략
    • [초안] API Versioning과 Backward Compatibility: 시니어 백엔드 관점 정리
    • 캐시 설계 전략 총정리
    • [초안] CJ푸드빌 디지털 채널 면접: 슬롯 도메인 경험을 커머스 도메인 설계 능력으로 번역하기
    • [초안] 커머스 Spring 서비스에 Clean/Hexagonal Architecture를 실용적으로 적용하기
    • [초안] 커머스 도메인 모델링: 주문·재고·노출의 세 축을 분리해서 설계하기
    • 커머스 주문 상태와 데이터 정합성 기본기 — CJ푸드빌 면접 대비
    • [초안] 쿠폰/프로모션 동시성과 정합성 기본기 — 선착순·중복 사용 방지·발급/사용/복구
    • [초안] DDD와 도메인 모델링: 시니어 백엔드 관점의 전술/전략 패턴 실전 가이드
    • [초안] Decorator & Chain of Responsibility — 행동을 체인으로 조립하는 두 가지 방식
    • 디자인 패턴
    • [초안] 분산 아키텍처 완전 정복: Java 백엔드 시니어 인터뷰 대비 실전 가이드
    • [초안] 분산 트랜잭션과 Outbox 패턴 — 왜 2PC를 피하고 어떻게 대신할 것인가
    • 분산 트랜잭션
    • [초안] e-Commerce 주문·결제 도메인 모델링: 상태머신, 멱등성, Outbox/Saga 실전 정리
    • [초안] F&B 쿠폰·프로모션·멤버십·포인트 설계
    • [초안] F&B · e-Commerce 디지털 채널 도메인 한 장 정리 — CJ푸드빌 디지털 채널 백엔드 면접 대비
    • [초안] F&B 주문/매장/픽업 상태머신 설계 — CJ푸드빌 디지털 채널 백엔드 관점
    • [초안] F&B 이커머스 결제·환불·정산 운영 가이드
    • [초안] Hexagonal / Clean Architecture를 Spring 백엔드에 적용하기
    • [초안] 대규모 커머스 트래픽 처리 패턴 — 1,600만 고객과 올영세일을 버티는 설계
    • [초안] 레거시 JSP/jQuery 화면과 신규 API가 공존하는 백엔드 운영 전략
    • [초안] MSA 서비스 간 통신: Redis [Cache-Aside](../database/redis/cache-aside.md) × Kafka 이벤트 하이브리드 설계
    • [초안] Observability 입문: 시니어 백엔드가 장애를 탐지하고 대응하는 방식
    • [초안] Outbox / Inbox Pattern 심화 — 분산 메시징의 정합성 문제를 DB 트랜잭션으로 풀어내기
    • [초안] 결제 도메인 멱등성과 트랜잭션 재시도 기본기
    • [초안] 시니어 백엔드를 위한 Resilience 패턴 실전 가이드 — Timeout, Retry, Circuit Breaker, Bulkhead, Backpressure
    • [초안] REST API 버저닝과 모바일 앱 하위 호환성 — CJ푸드빌 디지털 채널 백엔드 관점
    • [초안] Spring Batch vs Event-Driven — 같은 비동기처럼 보이지만 전혀 다른 두 패러다임
    • [초안] Strategy Pattern — 분기문을 없애는 설계, 시니어 백엔드 인터뷰 핵심 패턴
    • [초안] 시니어 백엔드를 위한 시스템 설계 입문 스터디 팩
    • [초안] 템플릿 메서드 패턴 - 백엔드 처리 골격을 강제하는 가장 오래되고 가장 위험한 패턴
    • [초안] 대규모 트래픽 중 무중단 마이그레이션 — Feature Flag + Shadow Mode 실전
  • database 페이지로 이동
    • mysql 페이지로 이동
    • opensearch 페이지로 이동
    • redis 페이지로 이동
    • 김영한의-실전-데이터베이스-설계 페이지로 이동
    • [초안] DB Connection Pool Saturation과 Thread Pool 격리
    • 커넥션 풀 크기는 얼마나 조정해야 할까?
    • 인덱스 - DB 성능 최적화의 핵심
    • [초안] JPA N+1과 커머스 조회 모델: 주문/메뉴/쿠폰 도메인에서 살아남기
    • [초안] MyBatis 기본기 — XML Mapper, resultMap, 동적 SQL, 운영 패턴 정리
    • [초안] MyBatis와 JPA/Hibernate 트레이드오프 — 레거시 백엔드를 다루는 시니어 관점
    • 역정규화 (Denormalization)
    • 데이터 베이스 정규화
  • devops 페이지로 이동
    • docker 페이지로 이동
    • k8s 페이지로 이동
    • k8s-in-action 페이지로 이동
    • observability 페이지로 이동
    • [초안] 커머스/F&B 채널 장애 첫 5분과 관측성 기본기
    • Envoy Proxy
    • [초안] F&B / e-Commerce 운영 장애 대응과 모니터링 — 백엔드 관점 정리
    • Graceful Shutdown
    • [초안] 시니어 백엔드를 위한 SLO와 Error Budget 기반 장애 대응
  • finance 페이지로 이동
    • industry-cycle 페이지로 이동
    • investing 페이지로 이동
  • http 페이지로 이동
    • HTTP Connection Pool
  • interview 페이지로 이동
    • [초안] AI 서비스 팀 경험 기반 시니어 백엔드 면접 질문 뱅크 — Spring Batch RAG / gRPC graceful shutdown / 전략 패턴 / 12일 AI 웹툰 MVP
    • [초안] 커머스/F&B 면접 답변집 — 슬롯 도메인 경험을 주문·결제·쿠폰·매장 설계로 매핑하기
    • [초안] F&B / e-Commerce 운영 모니터링과 장애 대응 인터뷰 정리
    • Observability — 면접 답변 프레임
    • [초안] 시니어 Java 백엔드 면접 마스터 플레이북 — 김병태
    • [초안] NSC 슬롯팀 경험 기반 질문 은행 — 도메인 모델링·동시성·성능·AI 협업
  • java 페이지로 이동
    • concurrency 페이지로 이동
    • jdbc 페이지로 이동
    • opentelemetry 페이지로 이동
    • spring 페이지로 이동
    • spring-batch 페이지로 이동
    • 더_자바_코드를_조작하는_다양한_방법 페이지로 이동
    • [초안] Java 동시성 락 정리 — 커머스 메뉴/프로모션 정책 캐시 갱신 관점
    • [초안] JVM 튜닝 실전: 메모리 구조부터 Virtual Threads, GC 튜닝, 프로파일링까지
    • Java의 로깅 환경
    • MDC (Mapped Diagnostic Context)
    • Java StampedLock — 읽기 폭주에도 쓰기가 밀리지 않는 락
    • Virtual Thread와 Project Loom
  • javascript 페이지로 이동
    • typescript 페이지로 이동
    • AbortController
    • Async Iterator와 제너레이터
    • CommonJS와 ECMAScript Modules
    • 제너레이터(Generator)
    • Http Client
    • Node 백엔드 운영 패턴 — Streams 백프레셔, pipe/pipeline, 멱등성 vs 분산 락
    • Node.js
    • npm vs pnpm — 어떤 기준으로 선택했나
    • `setImmediate()`
  • kafka 페이지로 이동
    • [초안] Kafka 기본 개념 — 토픽, 파티션, 오프셋, 복제
    • Kafka를 사용하여 **데이터 정합성**은 어떻게 유지해야 할까?
    • [초안] Kafka 실전 설계: 파티션 전략, 컨슈머 그룹, 전달 보장, 재시도, 순서 보장 트레이드오프
    • 메시지 전송 신뢰성
  • linux 페이지로 이동
    • fsync — 리눅스 파일 동기화 시스템 콜
    • tmux — Terminal Multiplexer
  • network 페이지로 이동
    • L2(스위치)와 L3(라우터)의 역할 차이
    • L4와 VIP(Virtual IP Address)
    • IP Subnet
  • python 페이지로 이동
    • Python async/await — CompletableFuture·Reactor 와 다른 점, 그리고 blocking I/O 함정
    • Python 의존성 관리 — Java Maven/Gradle 사용자가 만나는 첫 충격
    • FastAPI 기초 — Spring Boot 사용자가 빠르게 익히는 법
    • GPU·CUDA·MPS 기초 — 자바 백엔드 개발자가 처음 만나는 그림
    • Multi-process GPU 워크로드 — 자바 ThreadPool 사용자가 만나는 모델 차이
    • Java 개발자를 위한 Python 심화 — OOP·데코레이터·컨텍스트 매니저
    • PyTorch 기초 — 텐서, 디바이스, 그리고 모델 로딩이 무거운 이유
    • Java 개발자를 위한 Python 문법 핵심
    • ML 서비스 성능 분석 워크플로 — 자바 백엔드 트러블슈팅과 다른 점
    • OCR 동작 원리 — Layout · Text · Post-process 3단계
    • Python 서버의 RSS 가 안 줄어드는 이유 — gc.collect 의 한계와 malloc_trim
  • rabbitmq 페이지로 이동
    • [초안] RabbitMQ Basics — 실전 백엔드 관점에서 정리하는 메시지 브로커 기본기
    • [초안] RabbitMQ vs Kafka — 백엔드 메시징 선택 기준과 실전 운영 관점
  • security 페이지로 이동
    • [초안] 시니어 백엔드를 위한 보안 / 인증 스터디 팩 — Spring Security, JWT, OAuth2, OWASP Top 10
    • [초안] Spring Security 6.x OAuth2 + JWT 상용 인증 설계 — Grant 선택, Resource Server, Refresh Rotation, 로그아웃
  • task 페이지로 이동
    • ai-service-team 페이지로 이동
    • nsc-slot 페이지로 이동
    • sb-dev-team 페이지로 이동
    • the-future-company 페이지로 이동
  • testing 페이지로 이동
    • [초안] 시니어 Java 백엔드를 위한 테스트 전략 완전 정리 — 피라미드부터 TestContainers, 마이크로벤치, Contract까지
  • travel 페이지로 이동
    • 오사카 3박 4일 일정표: 우메다 쇼핑, USJ, 난바·도톤보리, 오사카성
  • web 페이지로 이동
    • [초안] HTTP / Cookie / Session / Token 인증 기본기 — 레거시 JSP와 모바일 API가 공존하는 백엔드 관점
FOS-BLOG · FOOTERall systems normal·v0.1 · 2026.04.27·seoul, kr
Ffos-blog/study

개발 학습 기록을 정리하는 블로그입니다. 공부하면서 기록하고, 기록하면서 다시 배웁니다.

visitors
01site
  • Home↗
  • Posts↗
  • Categories↗
  • About↗
02policy
  • 소개/about
  • 개인정보처리방침/privacy
  • 연락처/contact
03categories
  • AI↗
  • Algorithm↗
  • DB↗
  • DevOps↗
  • Java/Spring↗
  • JS/TS↗
  • React↗
  • Next.js↗
  • System↗
04connect
  • GitHub@jon890↗
  • Source repositoryjon890/fos-study↗
  • RSS feed/rss.xml↗
  • Newsletter매주 1 회 · 한 편의 글→
© 2026 FOS Study. All posts MIT-licensed.
built with·Next.js·Tailwind v4·Geist·Pretendard·oklch
fos-blog/python/Python 서버의 RSS 가 안 줄어드는 …
system

Python 서버의 RSS 가 안 줄어드는 이유 — gc.collect 의 한계와 malloc_trim

Python 으로 long-running 서버 (FastAPI / Flask / Celery / uWSGI 등) 를 운영하다 보면 한 번쯤 마주치는 증상이 있다. - 워커 프로세스의 RSS 가 시간이 지날수록 단조 증가한다 - 큰 객체를 del 하고 gc.collect() 를 불러도 RSS 가 줄지 않는다 - 결국 max-requests / workerma...

2026.05.22·8 min read·6 views

Python 으로 long-running 서버 (FastAPI / Flask / Celery / uWSGI 등) 를 운영하다 보면 한 번쯤 마주치는 증상이 있다.

  • 워커 프로세스의 RSS 가 시간이 지날수록 단조 증가한다
  • 큰 객체를 del 하고 gc.collect() 를 불러도 RSS 가 줄지 않는다
  • 결국 max-requests / worker_max_tasks_per_child / 주기적 재시작으로 우회한다

이 글은 그 안에서 무슨 일이 일어나는지 — 한국 개발자가 가끔 헷갈리는 CPython 의 메모리 관리 계층 과 glibc malloc 의 동작 을 한 번에 정리한 문서다. 깊은 디버깅보다는 "구조를 이해하고 진단 출발선을 갖추는" 게 목적이다.

RSS 라는 용어 — 자바 백엔드 출신에게 한 줄

RSS (Resident Set Size) 는 프로세스가 실제로 RAM 에 점유 중인 메모리 크기다. ps, top, docker stats, kubectl top pod 가 보여주는 그 값. 자바 시각으로는 "JVM heap 이 아니라 그 프로세스 전체가 OS 에서 잡고 있는 물리 메모리" 에 해당한다. heap 만 보는 자바 모니터링과 달리, Python·native 진영에서는 RSS 가 1차 지표다.

메모리 관리의 4 단계 계층

CPython 의 메모리 흐름은 네 단계를 지난다.

plaintext
Python 객체  →  pymalloc (arena/pool)  →  glibc malloc (bin/heap)  →  OS (RSS)

각 단계는 자신만의 캐시 정책이 있다. 어느 한 단계가 free 했다고 곧바로 위 단계로 메모리가 올라가지 않는다.

단계역할캐시 정책
Python 객체obj = SomeClass() 같은 user-space 객체참조 카운트가 0 이 되면 __del__ + 메모리 반환
pymalloc512 바이트 이하 객체용 전용 allocatorarena (256 KiB) 단위로 OS 와 거래, 그 안의 pool 은 회수 안 함
glibc malloc그 이상의 malloc() 호출bin 자료구조에 보관, 자동 트림 임계값 도달 시에만 OS 반환
OS실제 RAMRSS 카운터 — 우리가 ps, top, /proc/pid/status 로 보는 값

RSS 가 안 줄어드는 건 보통 (b) 와 (c) 단계의 캐시 때문이다. (b) pymalloc 도 영향이 있지만 더 큰 그림은 (c) glibc malloc 의 단편화다.

glibc malloc 의 메모리 할당 전략

glibc 의 ptmalloc2 는 요청 크기에 따라 두 경로로 갈린다.

brk 와 mmap 분기

plaintext
malloc(size) 호출
   │
   ├── size < M_MMAP_THRESHOLD (기본 128 KiB)
   │   └── brk(2) / sbrk(2) 로 확장된 heap 영역에 배치
   │       — 우리가 흔히 "프로세스의 heap" 이라고 부르는 그 영역
   │
   └── size ≥ M_MMAP_THRESHOLD
       └── mmap(2) 으로 별도 영역을 잡아 단독 chunk
           — free 시 munmap(2) 으로 OS 에 즉시 반환

여기서 첫 번째 직관이 깨진다. 큰 객체는 free 하면 OS 로 잘 돌아가지만, 작은 객체는 안 돌아간다.

PyTorch 의 큰 텐서, NumPy 의 큰 배열, Pillow 의 큰 이미지 버퍼는 단일 할당이 128 KiB 를 훌쩍 넘어 mmap 경로로 가는 게 보통이다. 이런 객체는 del 후 RSS 가 잘 줄어든다. 문제는 작은 메타데이터 버퍼·내부 청크가 수없이 alloc/free 되는 워크로드 다. 이것들은 모두 brk heap 으로 들어간다.

free 된 청크는 어디로 가나

free() 가 호출돼도 OS 로 곧바로 안 간다. 다음 bin 중 하나에 보관된다.

  • fastbin — 매우 작은 청크 (대개 ≤ 64 또는 80 바이트). LIFO single-linked
  • smallbin — 512 바이트 미만, 정확 크기별 double-linked
  • largebin — 그 이상, 크기 정렬된 double-linked
  • unsorted bin — 방금 free 된 청크의 임시 보관소. 다음 malloc 에서 분류됨
  • top chunk — heap 최상단의 연속 free 영역. heap 을 줄여 OS 로 반환할 수 있는 유일한 부분

이 자료구조는 재사용 효율 을 위한 것이다. 다음 malloc 이 같은 크기를 요구하면 bin 에서 꺼내쓴다. 매번 OS 에 syscall 을 보내지 않아도 되니 빠르다.

대가는 — heap 중간에 free chunk 가 흩어진 채로 남는다는 것. 이게 단편화(fragmentation) 다.

자동 트림 (M_TRIM_THRESHOLD)

heap 최상단(top chunk) 의 연속 free 영역이 충분히 자랐을 때만 자동 트림이 발동한다.

When the amount of contiguous free memory at the top of the heap grows sufficiently large, free() employs sbrk(2) to release this memory back to the system. (man mallopt)

기본값은 128 * 1024 바이트 (128 KiB). top chunk 가 이걸 넘으면 free() 가 내부적으로 sbrk(-N) 으로 heap 을 줄인다.

중요한 함정 — 자동 트림은 top chunk 만 본다. heap 중간에 갇힌 free chunk 는 트림 대상이 아니다. 위쪽에 살아있는 객체가 하나라도 있으면 그 아래의 free 영역은 OS 로 못 돌아간다.

gc.collect() 가 못 푸는 것

CPython 의 gc.collect() 는 두 가지를 한다.

  1. cyclic reference 가 만든 garbage 정리 (사이클이 아닌 garbage 는 참조 카운트가 평소에 자동 회수)
  2. 회수한 객체에 대한 __del__ 호출 + 메모리 반환

여기까지 끝나면 객체는 C 의 free() 로 반환된다. 그런데 그 반환처는 OS 가 아니다. pymalloc 의 arena pool 또는 glibc 의 bin 이다. 두 단계 모두 캐시 계층이라 OS RSS 는 그대로다.

흔한 오해 — "메모리 누수가 있나? gc.collect() 를 더 자주 부르자". 부르는 건 자유지만 안 풀린다. 누수가 아니라 계층 캐시의 가시화 지연 이다.

malloc_trim(0) 의 역할

malloc_trim(pad) 는 glibc 가 제공하는 명시적 트림 요청 API 다.

c
#include <malloc.h>
int malloc_trim(size_t pad);
  • pad: heap top 에 남겨둘 여유 공간. 0 이면 한 페이지(4 KiB) 만 남기고 모두 반환
  • 반환 값: 실제 OS 로 반환했으면 1, 못 했으면 0
  • 메인 아레나는 sbrk(-N) 으로, 스레드 아레나는 madvise(MADV_DONTNEED) 로 페이지 단위 반환

자동 트림과 다른 점 — 모든 아레나를 순회하며 적극적으로 회수를 시도한다. glibc 2.8 이후로는 메인 아레나 top 외에도 page-aligned whole free page 가 있는 chunk 도 madvise 로 OS 에 반환한다.

한계

malloc_trim 도 만능이 아니다.

  • 단편화가 있으면 효과 제한 — heap 최상단의 연속 free 영역만 회수 대상. 중간에 갇힌 free chunk 는 그대로
  • 호출 비용 — heap 전체를 스캔. fastbin 통합, top chunk 검사 등의 작업이 따라온다. 모든 free() 후마다 부르면 성능 저하

Python 에서 호출하는 패턴

ctypes 로 직접 호출한다.

python
import ctypes, gc, sys
 
_libc = ctypes.CDLL("libc.so.6") if sys.platform == "linux" else None
 
def release_unused_memory() -> None:
    gc.collect()
    if _libc is not None:
        _libc.malloc_trim(0)

호출 시점 결정이 핵심이다.

  • 너무 자주 — heap 스캔 비용 누적, 처리량 저하
  • 너무 드물게 — RSS 가 충분히 줄어들 시점을 놓침

실용적인 패턴은 "큰 작업 단위 종료 후" 다. 예를 들어 문서 한 건 변환 후, 배치 한 사이클 후, 청크 처리 후. 매 요청마다는 보통 과하다.

다른 회피책 비교

워커 재활용

가장 흔하고 확실한 방법. Gunicorn --max-requests, uWSGI max-requests, Celery worker_max_tasks_per_child. 워커가 N 요청 처리 후 죽고 OS 가 모든 메모리를 회수한다.

장점 — 단순하고 예측 가능. malloc_trim 이 단편화 때문에 부분 효과만 보이는 케이스에서도 확실히 회수한다.

단점 — 새 워커 spawn 비용 (warmup). 모델 가중치 로드, cache 초기화, JIT compile 등이 다시 일어난다.

M_TRIM_THRESHOLD 임계값 낮춤

mallopt(M_TRIM_THRESHOLD, ...) 로 자동 트림 임계값을 낮춘다. 모든 free() 마다 트림 시도가 활발해진다.

단점 — 매 free() 마다 overhead. 명시적 malloc_trim 호출이 호출 시점 통제 면에서 더 유리하다.

jemalloc / mimalloc 같은 대체 allocator

LD_PRELOAD 로 glibc malloc 을 다른 allocator 로 갈아끼운다. 단편화 특성이 다르고, 메모리를 OS 로 더 적극적으로 돌려주는 정책을 갖는 경우가 많다.

주의 — Polars (Rust) 처럼 자체 allocator 를 빌드 타임에 박은 라이브러리는 glibc malloc_trim 영향권 밖이다. 별도 API 가 필요. allocator 선택은 라이브러리 조합에 따라 다르니 일반화하기 어렵다.

정리

  • gc.collect() 는 Python 객체 사이클만 정리한다. OS 메모리 반환과 무관
  • glibc malloc 은 free 된 청크를 bin 에 캐시한다. 자동 트림은 heap top 의 연속 영역만 대상
  • 단편화가 있으면 자동 트림은 발동 조건을 못 만난다. RSS 가 단조 증가하는 주된 메커니즘
  • malloc_trim(0) 은 모든 아레나를 순회하며 적극적으로 회수를 시도. 단편화 시 한계는 있지만 자동 트림보다 효과적
  • 워커 재활용 (max-requests) 과 malloc_trim 은 보완적이다. 둘 다 박는 것도 흔한 패턴

진단 출발선 — /proc/<pid>/status 의 VmRSS 와 VmData 추세를 본다. 큰 객체 alloc/free 가 잘 회수되면 mmap 경로. 잘 안 회수되면 brk heap 의 단편화 의심.

실제 적용 사례

문서 파싱 API 의 워커 RSS 누적 해결

본 글의 "Python 에서 호출하는 패턴" 단락이 정확히 그 상황이다.

  • ProcessPoolExecutor 기반 워커가 Docling 파이프라인으로 PDF·PPTX 등을 markdown 으로 변환
  • 워커당 RSS 가 시간당 약 1.4 GB 증가, MAX_TASKS_PER_WORKER=3 으로 방어 중이었음
  • gc.collect() 8 곳 호출을 release_unused_memory() helper 로 일괄 교체
  • ca901 카나리에서 180 호출 부하 테스트로 회귀 0 건 검증

→ Python 서버 RSS 가 안 줄어들어 malloc_trim 을 박은 이야기

참고

  • malloc_trim(3) — Linux manual page
  • mallopt(3) — Linux manual page
  • Malloc Internals and You — Red Hat Developer
  • Run Python Applications Efficiently With malloc_trim — Software at Scale
  • Stop Python from Hoarding Memory with One Extra Step — Medium
  • Working Around Memory Leaks in Your Django Application — Adam Johnson
  • GLibc malloc internal: arena, bin, chunk and sub heap — jipanyang
  • Glibc Malloc Source Code Analysis — openEuler
  • HN discussion: Run Python Applications Efficiently with malloc_trim
  • glandium — When the memory allocator works against you
on this page
  • RSS 라는 용어 — 자바 백엔드 출신에게 한 줄
  • 01메모리 관리의 4 단계 계층
  • 02glibc malloc 의 메모리 할당 전략
  • brk 와 mmap 분기
  • free 된 청크는 어디로 가나
  • 자동 트림 (M_TRIM_THRESHOLD)
  • 03gc.collect() 가 못 푸는 것
  • 04malloc_trim(0) 의 역할
  • 한계
  • 05Python 에서 호출하는 패턴
  • 06다른 회피책 비교
  • 워커 재활용
  • M_TRIM_THRESHOLD 임계값 낮춤
  • jemalloc / mimalloc 같은 대체 allocator
  • 07정리
  • 08실제 적용 사례
  • 문서 파싱 API 의 워커 RSS 누적 해결
  • 09참고

이런 글도

  • ML 서비스 성능 분석 워크플로 — 자바 백엔드 트러블슈팅과 다른 점
    이 시리즈의 마무리 글이다. 앞선 글들에서 다음 주제를 자바 백엔드 비교 관점으로 정리했다. - Python 문법 - 의존성 관리 - FastAPI - async/await - GPU·CUDA·MPS - PyTorch - multi-process worker pool - OCR 파이프라인 마지막은 이 모든 개념을 적용해 실제 ML 서비스의 성능을 분석하는...
    📁 system
    system
    2026.05.19
  • OCR 동작 원리 — Layout · Text · Post-process 3단계
    자바 백엔드만 다뤄오다가 OCR (Optical Character Recognition) 서비스를 분석할 일이 생겼다. "이미지에서 글자를 뽑는다" 라는 한 줄 요약은 알았지만, 실제 코드를 열어보면 모델이 둘이상이고, 여러 단계가 직렬·병렬로 엮여 있고, "왜 이 단계가 따로 있지" 같은 의문이 계속 생긴다. 이 글은 OCR 파이프라인의 표준 구조를 정리...
    📁 system
    system
    2026.05.19
  • Multi-process GPU 워크로드 — 자바 ThreadPool 사용자가 만나는 모델 차이
    자바 백엔드에서 ThreadPoolExecutor 는 거의 만능이었다. CPU bound 든 I/O bound 든 스레드 풀 크기만 잘 잡으면 동시성을 챙길 수 있었다. JVM 안에서 메모리를 공유하니 작업 간 데이터 전달도 가볍다. Python ML 서비스는 그림이 다르다. ThreadPoolExecutor 가 있지만 CPU/GPU 작업에서는 거의 안 쓰...
    📁 system
    system
    2026.05.19
  • PyTorch 기초 — 텐서, 디바이스, 그리고 모델 로딩이 무거운 이유
    자바 백엔드에서 Spring Boot 가 부팅하는 시간이 5-30초 걸리는 게 일반적이다. 클래스 로딩, 컴포넌트 스캔, 의존성 주입, EntityManagerFactory 초기화 등이 누적된다. 한 번 부팅하면 그 뒤로는 요청 처리에 거의 영향이 없다. PyTorch 기반 ML 서비스는 비슷하지만 한 단계 더 무겁다. 우리 프로젝트의 KR Worker 가...
    📁 system
    system
    2026.05.19

댓글 (0)