fos-blog/study
01 / 홈02 / 카테고리03 / 시리즈
01 / 홈02 / 카테고리03 / 시리즈

카테고리

  • AI 페이지로 이동
    • RAG 페이지로 이동
    • agent 페이지로 이동
    • langgraph 페이지로 이동
    • 사람용 CLI와 AI 에이전트용 CLI는 설계가 다르다
    • agents.md
    • BMAD Method — AI 에이전트로 애자일 개발하는 방법론
    • Claude Code 메모리: CLAUDE.md와 .claude/rules를 규칙으로 쓰는 법
    • Claude Code의 Skill 시스템 - 개발자를 위한 AI 자동화의 새로운 차원
    • Claude Code를 5주 더 쓴 결과 — 스킬·CLAUDE.md를 키워가는 방식
    • Claude Code를 11일 동안 쓴 결과 — 데이터로 본 나의 사용 패턴
    • Claude Code 멀티 에이전트 — Teams
    • AI 에이전트와 디자인의 새 컨벤션 — DESIGN.md, Google Stitch, Claude Design
    • Docling — IBM Research 의 문서 파싱 toolkit 상세 정리
    • 하네스 엔지니어링 실전 — 4인 에이전트 팀으로 코딩 파이프라인 구축하기
    • 하네스 엔지니어링 — 오래 실행되는 AI 에이전트를 위한 설계
    • 멀티모달 LLM (Multimodal Large Language Model)
    • AI 에이전트와 함께 MVP 만들기 — dooray-cli 사례
    • OpenClaw는 context와 memory를 어떻게 관리하나 — 나만의 에이전트를 구성하는 법
    • OpenClaw vs Hermes Agent — 갈아탈까 고민하며 정리한 비교
    • 스킬 문서를 신경망처럼 학습시킨다 — Microsoft SkillOpt 분석
  • ai 페이지로 이동
    • agent 페이지로 이동
    • [초안] AI 제품 백엔드 안정성 — 지연·비용·권한·관측·도구 실패·폴백/재시도/사람 에스컬레이션
    • [초안] LLM 평가 프레임워크: 골든셋, 회귀 테스트, LLM-as-a-judge, 사람 피드백 루프
  • algorithm 페이지로 이동
    • live-coding 페이지로 이동
    • 분산 계산을 위한 알고리즘
  • apartment 페이지로 이동
    • 구리 럭키아파트 24평 인테리어 레퍼런스 모음
  • architecture 페이지로 이동
    • [초안] 시니어 백엔드를 위한 API 설계 실전 스터디 팩 — REST · 멱등성 · 페이지네이션 · 버전 전략
    • [초안] API Versioning과 Backward Compatibility: 시니어 백엔드 관점 정리
    • 캐시 설계 전략 총정리
    • [초안] 커머스 Spring 서비스에 Clean/Hexagonal Architecture를 실용적으로 적용하기
    • [초안] 커머스 도메인 모델링: 주문·재고·노출의 세 축을 분리해서 설계하기
    • 커머스 주문 상태와 데이터 정합성 기본기
    • [초안] 쿠폰/프로모션 동시성과 정합성 기본기 — 선착순·중복 사용 방지·발급/사용/복구
    • [초안] DDD와 도메인 모델링: 시니어 백엔드 관점의 전술/전략 패턴 실전 가이드
    • [초안] Decorator & Chain of Responsibility — 행동을 체인으로 조립하는 두 가지 방식
    • 디자인 패턴
    • [초안] 분산 아키텍처 완전 정복: Java 백엔드 시니어 인터뷰 대비 실전 가이드
    • [초안] 분산 트랜잭션과 Outbox 패턴 — 왜 2PC를 피하고 어떻게 대신할 것인가
    • 분산 트랜잭션
    • [초안] e-Commerce 주문·결제 도메인 모델링: 상태머신, 멱등성, Outbox/Saga 실전 정리
    • [초안] Event Sourcing과 CQRS — 상태가 아니라 변화를 저장한다는 발상
    • [초안] F&B 쿠폰·프로모션·멤버십·포인트 설계
    • [초안] F&B · e-Commerce 디지털 채널 도메인 한 장 정리
    • [초안] F&B 주문/매장/픽업 상태머신 설계
    • [초안] F&B 이커머스 결제·환불·정산 운영 가이드
    • [초안] Hexagonal / Clean Architecture를 Spring 백엔드에 적용하기
    • [초안] 대규모 커머스 트래픽 처리 패턴 — 대규모 회원과 메가 프로모션을 버티는 설계
    • [초안] 레거시 JSP/jQuery 화면과 신규 API가 공존하는 백엔드 운영 전략
    • [초안] MSA 서비스 간 통신: Redis [Cache-Aside](../database/redis/cache-aside.md) × Kafka 이벤트 하이브리드 설계
    • [초안] Observability 입문: 시니어 백엔드가 장애를 탐지하고 대응하는 방식
    • [초안] Outbox / Inbox Pattern 심화 — 분산 메시징의 정합성 문제를 DB 트랜잭션으로 풀어내기
    • [초안] 결제 도메인 멱등성과 트랜잭션 재시도 기본기
    • [초안] 시니어 백엔드를 위한 Resilience 패턴 실전 가이드 — Timeout, Retry, Circuit Breaker, Bulkhead, Backpressure
    • [초안] REST API 버저닝과 모바일 앱 하위 호환성 — 디지털 채널 백엔드 관점
    • [초안] Spring Batch vs Event-Driven — 같은 비동기처럼 보이지만 전혀 다른 두 패러다임
    • [초안] Strategy Pattern — 분기문을 없애는 설계, 시니어 백엔드 인터뷰 핵심 패턴
    • [초안] 시니어 백엔드를 위한 시스템 설계 입문 스터디 팩
    • [초안] 템플릿 메서드 패턴 - 백엔드 처리 골격을 강제하는 가장 오래되고 가장 위험한 패턴
    • [초안] 대규모 트래픽 중 무중단 마이그레이션 — Feature Flag + Shadow Mode 실전
  • database 페이지로 이동
    • milvus 페이지로 이동
    • mysql 페이지로 이동
    • opensearch 페이지로 이동
    • redis 페이지로 이동
    • 김영한의-실전-데이터베이스-설계 페이지로 이동
    • [초안] DB Connection Pool Saturation과 Thread Pool 격리
    • 커넥션 풀 크기는 얼마나 조정해야 할까?
    • 인덱스 - DB 성능 최적화의 핵심
    • [초안] JPA N+1과 커머스 조회 모델: 주문/메뉴/쿠폰 도메인에서 살아남기
    • [초안] MyBatis 기본기 — XML Mapper, resultMap, 동적 SQL, 운영 패턴 정리
    • [초안] MyBatis와 JPA/Hibernate 트레이드오프 — 레거시 백엔드를 다루는 시니어 관점
    • 벡터 DB 5종은 안이 어떻게 다른가 — 아키텍처 심층 비교
    • 벡터 DB 어떻게 고를까 — OpenSearch · Milvus · Qdrant · Vespa 비교
    • 벡터 DB를 실제로 도입한 사례 — 빅테크 프로덕션
    • 역정규화 (Denormalization)
    • 데이터 베이스 정규화
  • devops 페이지로 이동
    • docker 페이지로 이동
    • k8s 페이지로 이동
    • k8s-in-action 페이지로 이동
    • observability 페이지로 이동
    • [초안] 커머스/F&B 채널 장애 첫 5분과 관측성 기본기
    • [초안] 운영 데이터 정합성 장애 대응 — 결제 취소 누락과 중복 적재 런북
    • Envoy Proxy
    • [초안] F&B / e-Commerce 운영 장애 대응과 모니터링 — 백엔드 관점 정리
    • Graceful Shutdown
    • [초안] 시니어 백엔드를 위한 SLO와 Error Budget 기반 장애 대응
  • http 페이지로 이동
    • HTTP Connection Pool
    • HTTPS는 어떻게 안전한가 — TLS, 인증서, 그리고 termination
  • interview 페이지로 이동
    • [초안] AI 서비스 팀 경험 기반 시니어 백엔드 면접 질문 뱅크 — Spring Batch RAG / gRPC graceful shutdown / 전략 패턴 / 12일 AI 웹툰 MVP
    • Observability — 면접 답변 프레임
    • [초안] 시니어 Java 백엔드 면접 마스터 플레이북 — 김병태
    • [초안] NSC 슬롯팀 경험 기반 질문 은행 — 도메인 모델링·동시성·성능·AI 협업
  • java 페이지로 이동
    • concurrency 페이지로 이동
    • jdbc 페이지로 이동
    • opentelemetry 페이지로 이동
    • spring 페이지로 이동
    • spring-batch 페이지로 이동
    • testing 페이지로 이동
    • 더_자바_코드를_조작하는_다양한_방법 페이지로 이동
    • [초안] Java 동시성 락 정리 — 커머스 메뉴/프로모션 정책 캐시 갱신 관점
    • [초안] JVM 튜닝 실전: 메모리 구조부터 Virtual Threads, GC 튜닝, 프로파일링까지
    • Java의 로깅 환경
    • MDC (Mapped Diagnostic Context)
    • Java StampedLock — 읽기 폭주에도 쓰기가 밀리지 않는 락
    • Virtual Thread와 Project Loom
  • javascript 페이지로 이동
    • typescript 페이지로 이동
    • AbortController
    • Async Iterator와 제너레이터
    • CommonJS와 ECMAScript Modules
    • 제너레이터(Generator)
    • Http Client
    • Node 백엔드 운영 패턴 — Streams 백프레셔, pipe/pipeline, 멱등성 vs 분산 락
    • Node.js
    • npm vs pnpm — 어떤 기준으로 선택했나
    • `setImmediate()`
  • kafka 페이지로 이동
    • [초안] Kafka 기본 개념 — 토픽, 파티션, 오프셋, 복제
    • Kafka를 사용하여 **데이터 정합성**은 어떻게 유지해야 할까?
    • [초안] Kafka 실전 설계: 파티션 전략, 컨슈머 그룹, 전달 보장, 재시도, 순서 보장 트레이드오프
    • 메시지 전송 신뢰성
    • [초안] Spring Kafka 컨슈머 오프셋 커밋과 트랜잭션 정렬: AckMode, manual ack, 멱등 처리
  • linux 페이지로 이동
    • fsync — 리눅스 파일 동기화 시스템 콜
    • tmux — Terminal Multiplexer
  • mlops 페이지로 이동
    • Python CUDA 버전 생태계 — nvidia-smi, nvcc, pip, conda가 다 다른 버전을 말하는 이유
    • GPU 컨테이너의 CUDA 버전 호환성 — nvidia-smi부터 이미지 다이어트까지
    • Kubernetes GPU 노드에서 /run tmpfs가 꽉 차서 Pod가 안 뜰 때
    • GPU·CUDA·MPS 기초 — 자바 백엔드 개발자가 처음 만나는 그림
    • Multi-process GPU 워크로드 — 자바 ThreadPool 사용자가 만나는 모델 차이
    • ML 서비스 성능 분석 워크플로 — 자바 백엔드 트러블슈팅과 다른 점
    • 한 GPU 를 여러 프로세스가 나눠 쓰기 — Time-Slicing 과 MPS
  • network 페이지로 이동
    • Connection reset by peer는 누가 보낸 걸까 — 리버스 프록시 홉마다 TCP 연결은 따로 논다
    • L2(스위치)와 L3(라우터)의 역할 차이
    • L4와 VIP(Virtual IP Address)
    • IP Subnet
  • python 페이지로 이동
    • Python async/await — CompletableFuture·Reactor 와 다른 점, 그리고 blocking I/O 함정
    • Python 의존성 관리 — Java Maven/Gradle 사용자가 만나는 첫 충격
    • FastAPI 기초 — Spring Boot 사용자가 빠르게 익히는 법
    • Java 개발자를 위한 Python 심화 — OOP·데코레이터·컨텍스트 매니저
    • PyTorch 기초 — 텐서, 디바이스, 그리고 모델 로딩이 무거운 이유
    • Java 개발자를 위한 Python 문법 핵심
    • ThreadLocal 에서 contextvars 로 — Python 의 요청 컨텍스트 전파
    • OCR 동작 원리 — Layout · Text · Post-process 3단계
    • Python 서버의 RSS 가 안 줄어드는 이유 — gc.collect 의 한계와 malloc_trim
  • rabbitmq 페이지로 이동
    • [초안] RabbitMQ Basics — 실전 백엔드 관점에서 정리하는 메시지 브로커 기본기
    • [초안] RabbitMQ vs Kafka — 백엔드 메시징 선택 기준과 실전 운영 관점
  • security 페이지로 이동
    • [초안] 시니어 백엔드를 위한 보안 / 인증 스터디 팩 — Spring Security, JWT, OAuth2, OWASP Top 10
    • [초안] Spring Security 6.x OAuth2 + JWT 상용 인증 설계 — Grant 선택, Resource Server, Refresh Rotation, 로그아웃
  • task 페이지로 이동
    • ai-service-team 페이지로 이동
    • nsc-slot 페이지로 이동
    • sb-dev-team 페이지로 이동
    • the-future-company 페이지로 이동
  • testing 페이지로 이동
    • [초안] 시니어 Java 백엔드를 위한 테스트 전략 완전 정리 — 피라미드부터 TestContainers, 마이크로벤치, Contract까지
  • travel 페이지로 이동
    • 오사카 3박 4일 일정표: 우메다 쇼핑, USJ, 난바·도톤보리, 오사카성
  • web 페이지로 이동
    • [초안] HTTP / Cookie / Session / Token 인증 기본기 — 레거시 JSP와 모바일 API가 공존하는 백엔드 관점
FOS-BLOG · FOOTERall systems normal·v0.1 · 2026.04.27·seoul, kr
Ffos-blog/study

개발 학습 기록을 정리하는 블로그입니다. 공부하면서 기록하고, 기록하면서 다시 배웁니다.

visitors
01site
  • Home↗
  • Posts↗
  • Categories↗
  • About↗
02policy
  • 소개/about
  • 개인정보처리방침/privacy
  • 연락처/contact
03categories
  • AI↗
  • Algorithm↗
  • DB↗
  • DevOps↗
  • Java/Spring↗
  • JS/TS↗
  • React↗
  • Next.js↗
  • System↗
04connect
  • GitHub@jon890↗
  • Source repositoryjon890/fos-study↗
  • RSS feed/rss.xml↗
  • Newsletter매주 1 회 · 한 편의 글→
© 2026 FOS Study. All posts MIT-licensed.
built with·Next.js·Tailwind v4·Geist·Pretendard·oklch
fos-blog/database/OpenSearch를 벡터 DB로 굴리며 알…
db

OpenSearch를 벡터 DB로 굴리며 알게 된 것 — 벡터는 heap이 아니라 native에 산다

벡터 검색용 OpenSearch 클러스터의 모니터링 대시보드를 만들다가 이상한 걸 봤다. JVM heap 사용량이 12%밖에 안 됐다. "벡터 DB인데 메모리를 이것밖에 안 쓴다고?" 싶어 파봤더니, 정작 벡터는 heap이 아니라 off-heap native memory에 살고 있었다. 이 글의 결론을 먼저 적으면 이렇다. - OpenSearch의 벡터(H...

2026.06.25·7 min read·11 views

벡터 검색용 OpenSearch 클러스터의 모니터링 대시보드를 만들다가 이상한 걸 봤다. JVM heap 사용량이 12%밖에 안 됐다. "벡터 DB인데 메모리를 이것밖에 안 쓴다고?" 싶어 파봤더니, 정작 벡터는 heap이 아니라 off-heap native memory에 살고 있었다.

이 글의 결론을 먼저 적으면 이렇다.

  • OpenSearch의 벡터(HNSW 그래프)는 JVM heap이 아니라 native memory에 로드된다. 그래서 heap 사용량만 보는 모니터링은 정작 중요한 벡터 메모리를 못 본다.
  • 메모리는 circuit_breaker로 관리되는데, 이게 한도를 넘으면 검색이 느려진다. heap의 GC가 아니라 별도 장치다.
  • 벡터 DB 운영에서 진짜 봐야 할 메모리 지표는 heap이 아니라 k-NN graph memory와 circuit breaker 사용률이다.

벡터 검색 자체의 사용법은 OpenSearch를 VectorStore로 활용하기에 정리해뒀고, 이 글은 운영하면서 메모리·샤드가 어떻게 움직이는지에 집중한다.

발단 — heap이 톱니처럼 오르내리는데 12%밖에 안 쓴다

대시보드의 Memory Usage 패널(JVM heap)은 두 가지가 눈에 띄었다.

  1. 값이 계단/톱니 모양으로 오르내린다.
  2. 그런데 전체의 12%밖에 안 쓴다(32GB 중 약 4GB).

톱니부터. 이건 가비지 컬렉션(GC)의 정상 패턴이다. JVM은 검색·인덱싱을 처리하며 임시 객체를 heap에 쌓고(상승), GC가 돌면 안 쓰는 객체를 한꺼번에 회수한다(급락). 이 상승-급락이 반복되면 톱니가 된다. 오히려 회수가 잘 되고 있다는 신호다.

문제는 두 번째였다. 벡터 검색은 HNSW 그래프를 메모리에 올려두고 탐색하는 방식이라, 메모리에 벡터가 상주해야 한다. 그런데 heap이 12%라니. 벡터는 어디 있는 걸까.

핵심 — HNSW 그래프는 JVM 밖(native)에 로드된다

답은 간단했다. 벡터 그래프는 JVM heap이 아니라 off-heap native memory에 있다.

OpenSearch의 k-NN은 HNSW 그래프를 .hnsw 파일로 만들어 두고, 검색 시 이걸 native memory에 로드해 캐싱한다. 이 로딩은 JVM 밖에서 일어난다. 그래서 heap을 보는 패널에는 안 잡힌다.

왜 굳이 밖에 둘까. 두 가지 이유가 겹친다.

1. 구현 자체가 네이티브(C++) 라이브러리다. k-NN의 HNSW는 OpenSearch가 Java로 짠 게 아니라 Faiss·nmslib 같은 C/C++ 라이브러리로 동작하고, JNI로 호출된다. 이 라이브러리는 C++ 자료구조라 메모리를 C++ 쪽에서 할당한다. JVM heap은 Java 객체 전용이라 C++ 그래프가 거기 못 들어간다.

2. heap에 두면 GC가 발목을 잡는다. 벡터 그래프는 수 GB에서 수십 GB이고 오래 살아있는 데이터다. 이런 큰 덩어리가 heap에 있으면 GC가 매번 그 영역을 스캔·관리해야 해서 GC 멈춤(stop-the-world)이 길어진다. native에 두면 GC가 아예 건드리지 않는다. 자주 안 바뀌고 큰 데이터는 off-heap에 두는 게 JVM 시스템의 정석이다.

즉 native에 있는 건 "C++ 구현이라 어쩔 수 없이"이면서 동시에 "GC를 피하려고 일부러"이기도 하다. 둘 다 같은 방향을 가리킨다.

circuit breaker — 이름은 익숙한데 MSA의 그것과 다르다

heap은 GC가 알아서 비워주지만, native 벡터 메모리는 GC가 없다. 그래서 circuit breaker라는 별도 장치로 한도를 관리한다.

그런데 이 이름을 처음 보고 MSA의 circuit breaker(Hystrix, Resilience4j)를 떠올렸다면 잠깐 멈추는 게 좋다. 이름만 같고 하는 일이 다르다.

MSA circuit breakerOpenSearch circuit breaker
보호 대상장애 전파 — 하류 서비스가 죽으면 상류도 줄줄이메모리 — 요청이 heap·native를 터뜨려 노드 OOM
트리거호출 실패율·타임아웃메모리 사용량이 한도 초과
동작회로를 열어 한동안 호출 자체를 끊음회로 상태 없이, 요청마다 메모리를 추정해 넘으면 그 요청만 거부

MSA가 "고장난 기계로 가는 전원을 한동안 내려두는 차단기"라면, OpenSearch는 "지금 이 작업이 과부하면 그 작업만 안 받는 차단기"에 가깝다. 그래서 OpenSearch에선 "회로가 열렸다"는 상태보다 사용률(estimated / limit)이 한도에 얼마나 가까운지를 본다. 100%에 닿으면 그때 요청이 거부된다.

그리고 OpenSearch엔 circuit breaker가 두 종류 있다.

  • JVM circuit breaker — heap 보호. parent(전체 합산), fielddata(정렬·집계용 캐시), request(요청별 집계 구조) 등으로 나뉜다.
  • k-NN circuit breaker — 아래에서 볼 native 벡터 메모리 보호.

아래는 k-NN circuit breaker 기준 설명이다.

circuit_breaker_limit은 기본 50%다. OpenSearch는 보통 시스템 RAM의 절반을 heap에 쓰고, k-NN은 나머지 절반의 50%까지 그래프에 쓴다. 그래서 RAM 32GiB짜리 인스턴스는 대략 그래프 8GiB까지 담을 수 있다는 계산이 나온다.

이 한도를 넘으면 어떻게 되나. 새 그래프를 로드할 때 기존 그래프를 메모리에서 밀어낸다(evict). 밀려난 그래프는 다음 검색 때 디스크에서 다시 로드되니 검색 지연이 생긴다. 즉 circuit breaker 사용률은 "벡터 검색이 느려지기 직전인가"를 보는 지표다.

한 가지 함정도 있다. 내부적으로 쓰는 Guava 캐시는 evict해도 메모리를 즉시 반환하지 않아, native 사용량이 한도를 잠깐 넘기는 경우가 보고돼 있다. 그래서 사용률이 한도(50%) 근처면 이미 여유가 빠듯하다고 봐야 한다.

실측 — heap 4GB 뒤에 벡터 13GB가 숨어 있었다

내가 본 운영 클러스터(데이터 노드 12대)의 한 노드를 실측하니 이렇게 갈렸다.

메모리크기대시보드에 보이나
JVM heap약 4GB / 32GB (12%)Memory Usage 패널에 보임
k-NN 그래프 (HNSW 벡터)약 13GB (native)안 보임
호스트 RAM62GB (heap + 벡터 native + 파일 캐시)—

_plugins/_knn/stats로 확인한 graph_memory_usage가 약 13GB였고, graph_memory_usage_percentage는 **51%**였다. circuit breaker 한도(50%)를 이미 살짝 넘긴 상태였다. heap 패널만 보면 "메모리 12%, 여유 만만"인데, 정작 벡터 메모리는 한도에 도달해 있던 것이다.

노드별 편차도 컸다(51%, 12%, 6%, 5%…). 벡터 샤드가 특정 노드에 몰려 있다는 뜻이다.

여기서 운영 교훈 하나가 나온다. JVM heap만 보는 모니터링은 벡터 DB에선 위험하다. heap이 한가해 보여도 벡터 메모리는 터지기 직전일 수 있다. k-NN을 쓴다면 graph_memory_usage와 graph_memory_usage_percentage를 노드별로 반드시 봐야 한다. 흔히 쓰는 elasticsearch_exporter는 이 메트릭을 기본 제공하지 않아서, _plugins/_knn/stats를 따로 긁는 수집 경로가 필요하다.

샤드 — 어쩌다 active 3000개가 됐나

메모리를 보다가 샤드 수도 눈에 들어왔다. active shard가 3000개를 넘었다(primary 약 1600 + replica). 노드 12대에 노드당 270개꼴. 왜 이렇게 많을까 파보니 두 원인이 겹쳐 있었다.

1. 감사 로그가 매일 인덱스를 만들며 쌓였다. security audit log를 켜두면 OpenSearch가 security-auditlog-YYYY.MM.dd 인덱스를 하루 하나씩 만든다. 정리 정책이 없으면 무한히 쌓인다. 내가 본 클러스터는 이게 277개까지 누적돼 있었고, 전체 active 샤드의 약 17%를 차지했다. 게다가 감사 로그를 계속 인덱스에 쓰는 부하 때문에 thread pool에서 요청이 거부되는 로그까지 보였다.

2. 작은 인덱스를 과하게 쪼갰다(over-sharding). 문서 35만 개짜리 인덱스가 primary 샤드를 36개나 쓰고 있었다. 조각당 1만 문서, 수 MB짜리 아주 작은 샤드 36개가 생긴 셈이다.

샤드가 왜 많으면 문제인지는 OpenSearch에서의 Sharding에서 라우팅 관점으로 다뤘는데, 운영 관점에서 한 줄로 요약하면 '샤드는 공짜가 아니다'이다. 샤드 하나하나가 독립된 Lucene 인덱스라 고정 메모리·파일 핸들·스레드를 점유하고, 클러스터 상태에 메타데이터로 등록돼 master 노드 부담이 된다. 특히 샤드 메타데이터는 JVM heap에 저장되므로, 작은 샤드가 수천 개면 heap을 메타데이터로 낭비한다.

공식 가이드의 기준은 명확하다.

  • 샤드 하나당 10-30GB(검색 위주) 또는 30-50GB(쓰기 위주)를 권장한다.
  • 노드당 샤드는 heap 1GiB당 25개 이하를 권장한다(버전에 따라 16GB heap당 1000개, 노드당 최대 4000개로 완화되기도 한다).

문서 35만 개짜리는 샤드 크기 기준으로 보면 primary 1개로 충분하다. 36개는 분산은커녕 오버헤드만 늘린다. 다만 주의할 점은 primary 샤드 수가 인덱스 생성 시 고정돼 나중에 못 바꾼다는 것이다. 줄이려면 _shrink나 reindex가 필요하다. 그래서 처음 만들 때 데이터 규모를 보고 정하는 게 중요하다.

감사 로그 쪽은 ISM(Index State Management) 정책으로 오래된 security-auditlog-* 인덱스를 자동 삭제하면 샤드 수와 쓰기 부하를 한 번에 줄일 수 있다.

운영하며 남긴 체크리스트

벡터 DB로 OpenSearch를 굴린다면 이 정도는 보고 시작하는 게 좋겠다.

  • 메모리는 heap 말고 k-NN graph memory를 본다. graph_memory_usage_percentage가 50%(circuit breaker 한도) 근처면 검색 지연 위험. heap 사용률은 벡터 메모리와 무관하다.
  • circuit breaker 한도와 RAM 배분을 맞춘다. heap을 너무 키우면 벡터가 올라갈 native 공간이 줄어든다. RAM 절반 heap, 나머지 절반에서 k-NN이라는 기본 배분을 기억한다.
  • 인덱스 생성 시 샤드 수를 신중히 정한다. 작은 인덱스를 잘게 쪼개지 않는다. 샤드당 10-30GB, 노드당 heap GiB당 25개 이하를 기준으로 본다. 나중에 못 바꾸니 처음이 중요하다.
  • 감사 로그 같은 일별 인덱스에 ISM 정책을 건다. 정리 없이 두면 샤드가 무한 누적된다.
  • 모니터링 대시보드에 k-NN 메모리 패널을 넣는다. 기본 exporter엔 없으니 _plugins/_knn/stats를 긁어야 한다.

heap이 한가하다고 안심하지 말 것 — 벡터는 그 뒤 native에 따로 살고 있다. 이 한 문장이 이번에 가장 크게 남은 교훈이다.

참고

  • k-NN settings — OpenSearch Documentation
  • Circuit breaker settings — OpenSearch Documentation
  • k-NN Performance Tuning — Open Distro Documentation
  • Optimize OpenSearch index shard size — OpenSearch Blog
  • Choosing the number of shards — Amazon OpenSearch Service
on this page
  • 01발단 — heap이 톱니처럼 오르내리는데 12%밖에 안 쓴다
  • 02핵심 — HNSW 그래프는 JVM 밖(native)에 로드된다
  • 03circuit breaker — 이름은 익숙한데 MSA의 그것과 다르다
  • 04실측 — heap 4GB 뒤에 벡터 13GB가 숨어 있었다
  • 05샤드 — 어쩌다 active 3000개가 됐나
  • 06운영하며 남긴 체크리스트
  • 07참고

이런 글도

  • 벡터 DB 5종은 안이 어떻게 다른가 — 아키텍처 심층 비교
    벡터 DB 후보들을 비교하다 보면 표면 기능은 다 비슷해 보인다. 다섯 제품 모두 HNSW 로 ANN 검색을 제공하고, 다 메타데이터 필터링을 한다. 그런데 막상 운영에 올리면 메모리가 터지는 지점, 노드를 늘리는 방식, 인덱스를 굳히는 시점이 제품마다 전혀 다르다. 그 차이가 어디서 오는지 궁금해서 OpenSearch · Milvus · Qdrant ·...
    🗄️ db
    db
    2026.06.25
  • Milvus 3.0 은 무엇을 바꾸나 — 벡터 DB 에서 "벡터 레이크하우스"로
    Milvus 3.0 이 2026년 5월 9일에 3.0-beta 로 공개됐다. 아직 정식 출시(GA)가 아니라 베타라는 점을 먼저 못박아 둔다 — 2.6.x 가 여전히 프로덕션 버전이고, 3.0 은 미리 보는 단계다. 그래서 이 글은 "지금 올려라"가 아니라 3.0 이 어떤 방향으로 가려 하는지, 그게 어떤 가치인지를 정리한 스터디 노트다. 한 문장으로 줄이...
    🗄️ db
    db
    2026.06.22
  • 벡터 DB를 실제로 도입한 사례 — 빅테크 프로덕션
    벡터 DB를 공부하다 보면 "실제 큰 서비스가 전용 벡터 DB를 운영에 올린 사례"가 궁금하다. ANN 라이브러리(FAISS·Annoy)나 임베딩 모델이 아니라, 벡터 DB 제품을 프로덕션에 도입한 사례를 회사 엔지니어링 블로그(1차 출처) 중심으로 모았다. | 회사 | 도입 | 규모 | use case | | --- | --- | --- | --- | |...
    🗄️ db
    db
    2026.06.18
  • 벡터 DB 어떻게 고를까 — OpenSearch · Milvus · Qdrant · Vespa 비교
    RAG 를 만들면 임베딩한 벡터를 어딘가에 저장하고 검색해야 한다. 처음엔 쓰던 검색엔진(OpenSearch)에 벡터 기능을 얹어 시작했는데, 전용 벡터 DB 로 옮길지 고민이 생기면서 후보들을 제대로 비교해 봤다. 결론부터 말하면, 규모가 크지 않으면 뭘 골라도 성능은 충분하고 선택을 가르는 건 성능이 아니라 기능과 운영이라는 것이었다. 이 글은 Open...
    🗄️ db
    db
    2026.06.18

댓글 (0)