fos-blog/study
01 / 홈02 / 카테고리03 / 시리즈
01 / 홈02 / 카테고리03 / 시리즈

카테고리

  • AI 페이지로 이동
    • RAG 페이지로 이동
    • agent 페이지로 이동
    • langgraph 페이지로 이동
    • 사람용 CLI와 AI 에이전트용 CLI는 설계가 다르다
    • agents.md
    • BMAD Method — AI 에이전트로 애자일 개발하는 방법론
    • Claude Code 메모리: CLAUDE.md와 .claude/rules를 규칙으로 쓰는 법
    • Claude Code의 Skill 시스템 - 개발자를 위한 AI 자동화의 새로운 차원
    • Claude Code를 5주 더 쓴 결과 — 스킬·CLAUDE.md를 키워가는 방식
    • Claude Code를 11일 동안 쓴 결과 — 데이터로 본 나의 사용 패턴
    • Claude Code 멀티 에이전트 — Teams
    • AI 에이전트와 디자인의 새 컨벤션 — DESIGN.md, Google Stitch, Claude Design
    • Docling — IBM Research 의 문서 파싱 toolkit 상세 정리
    • 하네스 엔지니어링 실전 — 4인 에이전트 팀으로 코딩 파이프라인 구축하기
    • 하네스 엔지니어링 — 오래 실행되는 AI 에이전트를 위한 설계
    • 멀티모달 LLM (Multimodal Large Language Model)
    • AI 에이전트와 함께 MVP 만들기 — dooray-cli 사례
    • OpenClaw는 context와 memory를 어떻게 관리하나 — 나만의 에이전트를 구성하는 법
    • OpenClaw vs Hermes Agent — 갈아탈까 고민하며 정리한 비교
    • 스킬 문서를 신경망처럼 학습시킨다 — Microsoft SkillOpt 분석
  • ai 페이지로 이동
    • agent 페이지로 이동
    • [초안] AI 제품 백엔드 안정성 — 지연·비용·권한·관측·도구 실패·폴백/재시도/사람 에스컬레이션
    • [초안] LLM 평가 프레임워크: 골든셋, 회귀 테스트, LLM-as-a-judge, 사람 피드백 루프
  • algorithm 페이지로 이동
    • live-coding 페이지로 이동
    • 분산 계산을 위한 알고리즘
  • apartment 페이지로 이동
    • 구리 럭키아파트 24평 인테리어 레퍼런스 모음
  • architecture 페이지로 이동
    • [초안] 시니어 백엔드를 위한 API 설계 실전 스터디 팩 — REST · 멱등성 · 페이지네이션 · 버전 전략
    • [초안] API Versioning과 Backward Compatibility: 시니어 백엔드 관점 정리
    • 캐시 설계 전략 총정리
    • [초안] 커머스 Spring 서비스에 Clean/Hexagonal Architecture를 실용적으로 적용하기
    • [초안] 커머스 도메인 모델링: 주문·재고·노출의 세 축을 분리해서 설계하기
    • 커머스 주문 상태와 데이터 정합성 기본기
    • [초안] 쿠폰/프로모션 동시성과 정합성 기본기 — 선착순·중복 사용 방지·발급/사용/복구
    • [초안] DDD와 도메인 모델링: 시니어 백엔드 관점의 전술/전략 패턴 실전 가이드
    • [초안] Decorator & Chain of Responsibility — 행동을 체인으로 조립하는 두 가지 방식
    • 디자인 패턴
    • [초안] 분산 아키텍처 완전 정복: Java 백엔드 시니어 인터뷰 대비 실전 가이드
    • [초안] 분산 트랜잭션과 Outbox 패턴 — 왜 2PC를 피하고 어떻게 대신할 것인가
    • 분산 트랜잭션
    • [초안] e-Commerce 주문·결제 도메인 모델링: 상태머신, 멱등성, Outbox/Saga 실전 정리
    • [초안] Event Sourcing과 CQRS — 상태가 아니라 변화를 저장한다는 발상
    • [초안] F&B 쿠폰·프로모션·멤버십·포인트 설계
    • [초안] F&B · e-Commerce 디지털 채널 도메인 한 장 정리
    • [초안] F&B 주문/매장/픽업 상태머신 설계
    • [초안] F&B 이커머스 결제·환불·정산 운영 가이드
    • [초안] Hexagonal / Clean Architecture를 Spring 백엔드에 적용하기
    • [초안] 대규모 커머스 트래픽 처리 패턴 — 대규모 회원과 메가 프로모션을 버티는 설계
    • [초안] 레거시 JSP/jQuery 화면과 신규 API가 공존하는 백엔드 운영 전략
    • [초안] MSA 서비스 간 통신: Redis [Cache-Aside](../database/redis/cache-aside.md) × Kafka 이벤트 하이브리드 설계
    • [초안] Observability 입문: 시니어 백엔드가 장애를 탐지하고 대응하는 방식
    • [초안] Outbox / Inbox Pattern 심화 — 분산 메시징의 정합성 문제를 DB 트랜잭션으로 풀어내기
    • [초안] 결제 도메인 멱등성과 트랜잭션 재시도 기본기
    • [초안] 시니어 백엔드를 위한 Resilience 패턴 실전 가이드 — Timeout, Retry, Circuit Breaker, Bulkhead, Backpressure
    • [초안] REST API 버저닝과 모바일 앱 하위 호환성 — 디지털 채널 백엔드 관점
    • [초안] Spring Batch vs Event-Driven — 같은 비동기처럼 보이지만 전혀 다른 두 패러다임
    • [초안] Strategy Pattern — 분기문을 없애는 설계, 시니어 백엔드 인터뷰 핵심 패턴
    • [초안] 시니어 백엔드를 위한 시스템 설계 입문 스터디 팩
    • [초안] 템플릿 메서드 패턴 - 백엔드 처리 골격을 강제하는 가장 오래되고 가장 위험한 패턴
    • [초안] 대규모 트래픽 중 무중단 마이그레이션 — Feature Flag + Shadow Mode 실전
  • database 페이지로 이동
    • milvus 페이지로 이동
    • mysql 페이지로 이동
    • opensearch 페이지로 이동
    • qdrant 페이지로 이동
    • redis 페이지로 이동
    • vespa 페이지로 이동
    • 김영한의-실전-데이터베이스-설계 페이지로 이동
    • [초안] DB Connection Pool Saturation과 Thread Pool 격리
    • 커넥션 풀 크기는 얼마나 조정해야 할까?
    • 인덱스 - DB 성능 최적화의 핵심
    • [초안] JPA N+1과 커머스 조회 모델: 주문/메뉴/쿠폰 도메인에서 살아남기
    • [초안] MyBatis 기본기 — XML Mapper, resultMap, 동적 SQL, 운영 패턴 정리
    • [초안] MyBatis와 JPA/Hibernate 트레이드오프 — 레거시 백엔드를 다루는 시니어 관점
    • 벡터 DB 5종, 아키텍처는 어떻게 다른가
    • 벡터 DB 어떻게 고를까 — OpenSearch · Milvus · Qdrant · Vespa · pgvector 비교
    • 벡터 DB를 실제로 도입한 사례 — 빅테크 프로덕션
    • 역정규화 (Denormalization)
    • 데이터 베이스 정규화
  • devops 페이지로 이동
    • docker 페이지로 이동
    • k8s 페이지로 이동
    • k8s-in-action 페이지로 이동
    • observability 페이지로 이동
    • [초안] 커머스/F&B 채널 장애 첫 5분과 관측성 기본기
    • [초안] 운영 데이터 정합성 장애 대응 — 결제 취소 누락과 중복 적재 런북
    • Envoy Proxy
    • [초안] F&B / e-Commerce 운영 장애 대응과 모니터링 — 백엔드 관점 정리
    • Graceful Shutdown
    • [초안] 시니어 백엔드를 위한 SLO와 Error Budget 기반 장애 대응
  • http 페이지로 이동
    • HTTP Connection Pool
    • HTTPS는 어떻게 안전한가 — TLS, 인증서, 그리고 termination
  • interview 페이지로 이동
    • [초안] AI 서비스 팀 경험 기반 시니어 백엔드 면접 질문 뱅크 — Spring Batch RAG / gRPC graceful shutdown / 전략 패턴 / 12일 AI 웹툰 MVP
    • Observability — 면접 답변 프레임
    • [초안] 시니어 Java 백엔드 면접 마스터 플레이북 — 김병태
    • [초안] NSC 슬롯팀 경험 기반 질문 은행 — 도메인 모델링·동시성·성능·AI 협업
  • java 페이지로 이동
    • concurrency 페이지로 이동
    • jdbc 페이지로 이동
    • opentelemetry 페이지로 이동
    • spring 페이지로 이동
    • spring-batch 페이지로 이동
    • testing 페이지로 이동
    • 더_자바_코드를_조작하는_다양한_방법 페이지로 이동
    • [초안] Java 동시성 락 정리 — 커머스 메뉴/프로모션 정책 캐시 갱신 관점
    • [초안] JVM 튜닝 실전: 메모리 구조부터 Virtual Threads, GC 튜닝, 프로파일링까지
    • Java의 로깅 환경
    • MDC (Mapped Diagnostic Context)
    • Java StampedLock — 읽기 폭주에도 쓰기가 밀리지 않는 락
    • Virtual Thread와 Project Loom
  • javascript 페이지로 이동
    • typescript 페이지로 이동
    • AbortController
    • Async Iterator와 제너레이터
    • CommonJS와 ECMAScript Modules
    • 제너레이터(Generator)
    • Http Client
    • Node 백엔드 운영 패턴 — Streams 백프레셔, pipe/pipeline, 멱등성 vs 분산 락
    • Node.js
    • npm vs pnpm — 어떤 기준으로 선택했나
    • `setImmediate()`
  • kafka 페이지로 이동
    • [초안] Kafka 기본 개념 — 토픽, 파티션, 오프셋, 복제
    • Kafka를 사용하여 **데이터 정합성**은 어떻게 유지해야 할까?
    • [초안] Kafka 실전 설계: 파티션 전략, 컨슈머 그룹, 전달 보장, 재시도, 순서 보장 트레이드오프
    • 메시지 전송 신뢰성
    • [초안] Spring Kafka 컨슈머 오프셋 커밋과 트랜잭션 정렬: AckMode, manual ack, 멱등 처리
  • linux 페이지로 이동
    • fsync — 리눅스 파일 동기화 시스템 콜
    • tmux — Terminal Multiplexer
  • mlops 페이지로 이동
    • Python CUDA 버전 생태계 — nvidia-smi, nvcc, pip, conda가 다 다른 버전을 말하는 이유
    • GPU 컨테이너의 CUDA 버전 호환성 — nvidia-smi부터 이미지 다이어트까지
    • Kubernetes GPU 노드에서 /run tmpfs가 꽉 차서 Pod가 안 뜰 때
    • GPU·CUDA·MPS 기초 — 자바 백엔드 개발자가 처음 만나는 그림
    • Multi-process GPU 워크로드 — 자바 ThreadPool 사용자가 만나는 모델 차이
    • ML 서비스 성능 분석 워크플로 — 자바 백엔드 트러블슈팅과 다른 점
    • 한 GPU 를 여러 프로세스가 나눠 쓰기 — Time-Slicing 과 MPS
  • network 페이지로 이동
    • Connection reset by peer는 누가 보낸 걸까 — 리버스 프록시 홉마다 TCP 연결은 따로 논다
    • L2(스위치)와 L3(라우터)의 역할 차이
    • L4와 VIP(Virtual IP Address)
    • IP Subnet
  • python 페이지로 이동
    • Python async/await — CompletableFuture·Reactor 와 다른 점, 그리고 blocking I/O 함정
    • Python 의존성 관리 — Java Maven/Gradle 사용자가 만나는 첫 충격
    • FastAPI 기초 — Spring Boot 사용자가 빠르게 익히는 법
    • Java 개발자를 위한 Python 심화 — OOP·데코레이터·컨텍스트 매니저
    • PyTorch 기초 — 텐서, 디바이스, 그리고 모델 로딩이 무거운 이유
    • Java 개발자를 위한 Python 문법 핵심
    • ThreadLocal 에서 contextvars 로 — Python 의 요청 컨텍스트 전파
    • OCR 동작 원리 — Layout · Text · Post-process 3단계
    • Python 서버의 RSS 가 안 줄어드는 이유 — gc.collect 의 한계와 malloc_trim
  • rabbitmq 페이지로 이동
    • [초안] RabbitMQ Basics — 실전 백엔드 관점에서 정리하는 메시지 브로커 기본기
    • [초안] RabbitMQ vs Kafka — 백엔드 메시징 선택 기준과 실전 운영 관점
  • security 페이지로 이동
    • [초안] 시니어 백엔드를 위한 보안 / 인증 스터디 팩 — Spring Security, JWT, OAuth2, OWASP Top 10
    • [초안] Spring Security 6.x OAuth2 + JWT 상용 인증 설계 — Grant 선택, Resource Server, Refresh Rotation, 로그아웃
  • task 페이지로 이동
    • ai-service-team 페이지로 이동
    • nsc-slot 페이지로 이동
    • sb-dev-team 페이지로 이동
    • the-future-company 페이지로 이동
  • testing 페이지로 이동
    • [초안] 시니어 Java 백엔드를 위한 테스트 전략 완전 정리 — 피라미드부터 TestContainers, 마이크로벤치, Contract까지
  • travel 페이지로 이동
    • 오사카 3박 4일 일정표: 우메다 쇼핑, USJ, 난바·도톤보리, 오사카성
  • web 페이지로 이동
    • [초안] HTTP / Cookie / Session / Token 인증 기본기 — 레거시 JSP와 모바일 API가 공존하는 백엔드 관점
FOS-BLOG · FOOTERall systems normal·v0.1 · 2026.04.27·seoul, kr
Ffos-blog/study

개발 학습 기록을 정리하는 블로그입니다. 공부하면서 기록하고, 기록하면서 다시 배웁니다.

visitors
01site
  • Home↗
  • Posts↗
  • Categories↗
  • About↗
02policy
  • 소개/about
  • 개인정보처리방침/privacy
  • 연락처/contact
03categories
  • AI↗
  • Algorithm↗
  • DB↗
  • DevOps↗
  • Java/Spring↗
  • JS/TS↗
  • React↗
  • Next.js↗
  • System↗
04connect
  • GitHub@jon890↗
  • Source repositoryjon890/fos-study↗
  • RSS feed/rss.xml↗
  • Newsletter매주 1 회 · 한 편의 글→
© 2026 FOS Study. All posts MIT-licensed.
built with·Next.js·Tailwind v4·Geist·Pretendard·oklch
fos-blog/database/Vespa 아키텍처 입문 — 왜 강력한데 학…
dbai

Vespa 아키텍처 입문 — 왜 강력한데 학습 곡선이 가파른가

벡터 DB 어떻게 고를까에서 "Vespa 는 강력하지만 학습 곡선이 가팔라서, 대규모 서빙·복잡한 ML 랭킹이 필요한 게 아니면 과한 선택이 되기 쉽다"라고 짧게 정리했었다. 정확히 뭐가 강력하고 뭐가 가파른지 근거를 파봤다. 결론부터 말하면, Vespa 는 서버 사이드에서 임의 랭킹 함수와 ML 모델 추론을 인라인 실행하는 유일한 엔진이다. 그 표현력을...

2026.07.02·5 min read·0 views

벡터 DB 어떻게 고를까에서 "Vespa 는 강력하지만 학습 곡선이 가팔라서, 대규모 서빙·복잡한 ML 랭킹이 필요한 게 아니면 과한 선택이 되기 쉽다"라고 짧게 정리했었다. 정확히 뭐가 강력하고 뭐가 가파른지 근거를 파봤다.

결론부터 말하면, Vespa 는 서버 사이드에서 임의 랭킹 함수와 ML 모델 추론을 인라인 실행하는 유일한 엔진이다. 그 표현력을 얻는 대가로 스키마·랭킹·클러스터 배치까지 3가지 새 문법을 배워야 한다.

컴포넌트 구성 — Milvus 와 Qdrant 사이

Vespa 는 세 종류의 노드로 나뉜다.

  • container node — 무상태 Java 프로세스. 쿼리를 받아 처리한다.
  • content node — 데이터를 저장하고 분산 인덱스를 관리한다. 여러 대가 모여 content cluster 를 이룬다.
  • config server — ZooKeeper 기반 단일 config cluster. 전체 설정을 관리하고, 각 노드의 config sentinel 이 이를 구독해 서비스를 기동·재시작한다.

Milvus는 proxy·coordinator·query/data/index node 등 최소 7개 마이크로서비스에 etcd·Pulsar·MinIO 외부 의존성까지 필요하다. Qdrant는 단일 바이너리다. Vespa 는 그 중간이다 — 외부 의존성을 강제하지는 않지만(단일 노드에 container·content·config 를 모두 올릴 수 있다), container/content/config 라는 3가지 클러스터 유형 개념은 배워야 한다.

Hacker News 사용자 dathinab 의 표현이 이 구조를 정확히 짚는다.

"It's more a platform to build complex search systems with, then 'just' a vector database."

스키마·설정 — 왜 3가지 새 문법이 필요한가

Vespa 는 .sd(schema definition) 파일에서 필드마다 인덱싱 파이프라인을 지정한다.

plaintext
field embedding type tensor<float>(x[768]) {
    indexing: attribute | index
}

indexing: summary | index | attribute 조합으로 "이 필드를 검색 결과에 보여줄지, 인덱싱할지, 랭킹 계산에 쓸지"를 필드 단위로 세밀하게 정한다. 여기에 랭킹 표현식을 담는 rank-profile 블록, 클러스터 배치를 선언하는 services.xml(<nodes count>, <redundancy>, <resources vcpu/memory/disk>)까지 더해진다.

Qdrant·Milvus 는 REST/YAML 로 컬렉션 필드 타입과 인덱스 파라미터만 선언하면 끝난다. Vespa 는 (1) 인덱싱 파이프라인 문법, (2) 랭킹 표현식 언어, (3) 클러스터 배치 XML — 이 3가지를 따로 배워야 한다. 표현력과 학습 곡선은 여기서부터 트레이드오프가 시작된다.

랭킹 — 서버 사이드에서 ML 모델을 인라인 실행한다

Vespa 랭킹의 핵심은 2-phase 랭킹이다.

first-phase 가 매칭된 문서 전체를 저비용 수식(BM25, 벡터 거리 등)으로 빠르게 채점하고, second-phase 가 그 상위 후보(기본 100개)만 고비용 수식(XGBoost, ONNX 모델 등)으로 재정렬한다. ONNX 모델은 onnx-model 블록에 선언해두면 onnx(모델명).출력명 형태로 랭킹 표현식 안에서 직접 참조할 수 있다 — 모델 추론이 랭킹 계산의 한 항이 되는 것이다.

이건 다른 제품에는 없는 방식이다. Qdrant 의 Score Boosting 은 constant, sum, mult, decay 같은 규칙 기반 연산만 지원하고 ONNX·커스텀 ML 모델 실행은 없다. Milvus 의 hybrid_search()는 WeightedRanker/RRFRanker만 서버 내부에서 실행하고, 그 외 재정렬은 클라이언트 라이브러리(PyMilvus) 몫이다. 서버 사이드에서 임의 랭킹 함수와 ML 모델 추론을 실행하는 건 Vespa 뿐이다.

텐서 1급 지원 — 스키마 자체가 벡터 연산을 안다

필드를 tensor<float>(x[128])(dense) 또는 tensor<float>(category{})(sparse mapped) 로 선언하면, 랭킹 표현식에서 sum, reduce, join, map, matmul 같은 텐서 연산을 직접 쓸 수 있다.

plaintext
sum(query(q_embedding) * attribute(embedding))

이 한 줄이 그대로 dot product(코사인 유사도의 핵심 연산)다. multi-vector 는 mixed tensor(예: tensor<float>(paragraph{}, embedding[768]), sparse+dense 결합)로 표현한다 — 문서 하나에 문단별 벡터를 여러 개 담아 한 필드로 관리한다.

분산·스케일링 — bucket 단위 자동 재분배

문서는 bucket 단위로 자동 관리되고, 수동 샤딩이 필요 없다. bucket을 노드에 배치하는 알고리즘은 공식 문서에 "a variant of the CRUSH algorithm"으로 명시돼 있다 — bucket ID를 시드로 한 pseudo-random weighted election으로 replica 노드를 정한다. 노드를 추가하면 기존 노드 간 이동 없이 신규 노드가 전체 bucket의 평균 1/n만 기존 노드들로부터 가져오고, 제거하면 나머지 노드가 부하를 나눠 갖는다.

이 자동 재분배는 갓 나온 기능이 아니다. Vespa 는 2004년 Yahoo 내부에서 개발돼 2017년 오픈소스로 공개, 2023년 독립 분사했다. 공식 자료가 명시하는 프로덕션 규모는 150개 이상 애플리케이션(Yahoo·Spotify·Perplexity·Vinted 등), 초당 80만 건 이상 쿼리, 전 세계 약 10억 사용자다. Yahoo 내부 사례로는 광고 서빙 초당 최대 14만 건·하루 30억 건, Flickr 수십억 이미지에 초당 수백 쿼리 처리 실적이 공개돼 있다. 자체 벤치마크(SPACEV-1B, 10억 벡터×100차원)에서는 72 vCPU 단일 노드로 90% recall 근사 검색 시 지연 4ms·코어당 약 250 QPS를 기록했다.

개별 회사의 구체 수치(예: 특정 기업의 벡터 수 언급)는 제3자 블로그 출처가 많아 이 글에서는 공식 자료로 확인된 수치만 남겼다 — 나머지는 확인 필요로 남긴다.

설치·운영 — 실제로 얼마나 가파른가

공식 quick-start 는 9단계다.

  1. Docker/Podman 메모리 확인
  2. brew install vespa-cli
  3. vespa config set target local
  4. vespaengine/vespa 이미지로 컨테이너 기동(포트 8080/19071)
  5. vespa clone으로 샘플 앱 복제
  6. vespa deploy --wait 300
  7. vespa feed로 문서 입력
  8. 쿼리 실행
  9. ID로 문서 조회

Qdrant는 docker run 한 줄 + 클라이언트 초기화 + 컬렉션 생성 + 쿼리, 총 5단계로 끝난다. 별도 스키마 파일이나 CLI 설치가 필요 없다.

커뮤니티 반응도 이 격차를 그대로 보여준다. Elsevier Labs 의 Sujit Pal(Vespa 공식 블로그 게스트 포스트)은 이렇게 썼다.

"I had been put off by what seemed like a pretty steep learning curve compared with Solr and Elasticsearch... the steepness is not an illusion, but it is justified, because Vespa offers many capabilities and customization opportunities."

정리

  • 왜 강력한가 — 서버 사이드에서 임의 랭킹 표현식과 ONNX/XGBoost 모델을 2-phase 로 인라인 실행하는 유일한 엔진이다. 텐서가 스키마 1급 타입이라 dot product·multi-vector 연산을 표현식 그대로 쓴다. Yahoo 기원의 수백억 문서·초당 수십만 쿼리급 프로덕션 실적이 공개돼 있다.
  • 왜 학습 곡선이 가파른가 — 인덱싱 파이프라인·랭킹 표현식 언어·클러스터 배치 XML, 3가지 새 문법을 익혀야 하고 quick-start 도 9단계다. "단순 벡터 DB가 아니라 검색 시스템 구축 플랫폼"이라는 HN 커뮤니티 평가가 이 지점을 정확히 짚는다.
  • 그래서 벡터 DB 어떻게 고를까의 결론대로, 대규모 서빙이나 복잡한 ML 랭킹이 필요하지 않다면 이 학습 비용을 감당할 이유가 없다.

참고 링크

  • Vespa Overview
  • Vespa Config Sentinel
  • Vespa Schemas
  • Vespa services.xml Reference
  • Vespa Ranking
  • Vespa Phased Ranking
  • Vespa ONNX Ranking
  • Vespa Tensor User Guide
  • Vespa Elasticity
  • Vespa Buckets
  • Vespa Quick Start
  • Why Vespa
  • Open-Sourcing Vespa
  • Billion-scale kNN, Part Two
  • How I Learned Vespa by Thinking in Solr
  • Hacker News 스레드
on this page
  • 01컴포넌트 구성 — Milvus 와 Qdrant 사이
  • 02스키마·설정 — 왜 3가지 새 문법이 필요한가
  • 03랭킹 — 서버 사이드에서 ML 모델을 인라인 실행한다
  • 04텐서 1급 지원 — 스키마 자체가 벡터 연산을 안다
  • 05분산·스케일링 — bucket 단위 자동 재분배
  • 06설치·운영 — 실제로 얼마나 가파른가
  • 07정리
  • 08참고 링크
tags
#입문

이런 글도

  • Qdrant 벡터 데이터베이스 입문 — "컴포넌트가 단순하다"는 게 정확히 뭔가
    벡터 DB 어떻게 고를까에서 "가장 가볍게 운영하고 싶다 → Qdrant. 컴포넌트가 단순하다"라고만 짧게 썼었다. 정확히 뭐가 단순한지, Milvus 대비 무엇이 빠지는지 근거 없이는 판단할 수 없다는 피드백을 받고 다시 파봤다. 결론부터 말하면, Qdrant는 Milvus 가 별도 프로세스로 떼어낸 역할들을 전부 하나의 Rust 바이너리 안으로 흡수했다...
    🗄️ db
    db
    2026.07.02
  • 벡터 DB 5종, 아키텍처는 어떻게 다른가
    벡터 DB 어떻게 고를까에서 기능·운영 관점으로 5종을 비교했다면, 이 글은 그 다음 단계다 — 표면 기능 밑에서 실제로 무엇이 다른지를 뜯어본다. 벡터 DB 후보들을 비교하다 보면 표면 기능은 다 비슷해 보인다. 다섯 제품 모두 HNSW 로 ANN 검색을 제공하고, 다 메타데이터 필터링을 한다. 그런데 막상 운영에 올리면 메모리가 터지는 지점, 노드를 늘...
    🗄️ db
    db
    2026.06.25
  • OpenSearch를 벡터 DB로 굴리며 알게 된 것 — 벡터는 heap이 아니라 native에 산다
    벡터 검색용 OpenSearch 클러스터의 모니터링 대시보드를 만들다가 이상한 걸 봤다. JVM heap 사용량이 12%밖에 안 됐다. "벡터 DB인데 메모리를 이것밖에 안 쓴다고?" 싶어 파봤더니, 정작 벡터는 heap이 아니라 off-heap native memory에 살고 있었다. 이 글의 결론을 먼저 적으면 이렇다. - OpenSearch의 벡터(H...
    🗄️ db
    db
    2026.06.25
  • Milvus 3.0 은 무엇을 바꾸나 — 벡터 DB 에서 "벡터 레이크하우스"로
    Milvus 3.0 이 2026년 5월 9일에 3.0-beta 로 공개됐다. 아직 정식 출시(GA)가 아니라 베타라는 점을 먼저 못박아 둔다 — 2.6.x 가 여전히 프로덕션 버전이고, 3.0 은 미리 보는 단계다. 그래서 이 글은 "지금 올려라"가 아니라 3.0 이 어떤 방향으로 가려 하는지, 그게 어떤 가치인지를 정리한 스터디 노트다. 한 문장으로 줄이...
    🗄️ db
    db
    2026.06.22

댓글 (0)