fos-blog/study
01 / 홈02 / 카테고리
01 / 홈02 / 카테고리

카테고리

  • AI 페이지로 이동
    • RAG 페이지로 이동
    • langgraph 페이지로 이동
    • agents.md
    • BMAD Method — AI 에이전트로 애자일 개발하는 방법론
    • Claude Code의 Skill 시스템 - 개발자를 위한 AI 자동화의 새로운 차원
    • Claude Code를 5주 더 쓴 결과 — 스킬·CLAUDE.md를 키워가는 방식
    • Claude Code를 11일 동안 쓴 결과 — 데이터로 본 나의 사용 패턴
    • Claude Code 멀티 에이전트 — Teams
    • AI 에이전트와 디자인의 새 컨벤션 — DESIGN.md, Google Stitch, Claude Design
    • 하네스 엔지니어링 실전 — 4인 에이전트 팀으로 코딩 파이프라인 구축하기
    • 하네스 엔지니어링 — 오래 실행되는 AI 에이전트를 위한 설계
    • 멀티모달 LLM (Multimodal Large Language Model)
    • AI 에이전트와 함께 MVP 만들기 — dooray-cli 사례
  • ai 페이지로 이동
    • agent 페이지로 이동
  • algorithm 페이지로 이동
    • live-coding 페이지로 이동
    • 분산 계산을 위한 알고리즘
  • architecture 페이지로 이동
    • [초안] 시니어 백엔드를 위한 API 설계 실전 스터디 팩 — REST · 멱등성 · 페이지네이션 · 버전 전략
    • [초안] API Versioning과 Backward Compatibility: 시니어 백엔드 관점 정리
    • 캐시 설계 전략 총정리
    • [초안] CJ푸드빌 커머스/F&B 도메인 설계 면접 대비 — 슬롯 경험을 주문·결제·쿠폰·매장 상태 설계로 번역하기
    • [초안] 커머스 Spring 서비스에 Clean/Hexagonal Architecture를 실용적으로 적용하기
    • [초안] 커머스 주문 상태와 데이터 정합성 기본기 — CJ푸드빌 면접 대비
    • [초안] 쿠폰/프로모션 동시성과 정합성 기본기 — 선착순·중복 사용 방지·발급/사용/복구
    • [초안] DDD와 도메인 모델링: 시니어 백엔드 관점의 전술/전략 패턴 실전 가이드
    • [초안] Decorator & Chain of Responsibility — 행동을 체인으로 조립하는 두 가지 방식
    • 디자인 패턴
    • [초안] 분산 아키텍처 완전 정복: Java 백엔드 시니어 인터뷰 대비 실전 가이드
    • [초안] 분산 트랜잭션과 Outbox 패턴 — 왜 2PC를 피하고 어떻게 대신할 것인가
    • 분산 트랜잭션
    • [초안] e-Commerce 주문·결제 도메인 모델링: 상태머신, 멱등성, Outbox/Saga 실전 정리
    • [초안] F&B 쿠폰·프로모션·멤버십·포인트 설계
    • [초안] F&B · e-Commerce 디지털 채널 도메인 한 장 정리 — CJ푸드빌 디지털 채널 백엔드 면접 대비
    • [초안] F&B 주문/매장/픽업 상태머신 설계 — CJ푸드빌 디지털 채널 백엔드 관점
    • [초안] F&B 이커머스 결제·환불·정산 운영 가이드
    • [초안] Hexagonal / Clean Architecture를 Spring 백엔드에 적용하기
    • [초안] 대규모 커머스 트래픽 처리 패턴 — 1,600만 고객과 올영세일을 버티는 설계
    • [초안] 레거시 JSP/jQuery 화면과 신규 API가 공존하는 백엔드 운영 전략
    • [초안] MSA 서비스 간 통신: Redis [Cache-Aside](../database/redis/cache-aside.md) × Kafka 이벤트 하이브리드 설계
    • [초안] Observability 입문: 시니어 백엔드가 장애를 탐지하고 대응하는 방식
    • [초안] Outbox / Inbox Pattern 심화 — 분산 메시징의 정합성 문제를 DB 트랜잭션으로 풀어내기
    • [초안] 결제 도메인 멱등성과 트랜잭션 재시도 기본기
    • [초안] 시니어 백엔드를 위한 Resilience 패턴 실전 가이드 — Timeout, Retry, Circuit Breaker, Bulkhead, Backpressure
    • [초안] REST API 버저닝과 모바일 앱 하위 호환성 — CJ푸드빌 디지털 채널 백엔드 관점
    • [초안] Strategy Pattern — 분기문을 없애는 설계, 시니어 백엔드 인터뷰 핵심 패턴
    • [초안] 시니어 백엔드를 위한 시스템 설계 입문 스터디 팩
    • [초안] 템플릿 메서드 패턴 - 백엔드 처리 골격을 강제하는 가장 오래되고 가장 위험한 패턴
    • [초안] 대규모 트래픽 중 무중단 마이그레이션 — Feature Flag + Shadow Mode 실전
  • database 페이지로 이동
    • mysql 페이지로 이동
    • opensearch 페이지로 이동
    • redis 페이지로 이동
    • 김영한의-실전-데이터베이스-설계 페이지로 이동
    • 커넥션 풀 크기는 얼마나 조정해야 할까?
    • 인덱스 - DB 성능 최적화의 핵심
    • [초안] JPA N+1과 커머스 조회 모델: 주문/메뉴/쿠폰 도메인에서 살아남기
    • [초안] MyBatis 기본기 — XML Mapper, resultMap, 동적 SQL, 운영 패턴 정리
    • [초안] MyBatis와 JPA/Hibernate 트레이드오프 — 레거시 백엔드를 다루는 시니어 관점
    • 역정규화 (Denormalization)
    • 데이터 베이스 정규화
  • devops 페이지로 이동
    • docker 페이지로 이동
    • k8s 페이지로 이동
    • k8s-in-action 페이지로 이동
    • observability 페이지로 이동
    • [초안] 커머스/F&B 채널 장애 첫 5분과 관측성 기본기
    • Envoy Proxy
    • [초안] F&B / e-Commerce 운영 장애 대응과 모니터링 — 백엔드 관점 정리
    • Graceful Shutdown
  • finance 페이지로 이동
    • industry-cycle 페이지로 이동
    • investing 페이지로 이동
    • stock-notes 페이지로 이동
  • http 페이지로 이동
    • HTTP Connection Pool
  • interview 페이지로 이동
    • [초안] AI 서비스 팀 경험 기반 시니어 백엔드 면접 질문 뱅크 — Spring Batch RAG / gRPC graceful shutdown / 전략 패턴 / 12일 AI 웹툰 MVP
    • [초안] CJ푸드빌 디지털 채널 Back-end 개발자 직무 분석
    • [초안] CJ푸드빌 디지털 채널 Back-end 면접 답변집 — 슬롯 도메인 경험을 커머스/F&B 설계로 번역하기
    • [초안] F&B / e-Commerce 운영 모니터링과 장애 대응 인터뷰 정리
    • Observability — 면접 답변 프레임
    • [초안] 시니어 Java 백엔드 면접 마스터 플레이북 — 김병태
    • [초안] NSC 슬롯팀 경험 기반 질문 은행 — 도메인 모델링·동시성·성능·AI 협업
  • java 페이지로 이동
    • concurrency 페이지로 이동
    • jdbc 페이지로 이동
    • opentelemetry 페이지로 이동
    • spring 페이지로 이동
    • spring-batch 페이지로 이동
    • 더_자바_코드를_조작하는_다양한_방법 페이지로 이동
    • [초안] Java 동시성 락 정리 — 커머스 메뉴/프로모션 정책 캐시 갱신 관점
    • [초안] JVM 튜닝 실전: 메모리 구조부터 Virtual Threads, GC 튜닝, 프로파일링까지
    • Java의 로깅 환경
    • MDC (Mapped Diagnostic Context)
    • Java StampedLock — 읽기 폭주에도 쓰기가 밀리지 않는 락
    • Virtual Thread와 Project Loom
  • javascript 페이지로 이동
    • typescript 페이지로 이동
    • AbortController
    • Async Iterator와 제너레이터
    • CommonJS와 ECMAScript Modules
    • 제너레이터(Generator)
    • Http Client
    • Node 백엔드 운영 패턴 — Streams 백프레셔, pipe/pipeline, 멱등성 vs 분산 락
    • Node.js
    • npm vs pnpm — 어떤 기준으로 선택했나
    • `setImmediate()`
  • kafka 페이지로 이동
    • [초안] Kafka 기본 개념 — 토픽, 파티션, 오프셋, 복제
    • Kafka를 사용하여 **데이터 정합성**은 어떻게 유지해야 할까?
    • [초안] Kafka 실전 설계: 파티션 전략, 컨슈머 그룹, 전달 보장, 재시도, 순서 보장 트레이드오프
    • 메시지 전송 신뢰성
  • linux 페이지로 이동
    • fsync — 리눅스 파일 동기화 시스템 콜
    • tmux — Terminal Multiplexer
  • network 페이지로 이동
    • L2(스위치)와 L3(라우터)의 역할 차이
    • L4와 VIP(Virtual IP Address)
    • IP Subnet
  • rabbitmq 페이지로 이동
    • [초안] RabbitMQ Basics — 실전 백엔드 관점에서 정리하는 메시지 브로커 기본기
    • [초안] RabbitMQ vs Kafka — 백엔드 메시징 선택 기준과 실전 운영 관점
  • security 페이지로 이동
    • [초안] 시니어 백엔드를 위한 보안 / 인증 스터디 팩 — Spring Security, JWT, OAuth2, OWASP Top 10
  • task 페이지로 이동
    • ai-service-team 페이지로 이동
    • nsc-slot 페이지로 이동
    • sb-dev-team 페이지로 이동
    • the-future-company 페이지로 이동
  • testing 페이지로 이동
    • [초안] 시니어 Java 백엔드를 위한 테스트 전략 완전 정리 — 피라미드부터 TestContainers, 마이크로벤치, Contract까지
  • travel 페이지로 이동
    • 오사카 3박 4일 일정표: 우메다 쇼핑, USJ, 난바·도톤보리, 오사카성
  • web 페이지로 이동
    • [초안] HTTP / Cookie / Session / Token 인증 기본기 — 레거시 JSP와 모바일 API가 공존하는 백엔드 관점
FOS-BLOG · FOOTERall systems normal·v0.1 · 2026.04.27·seoul, kr
Ffos-blog/study

개발 학습 기록을 정리하는 블로그입니다. 공부하면서 기록하고, 기록하면서 다시 배웁니다.

visitors
01site
  • Home↗
  • Posts↗
  • Categories↗
  • About↗
02policy
  • 소개/about
  • 개인정보처리방침/privacy
  • 연락처/contact
03categories
  • AI↗
  • Algorithm↗
  • DB↗
  • DevOps↗
  • Java/Spring↗
  • JS/TS↗
  • React↗
  • Next.js↗
  • System↗
04connect
  • GitHub@jon890↗
  • Source repositoryjon890/fos-study↗
  • RSS feed/rss.xml↗
  • Newsletter매주 1 회 · 한 편의 글→
© 2026 FOS Study. All posts MIT-licensed.
built with·Next.js·Tailwind v4·Geist·Pretendard·oklch
fos-blog/database/OpenSearch로 RAG 검색 품질 높이…
db

OpenSearch로 RAG 검색 품질 높이기 — Hybrid Search, Reranking, Sentence Window

RAG 파이프라인에서 OpenSearch를 검색 엔진으로 쓸 때, 순수 벡터 검색만으로는 한계가 있다. 실제로 구현된 코드를 분석하면서 검색 품질을 높이는 세 가지 기법을 정리해봤다. --- 벡터 검색(kNN)은 의미적으로 유사한 문서를 찾는 데 강하다. 그런데 사용자가 고유명사, 코드명, 오타가 섞인 키워드로 검색하면 벡터 유사도가 낮게 나오는 경우가 있...

2026.03.24·5 min read·79 views

RAG 파이프라인에서 OpenSearch를 검색 엔진으로 쓸 때, 순수 벡터 검색만으로는 한계가 있다. 실제로 구현된 코드를 분석하면서 검색 품질을 높이는 세 가지 기법을 정리해봤다.


왜 벡터 검색만으론 부족한가

벡터 검색(kNN)은 의미적으로 유사한 문서를 찾는 데 강하다. 그런데 사용자가 고유명사, 코드명, 오타가 섞인 키워드로 검색하면 벡터 유사도가 낮게 나오는 경우가 있다. 반대로 전통적인 BM25 키워드 검색은 의미는 같지만 단어가 다른 경우를 잡아내지 못한다.

두 방식의 약점을 보완하기 위해 Hybrid Search가 등장했다. 그리고 Hybrid Search로 많이 수집한 결과에서 진짜 관련 문서를 추리기 위해 Reranking을 붙인다. 거기에 더해 청크 단위 검색의 컨텍스트 단절 문제를 해결하는 Sentence Window 기법까지, 세 가지를 차례로 살펴본다.


1. Hybrid Search — BM25 + kNN 조합

인덱스 설계

Hybrid Search를 지원하려면 인덱스에 벡터 필드와 텍스트 필드를 함께 가지고 있어야 한다.

json
{
  "settings": {
    "index": {
      "knn": true
    },
    "analysis": {
      "analyzer": {
        "custom_nori_speech": {
          "type": "custom",
          "tokenizer": "nori_tokenizer"
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "embedding": {
        "type": "knn_vector",
        "dimension": 1024,
        "method": {
          "engine": "faiss",
          "name": "hnsw",
          "space_type": "cosinesimil"
        }
      },
      "content": {
        "type": "text",
        "analyzer": "custom_nori_speech"
      }
    }
  }
}
  • embedding: 1024차원 벡터, FAISS 엔진, HNSW 알고리즘, cosine similarity
  • content: 한국어 형태소 분석(Nori)으로 역색인 생성

한국어 검색 품질을 위해 Nori 플러그인이 필요하다. OpenSearch에는 기본 포함이 아니라 별도 설치가 필요하다.

쿼리 구조

Hybrid Search는 bool.should로 kNN 쿼리와 키워드 쿼리를 함께 날린다.

java
// kNN 쿼리: 의미 유사도 검색
KnnQuery knnQuery = KnnQuery.builder()
    .field("embedding")
    .vector(embeddingVector)
    .k(50)
    .boost(0.7f)
    .build();
 
// 키워드 쿼리: BM25 기반 텍스트 검색 (점수 정규화 적용)
// script score: (text_score / (text_score + 1)) * 0.3
FunctionScoreQuery textQuery = FunctionScoreQuery.of(fsq -> fsq
    .query(MatchQuery...)
    .boostMode(FunctionBoostMode.Replace)
    .functions(...)
);
 
// bool.should로 결합 → 두 점수 합산
BoolQuery hybridQuery = BoolQuery.of(b -> b
    .should(knnQuery.toQuery())
    .should(textQuery.toQuery())
    .minimumShouldMatch("1")
);

점수 정규화가 중요하다. BM25 점수는 문서 길이와 빈도에 따라 범위가 다르기 때문에 (score / (score + 1)) * 0.3 공식으로 00.3 사이로 눌러주고, kNN은 cosine similarity 특성상 이미 01 범위라 boost 0.7을 곱해 0~0.7로 맞춘다. 두 점수의 합이 최종 hybrid score가 된다.

세 가지 검색 API

실제 구현을 보면 검색 API를 세 가지로 분리해뒀다.

API방식특징
searchByVectorkNN only의미 유사도 중심, boost 0.7
searchByKeywordBM25 only정확 키워드 매칭 중심, score 정규화
searchByHybridkNN + BM25두 방식 결합, 가장 범용적

2. Reranking — Recall에서 Precision으로

2단계 검색 파이프라인

벡터 검색이나 Hybrid Search로 상위 50개를 가져와도, 그 중 진짜 관련 있는 문서 10개를 고르는 건 별개의 문제다. Reranker는 이 역할을 한다.

plaintext
1단계 (Recall)  : OpenSearch → 상위 50개 (빠르게 많이)
2단계 (Precision): Reranker → 상위 10개 (정확하게 추림)

구조적으로 보면 OpenSearch는 bi-encoder 방식이다. 쿼리와 문서를 각각 임베딩해서 벡터 거리를 비교하기 때문에 빠르다. Reranker는 보통 cross-encoder 방식으로, 쿼리와 문서를 쌍으로 입력해 더 정교하게 관련도를 계산한다. 느리지만 정확하다.

plaintext
OpenSearch 쿼리 실행
    ↓
상위 50개 문서 + 쿼리 텍스트를 reranker API로 전송
    ↓
reranker가 각 문서의 relevance score 계산
    ↓
score 기준 정렬 후 상위 10개 반환

응답에서 두 점수 확인

json
{
  "contents": "...",
  "url": "...",
  "score": 0.76,        // OpenSearch 검색 점수 (벡터 유사도)
  "rerankScore": 0.91   // Reranker가 계산한 관련도 점수
}

score와 rerankScore를 둘 다 노출하는 건 디버깅에 유용하다. 두 점수 순서가 뒤집힌 문서를 보면 reranker가 어떤 기준으로 판단하는지 감을 잡을 수 있다.

실제로 hybrid 검색 시 rerankScore가 모든 문서에서 1e-06으로 동일하게 찍히는 버그가 리포트된 적 있다. score(벡터 유사도)는 정상인데 reranker 결과만 이상한 케이스라 reranker API 입력/출력 파싱 쪽을 먼저 의심해볼 것 같다.


3. Sentence Window — 청크 검색, 확장 컨텍스트 반환

문제: 청크가 너무 작으면 컨텍스트가 끊긴다

RAG에서 문서를 청크로 나눠 색인하면 검색 정밀도는 올라가지만, LLM에게 전달하는 컨텍스트가 너무 짧아지는 문제가 생긴다. 앞뒤 맥락 없이 잘린 청크는 답변 품질을 떨어뜨린다.

해결: extra_content 필드

Sentence Window(Small-to-Big) 기법은 이렇게 동작한다.

  1. 색인할 때: 각 청크에 앞뒤 청크를 붙인 extra_content 필드를 함께 저장
  2. 검색할 때: content(원본 청크)로 검색 → 반환은 extra_content(확장 컨텍스트)로
json
{
  "mappings": {
    "properties": {
      "content": {
        "type": "text",
        "analyzer": "custom_nori_speech"
      },
      "extra_content": {
        "type": "text",
        "index": false
      }
    }
  }
}

extra_content는 "index": false로 검색 대상에서 제외한다. 저장만 하고 반환용으로만 쓴다.

plaintext
extra_content = 이전 청크 + "\n" + 현재 청크 + "\n" + 다음 청크

작은 단위로 정확하게 검색하되, LLM에게는 충분한 컨텍스트를 주는 방식이다.


세 기법의 조합

정리하면 이렇게 연결된다.

plaintext
사용자 쿼리
    │
    ├─ 텍스트 임베딩 → kNN 검색 (embedding 필드)
    ├─ 형태소 분석 → BM25 검색 (content 필드)
    │    └─ Hybrid Search로 두 결과 합산
    │
    ↓ 상위 50개
 
Reranker API (cross-encoder)
    ↓ 상위 10개
 
응답: extra_content (앞뒤 청크 포함 확장 컨텍스트)

각 기법이 서로 다른 문제를 해결한다.

  • Hybrid Search: 검색 recall 향상 (키워드도, 의미도 잡는다)
  • Reranking: precision 향상 (50개 중 진짜 관련 문서를 추린다)
  • Sentence Window: LLM 입력 품질 향상 (잘린 컨텍스트 문제를 해결한다)

운영 측면에서 기억할 것

  • Native memory 관리: OpenSearch k-NN 인덱스는 JVM 힙이 아닌 native memory를 쓴다. 문서 수가 늘어나면 heap과 native memory 사용량을 함께 모니터링해야 한다
  • 임베딩 모델 교체 시 전체 재색인: dimension이나 similarity 함수가 바뀌면 인덱스를 새로 만들고 전체 재색인이 필요하다. 배치 파이프라인이 있더라도 부담스러운 작업이다
  • 메타데이터는 OpenSearch에 두지 않는 것 고려: index group, source 관계 같은 메타데이터를 OpenSearch에 넣으면 FK/트랜잭션 보장이 안 된다. MySQL 같은 RDBMS에서 관리하고 OpenSearch는 검색에만 집중하는 구조가 장기적으로 더 낫다
on this page
  • 01왜 벡터 검색만으론 부족한가
  • 021. Hybrid Search — BM25 + kNN 조합
  • 인덱스 설계
  • 쿼리 구조
  • 세 가지 검색 API
  • 032. Reranking — Recall에서 Precision으로
  • 2단계 검색 파이프라인
  • 응답에서 두 점수 확인
  • 043. Sentence Window — 청크 검색, 확장 컨텍스트 반환
  • 문제: 청크가 너무 작으면 컨텍스트가 끊긴다
  • 해결: extra_content 필드
  • 05세 기법의 조합
  • 06운영 측면에서 기억할 것

댓글 (0)