fos-blog/study
01 / 홈02 / 카테고리03 / 시리즈
01 / 홈02 / 카테고리03 / 시리즈

카테고리

  • AI 페이지로 이동
    • RAG 페이지로 이동
    • langgraph 페이지로 이동
    • agents.md
    • BMAD Method — AI 에이전트로 애자일 개발하는 방법론
    • Claude Code 메모리: CLAUDE.md와 .claude/rules를 규칙으로 쓰는 법
    • Claude Code의 Skill 시스템 - 개발자를 위한 AI 자동화의 새로운 차원
    • Claude Code를 5주 더 쓴 결과 — 스킬·CLAUDE.md를 키워가는 방식
    • Claude Code를 11일 동안 쓴 결과 — 데이터로 본 나의 사용 패턴
    • Claude Code 멀티 에이전트 — Teams
    • AI 에이전트와 디자인의 새 컨벤션 — DESIGN.md, Google Stitch, Claude Design
    • Docling — IBM Research 의 문서 파싱 toolkit 상세 정리
    • 하네스 엔지니어링 실전 — 4인 에이전트 팀으로 코딩 파이프라인 구축하기
    • 하네스 엔지니어링 — 오래 실행되는 AI 에이전트를 위한 설계
    • 멀티모달 LLM (Multimodal Large Language Model)
    • AI 에이전트와 함께 MVP 만들기 — dooray-cli 사례
    • 스킬 문서를 신경망처럼 학습시킨다 — Microsoft SkillOpt 분석
  • ai 페이지로 이동
    • agent 페이지로 이동
    • [초안] AI 제품 백엔드 안정성 — 지연·비용·권한·관측·도구 실패·폴백/재시도/사람 에스컬레이션
    • [초안] LLM 평가 프레임워크: 골든셋, 회귀 테스트, LLM-as-a-judge, 사람 피드백 루프
  • algorithm 페이지로 이동
    • live-coding 페이지로 이동
    • 분산 계산을 위한 알고리즘
  • apartment 페이지로 이동
    • 구리 럭키아파트 24평 인테리어 레퍼런스 모음
  • architecture 페이지로 이동
    • [초안] 시니어 백엔드를 위한 API 설계 실전 스터디 팩 — REST · 멱등성 · 페이지네이션 · 버전 전략
    • [초안] API Versioning과 Backward Compatibility: 시니어 백엔드 관점 정리
    • 캐시 설계 전략 총정리
    • [초안] CJ푸드빌 디지털 채널 면접: 슬롯 도메인 경험을 커머스 도메인 설계 능력으로 번역하기
    • [초안] 커머스 Spring 서비스에 Clean/Hexagonal Architecture를 실용적으로 적용하기
    • [초안] 커머스 도메인 모델링: 주문·재고·노출의 세 축을 분리해서 설계하기
    • 커머스 주문 상태와 데이터 정합성 기본기 — CJ푸드빌 면접 대비
    • [초안] 쿠폰/프로모션 동시성과 정합성 기본기 — 선착순·중복 사용 방지·발급/사용/복구
    • [초안] DDD와 도메인 모델링: 시니어 백엔드 관점의 전술/전략 패턴 실전 가이드
    • [초안] Decorator & Chain of Responsibility — 행동을 체인으로 조립하는 두 가지 방식
    • 디자인 패턴
    • [초안] 분산 아키텍처 완전 정복: Java 백엔드 시니어 인터뷰 대비 실전 가이드
    • [초안] 분산 트랜잭션과 Outbox 패턴 — 왜 2PC를 피하고 어떻게 대신할 것인가
    • 분산 트랜잭션
    • [초안] e-Commerce 주문·결제 도메인 모델링: 상태머신, 멱등성, Outbox/Saga 실전 정리
    • [초안] F&B 쿠폰·프로모션·멤버십·포인트 설계
    • [초안] F&B · e-Commerce 디지털 채널 도메인 한 장 정리 — CJ푸드빌 디지털 채널 백엔드 면접 대비
    • [초안] F&B 주문/매장/픽업 상태머신 설계 — CJ푸드빌 디지털 채널 백엔드 관점
    • [초안] F&B 이커머스 결제·환불·정산 운영 가이드
    • [초안] Hexagonal / Clean Architecture를 Spring 백엔드에 적용하기
    • [초안] 대규모 커머스 트래픽 처리 패턴 — 1,600만 고객과 올영세일을 버티는 설계
    • [초안] 레거시 JSP/jQuery 화면과 신규 API가 공존하는 백엔드 운영 전략
    • [초안] MSA 서비스 간 통신: Redis [Cache-Aside](../database/redis/cache-aside.md) × Kafka 이벤트 하이브리드 설계
    • [초안] Observability 입문: 시니어 백엔드가 장애를 탐지하고 대응하는 방식
    • [초안] Outbox / Inbox Pattern 심화 — 분산 메시징의 정합성 문제를 DB 트랜잭션으로 풀어내기
    • [초안] 결제 도메인 멱등성과 트랜잭션 재시도 기본기
    • [초안] 시니어 백엔드를 위한 Resilience 패턴 실전 가이드 — Timeout, Retry, Circuit Breaker, Bulkhead, Backpressure
    • [초안] REST API 버저닝과 모바일 앱 하위 호환성 — CJ푸드빌 디지털 채널 백엔드 관점
    • [초안] Spring Batch vs Event-Driven — 같은 비동기처럼 보이지만 전혀 다른 두 패러다임
    • [초안] Strategy Pattern — 분기문을 없애는 설계, 시니어 백엔드 인터뷰 핵심 패턴
    • [초안] 시니어 백엔드를 위한 시스템 설계 입문 스터디 팩
    • [초안] 템플릿 메서드 패턴 - 백엔드 처리 골격을 강제하는 가장 오래되고 가장 위험한 패턴
    • [초안] 대규모 트래픽 중 무중단 마이그레이션 — Feature Flag + Shadow Mode 실전
  • database 페이지로 이동
    • mysql 페이지로 이동
    • opensearch 페이지로 이동
    • redis 페이지로 이동
    • 김영한의-실전-데이터베이스-설계 페이지로 이동
    • [초안] DB Connection Pool Saturation과 Thread Pool 격리
    • 커넥션 풀 크기는 얼마나 조정해야 할까?
    • 인덱스 - DB 성능 최적화의 핵심
    • [초안] JPA N+1과 커머스 조회 모델: 주문/메뉴/쿠폰 도메인에서 살아남기
    • [초안] MyBatis 기본기 — XML Mapper, resultMap, 동적 SQL, 운영 패턴 정리
    • [초안] MyBatis와 JPA/Hibernate 트레이드오프 — 레거시 백엔드를 다루는 시니어 관점
    • 역정규화 (Denormalization)
    • 데이터 베이스 정규화
  • devops 페이지로 이동
    • docker 페이지로 이동
    • k8s 페이지로 이동
    • k8s-in-action 페이지로 이동
    • observability 페이지로 이동
    • [초안] 커머스/F&B 채널 장애 첫 5분과 관측성 기본기
    • Envoy Proxy
    • [초안] F&B / e-Commerce 운영 장애 대응과 모니터링 — 백엔드 관점 정리
    • Graceful Shutdown
    • [초안] 시니어 백엔드를 위한 SLO와 Error Budget 기반 장애 대응
  • finance 페이지로 이동
    • industry-cycle 페이지로 이동
    • investing 페이지로 이동
  • http 페이지로 이동
    • HTTP Connection Pool
    • HTTPS는 어떻게 안전한가 — TLS, 인증서, 그리고 termination
  • interview 페이지로 이동
    • [초안] AI 서비스 팀 경험 기반 시니어 백엔드 면접 질문 뱅크 — Spring Batch RAG / gRPC graceful shutdown / 전략 패턴 / 12일 AI 웹툰 MVP
    • [초안] 커머스/F&B 면접 답변집 — 슬롯 도메인 경험을 주문·결제·쿠폰·매장 설계로 매핑하기
    • [초안] F&B / e-Commerce 운영 모니터링과 장애 대응 인터뷰 정리
    • Observability — 면접 답변 프레임
    • [초안] 시니어 Java 백엔드 면접 마스터 플레이북 — 김병태
    • [초안] NSC 슬롯팀 경험 기반 질문 은행 — 도메인 모델링·동시성·성능·AI 협업
  • java 페이지로 이동
    • concurrency 페이지로 이동
    • jdbc 페이지로 이동
    • opentelemetry 페이지로 이동
    • spring 페이지로 이동
    • spring-batch 페이지로 이동
    • 더_자바_코드를_조작하는_다양한_방법 페이지로 이동
    • [초안] Java 동시성 락 정리 — 커머스 메뉴/프로모션 정책 캐시 갱신 관점
    • [초안] JVM 튜닝 실전: 메모리 구조부터 Virtual Threads, GC 튜닝, 프로파일링까지
    • Java의 로깅 환경
    • MDC (Mapped Diagnostic Context)
    • Java StampedLock — 읽기 폭주에도 쓰기가 밀리지 않는 락
    • Virtual Thread와 Project Loom
  • javascript 페이지로 이동
    • typescript 페이지로 이동
    • AbortController
    • Async Iterator와 제너레이터
    • CommonJS와 ECMAScript Modules
    • 제너레이터(Generator)
    • Http Client
    • Node 백엔드 운영 패턴 — Streams 백프레셔, pipe/pipeline, 멱등성 vs 분산 락
    • Node.js
    • npm vs pnpm — 어떤 기준으로 선택했나
    • `setImmediate()`
  • kafka 페이지로 이동
    • [초안] Kafka 기본 개념 — 토픽, 파티션, 오프셋, 복제
    • Kafka를 사용하여 **데이터 정합성**은 어떻게 유지해야 할까?
    • [초안] Kafka 실전 설계: 파티션 전략, 컨슈머 그룹, 전달 보장, 재시도, 순서 보장 트레이드오프
    • 메시지 전송 신뢰성
  • linux 페이지로 이동
    • fsync — 리눅스 파일 동기화 시스템 콜
    • tmux — Terminal Multiplexer
  • network 페이지로 이동
    • L2(스위치)와 L3(라우터)의 역할 차이
    • L4와 VIP(Virtual IP Address)
    • IP Subnet
  • python 페이지로 이동
    • Python async/await — CompletableFuture·Reactor 와 다른 점, 그리고 blocking I/O 함정
    • Python 의존성 관리 — Java Maven/Gradle 사용자가 만나는 첫 충격
    • FastAPI 기초 — Spring Boot 사용자가 빠르게 익히는 법
    • GPU·CUDA·MPS 기초 — 자바 백엔드 개발자가 처음 만나는 그림
    • Multi-process GPU 워크로드 — 자바 ThreadPool 사용자가 만나는 모델 차이
    • Java 개발자를 위한 Python 심화 — OOP·데코레이터·컨텍스트 매니저
    • PyTorch 기초 — 텐서, 디바이스, 그리고 모델 로딩이 무거운 이유
    • Java 개발자를 위한 Python 문법 핵심
    • ML 서비스 성능 분석 워크플로 — 자바 백엔드 트러블슈팅과 다른 점
    • OCR 동작 원리 — Layout · Text · Post-process 3단계
    • Python 서버의 RSS 가 안 줄어드는 이유 — gc.collect 의 한계와 malloc_trim
  • rabbitmq 페이지로 이동
    • [초안] RabbitMQ Basics — 실전 백엔드 관점에서 정리하는 메시지 브로커 기본기
    • [초안] RabbitMQ vs Kafka — 백엔드 메시징 선택 기준과 실전 운영 관점
  • security 페이지로 이동
    • [초안] 시니어 백엔드를 위한 보안 / 인증 스터디 팩 — Spring Security, JWT, OAuth2, OWASP Top 10
    • [초안] Spring Security 6.x OAuth2 + JWT 상용 인증 설계 — Grant 선택, Resource Server, Refresh Rotation, 로그아웃
  • task 페이지로 이동
    • ai-service-team 페이지로 이동
    • nsc-slot 페이지로 이동
    • sb-dev-team 페이지로 이동
    • the-future-company 페이지로 이동
  • testing 페이지로 이동
    • [초안] 시니어 Java 백엔드를 위한 테스트 전략 완전 정리 — 피라미드부터 TestContainers, 마이크로벤치, Contract까지
  • travel 페이지로 이동
    • 오사카 3박 4일 일정표: 우메다 쇼핑, USJ, 난바·도톤보리, 오사카성
  • web 페이지로 이동
    • [초안] HTTP / Cookie / Session / Token 인증 기본기 — 레거시 JSP와 모바일 API가 공존하는 백엔드 관점
FOS-BLOG · FOOTERall systems normal·v0.1 · 2026.04.27·seoul, kr
Ffos-blog/study

개발 학습 기록을 정리하는 블로그입니다. 공부하면서 기록하고, 기록하면서 다시 배웁니다.

visitors
01site
  • Home↗
  • Posts↗
  • Categories↗
  • About↗
02policy
  • 소개/about
  • 개인정보처리방침/privacy
  • 연락처/contact
03categories
  • AI↗
  • Algorithm↗
  • DB↗
  • DevOps↗
  • Java/Spring↗
  • JS/TS↗
  • React↗
  • Next.js↗
  • System↗
04connect
  • GitHub@jon890↗
  • Source repositoryjon890/fos-study↗
  • RSS feed/rss.xml↗
  • Newsletter매주 1 회 · 한 편의 글→
© 2026 FOS Study. All posts MIT-licensed.
built with·Next.js·Tailwind v4·Geist·Pretendard·oklch
fos-blog/AI/[초안] RAG 환각 제어 — groundi…
ai

[초안] RAG 환각 제어 — grounding 재주입, sourceQuote 검증, 배치 정합성, bulk 색인

RAG(Retrieval-Augmented Generation)를 데모에서 제품으로 올릴 때 가장 자주 무너지는 지점이 환각(hallucination)이다. 검색은 잘 되는데 LLM이 검색되지 않은 사실을 지어내거나, 검색된 문서에 없는 인용을 만들어 붙이거나, 색인이 원본과 어긋나서 "맞는 답변인데 근거가 옛 문서"인 상황이 생긴다. 이 문서는 검색 품질...

2026.06.07·9 min read·14 views

RAG(Retrieval-Augmented Generation)를 데모에서 제품으로 올릴 때 가장 자주 무너지는 지점이 환각(hallucination)이다. 검색은 잘 되는데 LLM이 검색되지 않은 사실을 지어내거나, 검색된 문서에 없는 인용을 만들어 붙이거나, 색인이 원본과 어긋나서 "맞는 답변인데 근거가 옛 문서"인 상황이 생긴다.

이 문서는 검색 품질 튜닝(Hybrid Search, Reranking)과는 다른 레이어인 생성 단계와 색인 정합성에서의 환각 제어를 다룬다. 검색 자체의 품질은 OpenSearch RAG 검색 품질 높이기에서, 색인 배치의 전체 구현 흐름은 Confluence 벡터 색인 배치에서 다루므로, 여기서는 그 위에 얹는 신뢰 레이어에 집중한다.


왜 이 주제가 중요한가

비결정적인 LLM 위에 제품을 올린다는 것은, 모델이 틀릴 수 있다는 전제를 깔고 틀린 출력이 사용자에게 도달하기 전에 거르는 구조를 만든다는 뜻이다. 검색 정확도를 99%로 올려도 마지막 생성 단계에서 모델이 근거 없는 문장을 한 줄 끼워 넣으면 답변 전체의 신뢰가 깨진다.

RAG 환각은 크게 세 종류로 나뉜다.

  • 검색 실패형 — 애초에 관련 문서가 검색되지 않아 모델이 빈손으로 답을 지어낸다.
  • 불충실형(unfaithful) — 문서는 검색됐는데 모델이 그 내용을 벗어나 답한다. 가장 잡기 어렵다.
  • 정합성 붕괴형 — 검색·생성은 정상인데 색인된 문서가 원본과 어긋나(삭제된 문서, 옛 버전) 사실상 틀린 근거로 답한다.

세 종류는 막는 위치가 다르다. 검색 실패형은 검색 단계에서, 불충실형은 생성 전후에서, 정합성 붕괴형은 색인 파이프라인에서 막는다. 한 군데만 막으면 나머지가 새므로, 네 가지 기법을 레이어로 겹쳐 쌓는다.


1. grounding 재주입 — 모델을 근거 안에 가둔다

grounding은 모델이 답변을 만들 때 참고해야 할 근거 문맥을 명시적으로 묶어 주입하는 것이다. 단순히 검색 결과를 프롬프트에 붙이는 것을 넘어서, "이 문맥 밖의 지식은 쓰지 말라"는 제약과 "근거를 못 찾으면 모른다고 답하라"는 탈출구를 함께 건다.

재주입(re-injection)이라고 부르는 이유는, 한 번 붙이고 끝이 아니라 멀티턴이나 도구 호출 사이마다 grounding을 다시 박아 넣기 때문이다. 대화가 길어지면 앞서 주입한 문맥이 컨텍스트 윈도우 뒤로 밀리거나, 모델이 자기 이전 답변을 사실처럼 재인용하면서 근거가 흐려진다. 매 생성 직전에 검색 결과를 다시 주입하면 모델의 "기준점"이 항상 최신 근거로 리셋된다.

나쁜 예 — 근거를 그냥 붙이기만 함

text
다음은 참고 문서입니다:
{검색된 문서 3개를 이어붙인 긴 텍스트}
 
질문: 환불 정책이 어떻게 되나요?

이 구조는 모델이 문서를 "참고"만 하고 자기 사전지식으로 답을 보강하는 것을 막지 못한다. 근거 밖 문장이 섞여도 탐지할 방법이 없다.

개선 예 — 제약 + 인용 강제 + 탈출구

text
당신은 아래 [근거] 안의 정보만 사용해 답한다.
[근거]에 없는 내용은 추측하지 않는다.
근거가 부족하면 정확히 "제공된 문서에서 확인할 수 없습니다"라고 답한다.
모든 핵심 주장 뒤에 근거의 [doc_id]를 붙인다.
 
[근거]
[doc_1] 환불은 결제일로부터 7일 이내 가능하다.
[doc_2] 디지털 상품은 다운로드 시작 시 환불이 제한된다.
 
질문: 환불 정책이 어떻게 되나요?

핵심은 세 가지다.

  • 닫힌 도메인 지시 — "근거 안의 정보만" 제약으로 외부 지식 사용을 억제한다.
  • 명시적 abstention — 모른다고 답할 정확한 문구를 정해 둔다. 이게 없으면 모델은 빈칸을 지어내서 채운다.
  • doc_id 인용 강제 — 다음 단계인 sourceQuote 검증의 입력이 된다. 인용이 없으면 검증할 대상도 없다.

grounding은 환각을 "줄이지만" 없애지는 못한다. 모델은 여전히 제약을 어길 수 있다. 그래서 출력을 믿지 말고 검증 단계를 뒤에 둔다.


2. sourceQuote 검증 — 인용이 진짜 원문에 있는가

sourceQuote 검증은 모델이 답변에 붙인 인용·근거가 실제 검색된 문서 안에 존재하는지 기계적으로 확인하는 단계다. grounding이 "근거를 잘 주입하는" 입력 측 방어라면, sourceQuote 검증은 "출력이 근거를 지켰는지" 확인하는 출력 측 방어다.

전략은 두 단계로 나뉜다.

2-1. 구조화된 인용 추출

모델에게 자유 텍스트가 아니라 인용 가능한 구조로 출력하게 한다.

json
{
  "answer": "환불은 결제일로부터 7일 이내 가능합니다.",
  "claims": [
    {
      "statement": "환불은 결제일로부터 7일 이내 가능하다",
      "source_doc_id": "doc_1",
      "source_quote": "환불은 결제일로부터 7일 이내 가능하다"
    }
  ]
}

source_quote는 모델이 "이 문장이 근거 문서에 있다"고 주장하는 원문 조각이다. 이제 이게 거짓인지 검사할 수 있다.

2-2. 원문 대조 검증

각 source_quote를 해당 source_doc_id의 원본 텍스트와 대조한다. 완전 일치는 너무 빡빡하므로 보통 정규화 후 부분 문자열 매칭이나 임베딩 유사도로 판정한다.

java
public record QuoteCheck(String docId, String quote, boolean grounded, double score) {}
 
public QuoteCheck verify(String docId, String quote, Map<String, String> sourceDocs) {
    String source = sourceDocs.get(docId);
    if (source == null) {
        // 모델이 검색되지도 않은 문서를 인용 -> 명백한 환각
        return new QuoteCheck(docId, quote, false, 0.0);
    }
    String normSource = normalize(source);
    String normQuote = normalize(quote);
 
    if (normSource.contains(normQuote)) {
        return new QuoteCheck(docId, quote, true, 1.0);   // 원문에 그대로 존재
    }
    double sim = embeddingSimilarity(normQuote, normSource);   // 의역 인용 대비
    return new QuoteCheck(docId, quote, sim >= 0.85, sim);
}
 
private String normalize(String s) {
    return s.replaceAll("\\s+", " ").trim().toLowerCase();
}

검증 결과로 무엇을 할지는 제품 성격에 따라 다르다.

  • grounded = false인 claim을 답변에서 제거하고 나머지만 사용자에게 보여준다.
  • claim 다수가 실패하면 답변 전체를 폐기하고 재생성하거나 abstention 메시지로 대체한다.
  • 실패율을 지표로 쌓아 모델·프롬프트 회귀를 감지한다.

이 단계는 LLM-as-a-judge로 대체하거나 보강할 수도 있다. judge를 언제 믿고 언제 의심할지는 Agentic Workflow 평가와 Risk Gate 설계에서 다룬 신뢰 기준과 같은 맥락이다. 핵심 원칙은 같다. 모델 출력을 또 다른 모델로만 검증하면 두 모델이 같은 방식으로 틀릴 때 못 잡는다. 문자열 대조 같은 결정적 검증을 1차로 깔고, 의역·요약처럼 결정적으로 못 잡는 부분만 judge에 위임한다.


3. RAG 배치 정합성 — 색인이 원본을 따라가는가

검색과 생성이 완벽해도 색인된 문서가 원본과 어긋나면 모델은 "옛 사실"을 충실하게 인용한다. 충실하지만 틀린 답이다. 이건 프롬프트로 못 막고 색인 파이프라인에서 막아야 한다.

정합성이 깨지는 전형적 경로는 다음과 같다.

  • 삭제 누락 — 원본에서 지운 문서가 색인에는 남아 검색된다.
  • 갱신 지연 — 원본은 바뀌었는데 임베딩 재계산이 밀려 옛 벡터가 검색된다.
  • 부분 실패 — 배치 도중 임베딩 API가 실패해 일부 문서만 갱신되고 나머지는 옛 상태로 남는다.
  • 중복 색인 — 재시도 과정에서 같은 문서가 두 번 들어가 검색 결과를 오염시킨다.

대응 설계의 핵심은 원본을 진실의 단일 출처로 두고 색인을 그 파생으로 취급하는 것이다.

3-1. 콘텐츠 해시로 변경 감지

문서 본문의 해시를 메타데이터로 함께 색인하면, 다음 배치에서 해시가 같은 문서는 임베딩을 다시 계산하지 않고 건너뛴다. 비용을 줄이면서 갱신 누락도 줄인다.

java
String contentHash = sha256(document.body());
if (contentHash.equals(indexedHashOf(document.id()))) {
    return;   // 변경 없음 -> 재색인 스킵
}
// 변경됨 -> 임베딩 재계산 후 같은 doc_id로 덮어쓰기(upsert)

3-2. 삭제 동기화

원본에 없는데 색인에 있는 문서를 주기적으로 청소한다. 매 배치마다 "이번에 본 doc_id 집합"을 모아 두고, 색인에는 있지만 그 집합에 없는 문서를 삭제하거나 soft-delete 플래그를 세운다.

3-3. 멱등 upsert

문서 ID를 결정적으로 만들어(원본 ID 기반) 같은 문서는 항상 같은 _id로 들어가게 한다. 재시도해도 새 문서가 추가되지 않고 덮어써지므로 중복이 원천 차단된다. 배치의 재시작 가능성과 청크 처리 설계는 Confluence 벡터 색인 배치에서 이어진다.


4. OpenSearch bulk indexing — 대량 색인을 안전하게

수만~수십만 문서를 한 건씩 색인하면 네트워크 왕복 비용이 폭발한다. OpenSearch는 _bulk API로 여러 작업을 한 요청에 묶는다. 다만 bulk는 빠른 만큼 부분 실패와 정합성 함정이 있어 그냥 쓰면 위험하다.

4-1. bulk 요청 형태

bulk는 액션 메타 줄과 본문 줄을 번갈아 보내는 NDJSON 포맷이다.

bash
curl -s -X POST "localhost:9200/_bulk" \
  -H 'Content-Type: application/x-ndjson' \
  --data-binary @- <<'EOF'
{ "index": { "_index": "docs", "_id": "doc_1" } }
{ "title": "환불 정책", "body": "환불은 7일 이내", "embedding": [0.12, 0.04], "content_hash": "a1b2" }
{ "index": { "_index": "docs", "_id": "doc_2" } }
{ "title": "디지털 상품", "body": "다운로드 시 제한", "embedding": [0.31, 0.22], "content_hash": "c3d4" }
EOF

_id를 명시하면 멱등 upsert가 되어 재시도 시 중복이 생기지 않는다. ID를 비우면 OpenSearch가 임의 ID를 부여해 재시도마다 새 문서가 쌓이므로 정합성이 깨진다.

4-2. 부분 실패를 반드시 확인한다

bulk는 요청 단위로 200을 반환해도 개별 항목이 실패할 수 있다. 응답의 errors 플래그와 각 항목 status를 검사하지 않으면 일부 문서가 누락된 채로 "성공"으로 넘어간다.

java
BulkResponse resp = client.bulk(bulkRequest);
if (resp.errors()) {
    for (BulkResponseItem item : resp.items()) {
        if (item.error() != null) {
            log.warn("bulk item 실패 docId={} reason={}", item.id(), item.error().reason());
            retryQueue.add(item.id());   // 실패 항목만 재시도 큐로
        }
    }
}

4-3. 배치 크기와 refresh 튜닝

  • 배치 크기 — 한 bulk에 너무 많이 담으면 메모리·타임아웃 위험이 커진다. 보통 문서당 크기에 따라 500~5000건, 또는 5~15MB를 한 묶음으로 잡고 실측으로 조정한다.
  • refresh 끄기 — 대량 색인 중에는 refresh_interval을 -1로 두어 세그먼트 생성 비용을 줄이고, 색인이 끝난 뒤 한 번 refresh 한다. 색인 중 검색 가시성과 처리량의 trade-off다. 세부 동작은 refresh interval 참고.
bash
# 색인 시작 전: refresh 비활성화
curl -X PUT "localhost:9200/docs/_settings" -H 'Content-Type: application/json' -d'
{ "index": { "refresh_interval": "-1" } }'
 
# 대량 bulk 색인 ...
 
# 색인 종료 후: 원복 + 강제 refresh
curl -X PUT "localhost:9200/docs/_settings" -H 'Content-Type: application/json' -d'
{ "index": { "refresh_interval": "1s" } }'
curl -X POST "localhost:9200/docs/_refresh"

로컬 실습 환경

도커로 단일 노드 OpenSearch를 띄우고 위 흐름을 직접 돌려 본다.

bash
docker run -d --name opensearch-lab \
  -p 9200:9200 -p 9600:9600 \
  -e "discovery.type=single-node" \
  -e "DISABLE_SECURITY_PLUGIN=true" \
  opensearchproject/opensearch:2.13.0
 
# 헬스 체크
curl -s "localhost:9200/_cluster/health?pretty"
 
# 색인 생성 (knn 활성화 + content_hash 매핑)
curl -X PUT "localhost:9200/docs" -H 'Content-Type: application/json' -d'
{
  "settings": { "index": { "knn": true, "refresh_interval": "1s" } },
  "mappings": {
    "properties": {
      "title": { "type": "text" },
      "body": { "type": "text" },
      "content_hash": { "type": "keyword" },
      "embedding": { "type": "knn_vector", "dimension": 2 }
    }
  }
}'

이 위에서 (1) bulk로 문서를 넣고, (2) 같은 _id로 다시 넣어 중복이 안 생기는지 확인하고, (3) content_hash가 같을 때 스킵 로직을 태우고, (4) 삭제 동기화로 사라진 문서가 검색에서 빠지는지 본다.


점검 질문 (면접·복습용)

특정 조직 맥락이 아니라 일반 RAG 제품 설계 관점의 질문이다.

  • RAG에서 환각을 검색·생성·색인 세 레이어로 나눠 막아야 하는 이유는 무엇인가. 한 레이어만 막으면 어디가 새는가.
  • grounding을 매 턴 재주입하는 이유는 무엇인가. 한 번만 주입하면 어떤 문제가 생기는가.
  • 모델이 "모른다"고 답하게 만드는 abstention 문구가 왜 환각 제어에 중요한가.
  • sourceQuote 검증을 LLM-as-a-judge로만 하지 않고 문자열 대조를 1차로 까는 이유는 무엇인가.
  • 검색과 생성이 정상인데도 답이 틀릴 수 있는 색인 정합성 붕괴 시나리오를 설명해 보라.
  • bulk 색인에서 _id를 명시하지 않으면 재시도 시 무슨 일이 생기는가.
  • bulk 응답이 200인데도 일부 문서가 누락될 수 있는 이유와, 그것을 탐지하는 방법은 무엇인가.
  • 대량 색인 중 refresh_interval을 끄는 이유와 그 trade-off는 무엇인가.

체크리스트

  • 생성 프롬프트에 닫힌 도메인 제약 + abstention 문구 + 인용 강제가 모두 들어가 있는가.
  • 멀티턴·도구 호출 사이에 grounding을 재주입하는가.
  • 모델 출력을 구조화(claim + source_quote)해서 검증 가능한 형태로 받는가.
  • source_quote를 원문과 결정적으로 대조하고, 실패한 claim을 제거/재생성하는가.
  • 검색되지 않은 doc_id 인용을 명백한 환각으로 즉시 걸러내는가.
  • 콘텐츠 해시로 변경 없는 문서의 재색인을 스킵하는가.
  • 원본에서 삭제된 문서를 색인에서 동기화 제거하는가.
  • 문서 _id를 결정적으로 만들어 멱등 upsert를 보장하는가.
  • bulk 응답의 errors와 항목별 status를 검사하고 실패 항목만 재시도하는가.
  • 대량 색인 시 refresh를 끄고, 종료 후 원복 + 강제 refresh 하는가.

관련 문서

  • OpenSearch RAG 검색 품질 높이기 — Hybrid Search, Reranking, Sentence Window (검색 레이어)
  • Confluence 벡터 색인 배치 — Spring Batch 색인 파이프라인 구현
  • Agentic Workflow 평가와 Risk Gate 설계 — LLM-as-a-judge 신뢰 기준, risk gate
  • refresh interval — 색인 가시성과 처리량 trade-off
on this page
  • 01왜 이 주제가 중요한가
  • 021. grounding 재주입 — 모델을 근거 안에 가둔다
  • 나쁜 예 — 근거를 그냥 붙이기만 함
  • 개선 예 — 제약 + 인용 강제 + 탈출구
  • 032. sourceQuote 검증 — 인용이 진짜 원문에 있는가
  • 2-1. 구조화된 인용 추출
  • 2-2. 원문 대조 검증
  • 043. RAG 배치 정합성 — 색인이 원본을 따라가는가
  • 3-1. 콘텐츠 해시로 변경 감지
  • 3-2. 삭제 동기화
  • 3-3. 멱등 upsert
  • 054. OpenSearch bulk indexing — 대량 색인을 안전하게
  • 4-1. bulk 요청 형태
  • 4-2. 부분 실패를 반드시 확인한다
  • 4-3. 배치 크기와 refresh 튜닝
  • 06로컬 실습 환경
  • 07점검 질문 (면접·복습용)
  • 08체크리스트
  • 09관련 문서

이런 글도

  • 스킬 문서를 신경망처럼 학습시킨다 — Microsoft SkillOpt 분석
    나는 Claude Code 위에서 30개가 넘는 개인 스킬(skill)을 운영한다. 블로그 글 작성, 이력서 갱신, 주간보고, 사내 결재 자동화 같은 반복 워크플로우를 각각 SKILL.md 한 장으로 정의해두고 쓴다. 이 스킬들은 시간이 지나면서 점점 커진다. 한 번 실수하면 "이런 함정이 있더라"를 문서에 적어두고, 다음에 같은 실수를 피하는 식이다. 그...
    🤖 ai
    ai
    2026.06.12
  • Claude Code 메모리: CLAUDE.md와 .claude/rules를 규칙으로 쓰는 법
    진행 기간: 2026.06 Claude Code로 한 레포를 오래 다루다 보면 "매번 같은 걸 다시 설명하는" 순간이 온다. PR 본문은 이렇게 써라, Dooray 업무 제목은 이 형식이다, 한국어로 풀어 써라. 이걸 어디에 적어둬야 Claude가 실제로 지키는지 — 그게 이 글의 주제다. 나는 그동안 이런 규칙을 프로젝트 안 .claude/skills/s...
    🤖 ai
    ai
    2026.06.08
  • [초안] LLM 평가 프레임워크: 골든셋, 회귀 테스트, LLM-as-a-judge, 사람 피드백 루프
    LLM 기반 기능은 한 가지 곤란한 성질을 가진다. 같은 입력에도 출력이 매번 달라지고, "좋아졌다"가 숫자로 잘 잡히지 않는다. 프롬프트 한 줄을 고치거나 모델 버전을 올렸을 때, 그게 정말 개선인지 아니면 어떤 케이스를 조용히 망가뜨린 퇴행인지 눈으로는 알 수 없다. 그래서 LLM 제품의 신뢰성은 모델 자체보다 평가 체계(evaluation) 에서 갈린...
    🤖 ai
    ai
    2026.06.07
  • [초안] AI 제품 백엔드 안정성 — 지연·비용·권한·관측·도구 실패·폴백/재시도/사람 에스컬레이션
    LLM을 붙인 제품의 백엔드는 일반 CRUD 백엔드와 안정성 모델이 다르다. 일반 백엔드는 "DB가 살아 있으면 같은 입력에 같은 출력"이 기본 전제다. AI 제품 백엔드는 그렇지 않다. - 응답이 비결정적이다 — 같은 입력에도 모델 출력이 매번 달라진다. 그래서 "정상 응답"의 정의 자체를 우리가 따로 만들어야 한다. - 지연이 크고 가변적이다 — 모델...
    🤖 ai
    ai
    2026.06.07

댓글 (0)