fos-blog/study
01 / 홈02 / 카테고리03 / 시리즈
01 / 홈02 / 카테고리03 / 시리즈

카테고리

  • AI 페이지로 이동
    • RAG 페이지로 이동
    • langgraph 페이지로 이동
    • agents.md
    • BMAD Method — AI 에이전트로 애자일 개발하는 방법론
    • Claude Code 메모리: CLAUDE.md와 .claude/rules를 규칙으로 쓰는 법
    • Claude Code의 Skill 시스템 - 개발자를 위한 AI 자동화의 새로운 차원
    • Claude Code를 5주 더 쓴 결과 — 스킬·CLAUDE.md를 키워가는 방식
    • Claude Code를 11일 동안 쓴 결과 — 데이터로 본 나의 사용 패턴
    • Claude Code 멀티 에이전트 — Teams
    • AI 에이전트와 디자인의 새 컨벤션 — DESIGN.md, Google Stitch, Claude Design
    • Docling — IBM Research 의 문서 파싱 toolkit 상세 정리
    • 하네스 엔지니어링 실전 — 4인 에이전트 팀으로 코딩 파이프라인 구축하기
    • 하네스 엔지니어링 — 오래 실행되는 AI 에이전트를 위한 설계
    • 멀티모달 LLM (Multimodal Large Language Model)
    • AI 에이전트와 함께 MVP 만들기 — dooray-cli 사례
    • OpenClaw는 context와 memory를 어떻게 관리하나 — 나만의 에이전트를 구성하는 법
    • OpenClaw vs Hermes Agent — 갈아탈까 고민하며 정리한 비교
    • 스킬 문서를 신경망처럼 학습시킨다 — Microsoft SkillOpt 분석
  • ai 페이지로 이동
    • agent 페이지로 이동
    • [초안] AI 제품 백엔드 안정성 — 지연·비용·권한·관측·도구 실패·폴백/재시도/사람 에스컬레이션
    • [초안] LLM 평가 프레임워크: 골든셋, 회귀 테스트, LLM-as-a-judge, 사람 피드백 루프
  • algorithm 페이지로 이동
    • live-coding 페이지로 이동
    • 분산 계산을 위한 알고리즘
  • apartment 페이지로 이동
    • 구리 럭키아파트 24평 인테리어 레퍼런스 모음
  • architecture 페이지로 이동
    • [초안] 시니어 백엔드를 위한 API 설계 실전 스터디 팩 — REST · 멱등성 · 페이지네이션 · 버전 전략
    • [초안] API Versioning과 Backward Compatibility: 시니어 백엔드 관점 정리
    • 캐시 설계 전략 총정리
    • [초안] CJ푸드빌 디지털 채널 면접: 슬롯 도메인 경험을 커머스 도메인 설계 능력으로 번역하기
    • [초안] 커머스 Spring 서비스에 Clean/Hexagonal Architecture를 실용적으로 적용하기
    • [초안] 커머스 도메인 모델링: 주문·재고·노출의 세 축을 분리해서 설계하기
    • 커머스 주문 상태와 데이터 정합성 기본기 — CJ푸드빌 면접 대비
    • [초안] 쿠폰/프로모션 동시성과 정합성 기본기 — 선착순·중복 사용 방지·발급/사용/복구
    • [초안] DDD와 도메인 모델링: 시니어 백엔드 관점의 전술/전략 패턴 실전 가이드
    • [초안] Decorator & Chain of Responsibility — 행동을 체인으로 조립하는 두 가지 방식
    • 디자인 패턴
    • [초안] 분산 아키텍처 완전 정복: Java 백엔드 시니어 인터뷰 대비 실전 가이드
    • [초안] 분산 트랜잭션과 Outbox 패턴 — 왜 2PC를 피하고 어떻게 대신할 것인가
    • 분산 트랜잭션
    • [초안] e-Commerce 주문·결제 도메인 모델링: 상태머신, 멱등성, Outbox/Saga 실전 정리
    • [초안] Event Sourcing과 CQRS — 상태가 아니라 변화를 저장한다는 발상
    • [초안] F&B 쿠폰·프로모션·멤버십·포인트 설계
    • [초안] F&B · e-Commerce 디지털 채널 도메인 한 장 정리 — CJ푸드빌 디지털 채널 백엔드 면접 대비
    • [초안] F&B 주문/매장/픽업 상태머신 설계 — CJ푸드빌 디지털 채널 백엔드 관점
    • [초안] F&B 이커머스 결제·환불·정산 운영 가이드
    • [초안] Hexagonal / Clean Architecture를 Spring 백엔드에 적용하기
    • [초안] 대규모 커머스 트래픽 처리 패턴 — 1,600만 고객과 올영세일을 버티는 설계
    • [초안] 레거시 JSP/jQuery 화면과 신규 API가 공존하는 백엔드 운영 전략
    • [초안] MSA 서비스 간 통신: Redis [Cache-Aside](../database/redis/cache-aside.md) × Kafka 이벤트 하이브리드 설계
    • [초안] Observability 입문: 시니어 백엔드가 장애를 탐지하고 대응하는 방식
    • [초안] Outbox / Inbox Pattern 심화 — 분산 메시징의 정합성 문제를 DB 트랜잭션으로 풀어내기
    • [초안] 결제 도메인 멱등성과 트랜잭션 재시도 기본기
    • [초안] 시니어 백엔드를 위한 Resilience 패턴 실전 가이드 — Timeout, Retry, Circuit Breaker, Bulkhead, Backpressure
    • [초안] REST API 버저닝과 모바일 앱 하위 호환성 — CJ푸드빌 디지털 채널 백엔드 관점
    • [초안] Spring Batch vs Event-Driven — 같은 비동기처럼 보이지만 전혀 다른 두 패러다임
    • [초안] Strategy Pattern — 분기문을 없애는 설계, 시니어 백엔드 인터뷰 핵심 패턴
    • [초안] 시니어 백엔드를 위한 시스템 설계 입문 스터디 팩
    • [초안] 템플릿 메서드 패턴 - 백엔드 처리 골격을 강제하는 가장 오래되고 가장 위험한 패턴
    • [초안] 대규모 트래픽 중 무중단 마이그레이션 — Feature Flag + Shadow Mode 실전
  • database 페이지로 이동
    • mysql 페이지로 이동
    • opensearch 페이지로 이동
    • redis 페이지로 이동
    • 김영한의-실전-데이터베이스-설계 페이지로 이동
    • [초안] DB Connection Pool Saturation과 Thread Pool 격리
    • 커넥션 풀 크기는 얼마나 조정해야 할까?
    • 인덱스 - DB 성능 최적화의 핵심
    • [초안] JPA N+1과 커머스 조회 모델: 주문/메뉴/쿠폰 도메인에서 살아남기
    • [초안] MyBatis 기본기 — XML Mapper, resultMap, 동적 SQL, 운영 패턴 정리
    • [초안] MyBatis와 JPA/Hibernate 트레이드오프 — 레거시 백엔드를 다루는 시니어 관점
    • 역정규화 (Denormalization)
    • 데이터 베이스 정규화
  • devops 페이지로 이동
    • docker 페이지로 이동
    • k8s 페이지로 이동
    • k8s-in-action 페이지로 이동
    • observability 페이지로 이동
    • [초안] 커머스/F&B 채널 장애 첫 5분과 관측성 기본기
    • [초안] 운영 데이터 정합성 장애 대응 — 결제 취소 누락과 중복 적재 런북
    • Envoy Proxy
    • [초안] F&B / e-Commerce 운영 장애 대응과 모니터링 — 백엔드 관점 정리
    • Graceful Shutdown
    • [초안] 시니어 백엔드를 위한 SLO와 Error Budget 기반 장애 대응
  • finance 페이지로 이동
    • industry-cycle 페이지로 이동
    • investing 페이지로 이동
  • http 페이지로 이동
    • HTTP Connection Pool
    • HTTPS는 어떻게 안전한가 — TLS, 인증서, 그리고 termination
  • interview 페이지로 이동
    • [초안] AI 서비스 팀 경험 기반 시니어 백엔드 면접 질문 뱅크 — Spring Batch RAG / gRPC graceful shutdown / 전략 패턴 / 12일 AI 웹툰 MVP
    • [초안] 커머스/F&B 면접 답변집 — 슬롯 도메인 경험을 주문·결제·쿠폰·매장 설계로 매핑하기
    • Observability — 면접 답변 프레임
    • [초안] 시니어 Java 백엔드 면접 마스터 플레이북 — 김병태
    • [초안] NSC 슬롯팀 경험 기반 질문 은행 — 도메인 모델링·동시성·성능·AI 협업
  • java 페이지로 이동
    • concurrency 페이지로 이동
    • jdbc 페이지로 이동
    • opentelemetry 페이지로 이동
    • spring 페이지로 이동
    • spring-batch 페이지로 이동
    • 더_자바_코드를_조작하는_다양한_방법 페이지로 이동
    • [초안] Java 동시성 락 정리 — 커머스 메뉴/프로모션 정책 캐시 갱신 관점
    • [초안] JVM 튜닝 실전: 메모리 구조부터 Virtual Threads, GC 튜닝, 프로파일링까지
    • Java의 로깅 환경
    • MDC (Mapped Diagnostic Context)
    • Java StampedLock — 읽기 폭주에도 쓰기가 밀리지 않는 락
    • Virtual Thread와 Project Loom
  • javascript 페이지로 이동
    • typescript 페이지로 이동
    • AbortController
    • Async Iterator와 제너레이터
    • CommonJS와 ECMAScript Modules
    • 제너레이터(Generator)
    • Http Client
    • Node 백엔드 운영 패턴 — Streams 백프레셔, pipe/pipeline, 멱등성 vs 분산 락
    • Node.js
    • npm vs pnpm — 어떤 기준으로 선택했나
    • `setImmediate()`
  • kafka 페이지로 이동
    • [초안] Kafka 기본 개념 — 토픽, 파티션, 오프셋, 복제
    • Kafka를 사용하여 **데이터 정합성**은 어떻게 유지해야 할까?
    • [초안] Kafka 실전 설계: 파티션 전략, 컨슈머 그룹, 전달 보장, 재시도, 순서 보장 트레이드오프
    • 메시지 전송 신뢰성
    • [초안] Spring Kafka 컨슈머 오프셋 커밋과 트랜잭션 정렬: AckMode, manual ack, 멱등 처리
  • linux 페이지로 이동
    • fsync — 리눅스 파일 동기화 시스템 콜
    • tmux — Terminal Multiplexer
  • network 페이지로 이동
    • L2(스위치)와 L3(라우터)의 역할 차이
    • L4와 VIP(Virtual IP Address)
    • IP Subnet
  • python 페이지로 이동
    • Python async/await — CompletableFuture·Reactor 와 다른 점, 그리고 blocking I/O 함정
    • Python 의존성 관리 — Java Maven/Gradle 사용자가 만나는 첫 충격
    • FastAPI 기초 — Spring Boot 사용자가 빠르게 익히는 법
    • GPU·CUDA·MPS 기초 — 자바 백엔드 개발자가 처음 만나는 그림
    • Multi-process GPU 워크로드 — 자바 ThreadPool 사용자가 만나는 모델 차이
    • Java 개발자를 위한 Python 심화 — OOP·데코레이터·컨텍스트 매니저
    • PyTorch 기초 — 텐서, 디바이스, 그리고 모델 로딩이 무거운 이유
    • Java 개발자를 위한 Python 문법 핵심
    • ML 서비스 성능 분석 워크플로 — 자바 백엔드 트러블슈팅과 다른 점
    • OCR 동작 원리 — Layout · Text · Post-process 3단계
    • Python 서버의 RSS 가 안 줄어드는 이유 — gc.collect 의 한계와 malloc_trim
  • rabbitmq 페이지로 이동
    • [초안] RabbitMQ Basics — 실전 백엔드 관점에서 정리하는 메시지 브로커 기본기
    • [초안] RabbitMQ vs Kafka — 백엔드 메시징 선택 기준과 실전 운영 관점
  • security 페이지로 이동
    • [초안] 시니어 백엔드를 위한 보안 / 인증 스터디 팩 — Spring Security, JWT, OAuth2, OWASP Top 10
    • [초안] Spring Security 6.x OAuth2 + JWT 상용 인증 설계 — Grant 선택, Resource Server, Refresh Rotation, 로그아웃
  • task 페이지로 이동
    • ai-service-team 페이지로 이동
    • nsc-slot 페이지로 이동
    • sb-dev-team 페이지로 이동
    • the-future-company 페이지로 이동
  • testing 페이지로 이동
    • [초안] 시니어 Java 백엔드를 위한 테스트 전략 완전 정리 — 피라미드부터 TestContainers, 마이크로벤치, Contract까지
  • travel 페이지로 이동
    • 오사카 3박 4일 일정표: 우메다 쇼핑, USJ, 난바·도톤보리, 오사카성
  • web 페이지로 이동
    • [초안] HTTP / Cookie / Session / Token 인증 기본기 — 레거시 JSP와 모바일 API가 공존하는 백엔드 관점
FOS-BLOG · FOOTERall systems normal·v0.1 · 2026.04.27·seoul, kr
Ffos-blog/study

개발 학습 기록을 정리하는 블로그입니다. 공부하면서 기록하고, 기록하면서 다시 배웁니다.

visitors
01site
  • Home↗
  • Posts↗
  • Categories↗
  • About↗
02policy
  • 소개/about
  • 개인정보처리방침/privacy
  • 연락처/contact
03categories
  • AI↗
  • Algorithm↗
  • DB↗
  • DevOps↗
  • Java/Spring↗
  • JS/TS↗
  • React↗
  • Next.js↗
  • System↗
04connect
  • GitHub@jon890↗
  • Source repositoryjon890/fos-study↗
  • RSS feed/rss.xml↗
  • Newsletter매주 1 회 · 한 편의 글→
© 2026 FOS Study. All posts MIT-licensed.
built with·Next.js·Tailwind v4·Geist·Pretendard·oklch
fos-blog/devops/[초안] 운영 데이터 정합성 장애 대응 — …
devops

[초안] 운영 데이터 정합성 장애 대응 — 결제 취소 누락과 중복 적재 런북

결제 취소 누락과 데이터 중복 적재처럼 "돈과 데이터가 한 건 더 많거나 적은" 장애를, 원인 파악 → 조치 → 검증 → 재발 방지의 같은 4단계 루프로 다루는 운영 감각을 정리한다. 이 두 장애는 표면 증상이 정반대로 보이지만(하나는 일어나야 할 일이 안 일어났고, 하나는 일어나지 말아야 할 일이 두 번 일어났다) 뿌리는 같다. 분산 시스템에서 부수효과를...

2026.06.16·7 min read·0 views

학습 목표 한 줄

결제 취소 누락과 데이터 중복 적재처럼 "돈과 데이터가 한 건 더 많거나 적은" 장애를, 원인 파악 → 조치 → 검증 → 재발 방지의 같은 4단계 루프로 다루는 운영 감각을 정리한다.

이 두 장애는 표면 증상이 정반대로 보이지만(하나는 일어나야 할 일이 안 일어났고, 하나는 일어나지 말아야 할 일이 두 번 일어났다) 뿌리는 같다. 분산 시스템에서 부수효과를 정확히 한 번(exactly-once) 일으키지 못한 결과다. 그래서 대응 도구도 거의 겹친다.

이 문서는 개념 자체보다 "실제로 터졌을 때 무엇을 어떤 순서로 하는가"에 집중한다. 멱등성·상태기계 개념은 결제 도메인 멱등성과 트랜잭션 재시도 기본기, 정산·대사 운영은 F&B 이커머스 결제·환불·정산 운영 가이드, 장애 대응 의사결정 언어는 SLO와 Error Budget 기반 장애 대응을 함께 본다.

1. 두 장애의 공통 구조

두 장애 모두 외부 또는 내부 호출 사슬 어딘가에서 **"성공했는지 모르겠다"**는 모호한 상태가 생겼을 때 시작된다.

  • 호출자는 타임아웃·커넥션 끊김으로 결과를 못 받았다.
  • 호출자가 안전하게 굴려고 재시도했다.
  • 그런데 수신자는 사실 첫 요청을 이미 처리했다.

여기서 분기한다.

  • 수신자가 재시도를 새 작업으로 처리하면 → 중복(결제 두 번, row 두 번 적재).
  • 호출자가 재시도를 포기하고 보정 작업(취소·환불)을 스킵하면 → 누락(취소돼야 할 결제가 안 취소됨).

즉 같은 모호함이 한쪽에선 중복으로, 다른 쪽에선 누락으로 나타난다. 대응의 핵심은 모호한 상태를 결정 가능한 상태로 바꾸는 것이다.

2. 결제 취소 누락

2-1. 어떻게 생기나 (원인 분류)

"취소·환불 요청은 들어왔는데 실제 PG 취소가 안 된" 상태다. 원인은 보통 다음 중 하나다.

  • 사용자/CS가 취소를 눌렀고 우리 DB 상태는 CANCELED로 바꿨지만, PG 취소 API 호출이 타임아웃 후 재시도 큐에 안 들어감.
  • 주문 취소와 결제 취소를 한 트랜잭션으로 묶었다가, 결제 취소 단계에서 예외가 나 롤백됐는데 후속 보정이 없음.
  • 부분취소(여러 품목 중 일부)에서 일부 라인만 취소되고 나머지가 누락.
  • 이벤트 기반 구조에서 OrderCanceled 이벤트는 발행됐지만 결제 컨슈머가 그 메시지를 유실(at-least-once 미보장).

2-2. 원인 파악

장애를 인지하면 먼저 범위와 진행 여부를 고정한다.

sql
-- 우리 DB는 취소인데 PG 취소 기록이 없는 의심 건
SELECT p.payment_id, p.order_id, p.status, p.pg_tx_id, p.updated_at
FROM payments p
WHERE p.status = 'CANCELED'
  AND p.pg_cancel_tx_id IS NULL
  AND p.updated_at >= '2026-06-12 00:00:00'
ORDER BY p.updated_at;

그다음 의심 건의 pg_tx_id로 PG 대사 파일(또는 PG 관리자 API)을 조회해 실제 PG 측 상태를 확인한다. 여기서 세 부류로 갈린다.

  • PG에도 취소 기록 있음 → 우리 표시만 늦은 것. 정합성 문제 아님.
  • PG에 승인만 있고 취소 없음 → 진짜 누락. 보정 대상.
  • PG에 승인 자체가 없음 → 별개 문제(애초에 결제가 안 된 건). 분리 조사.

로그는 traceId 기준으로 묶어 "취소 API를 호출한 적이 있는가, 응답이 무엇이었나"를 본다.

2-3. 조치

조치의 제1원칙은 멱등하게, PG를 진실원으로 보정하는 것이다.

text
보정 절차
1. 의심 건 목록을 동결(freeze)하고 사람이 검토할 수 있게 export
2. 각 건마다 PG 실제 상태 재조회 (자동 추정 금지)
3. PG에 승인만 있으면 → 멱등키를 붙여 PG 취소 API 재호출
4. PG 취소 성공 응답을 받은 뒤에만 our DB의 pg_cancel_tx_id 기록
5. 이미 PG에 취소가 있으면 → DB 기록만 동기화 (재취소 호출 금지)

핵심은 4번이다. DB를 먼저 바꾸고 PG를 부르면 또 다른 누락을 만든다. 부수효과(PG 취소) 성공을 확인한 뒤 그 결과를 기록하는 순서를 지킨다.

대량 보정이면 한 번에 다 돌리지 말고 작은 배치로 나눠 각 배치 결과를 검증하며 진행한다.

2-4. 검증

  • 보정 후 2-1의 의심 쿼리가 0건인지 다시 확인.
  • 다음 날 PG 대사 파일과 우리 payments를 대조해 취소 금액 합이 일치하는지(대사) 확인.
  • CS 인입 건(환불 문의)이 닫혔는지 교차 확인.
  • 환불 금액이 고객 계좌/카드로 실제 반영됐는지 표본 건으로 확인.

2-5. 재발 방지

  • 결제 취소는 DB 상태 변경과 외부 호출을 한 트랜잭션에 묶지 않는다. Outbox로 분리한다. Outbox/Inbox 패턴 참고.
  • 취소 요청을 큐 작업으로 남기고, 성공할 때까지 재시도하는 워커를 둔다(재시도는 멱등키 동반).
  • 매일 PG 대사 vs 내부 원장 자동 대조 배치를 돌려, 누락을 사람이 발견하기 전에 잡는다.
  • status='CANCELED' AND pg_cancel_tx_id IS NULL이 일정 시간 이상 남으면 알람.

3. 데이터 중복 적재

3-1. 어떻게 생기나

같은 데이터가 두 번 이상 저장된 상태다. 대표 원인:

  • 메시지 컨슈머가 at-least-once 의미로 동작하는데 consumer가 처리 후 offset 커밋 전에 재시작 → 같은 메시지 재처리.
  • consumer group rebalance 중 partition 재할당으로 일부 메시지 중복 소비.
  • 배치 잡이 실패 후 재실행되는데, 멱등하지 않아 이미 적재한 구간을 다시 적재.
  • API 재시도(클라이언트 또는 게이트웨이)로 같은 POST가 두 번 들어와 row 두 개 생성.
  • 업스트림 ETL이 같은 파일을 두 번 보냄.

3-2. 원인 파악

먼저 **중복의 정의(자연키)**를 정한다. "무엇이 같으면 같은 데이터인가"를 비즈니스 키로 고정해야 중복을 셀 수 있다.

sql
-- order_id + event_seq가 자연키라고 가정한 중복 탐지
SELECT order_id, event_seq, COUNT(*) AS cnt, MIN(id) AS keep_id
FROM order_events
GROUP BY order_id, event_seq
HAVING COUNT(*) > 1
ORDER BY cnt DESC;

그다음 중복이 언제 들어왔는지(created_at 분포)를 보면 원인 구간이 좁혀진다.

  • 특정 시각에 몰림 → 배치 재실행 또는 rebalance 이벤트와 대조.
  • 넓게 퍼짐 → 상시 재시도 경로(멱등성 결함)일 가능성.

소비 경로라면 consumer 로그에서 rebalance/재시작 타임스탬프를 중복 created_at과 겹쳐 본다.

3-3. 조치

text
조치 절차
1. 중복 유입을 먼저 멈춘다 (원인 경로 차단: 잡 중지, 컨슈머 일시 정지)
2. 자연키별로 남길 1건(keep_id) 규칙을 정한다 (보통 가장 이른 id 또는 가장 완전한 row)
3. 중복 row가 만든 2차 효과(집계 합산, 잔액, 카운트)를 먼저 역산/보정
4. 중복 row 삭제 또는 soft-delete
5. 다시 켜기 전에 멱등 장치(아래 3-5)를 먼저 넣는다

3번을 건너뛰면 안 된다. 중복 row만 지우고 이미 그 row로 더해진 합계·잔액을 안 고치면 데이터는 깨끗해 보여도 숫자가 틀린다. 삭제는 되돌리기 어렵다 — 운영 DB에서는 먼저 dup_backup 테이블로 복사한 뒤 삭제하는 것을 기본으로 한다.

3-4. 검증

  • 3-2 중복 탐지 쿼리가 0건인지 재확인.
  • 자연키에 unique 제약을 (가능하면) 추가하고, 추가가 실패하면 아직 중복이 남은 것이므로 다시 정리.
  • 보정한 집계/잔액을 독립 경로로 재계산해 대조.
  • 표본 자연키 몇 개를 골라 row가 정확히 1건인지 눈으로 확인.

3-5. 재발 방지

  • DB unique 제약을 자연키에 건다. 애플리케이션 체크는 동시성에서 새고, DB 제약은 마지막 방어선이다.
  • 적재를 멱등 upsert로 바꾼다(INSERT ... ON DUPLICATE KEY UPDATE 또는 INSERT ... ON CONFLICT DO NOTHING).
  • 컨슈머에 inbox/처리 이력 테이블을 둬, 이미 처리한 메시지 id면 스킵한다. Outbox/Inbox 패턴, Kafka 메시지 전달 보장 참고.
  • 배치는 처리 구간(워터마크)을 기록해 재실행 시 이미 끝난 구간을 다시 처리하지 않게 한다.
  • 컨슈머 rebalance 신뢰성은 Redis Streams consumer group 신뢰성의 ack/재처리 모델과 같은 원리로 본다.

4. 공통 재발 방지 토대

두 장애를 한 번에 줄이는 토대는 결국 같은 네 가지다.

  • 멱등키(idempotency key) — 같은 요청을 여러 번 받아도 한 번처럼 처리. 결제 재호출과 적재 재시도 모두 적용.
  • 부수효과와 DB 변경의 분리(Outbox) — 로컬 트랜잭션으로 의도를 먼저 남기고, 외부 호출은 별도 워커가 재시도.
  • DB 제약(unique)과 멱등 upsert — 애플리케이션이 새도 DB가 막는다.
  • 대사·정합성 배치 — 사람이 발견하기 전에 누락/중복을 자동으로 찾아낸다.

여기에 운영 측면에서 다음을 더한다.

  • 의심 건은 자동으로 추정해 고치지 않는다. 진실원(PG, 업스트림)을 재조회해 결정한 뒤 보정한다.
  • 보정은 작은 배치 + 단계별 검증으로, 한 번에 전체를 돌리지 않는다.
  • 삭제·취소 같은 비가역 조치 전에는 백업/동결을 먼저 한다.

5. 점검 질문

스스로 답해보며 빈 곳을 찾는다.

  • 우리 결제 취소는 DB 변경과 PG 호출 중 무엇을 먼저 하고, 실패 시 누가 재시도하나?
  • "취소됐다고 표시됐지만 PG는 안 된" 건을 매일 자동으로 찾는 배치가 있나?
  • 중복 적재의 자연키를 한 문장으로 말할 수 있나? 그 키에 DB unique 제약이 걸려 있나?
  • 컨슈머가 재시작하면 마지막 메시지를 다시 처리하나, 스킵하나? 무엇이 그것을 보장하나?
  • 중복 row를 지울 때 그 row가 더한 집계까지 같이 되돌리는 절차가 런북에 있나?

6. 실습 체크리스트

  • 로컬에서 같은 메시지를 두 번 소비시키고, inbox 테이블 유무에 따라 row가 1건/2건이 되는지 재현한다.
  • INSERT ... ON CONFLICT DO NOTHING과 단순 INSERT의 동시 실행 결과 차이를 직접 확인한다.
  • 결제 취소 흐름을 트랜잭션 결합형과 Outbox 분리형 두 가지로 만들어, PG 호출 단계에서 예외를 던졌을 때 각각 어떤 잔여 상태가 남는지 비교한다.
  • 자연키 중복이 섞인 샘플 데이터로 2-1·3-2 류의 탐지 쿼리를 직접 작성해 본다.
on this page
  • 01학습 목표 한 줄
  • 021. 두 장애의 공통 구조
  • 032. 결제 취소 누락
  • 2-1. 어떻게 생기나 (원인 분류)
  • 2-2. 원인 파악
  • 2-3. 조치
  • 2-4. 검증
  • 2-5. 재발 방지
  • 043. 데이터 중복 적재
  • 3-1. 어떻게 생기나
  • 3-2. 원인 파악
  • 3-3. 조치
  • 3-4. 검증
  • 3-5. 재발 방지
  • 054. 공통 재발 방지 토대
  • 065. 점검 질문
  • 076. 실습 체크리스트

이런 글도

  • 쿠버네티스 핵심 객체 4종 — Pod, Service, Ingress, Namespace의 관계
    쿠버네티스에서 외부 노출 작업을 하다가, Pod니 Service니 Ingress니 하는 단어들이 머릿속에서 자꾸 섞였다. 각각 뉘앙스는 알겠는데 "그래서 이것들이 서로 어떤 관계냐"가 안 잡혔다. 그래서 이 네 가지를 한 번에 정리하기로 했다. 이 네 개의 관계만 잡으면 쿠버네티스의 절반은 이해한 거라고 봐도 된다. 한 문장으로 시작하면 빠르다 — Pod는...
    🚀 devops
    devops
    2026.06.09
  • ingress-nginx 운영에서 부딪힌 디테일들 — webhook, whitelist, affinity, 리소스 사양
    ingress controller를 하나 추가하는 작업은 "차트 만들고 배포하면 끝"일 줄 알았다. 그런데 실제로는 그 과정에서 처음 보는 개념들에 계속 걸렸다. annotation으로 설정을 관리하는 방식, admission webhook이 만드는 self-lock 위험, whitelist, Pod 분산 배치, 그리고 리소스 사양까지. 하나하나는 작지만,...
    🚀 devops
    devops
    2026.06.09
  • Helm과 ArgoCD로 GitOps 하기 — chart, Application, 그리고 새 컴포넌트 추가 흐름
    쿠버네티스에 새 컴포넌트(ingress controller 하나)를 추가하는 작업을 맡고 나서야, 그동안 "어딘가에서 알아서 배포되던" 그 과정의 구조를 처음 들여다봤다. Helm 차트가 뭐고, ArgoCD가 뭘 하고, Application이라는 게 왜 또 따로 있는지. 막상 정리해보니 큰 그림은 단순했다. 그 구조와, 실제로 새 컴포넌트를 추가하려면 어디...
    🚀 devops
    devops
    2026.06.09
  • 외부 트래픽은 어떻게 Pod까지 닿는가 — LoadBalancer, Ingress Controller, 내부와 외부 분리
    회사에서 "API Gateway를 걷어내고, 쿠버네티스 앞에 LoadBalancer를 직접 붙여서 외부로 노출하자"는 작업을 맡게 됐다. 그런데 막상 들여다보니 나는 Ingress가 뭔지도 제대로 몰랐다. "외부 요청이 들어와서 서버가 응답한다" 정도로만 알고 있었지, 그 사이에 LoadBalancer니 Ingress Controller니 하는 것들이 몇...
    🚀 devops
    devops
    2026.06.09

댓글 (0)