[초안] 운영 데이터 정합성 장애 대응 — 결제 취소 누락과 중복 적재 런북

학습 목표 한 줄

결제 취소 누락과 데이터 중복 적재처럼 "돈과 데이터가 한 건 더 많거나 적은" 장애를, 원인 파악 → 조치 → 검증 → 재발 방지의 같은 4단계 루프로 다루는 운영 감각을 정리한다.

이 두 장애는 표면 증상이 정반대로 보이지만(하나는 일어나야 할 일이 안 일어났고, 하나는 일어나지 말아야 할 일이 두 번 일어났다) 뿌리는 같다. 분산 시스템에서 부수효과를 정확히 한 번(exactly-once) 일으키지 못한 결과다. 그래서 대응 도구도 거의 겹친다.

이 문서는 개념 자체보다 "실제로 터졌을 때 무엇을 어떤 순서로 하는가"에 집중한다. 멱등성·상태기계 개념은 결제 도메인 멱등성과 트랜잭션 재시도 기본기, 정산·대사 운영은 F&B 이커머스 결제·환불·정산 운영 가이드, 장애 대응 의사결정 언어는 SLO와 Error Budget 기반 장애 대응을 함께 본다.

1. 두 장애의 공통 구조

두 장애 모두 외부 또는 내부 호출 사슬 어딘가에서 **"성공했는지 모르겠다"**는 모호한 상태가 생겼을 때 시작된다.

호출자는 타임아웃·커넥션 끊김으로 결과를 못 받았다.
호출자가 안전하게 굴려고 재시도했다.
그런데 수신자는 사실 첫 요청을 이미 처리했다.

여기서 분기한다.

수신자가 재시도를 새 작업으로 처리하면 → 중복(결제 두 번, row 두 번 적재).
호출자가 재시도를 포기하고 보정 작업(취소·환불)을 스킵하면 → 누락(취소돼야 할 결제가 안 취소됨).

즉 같은 모호함이 한쪽에선 중복으로, 다른 쪽에선 누락으로 나타난다. 대응의 핵심은 모호한 상태를 결정 가능한 상태로 바꾸는 것이다.

2. 결제 취소 누락

2-1. 어떻게 생기나 (원인 분류)

"취소·환불 요청은 들어왔는데 실제 PG 취소가 안 된" 상태다. 원인은 보통 다음 중 하나다.

사용자/CS가 취소를 눌렀고 우리 DB 상태는 CANCELED로 바꿨지만, PG 취소 API 호출이 타임아웃 후 재시도 큐에 안 들어감.
주문 취소와 결제 취소를 한 트랜잭션으로 묶었다가, 결제 취소 단계에서 예외가 나 롤백됐는데 후속 보정이 없음.
부분취소(여러 품목 중 일부)에서 일부 라인만 취소되고 나머지가 누락.
이벤트 기반 구조에서 OrderCanceled 이벤트는 발행됐지만 결제 컨슈머가 그 메시지를 유실(at-least-once 미보장).

2-2. 원인 파악

장애를 인지하면 먼저 범위와 진행 여부를 고정한다.

sql

-- 우리 DB는 취소인데 PG 취소 기록이 없는 의심 건
SELECT p.payment_id, p.order_id, p.status, p.pg_tx_id, p.updated_at
FROM payments p
WHERE p.status = 'CANCELED'
  AND p.pg_cancel_tx_id IS NULL
  AND p.updated_at >= '2026-06-12 00:00:00'
ORDER BY p.updated_at;

그다음 의심 건의 pg_tx_id로 PG 대사 파일(또는 PG 관리자 API)을 조회해 실제 PG 측 상태를 확인한다. 여기서 세 부류로 갈린다.

PG에도 취소 기록 있음 → 우리 표시만 늦은 것. 정합성 문제 아님.
PG에 승인만 있고 취소 없음 → 진짜 누락. 보정 대상.
PG에 승인 자체가 없음 → 별개 문제(애초에 결제가 안 된 건). 분리 조사.

로그는 traceId 기준으로 묶어 "취소 API를 호출한 적이 있는가, 응답이 무엇이었나"를 본다.

2-3. 조치

조치의 제1원칙은 멱등하게, PG를 진실원으로 보정하는 것이다.

text

보정 절차
1. 의심 건 목록을 동결(freeze)하고 사람이 검토할 수 있게 export
2. 각 건마다 PG 실제 상태 재조회 (자동 추정 금지)
3. PG에 승인만 있으면 → 멱등키를 붙여 PG 취소 API 재호출
4. PG 취소 성공 응답을 받은 뒤에만 our DB의 pg_cancel_tx_id 기록
5. 이미 PG에 취소가 있으면 → DB 기록만 동기화 (재취소 호출 금지)

핵심은 4번이다. DB를 먼저 바꾸고 PG를 부르면 또 다른 누락을 만든다. 부수효과(PG 취소) 성공을 확인한 뒤 그 결과를 기록하는 순서를 지킨다.

대량 보정이면 한 번에 다 돌리지 말고 작은 배치로 나눠 각 배치 결과를 검증하며 진행한다.

2-4. 검증

보정 후 2-1의 의심 쿼리가 0건인지 다시 확인.
다음 날 PG 대사 파일과 우리 payments를 대조해 취소 금액 합이 일치하는지(대사) 확인.
CS 인입 건(환불 문의)이 닫혔는지 교차 확인.
환불 금액이 고객 계좌/카드로 실제 반영됐는지 표본 건으로 확인.

2-5. 재발 방지

결제 취소는 DB 상태 변경과 외부 호출을 한 트랜잭션에 묶지 않는다. Outbox로 분리한다. Outbox/Inbox 패턴 참고.
취소 요청을 큐 작업으로 남기고, 성공할 때까지 재시도하는 워커를 둔다(재시도는 멱등키 동반).
매일 PG 대사 vs 내부 원장 자동 대조 배치를 돌려, 누락을 사람이 발견하기 전에 잡는다.
status='CANCELED' AND pg_cancel_tx_id IS NULL이 일정 시간 이상 남으면 알람.

3. 데이터 중복 적재

3-1. 어떻게 생기나

같은 데이터가 두 번 이상 저장된 상태다. 대표 원인:

메시지 컨슈머가 at-least-once 의미로 동작하는데 consumer가 처리 후 offset 커밋 전에 재시작 → 같은 메시지 재처리.
consumer group rebalance 중 partition 재할당으로 일부 메시지 중복 소비.
배치 잡이 실패 후 재실행되는데, 멱등하지 않아 이미 적재한 구간을 다시 적재.
API 재시도(클라이언트 또는 게이트웨이)로 같은 POST가 두 번 들어와 row 두 개 생성.
업스트림 ETL이 같은 파일을 두 번 보냄.

3-2. 원인 파악

먼저 **중복의 정의(자연키)**를 정한다. "무엇이 같으면 같은 데이터인가"를 비즈니스 키로 고정해야 중복을 셀 수 있다.

sql

-- order_id + event_seq가 자연키라고 가정한 중복 탐지
SELECT order_id, event_seq, COUNT(*) AS cnt, MIN(id) AS keep_id
FROM order_events
GROUP BY order_id, event_seq
HAVING COUNT(*) > 1
ORDER BY cnt DESC;

그다음 중복이 언제 들어왔는지(created_at 분포)를 보면 원인 구간이 좁혀진다.

특정 시각에 몰림 → 배치 재실행 또는 rebalance 이벤트와 대조.
넓게 퍼짐 → 상시 재시도 경로(멱등성 결함)일 가능성.

소비 경로라면 consumer 로그에서 rebalance/재시작 타임스탬프를 중복 created_at과 겹쳐 본다.

3-3. 조치

text

조치 절차
1. 중복 유입을 먼저 멈춘다 (원인 경로 차단: 잡 중지, 컨슈머 일시 정지)
2. 자연키별로 남길 1건(keep_id) 규칙을 정한다 (보통 가장 이른 id 또는 가장 완전한 row)
3. 중복 row가 만든 2차 효과(집계 합산, 잔액, 카운트)를 먼저 역산/보정
4. 중복 row 삭제 또는 soft-delete
5. 다시 켜기 전에 멱등 장치(아래 3-5)를 먼저 넣는다

3번을 건너뛰면 안 된다. 중복 row만 지우고 이미 그 row로 더해진 합계·잔액을 안 고치면 데이터는 깨끗해 보여도 숫자가 틀린다. 삭제는 되돌리기 어렵다 — 운영 DB에서는 먼저 dup_backup 테이블로 복사한 뒤 삭제하는 것을 기본으로 한다.

3-4. 검증

3-2 중복 탐지 쿼리가 0건인지 재확인.
자연키에 unique 제약을 (가능하면) 추가하고, 추가가 실패하면 아직 중복이 남은 것이므로 다시 정리.
보정한 집계/잔액을 독립 경로로 재계산해 대조.
표본 자연키 몇 개를 골라 row가 정확히 1건인지 눈으로 확인.

3-5. 재발 방지

DB unique 제약을 자연키에 건다. 애플리케이션 체크는 동시성에서 새고, DB 제약은 마지막 방어선이다.
적재를 멱등 upsert로 바꾼다(INSERT ... ON DUPLICATE KEY UPDATE 또는 INSERT ... ON CONFLICT DO NOTHING).
컨슈머에 inbox/처리 이력 테이블을 둬, 이미 처리한 메시지 id면 스킵한다. Outbox/Inbox 패턴, Kafka 메시지 전달 보장 참고.
배치는 처리 구간(워터마크)을 기록해 재실행 시 이미 끝난 구간을 다시 처리하지 않게 한다.
컨슈머 rebalance 신뢰성은 Redis Streams consumer group 신뢰성의 ack/재처리 모델과 같은 원리로 본다.

4. 공통 재발 방지 토대

두 장애를 한 번에 줄이는 토대는 결국 같은 네 가지다.

멱등키(idempotency key) — 같은 요청을 여러 번 받아도 한 번처럼 처리. 결제 재호출과 적재 재시도 모두 적용.
부수효과와 DB 변경의 분리(Outbox) — 로컬 트랜잭션으로 의도를 먼저 남기고, 외부 호출은 별도 워커가 재시도.
DB 제약(unique)과 멱등 upsert — 애플리케이션이 새도 DB가 막는다.
대사·정합성 배치 — 사람이 발견하기 전에 누락/중복을 자동으로 찾아낸다.

여기에 운영 측면에서 다음을 더한다.

의심 건은 자동으로 추정해 고치지 않는다. 진실원(PG, 업스트림)을 재조회해 결정한 뒤 보정한다.
보정은 작은 배치 + 단계별 검증으로, 한 번에 전체를 돌리지 않는다.
삭제·취소 같은 비가역 조치 전에는 백업/동결을 먼저 한다.

5. 점검 질문

스스로 답해보며 빈 곳을 찾는다.

우리 결제 취소는 DB 변경과 PG 호출 중 무엇을 먼저 하고, 실패 시 누가 재시도하나?
"취소됐다고 표시됐지만 PG는 안 된" 건을 매일 자동으로 찾는 배치가 있나?
중복 적재의 자연키를 한 문장으로 말할 수 있나? 그 키에 DB unique 제약이 걸려 있나?
컨슈머가 재시작하면 마지막 메시지를 다시 처리하나, 스킵하나? 무엇이 그것을 보장하나?
중복 row를 지울 때 그 row가 더한 집계까지 같이 되돌리는 절차가 런북에 있나?

6. 실습 체크리스트

로컬에서 같은 메시지를 두 번 소비시키고, inbox 테이블 유무에 따라 row가 1건/2건이 되는지 재현한다.
INSERT ... ON CONFLICT DO NOTHING과 단순 INSERT의 동시 실행 결과 차이를 직접 확인한다.
결제 취소 흐름을 트랜잭션 결합형과 Outbox 분리형 두 가지로 만들어, PG 호출 단계에서 예외를 던졌을 때 각각 어떤 잔여 상태가 남는지 비교한다.
자연키 중복이 섞인 샘플 데이터로 2-1·3-2 류의 탐지 쿼리를 직접 작성해 본다.

학습 목표 한 줄

1. 두 장애의 공통 구조

두 장애 모두 외부 또는 내부 호출 사슬 어딘가에서 **"성공했는지 모르겠다"**는 모호한 상태가 생겼을 때 시작된다.

호출자는 타임아웃·커넥션 끊김으로 결과를 못 받았다.
호출자가 안전하게 굴려고 재시도했다.
그런데 수신자는 사실 첫 요청을 이미 처리했다.

여기서 분기한다.

수신자가 재시도를 새 작업으로 처리하면 → 중복(결제 두 번, row 두 번 적재).
호출자가 재시도를 포기하고 보정 작업(취소·환불)을 스킵하면 → 누락(취소돼야 할 결제가 안 취소됨).

즉 같은 모호함이 한쪽에선 중복으로, 다른 쪽에선 누락으로 나타난다. 대응의 핵심은 모호한 상태를 결정 가능한 상태로 바꾸는 것이다.

2. 결제 취소 누락

2-1. 어떻게 생기나 (원인 분류)

"취소·환불 요청은 들어왔는데 실제 PG 취소가 안 된" 상태다. 원인은 보통 다음 중 하나다.

사용자/CS가 취소를 눌렀고 우리 DB 상태는 CANCELED로 바꿨지만, PG 취소 API 호출이 타임아웃 후 재시도 큐에 안 들어감.
주문 취소와 결제 취소를 한 트랜잭션으로 묶었다가, 결제 취소 단계에서 예외가 나 롤백됐는데 후속 보정이 없음.
부분취소(여러 품목 중 일부)에서 일부 라인만 취소되고 나머지가 누락.
이벤트 기반 구조에서 OrderCanceled 이벤트는 발행됐지만 결제 컨슈머가 그 메시지를 유실(at-least-once 미보장).

2-2. 원인 파악

장애를 인지하면 먼저 범위와 진행 여부를 고정한다.

sql

-- 우리 DB는 취소인데 PG 취소 기록이 없는 의심 건
SELECT p.payment_id, p.order_id, p.status, p.pg_tx_id, p.updated_at
FROM payments p
WHERE p.status = 'CANCELED'
  AND p.pg_cancel_tx_id IS NULL
  AND p.updated_at >= '2026-06-12 00:00:00'
ORDER BY p.updated_at;

그다음 의심 건의 pg_tx_id로 PG 대사 파일(또는 PG 관리자 API)을 조회해 실제 PG 측 상태를 확인한다. 여기서 세 부류로 갈린다.

PG에도 취소 기록 있음 → 우리 표시만 늦은 것. 정합성 문제 아님.
PG에 승인만 있고 취소 없음 → 진짜 누락. 보정 대상.
PG에 승인 자체가 없음 → 별개 문제(애초에 결제가 안 된 건). 분리 조사.

로그는 traceId 기준으로 묶어 "취소 API를 호출한 적이 있는가, 응답이 무엇이었나"를 본다.

2-3. 조치

조치의 제1원칙은 멱등하게, PG를 진실원으로 보정하는 것이다.

text

보정 절차
1. 의심 건 목록을 동결(freeze)하고 사람이 검토할 수 있게 export
2. 각 건마다 PG 실제 상태 재조회 (자동 추정 금지)
3. PG에 승인만 있으면 → 멱등키를 붙여 PG 취소 API 재호출
4. PG 취소 성공 응답을 받은 뒤에만 our DB의 pg_cancel_tx_id 기록
5. 이미 PG에 취소가 있으면 → DB 기록만 동기화 (재취소 호출 금지)

핵심은 4번이다. DB를 먼저 바꾸고 PG를 부르면 또 다른 누락을 만든다. 부수효과(PG 취소) 성공을 확인한 뒤 그 결과를 기록하는 순서를 지킨다.

대량 보정이면 한 번에 다 돌리지 말고 작은 배치로 나눠 각 배치 결과를 검증하며 진행한다.

2-4. 검증

보정 후 2-1의 의심 쿼리가 0건인지 다시 확인.
다음 날 PG 대사 파일과 우리 payments를 대조해 취소 금액 합이 일치하는지(대사) 확인.
CS 인입 건(환불 문의)이 닫혔는지 교차 확인.
환불 금액이 고객 계좌/카드로 실제 반영됐는지 표본 건으로 확인.

2-5. 재발 방지

결제 취소는 DB 상태 변경과 외부 호출을 한 트랜잭션에 묶지 않는다. Outbox로 분리한다. Outbox/Inbox 패턴 참고.
취소 요청을 큐 작업으로 남기고, 성공할 때까지 재시도하는 워커를 둔다(재시도는 멱등키 동반).
매일 PG 대사 vs 내부 원장 자동 대조 배치를 돌려, 누락을 사람이 발견하기 전에 잡는다.
status='CANCELED' AND pg_cancel_tx_id IS NULL이 일정 시간 이상 남으면 알람.

3. 데이터 중복 적재

3-1. 어떻게 생기나

같은 데이터가 두 번 이상 저장된 상태다. 대표 원인:

메시지 컨슈머가 at-least-once 의미로 동작하는데 consumer가 처리 후 offset 커밋 전에 재시작 → 같은 메시지 재처리.
consumer group rebalance 중 partition 재할당으로 일부 메시지 중복 소비.
배치 잡이 실패 후 재실행되는데, 멱등하지 않아 이미 적재한 구간을 다시 적재.
API 재시도(클라이언트 또는 게이트웨이)로 같은 POST가 두 번 들어와 row 두 개 생성.
업스트림 ETL이 같은 파일을 두 번 보냄.

3-2. 원인 파악

먼저 **중복의 정의(자연키)**를 정한다. "무엇이 같으면 같은 데이터인가"를 비즈니스 키로 고정해야 중복을 셀 수 있다.

sql

-- order_id + event_seq가 자연키라고 가정한 중복 탐지
SELECT order_id, event_seq, COUNT(*) AS cnt, MIN(id) AS keep_id
FROM order_events
GROUP BY order_id, event_seq
HAVING COUNT(*) > 1
ORDER BY cnt DESC;

그다음 중복이 언제 들어왔는지(created_at 분포)를 보면 원인 구간이 좁혀진다.

특정 시각에 몰림 → 배치 재실행 또는 rebalance 이벤트와 대조.
넓게 퍼짐 → 상시 재시도 경로(멱등성 결함)일 가능성.

소비 경로라면 consumer 로그에서 rebalance/재시작 타임스탬프를 중복 created_at과 겹쳐 본다.

3-3. 조치

text

조치 절차
1. 중복 유입을 먼저 멈춘다 (원인 경로 차단: 잡 중지, 컨슈머 일시 정지)
2. 자연키별로 남길 1건(keep_id) 규칙을 정한다 (보통 가장 이른 id 또는 가장 완전한 row)
3. 중복 row가 만든 2차 효과(집계 합산, 잔액, 카운트)를 먼저 역산/보정
4. 중복 row 삭제 또는 soft-delete
5. 다시 켜기 전에 멱등 장치(아래 3-5)를 먼저 넣는다

3-4. 검증

3-2 중복 탐지 쿼리가 0건인지 재확인.
자연키에 unique 제약을 (가능하면) 추가하고, 추가가 실패하면 아직 중복이 남은 것이므로 다시 정리.
보정한 집계/잔액을 독립 경로로 재계산해 대조.
표본 자연키 몇 개를 골라 row가 정확히 1건인지 눈으로 확인.

3-5. 재발 방지

DB unique 제약을 자연키에 건다. 애플리케이션 체크는 동시성에서 새고, DB 제약은 마지막 방어선이다.
적재를 멱등 upsert로 바꾼다(INSERT ... ON DUPLICATE KEY UPDATE 또는 INSERT ... ON CONFLICT DO NOTHING).
컨슈머에 inbox/처리 이력 테이블을 둬, 이미 처리한 메시지 id면 스킵한다. Outbox/Inbox 패턴, Kafka 메시지 전달 보장 참고.
배치는 처리 구간(워터마크)을 기록해 재실행 시 이미 끝난 구간을 다시 처리하지 않게 한다.
컨슈머 rebalance 신뢰성은 Redis Streams consumer group 신뢰성의 ack/재처리 모델과 같은 원리로 본다.

4. 공통 재발 방지 토대

두 장애를 한 번에 줄이는 토대는 결국 같은 네 가지다.

멱등키(idempotency key) — 같은 요청을 여러 번 받아도 한 번처럼 처리. 결제 재호출과 적재 재시도 모두 적용.
부수효과와 DB 변경의 분리(Outbox) — 로컬 트랜잭션으로 의도를 먼저 남기고, 외부 호출은 별도 워커가 재시도.
DB 제약(unique)과 멱등 upsert — 애플리케이션이 새도 DB가 막는다.
대사·정합성 배치 — 사람이 발견하기 전에 누락/중복을 자동으로 찾아낸다.

여기에 운영 측면에서 다음을 더한다.

의심 건은 자동으로 추정해 고치지 않는다. 진실원(PG, 업스트림)을 재조회해 결정한 뒤 보정한다.
보정은 작은 배치 + 단계별 검증으로, 한 번에 전체를 돌리지 않는다.
삭제·취소 같은 비가역 조치 전에는 백업/동결을 먼저 한다.

5. 점검 질문

스스로 답해보며 빈 곳을 찾는다.

우리 결제 취소는 DB 변경과 PG 호출 중 무엇을 먼저 하고, 실패 시 누가 재시도하나?
"취소됐다고 표시됐지만 PG는 안 된" 건을 매일 자동으로 찾는 배치가 있나?
중복 적재의 자연키를 한 문장으로 말할 수 있나? 그 키에 DB unique 제약이 걸려 있나?
컨슈머가 재시작하면 마지막 메시지를 다시 처리하나, 스킵하나? 무엇이 그것을 보장하나?
중복 row를 지울 때 그 row가 더한 집계까지 같이 되돌리는 절차가 런북에 있나?

6. 실습 체크리스트

로컬에서 같은 메시지를 두 번 소비시키고, inbox 테이블 유무에 따라 row가 1건/2건이 되는지 재현한다.
INSERT ... ON CONFLICT DO NOTHING과 단순 INSERT의 동시 실행 결과 차이를 직접 확인한다.
결제 취소 흐름을 트랜잭션 결합형과 Outbox 분리형 두 가지로 만들어, PG 호출 단계에서 예외를 던졌을 때 각각 어떤 잔여 상태가 남는지 비교한다.
자연키 중복이 섞인 샘플 데이터로 2-1·3-2 류의 탐지 쿼리를 직접 작성해 본다.

[초안] 운영 데이터 정합성 장애 대응 — 결제 취소 누락과 중복 적재 런북

학습 목표 한 줄

1. 두 장애의 공통 구조

2. 결제 취소 누락

2-1. 어떻게 생기나 (원인 분류)

2-2. 원인 파악

2-3. 조치

2-4. 검증

2-5. 재발 방지

3. 데이터 중복 적재

3-1. 어떻게 생기나

3-2. 원인 파악

3-3. 조치

3-4. 검증

3-5. 재발 방지

4. 공통 재발 방지 토대

5. 점검 질문

6. 실습 체크리스트

이런 글도

댓글 (0)

[초안] 운영 데이터 정합성 장애 대응 — 결제 취소 누락과 중복 적재 런북

학습 목표 한 줄

1. 두 장애의 공통 구조

2. 결제 취소 누락

2-1. 어떻게 생기나 (원인 분류)

2-2. 원인 파악

2-3. 조치

2-4. 검증

2-5. 재발 방지

3. 데이터 중복 적재

3-1. 어떻게 생기나

3-2. 원인 파악

3-3. 조치

3-4. 검증

3-5. 재발 방지

4. 공통 재발 방지 토대

5. 점검 질문

6. 실습 체크리스트

이런 글도

댓글 (0)