fos-blog/study
01 / 홈02 / 카테고리03 / 시리즈
01 / 홈02 / 카테고리03 / 시리즈

카테고리

  • AI 페이지로 이동
    • RAG 페이지로 이동
    • langgraph 페이지로 이동
    • agents.md
    • BMAD Method — AI 에이전트로 애자일 개발하는 방법론
    • Claude Code 메모리: CLAUDE.md와 .claude/rules를 규칙으로 쓰는 법
    • Claude Code의 Skill 시스템 - 개발자를 위한 AI 자동화의 새로운 차원
    • Claude Code를 5주 더 쓴 결과 — 스킬·CLAUDE.md를 키워가는 방식
    • Claude Code를 11일 동안 쓴 결과 — 데이터로 본 나의 사용 패턴
    • Claude Code 멀티 에이전트 — Teams
    • AI 에이전트와 디자인의 새 컨벤션 — DESIGN.md, Google Stitch, Claude Design
    • Docling — IBM Research 의 문서 파싱 toolkit 상세 정리
    • 하네스 엔지니어링 실전 — 4인 에이전트 팀으로 코딩 파이프라인 구축하기
    • 하네스 엔지니어링 — 오래 실행되는 AI 에이전트를 위한 설계
    • 멀티모달 LLM (Multimodal Large Language Model)
    • AI 에이전트와 함께 MVP 만들기 — dooray-cli 사례
    • 스킬 문서를 신경망처럼 학습시킨다 — Microsoft SkillOpt 분석
  • ai 페이지로 이동
    • agent 페이지로 이동
    • [초안] AI 제품 백엔드 안정성 — 지연·비용·권한·관측·도구 실패·폴백/재시도/사람 에스컬레이션
    • [초안] LLM 평가 프레임워크: 골든셋, 회귀 테스트, LLM-as-a-judge, 사람 피드백 루프
  • algorithm 페이지로 이동
    • live-coding 페이지로 이동
    • 분산 계산을 위한 알고리즘
  • apartment 페이지로 이동
    • 구리 럭키아파트 24평 인테리어 레퍼런스 모음
  • architecture 페이지로 이동
    • [초안] 시니어 백엔드를 위한 API 설계 실전 스터디 팩 — REST · 멱등성 · 페이지네이션 · 버전 전략
    • [초안] API Versioning과 Backward Compatibility: 시니어 백엔드 관점 정리
    • 캐시 설계 전략 총정리
    • [초안] CJ푸드빌 디지털 채널 면접: 슬롯 도메인 경험을 커머스 도메인 설계 능력으로 번역하기
    • [초안] 커머스 Spring 서비스에 Clean/Hexagonal Architecture를 실용적으로 적용하기
    • [초안] 커머스 도메인 모델링: 주문·재고·노출의 세 축을 분리해서 설계하기
    • 커머스 주문 상태와 데이터 정합성 기본기 — CJ푸드빌 면접 대비
    • [초안] 쿠폰/프로모션 동시성과 정합성 기본기 — 선착순·중복 사용 방지·발급/사용/복구
    • [초안] DDD와 도메인 모델링: 시니어 백엔드 관점의 전술/전략 패턴 실전 가이드
    • [초안] Decorator & Chain of Responsibility — 행동을 체인으로 조립하는 두 가지 방식
    • 디자인 패턴
    • [초안] 분산 아키텍처 완전 정복: Java 백엔드 시니어 인터뷰 대비 실전 가이드
    • [초안] 분산 트랜잭션과 Outbox 패턴 — 왜 2PC를 피하고 어떻게 대신할 것인가
    • 분산 트랜잭션
    • [초안] e-Commerce 주문·결제 도메인 모델링: 상태머신, 멱등성, Outbox/Saga 실전 정리
    • [초안] F&B 쿠폰·프로모션·멤버십·포인트 설계
    • [초안] F&B · e-Commerce 디지털 채널 도메인 한 장 정리 — CJ푸드빌 디지털 채널 백엔드 면접 대비
    • [초안] F&B 주문/매장/픽업 상태머신 설계 — CJ푸드빌 디지털 채널 백엔드 관점
    • [초안] F&B 이커머스 결제·환불·정산 운영 가이드
    • [초안] Hexagonal / Clean Architecture를 Spring 백엔드에 적용하기
    • [초안] 대규모 커머스 트래픽 처리 패턴 — 1,600만 고객과 올영세일을 버티는 설계
    • [초안] 레거시 JSP/jQuery 화면과 신규 API가 공존하는 백엔드 운영 전략
    • [초안] MSA 서비스 간 통신: Redis [Cache-Aside](../database/redis/cache-aside.md) × Kafka 이벤트 하이브리드 설계
    • [초안] Observability 입문: 시니어 백엔드가 장애를 탐지하고 대응하는 방식
    • [초안] Outbox / Inbox Pattern 심화 — 분산 메시징의 정합성 문제를 DB 트랜잭션으로 풀어내기
    • [초안] 결제 도메인 멱등성과 트랜잭션 재시도 기본기
    • [초안] 시니어 백엔드를 위한 Resilience 패턴 실전 가이드 — Timeout, Retry, Circuit Breaker, Bulkhead, Backpressure
    • [초안] REST API 버저닝과 모바일 앱 하위 호환성 — CJ푸드빌 디지털 채널 백엔드 관점
    • [초안] Spring Batch vs Event-Driven — 같은 비동기처럼 보이지만 전혀 다른 두 패러다임
    • [초안] Strategy Pattern — 분기문을 없애는 설계, 시니어 백엔드 인터뷰 핵심 패턴
    • [초안] 시니어 백엔드를 위한 시스템 설계 입문 스터디 팩
    • [초안] 템플릿 메서드 패턴 - 백엔드 처리 골격을 강제하는 가장 오래되고 가장 위험한 패턴
    • [초안] 대규모 트래픽 중 무중단 마이그레이션 — Feature Flag + Shadow Mode 실전
  • database 페이지로 이동
    • mysql 페이지로 이동
    • opensearch 페이지로 이동
    • redis 페이지로 이동
    • 김영한의-실전-데이터베이스-설계 페이지로 이동
    • [초안] DB Connection Pool Saturation과 Thread Pool 격리
    • 커넥션 풀 크기는 얼마나 조정해야 할까?
    • 인덱스 - DB 성능 최적화의 핵심
    • [초안] JPA N+1과 커머스 조회 모델: 주문/메뉴/쿠폰 도메인에서 살아남기
    • [초안] MyBatis 기본기 — XML Mapper, resultMap, 동적 SQL, 운영 패턴 정리
    • [초안] MyBatis와 JPA/Hibernate 트레이드오프 — 레거시 백엔드를 다루는 시니어 관점
    • 역정규화 (Denormalization)
    • 데이터 베이스 정규화
  • devops 페이지로 이동
    • docker 페이지로 이동
    • k8s 페이지로 이동
    • k8s-in-action 페이지로 이동
    • observability 페이지로 이동
    • [초안] 커머스/F&B 채널 장애 첫 5분과 관측성 기본기
    • Envoy Proxy
    • [초안] F&B / e-Commerce 운영 장애 대응과 모니터링 — 백엔드 관점 정리
    • Graceful Shutdown
    • [초안] 시니어 백엔드를 위한 SLO와 Error Budget 기반 장애 대응
  • finance 페이지로 이동
    • industry-cycle 페이지로 이동
    • investing 페이지로 이동
  • http 페이지로 이동
    • HTTP Connection Pool
    • HTTPS는 어떻게 안전한가 — TLS, 인증서, 그리고 termination
  • interview 페이지로 이동
    • [초안] AI 서비스 팀 경험 기반 시니어 백엔드 면접 질문 뱅크 — Spring Batch RAG / gRPC graceful shutdown / 전략 패턴 / 12일 AI 웹툰 MVP
    • [초안] 커머스/F&B 면접 답변집 — 슬롯 도메인 경험을 주문·결제·쿠폰·매장 설계로 매핑하기
    • [초안] F&B / e-Commerce 운영 모니터링과 장애 대응 인터뷰 정리
    • Observability — 면접 답변 프레임
    • [초안] 시니어 Java 백엔드 면접 마스터 플레이북 — 김병태
    • [초안] NSC 슬롯팀 경험 기반 질문 은행 — 도메인 모델링·동시성·성능·AI 협업
  • java 페이지로 이동
    • concurrency 페이지로 이동
    • jdbc 페이지로 이동
    • opentelemetry 페이지로 이동
    • spring 페이지로 이동
    • spring-batch 페이지로 이동
    • 더_자바_코드를_조작하는_다양한_방법 페이지로 이동
    • [초안] Java 동시성 락 정리 — 커머스 메뉴/프로모션 정책 캐시 갱신 관점
    • [초안] JVM 튜닝 실전: 메모리 구조부터 Virtual Threads, GC 튜닝, 프로파일링까지
    • Java의 로깅 환경
    • MDC (Mapped Diagnostic Context)
    • Java StampedLock — 읽기 폭주에도 쓰기가 밀리지 않는 락
    • Virtual Thread와 Project Loom
  • javascript 페이지로 이동
    • typescript 페이지로 이동
    • AbortController
    • Async Iterator와 제너레이터
    • CommonJS와 ECMAScript Modules
    • 제너레이터(Generator)
    • Http Client
    • Node 백엔드 운영 패턴 — Streams 백프레셔, pipe/pipeline, 멱등성 vs 분산 락
    • Node.js
    • npm vs pnpm — 어떤 기준으로 선택했나
    • `setImmediate()`
  • kafka 페이지로 이동
    • [초안] Kafka 기본 개념 — 토픽, 파티션, 오프셋, 복제
    • Kafka를 사용하여 **데이터 정합성**은 어떻게 유지해야 할까?
    • [초안] Kafka 실전 설계: 파티션 전략, 컨슈머 그룹, 전달 보장, 재시도, 순서 보장 트레이드오프
    • 메시지 전송 신뢰성
  • linux 페이지로 이동
    • fsync — 리눅스 파일 동기화 시스템 콜
    • tmux — Terminal Multiplexer
  • network 페이지로 이동
    • L2(스위치)와 L3(라우터)의 역할 차이
    • L4와 VIP(Virtual IP Address)
    • IP Subnet
  • python 페이지로 이동
    • Python async/await — CompletableFuture·Reactor 와 다른 점, 그리고 blocking I/O 함정
    • Python 의존성 관리 — Java Maven/Gradle 사용자가 만나는 첫 충격
    • FastAPI 기초 — Spring Boot 사용자가 빠르게 익히는 법
    • GPU·CUDA·MPS 기초 — 자바 백엔드 개발자가 처음 만나는 그림
    • Multi-process GPU 워크로드 — 자바 ThreadPool 사용자가 만나는 모델 차이
    • Java 개발자를 위한 Python 심화 — OOP·데코레이터·컨텍스트 매니저
    • PyTorch 기초 — 텐서, 디바이스, 그리고 모델 로딩이 무거운 이유
    • Java 개발자를 위한 Python 문법 핵심
    • ML 서비스 성능 분석 워크플로 — 자바 백엔드 트러블슈팅과 다른 점
    • OCR 동작 원리 — Layout · Text · Post-process 3단계
    • Python 서버의 RSS 가 안 줄어드는 이유 — gc.collect 의 한계와 malloc_trim
  • rabbitmq 페이지로 이동
    • [초안] RabbitMQ Basics — 실전 백엔드 관점에서 정리하는 메시지 브로커 기본기
    • [초안] RabbitMQ vs Kafka — 백엔드 메시징 선택 기준과 실전 운영 관점
  • security 페이지로 이동
    • [초안] 시니어 백엔드를 위한 보안 / 인증 스터디 팩 — Spring Security, JWT, OAuth2, OWASP Top 10
    • [초안] Spring Security 6.x OAuth2 + JWT 상용 인증 설계 — Grant 선택, Resource Server, Refresh Rotation, 로그아웃
  • task 페이지로 이동
    • ai-service-team 페이지로 이동
    • nsc-slot 페이지로 이동
    • sb-dev-team 페이지로 이동
    • the-future-company 페이지로 이동
  • testing 페이지로 이동
    • [초안] 시니어 Java 백엔드를 위한 테스트 전략 완전 정리 — 피라미드부터 TestContainers, 마이크로벤치, Contract까지
  • travel 페이지로 이동
    • 오사카 3박 4일 일정표: 우메다 쇼핑, USJ, 난바·도톤보리, 오사카성
  • web 페이지로 이동
    • [초안] HTTP / Cookie / Session / Token 인증 기본기 — 레거시 JSP와 모바일 API가 공존하는 백엔드 관점
FOS-BLOG · FOOTERall systems normal·v0.1 · 2026.04.27·seoul, kr
Ffos-blog/study

개발 학습 기록을 정리하는 블로그입니다. 공부하면서 기록하고, 기록하면서 다시 배웁니다.

visitors
01site
  • Home↗
  • Posts↗
  • Categories↗
  • About↗
02policy
  • 소개/about
  • 개인정보처리방침/privacy
  • 연락처/contact
03categories
  • AI↗
  • Algorithm↗
  • DB↗
  • DevOps↗
  • Java/Spring↗
  • JS/TS↗
  • React↗
  • Next.js↗
  • System↗
04connect
  • GitHub@jon890↗
  • Source repositoryjon890/fos-study↗
  • RSS feed/rss.xml↗
  • Newsletter매주 1 회 · 한 편의 글→
© 2026 FOS Study. All posts MIT-licensed.
built with·Next.js·Tailwind v4·Geist·Pretendard·oklch
fos-blog/AI/[초안] Agentic Workflow 상태…
ai

[초안] Agentic Workflow 상태 관리 — LangGraph로 보는 State Graph, Checkpoint, Human-in-the-loop, Tool 권한 경계

도구를 한 번 부르고 끝나는 에이전트는 함수 호출과 다를 게 없다. 진짜 어려움은 에이전트가 여러 step에 걸쳐 오래 살아 있을 때 생긴다. 사용자가 중간에 답을 주길 기다려야 하고, 외부 API가 죽으면 재시도해야 하고, 프로세스가 재시작돼도 진행 중이던 작업을 이어가야 한다. 이때 시스템이 다뤄야 하는 것은 모델의 출력이 아니라 워크플로의 상태(sta...

2026.06.07·11 min read·17 views

왜 이 주제가 중요한가

도구를 한 번 부르고 끝나는 에이전트는 함수 호출과 다를 게 없다. 진짜 어려움은 에이전트가 여러 step에 걸쳐 오래 살아 있을 때 생긴다. 사용자가 중간에 답을 주길 기다려야 하고, 외부 API가 죽으면 재시도해야 하고, 프로세스가 재시작돼도 진행 중이던 작업을 이어가야 한다. 이때 시스템이 다뤄야 하는 것은 모델의 출력이 아니라 워크플로의 상태(state)다.

상태 관리를 제대로 안 하면 다음 증상이 나타난다.

  • 사용자 확인을 기다리는 동안 대화 컨텍스트를 메모리에 들고 있다가, 서버 재시작 한 번에 전부 날아간다.
  • 도구를 5번 부르는 도중 3번째에서 죽으면, 처음부터 다시 돌린다. 이미 발송된 결제가 두 번 나간다.
  • "사람이 승인하면 실행"을 콜백 지옥과 임시 테이블로 누더기처럼 구현한다.

LangGraph는 에이전트를 상태 기계(state machine)로 모델링하고, 그 상태를 checkpoint로 영속화해 이 문제들을 정면으로 다루는 프레임워크다. 이 문서는 LangGraph를 렌즈 삼아 agentic workflow의 상태 관리 네 축을 정리한다.

  • State Graph — 에이전트를 노드와 상태 채널로 표현하기
  • Checkpoint와 durable execution — 상태를 저장하고 재시작 후 이어가기
  • Human-in-the-loop — 그래프를 중단하고 사람 입력으로 재개하기
  • Tool 권한 경계 — 권한을 상태와 노드에 새겨 우회를 막기

도구 호출 자체의 메커니즘(레지스트리, 스키마 검증, dispatcher)은 LLM Tool Calling과 Agent Workflow 설계에서, 평가와 risk gate는 Agentic Workflow 평가와 Risk Gate 설계에서 다룬다. 여기서는 그 위에 깔리는 상태 레이어에 집중한다.

핵심 개념 — 에이전트를 State Graph로 보기

LangGraph의 출발점은 "에이전트는 공유 상태를 갱신하는 노드들의 그래프"라는 시각이다. 세 가지를 정의하면 된다.

  • State — 그래프 전체가 공유하는 데이터. 타입이 명시된 dict로 선언한다.
  • Node — 상태를 입력으로 받아 상태의 일부를 갱신해 돌려주는 함수.
  • Edge — 어느 노드 다음에 어느 노드로 갈지. 조건부 분기도 edge로 표현한다.

State와 reducer

상태에서 가장 자주 헷갈리는 부분이 reducer 다. 노드가 상태를 돌려주면 LangGraph는 그것을 기존 상태에 어떻게 합칠지 결정해야 한다. 기본값은 덮어쓰기지만, 메시지 목록처럼 누적돼야 하는 필드는 reducer로 "합치는 방법"을 지정한다.

python
from typing import Annotated, TypedDict
from langgraph.graph import StateGraph, START, END
from langgraph.graph.message import add_messages
 
 
class AgentState(TypedDict):
    # add_messages reducer: 덮어쓰지 않고 메시지를 누적한다
    messages: Annotated[list, add_messages]
    # 기본 동작: 노드가 돌려준 값으로 덮어쓴다
    intent: str
    pending_action: dict | None
    approved: bool

messages 필드는 add_messages reducer 덕분에 노드가 새 메시지 하나만 돌려줘도 기존 목록에 append된다. intent처럼 reducer가 없는 필드는 노드가 돌려준 값으로 그대로 교체된다. 이 차이를 모르면 "왜 대화 기록이 매 step 사라지지?" 같은 버그에 시간을 쓴다.

Node와 conditional edge

노드는 상태를 받아 갱신분만 돌려준다. 전체 상태를 다시 만들 필요 없이 바뀐 키만 반환하면 reducer가 알아서 합친다.

python
def classify(state: AgentState) -> dict:
    last = state["messages"][-1].content
    intent = "REFUND" if "환불" in last else "CHITCHAT"
    return {"intent": intent}
 
 
def route(state: AgentState) -> str:
    # 다음에 실행할 노드 이름을 문자열로 돌려준다
    return "refund_flow" if state["intent"] == "REFUND" else "chitchat"
 
 
builder = StateGraph(AgentState)
builder.add_node("classify", classify)
builder.add_node("refund_flow", refund_flow)
builder.add_node("chitchat", chitchat)
 
builder.add_edge(START, "classify")
builder.add_conditional_edges("classify", route, {"refund_flow": "refund_flow", "chitchat": "chitchat"})
builder.add_edge("chitchat", END)

ReAct 루프도 결국 "model 노드 → 도구가 필요하면 tool 노드 → 다시 model 노드"를 conditional edge로 잇는 사이클이다. 자유로워 보이는 에이전트 루프가 명시적인 그래프로 그려진다는 점이 핵심이다. 경로가 그래프로 보이면 감사·디버깅·테스트가 전부 쉬워진다.

Checkpoint와 durable execution

여기서부터가 상태 관리의 본론이다. 위 그래프를 그냥 compile()하면 상태는 한 번의 실행 동안만 메모리에 산다. 실행이 끝나거나 프로세스가 죽으면 사라진다. checkpointer 를 붙이면 그래프는 매 step(super-step)마다 상태를 저장소에 스냅샷으로 남긴다.

python
from langgraph.checkpoint.memory import MemorySaver
 
checkpointer = MemorySaver()          # 학습용 인메모리
graph = builder.compile(checkpointer=checkpointer)
 
config = {"configurable": {"thread_id": "user-42-session-7"}}
graph.invoke({"messages": [("user", "어제 주문 환불해줘")]}, config)

핵심은 thread_id 다. 같은 thread_id로 다시 호출하면, LangGraph는 그 thread의 마지막 checkpoint를 불러와 이어서 실행한다. 새로 시작하지 않는다. 이 한 가지가 다음을 한꺼번에 해결한다.

  • 대화 메모리 — thread_id별로 메시지 누적이 저장소에 남으므로, 매 요청마다 컨텍스트를 직접 들고 다닐 필요가 없다.
  • crash recovery — 노드 3개 실행 후 프로세스가 죽어도, 재시작 후 같은 thread_id로 호출하면 4번째 노드부터 재개한다.
  • durable execution — 오래 걸리는 워크플로(사람 승인 대기, 외부 배치 대기)를 메모리에 묶어두지 않고, 상태를 디스크에 내려둔 채 기다릴 수 있다.

저장소 선택

python
# 운영: SQLite (단일 노드) 또는 Postgres (다중 노드)
from langgraph.checkpoint.sqlite import SqliteSaver
from langgraph.checkpoint.postgres import PostgresSaver
 
# with 컨텍스트로 커넥션을 관리한다
with SqliteSaver.from_conn_string("checkpoints.sqlite") as cp:
    graph = builder.compile(checkpointer=cp)
  • MemorySaver — 테스트·예제 전용. 프로세스가 죽으면 같이 죽는다.
  • SqliteSaver — 단일 인스턴스 운영, 로컬 영속화.
  • PostgresSaver — 다중 인스턴스에서 thread 상태를 공유해야 할 때. 운영 에이전트의 기본 선택.

상태 조회와 time travel

checkpoint가 쌓이면 thread의 과거 상태를 들여다보고, 특정 시점으로 되감을 수도 있다.

python
# 현재 상태
snapshot = graph.get_state(config)
print(snapshot.values["intent"], snapshot.next)  # 다음에 실행될 노드
 
# 전체 히스토리 (최신순) — 디버깅·감사·되감기에 쓴다
for state in graph.get_state_history(config):
    print(state.config["configurable"]["checkpoint_id"], state.next)

get_state_history는 단순 디버깅을 넘어, "이 시점 상태에서 다른 입력으로 다시 가지치기" 같은 실험과, 운영 사고 분석 시 "에이전트가 정확히 어떤 상태에서 잘못된 도구를 골랐나"를 재현하는 데 쓴다.

Human-in-the-loop — 중단하고 재개하기

오래 사는 에이전트의 절반은 "사람을 기다리는 시간"이다. checkpoint가 있으면 HITL은 콜백이 아니라 그래프를 중단점에서 멈췄다가 사람 입력으로 재개하는 일이 된다. 사람을 어디에 어떤 비용으로 끼울지에 대한 패턴(pre-action approval, post-hoc review, escalation)은 risk gate 문서에서 다뤘고, 여기서는 그 패턴을 LangGraph 메커니즘으로 어떻게 구현하는지를 본다.

interrupt와 Command(resume=...)

interrupt()는 노드 한가운데서 실행을 멈추고, 사람에게 보여줄 값을 밖으로 내보낸다. 이때 상태는 checkpoint로 저장된 채 "대기" 상태가 된다. 나중에 Command(resume=...)로 사람 입력을 주입하면, 그 노드는 멈췄던 지점부터 다시 실행된다.

python
from langgraph.types import interrupt, Command
 
 
def approve_refund(state: AgentState) -> dict:
    action = state["pending_action"]
    # 여기서 그래프가 멈추고, 아래 dict가 호출자에게 반환된다
    decision = interrupt({
        "type": "approval_required",
        "action": action,
        "question": f"{action['amount']}원 환불을 승인할까요?",
    })
    if decision != "approve":
        return {"approved": False}
    return {"approved": True}

호출 측은 두 단계로 동작한다.

python
# 1) 실행 → interrupt에서 멈춘다
result = graph.invoke({"messages": [("user", "환불해줘")]}, config)
print(result["__interrupt__"])      # 사람에게 보여줄 승인 요청
 
# (여기서 며칠이 지나도 된다. 상태는 checkpoint에 안전하게 남아 있다)
 
# 2) 사람 결정을 주입해 재개 — 같은 thread_id
graph.invoke(Command(resume="approve"), config)

콜백·임시 테이블·플래그 컬럼 없이, 그래프가 멈춘 지점과 상태가 그대로 보존된다는 점이 강력하다. 며칠 뒤에 재개해도 에이전트는 자기가 어디까지 했는지 정확히 안다.

interrupt_before로 게이트 걸기

특정 노드 실행 직전에 무조건 멈추게 할 수도 있다. 비가역 행동 노드 앞에 거는 pre-action approval에 잘 맞는다.

python
graph = builder.compile(
    checkpointer=checkpointer,
    interrupt_before=["execute_refund"],   # 이 노드 실행 전 멈춤
)
 
graph.invoke(initial, config)              # execute_refund 직전에서 정지
# 사람이 검토 후
graph.invoke(None, config)                 # None = "그대로 이어서 진행"

interrupt()는 "노드 안에서 사람에게 물어보고 그 답을 쓴다"에, interrupt_before는 "이 행동은 무조건 사람 검토를 거친다"에 쓴다. 둘을 위험 등급에 맞게 섞는다.

Tool 권한 경계 — 권한을 상태에 새기기

권한 검증을 모델이 도구를 부를 때마다 즉석에서 하면 우회 경로가 생긴다. 상태 그래프에서는 권한을 상태의 일부로 두고, 권한 게이트를 명시적 노드로 만들어 모든 도구 실행이 그 노드를 지나게 강제한다. 도구 dispatcher 레벨의 권한 검증과 idempotency는 tool calling 문서에서 다뤘고, 여기서는 그것을 그래프 구조로 끌어올리는 부분을 본다.

python
class AgentState(TypedDict):
    messages: Annotated[list, add_messages]
    scopes: set[str]            # 인증 컨텍스트에서 주입된 권한
    proposed_tool: dict | None  # 모델이 제안한 도구 호출
 
 
# 도구마다 필요한 스코프를 코드와 한 곳에 둔다
TOOL_SCOPES = {
    "find_order": {"order:read"},
    "issue_refund": {"order:read", "refund:write"},
}
 
 
def permission_gate(state: AgentState) -> dict:
    call = state["proposed_tool"]
    required = TOOL_SCOPES.get(call["name"], {"__deny__"})
    if not required.issubset(state["scopes"]):
        # 권한 부족: 도구를 비우고 일반화된 거절만 남긴다
        return {
            "proposed_tool": None,
            "messages": [("system", "요청한 작업에 대한 권한이 없습니다")],
        }
    return {}   # 통과 — 상태 변화 없음
 
 
def route_after_gate(state: AgentState) -> str:
    return "run_tool" if state["proposed_tool"] else "respond"

설계 원칙은 세 가지다.

  • 권한은 상태에 들어온다 — 모델이 아니라 인증 컨텍스트가 scopes를 주입한다. 모델은 자기 권한을 모른다.
  • 게이트는 우회 불가능한 노드 — 모든 도구 실행 경로가 permission_gate → (통과 시) run_tool을 지나도록 edge를 짠다. "이번만 권한 올려서 실행" 같은 샛길을 그래프에 만들지 않는다.
  • 거절은 일반화 — 왜 거절됐는지 상세를 모델에 흘리지 않는다. 모델은 그것을 사용자에게 그대로 풀어 쓸 수 있다.

권한을 상태로 두면 보너스가 따라온다. checkpoint에 남는 상태에 "어떤 권한으로 어떤 도구가 제안·거절됐는지"가 자동으로 기록돼, 그대로 감사 로그이자 평가 입력이 된다.

나쁜 예 vs 개선된 예

나쁜 예 1 — 대화 상태를 프로세스 메모리에 들고 있기

python
# 안티패턴: 세션 dict를 전역 메모리에 보관
SESSIONS: dict[str, list] = {}
 
def handle(user_id, msg):
    SESSIONS.setdefault(user_id, []).append(msg)
    ...

문제: 서버 재시작·스케일아웃 한 번에 전 사용자 대화가 사라진다. 다중 인스턴스에서는 인스턴스마다 다른 상태를 본다.

개선

checkpointer(PostgresSaver) + thread_id로 상태를 외부 저장소에 둔다. 어느 인스턴스가 받아도 같은 thread를 이어간다.

나쁜 예 2 — 사람 승인을 폴링 플래그로 구현

python
# 안티패턴: 승인 대기 동안 상태를 임시 테이블에 수동 직렬화
save_pending(user_id, serialize(workflow_context))
# ... 나중에 ...
ctx = deserialize(load_pending(user_id))
resume_somehow(ctx)   # 어디서부터 재개할지 직접 관리

문제: 직렬화 포맷이 코드 변경마다 깨지고, "어디서 멈췄는지"를 개발자가 손으로 추적해야 한다.

개선

interrupt() + Command(resume=...)로 그래프가 멈춘 지점과 상태를 프레임워크가 보존하게 한다. 재개 위치를 사람이 관리하지 않는다.

나쁜 예 3 — 비-idempotent 행동을 재시작 시 무조건 재실행

python
# 안티패턴: 재시작하면 처음부터 다시
def run_workflow(req):
    order = find_order(req)
    issue_refund(order)   # crash 후 재시작하면 환불이 두 번 나간다

문제: durable execution이 없으니 crash 복구가 곧 중복 실행이다.

개선

checkpointer로 "어느 노드까지 끝났는지"를 상태로 남긴다. 재시작 시 같은 thread_id로 호출하면 이미 끝난 노드는 건너뛰고 다음 노드부터 재개해, 환불 노드가 두 번 실행되지 않는다. 외부 호출에는 idempotency key를 같이 둬 이중 안전망으로 쓴다.

로컬 실습 환경

진짜 모델 비용 없이 상태 관리 골격을 손에 익히는 게 목적이다.

  • Python 3.11+, pip install langgraph langgraph-checkpoint-sqlite
  • LLM: 실 키 대신 fake model 노드로 시작한다. 시나리오별로 미리 정한 도구 호출/최종 답변을 돌려주는 결정적 함수면 충분하다. 상태·checkpoint·interrupt 로직을 검증할 때는 진짜 모델보다 결정적인 가짜가 낫다.
  • 저장소: 학습 초기엔 MemorySaver, crash recovery를 체험할 땐 SqliteSaver로 파일에 남겨 프로세스를 죽였다 살린다.
  • 관측: get_state_history(config)로 매 super-step 상태를 덤프해 그래프가 실제로 어떤 경로를 밟았는지 눈으로 확인한다.
bash
pip install langgraph langgraph-checkpoint-sqlite
python agent_demo.py            # 1차 실행 — interrupt에서 멈춤
# 프로세스를 강제 종료한 뒤
python resume_demo.py           # 같은 thread_id로 재개되는지 확인

실행 가능한 시나리오

손으로 굴려보며 상태 관리의 동작을 익히는 데 유용한 시나리오다.

  1. 대화 누적 — 같은 thread_id로 두 번 호출하고, 두 번째 호출에서 첫 메시지가 messages에 남아 있는지 확인. reducer가 없으면 사라진다.
  2. crash recovery — SqliteSaver로 노드 2개 실행 후 프로세스를 강제 종료. 재시작 후 같은 thread_id로 호출해 3번째 노드부터 재개되는지 확인.
  3. pre-action approval — interrupt_before=["execute_refund"]로 환불 직전 정지. invoke(None, config)로 이어서 실행되는지 확인.
  4. 승인 거절 분기 — interrupt()에 "reject"를 resume으로 주입해 환불 노드 대신 사과·escalate 경로로 가는지 확인.
  5. 권한 게이트 — scopes에서 refund:write를 빼고 호출해, permission_gate가 도구를 비우고 일반화된 거절만 남기는지 확인.
  6. time travel — get_state_history로 분기 직전 상태를 꺼내, 다른 입력으로 다시 진행시켜 경로가 갈라지는지 확인.

각 시나리오는 통합 테스트로 묶을 수 있다. fake model이 시나리오별 스크립트를 받아 결정적으로 동작하면, 모델 응답이 바뀌어도 상태·checkpoint·게이트 로직이 회귀 보호된다.

설계 점검 질문

상태 관리 설계를 스스로 검토할 때 던져볼 질문과 답의 뼈대다.

"에이전트의 상태를 어디에 두는가?"

프로세스 메모리는 답이 아니다. 상태는 checkpointer를 통해 외부 저장소(다중 인스턴스면 Postgres)에 thread_id 단위로 둔다. 그래야 재시작·스케일아웃·장시간 대기를 견딘다. 대화 메모리, crash recovery, durable execution이 모두 같은 checkpoint 메커니즘 위에서 풀린다는 점이 핵심이다.

"오래 걸리는 사람 승인을 어떻게 다루는가?"

워크플로 컨텍스트를 메모리에 묶어두지 않는다. interrupt()로 상태를 checkpoint에 내려둔 채 멈추고, 사람 결정이 오면 Command(resume=...)로 같은 thread를 재개한다. 재개 위치는 프레임워크가 보존하므로 개발자가 직렬화·복원을 손으로 관리하지 않는다.

"재시작 시 중복 실행을 어떻게 막는가?"

durable execution이 답의 절반이다. 끝난 노드는 checkpoint에 기록돼 재시작 후 건너뛴다. 나머지 절반은 비가역 외부 호출의 idempotency key다. 둘을 같이 둔다.

"권한 우회를 그래프에서 어떻게 차단하는가?"

권한을 상태에 주입하고, 모든 도구 실행 경로가 우회 불가능한 permission_gate 노드를 지나게 edge를 짠다. 모델은 자기 권한을 모르고, 거절 사유는 일반화해 모델에 흘리지 않는다.

"상태가 그래프로 표현되면 무엇이 좋아지는가?"

경로가 명시적이라 감사·디버깅·테스트가 쉬워진다. get_state_history로 사고 시점 상태를 재현하고, fake model로 경로별 회귀 테스트를 묶는다. 자유로운 루프를 결정적인 그래프로 내려두는 것이 운영 가능성의 출발점이다.

체크리스트

  • 상태(State)가 타입이 명시된 형태로 선언돼 있고, 누적 필드에는 reducer가 지정돼 있는가
  • 에이전트 루프가 명시적 노드와 conditional edge로 그려져 있는가
  • checkpointer가 붙어 있고, 운영은 다중 인스턴스 공유가 가능한 저장소(Postgres 등)인가
  • thread_id 단위로 대화 메모리·crash recovery·장시간 대기가 모두 풀리는가
  • 사람 승인이 interrupt() / interrupt_before + Command(resume=...)로 구현돼 있는가
  • 비가역 행동 노드 앞에 pre-action 게이트가 걸려 있는가
  • 재시작 시 끝난 노드를 건너뛰어 비-idempotent 행동이 중복 실행되지 않는가
  • 외부 비가역 호출에 idempotency key가 함께 있는가
  • 권한이 상태에 주입되고, 모든 도구 경로가 우회 불가능한 권한 게이트 노드를 지나는가
  • 거절·실패 메시지가 사용자에게 노출돼도 안전한 수준으로 일반화돼 있는가
  • get_state_history로 사고 시점 상태를 재현할 수 있는가
  • fake model 기반 통합 테스트로 상태·checkpoint·interrupt·권한 게이트가 회귀 보호되는가
on this page
  • 01왜 이 주제가 중요한가
  • 02핵심 개념 — 에이전트를 State Graph로 보기
  • State와 reducer
  • Node와 conditional edge
  • 03Checkpoint와 durable execution
  • 저장소 선택
  • 상태 조회와 time travel
  • 04Human-in-the-loop — 중단하고 재개하기
  • interrupt와 Command(resume=...)
  • interrupt_before로 게이트 걸기
  • 05Tool 권한 경계 — 권한을 상태에 새기기
  • 06나쁜 예 vs 개선된 예
  • 나쁜 예 1 — 대화 상태를 프로세스 메모리에 들고 있기
  • 개선
  • 나쁜 예 2 — 사람 승인을 폴링 플래그로 구현
  • 개선
  • 나쁜 예 3 — 비-idempotent 행동을 재시작 시 무조건 재실행
  • 개선
  • 07로컬 실습 환경
  • 08실행 가능한 시나리오
  • 09설계 점검 질문
  • "에이전트의 상태를 어디에 두는가?"
  • "오래 걸리는 사람 승인을 어떻게 다루는가?"
  • "재시작 시 중복 실행을 어떻게 막는가?"
  • "권한 우회를 그래프에서 어떻게 차단하는가?"
  • "상태가 그래프로 표현되면 무엇이 좋아지는가?"
  • 10체크리스트

이런 글도

  • 스킬 문서를 신경망처럼 학습시킨다 — Microsoft SkillOpt 분석
    나는 Claude Code 위에서 30개가 넘는 개인 스킬(skill)을 운영한다. 블로그 글 작성, 이력서 갱신, 주간보고, 사내 결재 자동화 같은 반복 워크플로우를 각각 SKILL.md 한 장으로 정의해두고 쓴다. 이 스킬들은 시간이 지나면서 점점 커진다. 한 번 실수하면 "이런 함정이 있더라"를 문서에 적어두고, 다음에 같은 실수를 피하는 식이다. 그...
    🤖 ai
    ai
    2026.06.12
  • Claude Code 메모리: CLAUDE.md와 .claude/rules를 규칙으로 쓰는 법
    진행 기간: 2026.06 Claude Code로 한 레포를 오래 다루다 보면 "매번 같은 걸 다시 설명하는" 순간이 온다. PR 본문은 이렇게 써라, Dooray 업무 제목은 이 형식이다, 한국어로 풀어 써라. 이걸 어디에 적어둬야 Claude가 실제로 지키는지 — 그게 이 글의 주제다. 나는 그동안 이런 규칙을 프로젝트 안 .claude/skills/s...
    🤖 ai
    ai
    2026.06.08
  • [초안] LLM 평가 프레임워크: 골든셋, 회귀 테스트, LLM-as-a-judge, 사람 피드백 루프
    LLM 기반 기능은 한 가지 곤란한 성질을 가진다. 같은 입력에도 출력이 매번 달라지고, "좋아졌다"가 숫자로 잘 잡히지 않는다. 프롬프트 한 줄을 고치거나 모델 버전을 올렸을 때, 그게 정말 개선인지 아니면 어떤 케이스를 조용히 망가뜨린 퇴행인지 눈으로는 알 수 없다. 그래서 LLM 제품의 신뢰성은 모델 자체보다 평가 체계(evaluation) 에서 갈린...
    🤖 ai
    ai
    2026.06.07
  • [초안] AI 제품 백엔드 안정성 — 지연·비용·권한·관측·도구 실패·폴백/재시도/사람 에스컬레이션
    LLM을 붙인 제품의 백엔드는 일반 CRUD 백엔드와 안정성 모델이 다르다. 일반 백엔드는 "DB가 살아 있으면 같은 입력에 같은 출력"이 기본 전제다. AI 제품 백엔드는 그렇지 않다. - 응답이 비결정적이다 — 같은 입력에도 모델 출력이 매번 달라진다. 그래서 "정상 응답"의 정의 자체를 우리가 따로 만들어야 한다. - 지연이 크고 가변적이다 — 모델...
    🤖 ai
    ai
    2026.06.07

댓글 (0)