fos-blog/study
01 / 홈02 / 카테고리
01 / 홈02 / 카테고리

카테고리

  • AI 페이지로 이동
    • RAG 페이지로 이동
    • langgraph 페이지로 이동
    • agents.md
    • BMAD Method — AI 에이전트로 애자일 개발하는 방법론
    • Claude Code의 Skill 시스템 - 개발자를 위한 AI 자동화의 새로운 차원
    • Claude Code를 5주 더 쓴 결과 — 스킬·CLAUDE.md를 키워가는 방식
    • Claude Code를 11일 동안 쓴 결과 — 데이터로 본 나의 사용 패턴
    • Claude Code 멀티 에이전트 — Teams
    • AI 에이전트와 디자인의 새 컨벤션 — DESIGN.md, Google Stitch, Claude Design
    • 하네스 엔지니어링 실전 — 4인 에이전트 팀으로 코딩 파이프라인 구축하기
    • 하네스 엔지니어링 — 오래 실행되는 AI 에이전트를 위한 설계
    • 멀티모달 LLM (Multimodal Large Language Model)
    • AI 에이전트와 함께 MVP 만들기 — dooray-cli 사례
  • ai 페이지로 이동
    • agent 페이지로 이동
  • algorithm 페이지로 이동
    • live-coding 페이지로 이동
    • 분산 계산을 위한 알고리즘
  • architecture 페이지로 이동
    • [초안] 시니어 백엔드를 위한 API 설계 실전 스터디 팩 — REST · 멱등성 · 페이지네이션 · 버전 전략
    • [초안] API Versioning과 Backward Compatibility: 시니어 백엔드 관점 정리
    • 캐시 설계 전략 총정리
    • [초안] CJ푸드빌 커머스/F&B 도메인 설계 면접 대비 — 슬롯 경험을 주문·결제·쿠폰·매장 상태 설계로 번역하기
    • [초안] 커머스 Spring 서비스에 Clean/Hexagonal Architecture를 실용적으로 적용하기
    • [초안] 커머스 주문 상태와 데이터 정합성 기본기 — CJ푸드빌 면접 대비
    • [초안] 쿠폰/프로모션 동시성과 정합성 기본기 — 선착순·중복 사용 방지·발급/사용/복구
    • [초안] DDD와 도메인 모델링: 시니어 백엔드 관점의 전술/전략 패턴 실전 가이드
    • [초안] Decorator & Chain of Responsibility — 행동을 체인으로 조립하는 두 가지 방식
    • 디자인 패턴
    • [초안] 분산 아키텍처 완전 정복: Java 백엔드 시니어 인터뷰 대비 실전 가이드
    • [초안] 분산 트랜잭션과 Outbox 패턴 — 왜 2PC를 피하고 어떻게 대신할 것인가
    • 분산 트랜잭션
    • [초안] e-Commerce 주문·결제 도메인 모델링: 상태머신, 멱등성, Outbox/Saga 실전 정리
    • [초안] F&B 쿠폰·프로모션·멤버십·포인트 설계
    • [초안] F&B · e-Commerce 디지털 채널 도메인 한 장 정리 — CJ푸드빌 디지털 채널 백엔드 면접 대비
    • [초안] F&B 주문/매장/픽업 상태머신 설계 — CJ푸드빌 디지털 채널 백엔드 관점
    • [초안] F&B 이커머스 결제·환불·정산 운영 가이드
    • [초안] Hexagonal / Clean Architecture를 Spring 백엔드에 적용하기
    • [초안] 대규모 커머스 트래픽 처리 패턴 — 1,600만 고객과 올영세일을 버티는 설계
    • [초안] 레거시 JSP/jQuery 화면과 신규 API가 공존하는 백엔드 운영 전략
    • [초안] MSA 서비스 간 통신: Redis [Cache-Aside](../database/redis/cache-aside.md) × Kafka 이벤트 하이브리드 설계
    • [초안] Observability 입문: 시니어 백엔드가 장애를 탐지하고 대응하는 방식
    • [초안] Outbox / Inbox Pattern 심화 — 분산 메시징의 정합성 문제를 DB 트랜잭션으로 풀어내기
    • [초안] 결제 도메인 멱등성과 트랜잭션 재시도 기본기
    • [초안] 시니어 백엔드를 위한 Resilience 패턴 실전 가이드 — Timeout, Retry, Circuit Breaker, Bulkhead, Backpressure
    • [초안] REST API 버저닝과 모바일 앱 하위 호환성 — CJ푸드빌 디지털 채널 백엔드 관점
    • [초안] Strategy Pattern — 분기문을 없애는 설계, 시니어 백엔드 인터뷰 핵심 패턴
    • [초안] 시니어 백엔드를 위한 시스템 설계 입문 스터디 팩
    • [초안] 템플릿 메서드 패턴 - 백엔드 처리 골격을 강제하는 가장 오래되고 가장 위험한 패턴
    • [초안] 대규모 트래픽 중 무중단 마이그레이션 — Feature Flag + Shadow Mode 실전
  • database 페이지로 이동
    • mysql 페이지로 이동
    • opensearch 페이지로 이동
    • redis 페이지로 이동
    • 김영한의-실전-데이터베이스-설계 페이지로 이동
    • 커넥션 풀 크기는 얼마나 조정해야 할까?
    • 인덱스 - DB 성능 최적화의 핵심
    • [초안] JPA N+1과 커머스 조회 모델: 주문/메뉴/쿠폰 도메인에서 살아남기
    • [초안] MyBatis 기본기 — XML Mapper, resultMap, 동적 SQL, 운영 패턴 정리
    • [초안] MyBatis와 JPA/Hibernate 트레이드오프 — 레거시 백엔드를 다루는 시니어 관점
    • 역정규화 (Denormalization)
    • 데이터 베이스 정규화
  • devops 페이지로 이동
    • docker 페이지로 이동
    • k8s 페이지로 이동
    • k8s-in-action 페이지로 이동
    • observability 페이지로 이동
    • [초안] 커머스/F&B 채널 장애 첫 5분과 관측성 기본기
    • Envoy Proxy
    • [초안] F&B / e-Commerce 운영 장애 대응과 모니터링 — 백엔드 관점 정리
    • Graceful Shutdown
  • finance 페이지로 이동
    • industry-cycle 페이지로 이동
    • investing 페이지로 이동
    • stock-notes 페이지로 이동
  • http 페이지로 이동
    • HTTP Connection Pool
  • interview 페이지로 이동
    • [초안] AI 서비스 팀 경험 기반 시니어 백엔드 면접 질문 뱅크 — Spring Batch RAG / gRPC graceful shutdown / 전략 패턴 / 12일 AI 웹툰 MVP
    • [초안] CJ푸드빌 디지털 채널 Back-end 개발자 직무 분석
    • [초안] CJ푸드빌 디지털 채널 Back-end 면접 답변집 — 슬롯 도메인 경험을 커머스/F&B 설계로 번역하기
    • [초안] F&B / e-Commerce 운영 모니터링과 장애 대응 인터뷰 정리
    • Observability — 면접 답변 프레임
    • [초안] 시니어 Java 백엔드 면접 마스터 플레이북 — 김병태
    • [초안] NSC 슬롯팀 경험 기반 질문 은행 — 도메인 모델링·동시성·성능·AI 협업
  • java 페이지로 이동
    • concurrency 페이지로 이동
    • jdbc 페이지로 이동
    • opentelemetry 페이지로 이동
    • spring 페이지로 이동
    • spring-batch 페이지로 이동
    • 더_자바_코드를_조작하는_다양한_방법 페이지로 이동
    • [초안] Java 동시성 락 정리 — 커머스 메뉴/프로모션 정책 캐시 갱신 관점
    • [초안] JVM 튜닝 실전: 메모리 구조부터 Virtual Threads, GC 튜닝, 프로파일링까지
    • Java의 로깅 환경
    • MDC (Mapped Diagnostic Context)
    • Java StampedLock — 읽기 폭주에도 쓰기가 밀리지 않는 락
    • Virtual Thread와 Project Loom
  • javascript 페이지로 이동
    • typescript 페이지로 이동
    • AbortController
    • Async Iterator와 제너레이터
    • CommonJS와 ECMAScript Modules
    • 제너레이터(Generator)
    • Http Client
    • Node 백엔드 운영 패턴 — Streams 백프레셔, pipe/pipeline, 멱등성 vs 분산 락
    • Node.js
    • npm vs pnpm — 어떤 기준으로 선택했나
    • `setImmediate()`
  • kafka 페이지로 이동
    • [초안] Kafka 기본 개념 — 토픽, 파티션, 오프셋, 복제
    • Kafka를 사용하여 **데이터 정합성**은 어떻게 유지해야 할까?
    • [초안] Kafka 실전 설계: 파티션 전략, 컨슈머 그룹, 전달 보장, 재시도, 순서 보장 트레이드오프
    • 메시지 전송 신뢰성
  • linux 페이지로 이동
    • fsync — 리눅스 파일 동기화 시스템 콜
    • tmux — Terminal Multiplexer
  • network 페이지로 이동
    • L2(스위치)와 L3(라우터)의 역할 차이
    • L4와 VIP(Virtual IP Address)
    • IP Subnet
  • rabbitmq 페이지로 이동
    • [초안] RabbitMQ Basics — 실전 백엔드 관점에서 정리하는 메시지 브로커 기본기
    • [초안] RabbitMQ vs Kafka — 백엔드 메시징 선택 기준과 실전 운영 관점
  • security 페이지로 이동
    • [초안] 시니어 백엔드를 위한 보안 / 인증 스터디 팩 — Spring Security, JWT, OAuth2, OWASP Top 10
  • task 페이지로 이동
    • ai-service-team 페이지로 이동
    • nsc-slot 페이지로 이동
    • sb-dev-team 페이지로 이동
    • the-future-company 페이지로 이동
  • testing 페이지로 이동
    • [초안] 시니어 Java 백엔드를 위한 테스트 전략 완전 정리 — 피라미드부터 TestContainers, 마이크로벤치, Contract까지
  • travel 페이지로 이동
    • 오사카 3박 4일 일정표: 우메다 쇼핑, USJ, 난바·도톤보리, 오사카성
  • web 페이지로 이동
    • [초안] HTTP / Cookie / Session / Token 인증 기본기 — 레거시 JSP와 모바일 API가 공존하는 백엔드 관점
FOS-BLOG · FOOTERall systems normal·v0.1 · 2026.04.27·seoul, kr
Ffos-blog/study

개발 학습 기록을 정리하는 블로그입니다. 공부하면서 기록하고, 기록하면서 다시 배웁니다.

visitors
01site
  • Home↗
  • Posts↗
  • Categories↗
  • About↗
02policy
  • 소개/about
  • 개인정보처리방침/privacy
  • 연락처/contact
03categories
  • AI↗
  • Algorithm↗
  • DB↗
  • DevOps↗
  • Java/Spring↗
  • JS/TS↗
  • React↗
  • Next.js↗
  • System↗
04connect
  • GitHub@jon890↗
  • Source repositoryjon890/fos-study↗
  • RSS feed/rss.xml↗
  • Newsletter매주 1 회 · 한 편의 글→
© 2026 FOS Study. All posts MIT-licensed.
built with·Next.js·Tailwind v4·Geist·Pretendard·oklch
fos-blog/ai/[초안] LLM Tool Calling과 A…
ai

[초안] LLM Tool Calling과 Agent Workflow 설계 — 케어챗 백엔드 관점

LLM은 그 자체로는 "텍스트를 잘 만들어내는 함수"에 가깝다. 의료/헬스케어 도메인의 AI Agent — 케어챗처럼 사용자의 증상 문의, 복약 안내, 예약 변경, 의료진 라우팅 같은 실제 업무를 처리해야 하는 시스템 — 에서는 모델이 "그럴듯한 답"을 생성하는 것만으로는 충분하지 않다. 진짜 가치는 모델이 외부 시스템을 안전하게 호출하고, 그 결과를 바탕...

2026.05.04·12 min read·8 views

왜 이 주제가 중요한가

LLM은 그 자체로는 "텍스트를 잘 만들어내는 함수"에 가깝다. 의료/헬스케어 도메인의 AI Agent — 케어챗처럼 사용자의 증상 문의, 복약 안내, 예약 변경, 의료진 라우팅 같은 실제 업무를 처리해야 하는 시스템 — 에서는 모델이 "그럴듯한 답"을 생성하는 것만으로는 충분하지 않다. 진짜 가치는 모델이 외부 시스템을 안전하게 호출하고, 그 결과를 바탕으로 다음 행동을 결정하며, 실패했을 때 사람에게 다시 넘기거나 재시도할 수 있을 때 만들어진다.

이 흐름의 가운데에 있는 것이 Tool Calling(또는 Function Calling)이고, 그 위에서 도구 호출을 여러 번 엮어 하나의 사용자 의도를 처리하는 것이 Agent Workflow다. 백엔드 엔지니어가 면접에서 평가받는 지점은 다음과 같다.

  • LLM의 비결정성을 어떻게 결정적인 시스템과 연결할 것인가
  • 사용자 발화 → 의도 분류 → 도구 선택 → 권한 검증 → 호출 → 결과 검증 → 후속 행동의 흐름을 어떻게 설계할 것인가
  • 도구 호출 실패, hallucinated argument, 권한 누락, 부분 성공 같은 실패 모드를 어떻게 다룰 것인가
  • Spring 기반 마이크로서비스 환경에서 이 흐름을 어떻게 안정적으로 운영할 것인가

이 문서는 이 네 가지를 케어챗-스타일 백엔드 관점에서 풀어 쓴다.

핵심 개념 — Tool Calling이란 무엇인가

Tool Calling은 LLM이 자연어 응답 대신, 사전에 정의된 함수 시그니처에 맞는 JSON 인자를 출력하도록 유도하는 메커니즘이다. OpenAI, Anthropic, Bedrock, Vertex 등 주요 제공자는 동일한 모양의 인터페이스를 갖는다.

  1. 백엔드는 모델에게 "사용 가능한 도구 목록"을 JSON Schema로 전달한다.
  2. 모델은 사용자의 발화를 보고, 텍스트로 답할지 도구를 호출할지 결정한다.
  3. 도구를 호출하기로 결정하면, {"tool": "...", "arguments": {...}} 형태의 구조화된 응답을 돌려준다.
  4. 백엔드는 그 JSON을 검증한 뒤, 자기 책임 하에 실제 함수/HTTP API를 호출한다.
  5. 결과를 다시 모델에게 도구 응답으로 주입한다.
  6. 모델은 그 결과를 바탕으로 다음 도구를 또 호출하거나, 최종 텍스트 답변을 생성한다.

여기서 가장 자주 오해받는 부분은 "모델이 도구를 호출했다"가 아니라 "모델이 도구를 호출하자고 제안했고, 백엔드가 검증하고 실행했다" 라는 점이다. 모델은 어디까지나 인자 후보를 만든다. 실행 권한은 항상 백엔드에 있다. 이 분리를 흐리면 권한, 감사, 비용, 신뢰성 모두가 무너진다.

Agent Workflow의 두 가지 패턴

도구 호출을 한 번 하면 끝나는 단순 케이스는 거의 없다. 보통 두 가지 패턴 중 하나를 쓴다.

  • ReAct (Reason + Act) 루프: 모델이 "Thought → Action → Observation"을 반복한다. 백엔드는 Action을 실행하고 Observation을 다시 주입한다. 종료 조건은 모델이 final_answer를 내거나, 최대 step 수를 초과하거나, 실패 가드가 발동했을 때다.
  • Plan-then-Execute: 먼저 모델에게 전체 계획(여러 도구를 어떤 순서로 부를지)을 짜게 한 뒤, 백엔드가 결정적인 워크플로 엔진으로 실행한다. 헬스케어처럼 감사 추적이 중요한 도메인에서는 이쪽이 잘 맞는다. 계획이 사람 검토 가능한 형태로 남기 때문이다.

케어챗처럼 "사용자 → 1차 분류 → 의료/예약/일반 상담 분기 → 도구 호출 → 응답"이 정형화된 도메인은 Plan-then-Execute의 약식 버전 + ReAct를 도구 호출 단계에서만 허용하는 하이브리드가 실용적이다. 자유도는 줄이고, 감사·재현성·비용 통제는 늘리는 방향이다.

백엔드 워크플로 설계 — 케어챗 시나리오

다음 흐름을 백엔드 관점에서 단계별로 본다. 사용자 발화: "어제 처방받은 약 다시 보내줄 수 있어요? 이름은 김OO이에요."

1) Intent Classification (의도 분류)

가장 먼저 하는 일은 이 발화가 어떤 카테고리인지를 판별하는 것이다. 두 가지 접근이 있다.

  • LLM 단일 호출로 분류 + 도구 호출까지 한 번에: 모델 자유도가 높지만 도구 후보가 많아질수록 hallucination 위험이 커진다.
  • 얕은 분류기로 먼저 좁힌 뒤, 좁혀진 도구 집합만 LLM에 노출: 분류 모델은 작은 fine-tuned 모델이거나, 정규식/임베딩 기반 룰일 수도 있다.

헬스케어 도메인은 후자가 안전하다. "처방 재발송"은 의료기록 접근 권한이 필요한 민감 카테고리이고, "오늘 날씨" 같은 잡담과 같은 도구 풀에 두면 안 된다. 분류 결과에 따라 다른 system prompt + 다른 tool subset을 모델에 주입한다.

plaintext
1차 분류: { category: "PRESCRIPTION_RESEND", confidence: 0.92 }
→ 토구 풀: [findPatient, findRecentPrescription, resendPrescription, escalateToHuman]
→ 시스템 프롬프트: "본인 확인이 끝나기 전에는 처방 정보를 노출하지 마라"

2) Tool Registry

도구는 코드 곳곳에 흩어두지 않고 하나의 레지스트리에 등록한다. 각 도구는 다음 메타데이터를 가진다.

  • 이름 (resend_prescription)
  • JSON Schema 형식의 인자 스펙
  • 필요한 권한 스코프 (prescription:read, prescription:send)
  • 외부에서 호출 가능한지 여부 (LLM이 직접 부를 수 있는지, 내부 워크플로 전용인지)
  • idempotency 정책
  • 평균/최대 응답 시간
  • 실패 시 fallback 정책 (retry, escalate, apologize)
  • audit 카테고리 (PHI_READ, PHI_WRITE, BENIGN)

레지스트리는 단순한 Java 인터페이스 + Spring Bean 등록으로 충분하다. 추후 모델에 노출할 JSON Schema는 이 레지스트리에서 자동 생성한다. 메타데이터를 코드와 따로 두지 않는 것이 핵심이다. 따로 두면 둘이 어긋나고, 어긋난 순간이 가장 위험한 순간이다.

3) Schema Validation

모델이 돌려준 arguments JSON은 절대 그대로 실행하지 않는다. 두 단계 검증을 거친다.

  • 구조 검증: JSON Schema validator로 타입/필수필드/enum/포맷을 확인한다. Java 진영에서는 networknt/json-schema-validator 같은 라이브러리가 표준이다.
  • 의미 검증: 환자 ID는 현재 인증된 사용자가 접근 권한을 가진 ID인지, 날짜는 미래가 아닌지, 약품 코드가 실제 코드 마스터에 존재하는지를 도메인 레이어에서 다시 확인한다.

구조 검증이 통과해도 의미 검증에서 떨어지는 경우가 가장 흔한 hallucination 패턴이다. 모델은 그럴듯한 환자 ID를 만들어낸다. 백엔드는 그것을 정중히 거절해야 한다.

4) Permission Check

도구 호출은 항상 현재 인증 컨텍스트의 권한과 함께 검증한다. 모델은 권한을 알 필요가 없고, 알게 해서도 안 된다. Spring Security 환경이라면 다음과 같은 모양이 된다.

  • 도구 등록 시 필요한 스코프를 선언
  • Tool Dispatcher가 호출 직전에 SecurityContext의 권한과 도구 스코프를 비교
  • 권한 부족이면 도구는 실행되지 않고, 모델에게는 "이 도구는 현재 사용자에게 허용되지 않음" 같은 일반화된 거절 메시지를 돌려준다 (왜 거절됐는지 상세 정보는 노출하지 않는다)

여기서 자주 하는 실수는 "모델이 시킨 일이니까 잠깐 권한을 올려서 실행한다"는 우회다. 어떤 경우에도 도구 실행은 사용자 컨텍스트에서 벌어진다. 모델은 권한 상승의 근거가 될 수 없다.

5) Fallback과 Retry

도구는 실패한다. HTTP 5xx, timeout, 부분 성공, 외부 EMR의 일시 장애. 각 실패에 대해 다음 정책을 미리 정한다.

  • Idempotent + 안전한 도구 (findPatient, findRecentPrescription): 지수 백오프 + jitter로 2~3회 재시도. 결과적으로 모델에게 보여줄 observation은 "성공" 또는 "최종 실패".
  • Side-effect 있는 도구 (resendPrescription, cancelAppointment): 재시도는 idempotency key가 있을 때만. 없으면 즉시 실패로 보고. 모델이 같은 도구를 반복 호출해 부작용이 누적되는 사고를 막는다.
  • 부분 성공: SMS는 보냈지만 푸시 알림 큐에 넣는 단계에서 실패한 경우, 부분 성공임을 모델이 알 수 있도록 observation 페이로드에 명시한다. 모델이 "보냈습니다"라고 단정하지 않게 한다.

루프 전체에는 최대 step 수, 최대 누적 토큰, 최대 누적 비용 가드를 둔다. 한 사용자 발화당 도구 호출 6회, 누적 LLM 토큰 30k, 시간 20초가 흔한 출발점이다. 가드에 걸리면 친절한 fallback 답변과 함께 사람 상담사로 escalate한다.

6) Audit Log

규제 도메인에서 audit log는 후순위가 아니라 1차 산출물이다. 한 번의 사용자 발화에 대해 다음을 모두 남긴다.

  • correlation id (요청-응답 추적용), trace id (분산 추적용)
  • 인증 사용자 식별자 (PHI는 토큰화/해시)
  • 분류 결과와 confidence
  • 모델에게 노출한 도구 목록과 system prompt 버전
  • 모델이 제안한 각 tool call의 이름·인자·정당화(있다면)
  • 검증 결과 (통과/거절 사유)
  • 실제 실행된 도구의 입력·출력 요약, 응답 시간, 결과 코드
  • 최종 모델 답변과 사용자에게 노출된 텍스트

audit는 운영뿐 아니라 모델 평가의 입력이 된다. 어떤 분류가 자주 잘못되는지, 어떤 도구의 인자 hallucination이 잦은지, 어떤 fallback 경로가 가장 많이 도는지를 정량적으로 본다. 이 데이터 없이는 LLM 시스템은 개선되지 않는다.

Java/Spring 연동 패턴

다음은 케어챗-스타일 백엔드에서 자주 쓰는 구조다. 코드는 핵심만 추렸다.

Tool 인터페이스와 레지스트리

java
public interface AgentTool<I, O> {
    String name();
    Class<I> inputType();
    JsonNode jsonSchema();
    Set<String> requiredScopes();
    SideEffect sideEffect(); // NONE, IDEMPOTENT_WRITE, NON_IDEMPOTENT_WRITE
    O invoke(I input, ToolContext ctx);
}
 
@Component
public class ToolRegistry {
    private final Map<String, AgentTool<?, ?>> byName;
 
    public ToolRegistry(List<AgentTool<?, ?>> tools) {
        this.byName = tools.stream().collect(toMap(AgentTool::name, t -> t));
    }
 
    public List<JsonNode> exposedSchemasFor(IntentCategory category, Authentication auth) {
        return byName.values().stream()
            .filter(t -> categoryAllows(category, t))
            .filter(t -> hasAllScopes(auth, t.requiredScopes()))
            .map(AgentTool::jsonSchema)
            .toList();
    }
}

핵심은 모델에 "노출되는 도구 목록"이 카테고리 + 권한으로 동적으로 좁혀진다는 점이다. 정적 전체 노출은 헬스케어에서는 위험하다.

Dispatcher

java
public ToolResult dispatch(ToolCall call, ToolContext ctx) {
    AgentTool<Object, Object> tool = registry.require(call.name());
 
    if (!ctx.hasAllScopes(tool.requiredScopes())) {
        audit.permissionDenied(call, ctx);
        return ToolResult.refused("not_authorized");
    }
 
    Object input = schemaValidator.validateAndBind(call.arguments(), tool.inputType());
    domainValidator.validate(input, ctx); // 환자 소유권, 날짜 sanity 등
 
    try {
        Object output = retryPolicy.runWithIdempotency(
            tool.sideEffect(), call.idempotencyKey(),
            () -> tool.invoke(input, ctx)
        );
        audit.success(call, output, ctx);
        return ToolResult.ok(output);
    } catch (DomainRefusal r) {
        audit.domainRefused(call, r, ctx);
        return ToolResult.refused(r.reasonCode());
    } catch (Exception e) {
        audit.failure(call, e, ctx);
        return ToolResult.error("tool_failed");
    }
}

모델에게 돌려주는 ToolResult는 항상 사용자에게 그대로 노출되어도 안전한 수준의 메시지여야 한다. 스택 트레이스, 내부 환자 ID, 외부 시스템의 원시 에러 코드를 모델에 흘리지 않는다. 모델은 그것을 사용자에게 그대로 풀어 쓸 수 있다.

Agent 루프

java
public AgentReply run(UserMessage msg, AgentContext ctx) {
    Intent intent = intentClassifier.classify(msg, ctx);
    LlmSession session = llm.openSession(intent.systemPrompt(),
                                         registry.exposedSchemasFor(intent.category(), ctx.auth()));
    session.append(msg);
 
    for (int step = 0; step < ctx.maxSteps(); step++) {
        LlmResponse r = session.next(ctx.budget());
        if (r.isFinal()) return AgentReply.text(r.text());
 
        ToolResult tr = dispatcher.dispatch(r.toolCall(), ctx.toToolContext());
        session.appendObservation(r.toolCall(), tr);
 
        if (ctx.budget().exhausted()) break;
    }
    return AgentReply.escalate("budget_exceeded");
}

루프는 단순해 보이지만, 실제 운영에서 어렵게 만드는 것은 루프 외부의 가드다. 토큰 예산, 시간 예산, step 수, 외부 의존성의 헬스 상태, circuit breaker — 이 모든 것을 ctx.budget() 안에 모아둔다. 모델이 무한히 도구를 부르거나, 같은 도구를 반복 호출해 비용을 폭발시키지 않게 하는 마지막 안전망이다.

나쁜 예 vs 개선된 예

나쁜 예 1 — 모델 출력을 그대로 실행

java
// 안티패턴
Map args = objectMapper.readValue(modelJson, Map.class);
String patientId = (String) args.get("patientId");
prescriptionService.resend(patientId);

문제: schema 검증 없음, 권한 검증 없음, 환자 소유권 검증 없음, audit 없음. 모델이 임의 환자 ID를 만들면 그대로 처방이 재발송된다.

개선

ToolCall → Dispatcher.dispatch 경로를 강제한다. 모델 출력은 항상 dispatcher 입구에서만 시스템 안으로 들어온다.

나쁜 예 2 — 비-idempotent 도구를 자동 재시도

java
// 안티패턴
@Retryable(maxAttempts = 3)
public void resend(String prescriptionId) { ... }

문제: 첫 호출이 외부 시스템에는 성공했는데 응답 타임아웃으로 우리 쪽이 실패라고 판단하면, 두 번 재시도가 추가로 발송된다. 환자에게 같은 SMS가 세 번 간다.

개선

idempotency key (예: agentRequestId + toolName) 를 외부 시스템과 합의해 같이 보낸다. 외부가 idempotency를 지원하지 않으면 재시도하지 않는다. 모델에게는 "발송 시도 결과 확인 불가, 사람 상담사로 연결" 같은 정직한 observation을 돌려준다.

나쁜 예 3 — 모든 도구를 항상 노출

java
// 안티패턴
session = llm.open(systemPrompt, registry.allSchemas());

문제: 잡담 컨텍스트에서도 resendPrescription 같은 민감 도구가 노출된다. prompt injection이나 사회공학 발화에 모델이 끌려갈 여지가 커진다.

개선

intent 분류 결과 + 사용자 권한으로 도구 풀을 좁힌다. 잡담 컨텍스트에는 PHI 도구를 절대 노출하지 않는다.

로컬 실습 환경

면접 대비 학습용으로 가볍게 굴릴 수 있는 환경.

  • JDK 21, Spring Boot 3.x
  • 의존성: spring-boot-starter-web, spring-boot-starter-validation, networknt/json-schema-validator, resilience4j-retry, micrometer-tracing
  • LLM: Anthropic 또는 OpenAI Java SDK. 키가 없으면 fake LLM으로 대체 — 정해진 시나리오에 따라 미리 준비된 tool call JSON을 돌려주는 단순 구현으로 시작한다. 워크플로 자체를 검증할 때는 진짜 모델보다 결정적인 가짜가 낫다.
  • 외부 의존성: findPatient, findRecentPrescription, resendPrescription을 인메모리 Map<String, ...>으로 구현한 fake adapter. 일정 비율로 5xx와 timeout을 주입할 수 있게 둔다.
  • 관측: logs/agent-audit.jsonl 파일에 줄 단위 JSON으로 audit를 적재. 분석은 jq로 충분하다.

실행 가능한 시나리오

다음 시나리오는 손으로 굴려보면서 워크플로의 실패 모드를 익히는 데 유용하다.

  1. 정상 경로: "처방 다시 보내줘" → 분류 → findPatient → findRecentPrescription → resendPrescription → 최종 답변. audit log 4줄, 모두 성공.
  2. 권한 부족: 인증된 사용자가 가족 계정 권한이 없는데 가족의 처방 재발송을 요청. 모델은 도구를 부르려 하지만 dispatcher가 not_authorized로 거절. 모델이 사람 상담사로 escalate.
  3. Hallucinated 환자 ID: 모델이 그럴듯하지만 존재하지 않는 환자 ID를 만들어냄. 의미 검증에서 거절. 모델이 본인 확인 단계로 되돌아감.
  4. 외부 SMS 게이트웨이 5xx: resendPrescription이 idempotency key와 함께 한 번 호출되고 실패. 재시도 정책 상 비-idempotent로 분류돼 있다면 재시도 없이 사용자에게 사과 + 콜백 예약 도구로 우회.
  5. 부분 성공: SMS는 발송됐으나 알림 푸시 큐 적재 실패. observation에 {"sms": "sent", "push": "queue_failed"}로 정직히 기록. 모델 답변은 "문자로는 보내드렸고 앱 알림은 잠시 후 다시 시도하겠다"가 돼야 한다. "모두 발송 완료"가 되어선 안 된다.
  6. 루프 폭주: 모델이 같은 도구를 반복 호출. step 가드가 6회에서 끊고 escalate.

각 시나리오는 통합 테스트로 묶어둘 수 있다. fake LLM은 시나리오별 스크립트를 받아 결정적으로 동작하게 만든다. 이렇게 하면 모델 응답이 바뀌어도 워크플로 가드가 잘 작동하는지를 회귀 테스트로 묶을 수 있다.

면접 답변 프레이밍

질문 유형별로 미리 정리해 둘 답의 뼈대.

"LLM Agent 시스템에서 가장 어려운 부분은 뭐라고 보세요?"

모델의 비결정성과 시스템의 결정성을 잇는 경계 설계라고 답한다. 구체적으로는 (1) 도구 메타데이터를 코드와 한 곳에 두는 레지스트리, (2) 모델 출력에 대한 두 단계 검증(스키마 + 의미), (3) 권한·idempotency·audit를 dispatcher 한 지점에 모아 우회 경로를 없애는 것 — 이 세 가지를 들면 백엔드 관점이 잘 드러난다.

"Tool Calling에서 hallucination을 어떻게 막나요?"

모델은 "잘 모를 때도 그럴듯한 인자"를 만든다는 전제에서 시작한다. 막는 게 아니라 걸러내는 설계라고 표현한다. 스키마 검증, 도메인 의미 검증, 사용자 권한·소유권 검증, 그리고 거절을 모델에게 정중한 observation으로 돌려보내 다음 step이 본인 확인 같은 안전한 경로로 흐르도록 유도한다. 거절 메시지에 내부 정보를 흘리지 않는다는 점도 같이 말한다.

"ReAct vs Plan-then-Execute 중 무엇을 골랐고 왜?"

도메인이 정형화돼 있고 감사 추적이 중요한 헬스케어라면 Plan-then-Execute의 약식 버전을 선호한다고 답한다. 자유도는 줄지만 재현성과 비용 통제가 좋아진다. ReAct는 도구 단계 내에서 제한적으로만 허용. trade-off를 명확히 말하는 것이 중요하다.

"비용·지연 폭주를 어떻게 막나요?"

루프당 step 수, 누적 토큰, 누적 시간, 누적 비용 가드를 sessions 단위로 두고, 각 도구의 평균/최대 응답 시간을 SLO로 관리한다. 외부 의존성에는 circuit breaker. 사용자 발화 1건에 대한 budget을 사전에 정하고, 초과 시 사람 상담사로 escalate.

"관측은 어떻게 설계했나요?"

분류 결과, 노출 도구 목록, 모델 제안 tool call, 검증 결과, 실제 실행 결과, 최종 답변까지를 한 correlation id로 묶어 audit JSONL에 적재한다. 운영뿐 아니라 모델 평가의 입력이 된다는 점을 강조한다.

체크리스트

  • 도구는 레지스트리 한 곳에서 등록되고, JSON Schema는 자동 생성되는가
  • intent 분류 결과와 사용자 권한으로 노출 도구 풀이 동적으로 좁혀지는가
  • 모델 출력은 dispatcher 입구에서만 시스템에 들어오는가
  • 스키마 검증과 도메인 의미 검증이 모두 있는가
  • 권한 검증은 도구 실행 직전에 dispatcher에서 이루어지는가
  • side-effect가 있는 도구의 재시도는 idempotency key가 있을 때만 일어나는가
  • 부분 성공이 모델에게 부분 성공으로 정확히 전달되는가
  • step 수, 토큰, 시간, 비용 가드가 모두 있는가, 가드 발동 시 escalate 경로가 있는가
  • 모든 단계가 하나의 correlation id로 묶여 audit JSONL에 적재되는가
  • 거절·실패 메시지가 사용자에게 노출되어도 안전한 수준으로 일반화돼 있는가
  • fake LLM 기반 통합 테스트로 정상·권한 부족·hallucination·외부 실패·부분 성공·루프 폭주 시나리오가 회귀 보호되는가
on this page
  • 01왜 이 주제가 중요한가
  • 02핵심 개념 — Tool Calling이란 무엇인가
  • Agent Workflow의 두 가지 패턴
  • 03백엔드 워크플로 설계 — 케어챗 시나리오
  • 1) Intent Classification (의도 분류)
  • 2) Tool Registry
  • 3) Schema Validation
  • 4) Permission Check
  • 5) Fallback과 Retry
  • 6) Audit Log
  • 04Java/Spring 연동 패턴
  • Tool 인터페이스와 레지스트리
  • Dispatcher
  • Agent 루프
  • 05나쁜 예 vs 개선된 예
  • 나쁜 예 1 — 모델 출력을 그대로 실행
  • 개선
  • 나쁜 예 2 — 비-idempotent 도구를 자동 재시도
  • 개선
  • 나쁜 예 3 — 모든 도구를 항상 노출
  • 개선
  • 06로컬 실습 환경
  • 07실행 가능한 시나리오
  • 08면접 답변 프레이밍
  • "LLM Agent 시스템에서 가장 어려운 부분은 뭐라고 보세요?"
  • "Tool Calling에서 hallucination을 어떻게 막나요?"
  • "ReAct vs Plan-then-Execute 중 무엇을 골랐고 왜?"
  • "비용·지연 폭주를 어떻게 막나요?"
  • "관측은 어떻게 설계했나요?"
  • 09체크리스트

댓글 (0)