fos-blog/study
01 / 홈02 / 카테고리03 / 시리즈
01 / 홈02 / 카테고리03 / 시리즈

카테고리

  • AI 페이지로 이동
    • RAG 페이지로 이동
    • langgraph 페이지로 이동
    • agents.md
    • BMAD Method — AI 에이전트로 애자일 개발하는 방법론
    • Claude Code 메모리: CLAUDE.md와 .claude/rules를 규칙으로 쓰는 법
    • Claude Code의 Skill 시스템 - 개발자를 위한 AI 자동화의 새로운 차원
    • Claude Code를 5주 더 쓴 결과 — 스킬·CLAUDE.md를 키워가는 방식
    • Claude Code를 11일 동안 쓴 결과 — 데이터로 본 나의 사용 패턴
    • Claude Code 멀티 에이전트 — Teams
    • AI 에이전트와 디자인의 새 컨벤션 — DESIGN.md, Google Stitch, Claude Design
    • Docling — IBM Research 의 문서 파싱 toolkit 상세 정리
    • 하네스 엔지니어링 실전 — 4인 에이전트 팀으로 코딩 파이프라인 구축하기
    • 하네스 엔지니어링 — 오래 실행되는 AI 에이전트를 위한 설계
    • 멀티모달 LLM (Multimodal Large Language Model)
    • AI 에이전트와 함께 MVP 만들기 — dooray-cli 사례
    • 스킬 문서를 신경망처럼 학습시킨다 — Microsoft SkillOpt 분석
  • ai 페이지로 이동
    • agent 페이지로 이동
    • [초안] AI 제품 백엔드 안정성 — 지연·비용·권한·관측·도구 실패·폴백/재시도/사람 에스컬레이션
    • [초안] LLM 평가 프레임워크: 골든셋, 회귀 테스트, LLM-as-a-judge, 사람 피드백 루프
  • algorithm 페이지로 이동
    • live-coding 페이지로 이동
    • 분산 계산을 위한 알고리즘
  • apartment 페이지로 이동
    • 구리 럭키아파트 24평 인테리어 레퍼런스 모음
  • architecture 페이지로 이동
    • [초안] 시니어 백엔드를 위한 API 설계 실전 스터디 팩 — REST · 멱등성 · 페이지네이션 · 버전 전략
    • [초안] API Versioning과 Backward Compatibility: 시니어 백엔드 관점 정리
    • 캐시 설계 전략 총정리
    • [초안] CJ푸드빌 디지털 채널 면접: 슬롯 도메인 경험을 커머스 도메인 설계 능력으로 번역하기
    • [초안] 커머스 Spring 서비스에 Clean/Hexagonal Architecture를 실용적으로 적용하기
    • [초안] 커머스 도메인 모델링: 주문·재고·노출의 세 축을 분리해서 설계하기
    • 커머스 주문 상태와 데이터 정합성 기본기 — CJ푸드빌 면접 대비
    • [초안] 쿠폰/프로모션 동시성과 정합성 기본기 — 선착순·중복 사용 방지·발급/사용/복구
    • [초안] DDD와 도메인 모델링: 시니어 백엔드 관점의 전술/전략 패턴 실전 가이드
    • [초안] Decorator & Chain of Responsibility — 행동을 체인으로 조립하는 두 가지 방식
    • 디자인 패턴
    • [초안] 분산 아키텍처 완전 정복: Java 백엔드 시니어 인터뷰 대비 실전 가이드
    • [초안] 분산 트랜잭션과 Outbox 패턴 — 왜 2PC를 피하고 어떻게 대신할 것인가
    • 분산 트랜잭션
    • [초안] e-Commerce 주문·결제 도메인 모델링: 상태머신, 멱등성, Outbox/Saga 실전 정리
    • [초안] F&B 쿠폰·프로모션·멤버십·포인트 설계
    • [초안] F&B · e-Commerce 디지털 채널 도메인 한 장 정리 — CJ푸드빌 디지털 채널 백엔드 면접 대비
    • [초안] F&B 주문/매장/픽업 상태머신 설계 — CJ푸드빌 디지털 채널 백엔드 관점
    • [초안] F&B 이커머스 결제·환불·정산 운영 가이드
    • [초안] Hexagonal / Clean Architecture를 Spring 백엔드에 적용하기
    • [초안] 대규모 커머스 트래픽 처리 패턴 — 1,600만 고객과 올영세일을 버티는 설계
    • [초안] 레거시 JSP/jQuery 화면과 신규 API가 공존하는 백엔드 운영 전략
    • [초안] MSA 서비스 간 통신: Redis [Cache-Aside](../database/redis/cache-aside.md) × Kafka 이벤트 하이브리드 설계
    • [초안] Observability 입문: 시니어 백엔드가 장애를 탐지하고 대응하는 방식
    • [초안] Outbox / Inbox Pattern 심화 — 분산 메시징의 정합성 문제를 DB 트랜잭션으로 풀어내기
    • [초안] 결제 도메인 멱등성과 트랜잭션 재시도 기본기
    • [초안] 시니어 백엔드를 위한 Resilience 패턴 실전 가이드 — Timeout, Retry, Circuit Breaker, Bulkhead, Backpressure
    • [초안] REST API 버저닝과 모바일 앱 하위 호환성 — CJ푸드빌 디지털 채널 백엔드 관점
    • [초안] Spring Batch vs Event-Driven — 같은 비동기처럼 보이지만 전혀 다른 두 패러다임
    • [초안] Strategy Pattern — 분기문을 없애는 설계, 시니어 백엔드 인터뷰 핵심 패턴
    • [초안] 시니어 백엔드를 위한 시스템 설계 입문 스터디 팩
    • [초안] 템플릿 메서드 패턴 - 백엔드 처리 골격을 강제하는 가장 오래되고 가장 위험한 패턴
    • [초안] 대규모 트래픽 중 무중단 마이그레이션 — Feature Flag + Shadow Mode 실전
  • database 페이지로 이동
    • mysql 페이지로 이동
    • opensearch 페이지로 이동
    • redis 페이지로 이동
    • 김영한의-실전-데이터베이스-설계 페이지로 이동
    • [초안] DB Connection Pool Saturation과 Thread Pool 격리
    • 커넥션 풀 크기는 얼마나 조정해야 할까?
    • 인덱스 - DB 성능 최적화의 핵심
    • [초안] JPA N+1과 커머스 조회 모델: 주문/메뉴/쿠폰 도메인에서 살아남기
    • [초안] MyBatis 기본기 — XML Mapper, resultMap, 동적 SQL, 운영 패턴 정리
    • [초안] MyBatis와 JPA/Hibernate 트레이드오프 — 레거시 백엔드를 다루는 시니어 관점
    • 역정규화 (Denormalization)
    • 데이터 베이스 정규화
  • devops 페이지로 이동
    • docker 페이지로 이동
    • k8s 페이지로 이동
    • k8s-in-action 페이지로 이동
    • observability 페이지로 이동
    • [초안] 커머스/F&B 채널 장애 첫 5분과 관측성 기본기
    • Envoy Proxy
    • [초안] F&B / e-Commerce 운영 장애 대응과 모니터링 — 백엔드 관점 정리
    • Graceful Shutdown
    • [초안] 시니어 백엔드를 위한 SLO와 Error Budget 기반 장애 대응
  • finance 페이지로 이동
    • industry-cycle 페이지로 이동
    • investing 페이지로 이동
  • http 페이지로 이동
    • HTTP Connection Pool
    • HTTPS는 어떻게 안전한가 — TLS, 인증서, 그리고 termination
  • interview 페이지로 이동
    • [초안] AI 서비스 팀 경험 기반 시니어 백엔드 면접 질문 뱅크 — Spring Batch RAG / gRPC graceful shutdown / 전략 패턴 / 12일 AI 웹툰 MVP
    • [초안] 커머스/F&B 면접 답변집 — 슬롯 도메인 경험을 주문·결제·쿠폰·매장 설계로 매핑하기
    • [초안] F&B / e-Commerce 운영 모니터링과 장애 대응 인터뷰 정리
    • Observability — 면접 답변 프레임
    • [초안] 시니어 Java 백엔드 면접 마스터 플레이북 — 김병태
    • [초안] NSC 슬롯팀 경험 기반 질문 은행 — 도메인 모델링·동시성·성능·AI 협업
  • java 페이지로 이동
    • concurrency 페이지로 이동
    • jdbc 페이지로 이동
    • opentelemetry 페이지로 이동
    • spring 페이지로 이동
    • spring-batch 페이지로 이동
    • 더_자바_코드를_조작하는_다양한_방법 페이지로 이동
    • [초안] Java 동시성 락 정리 — 커머스 메뉴/프로모션 정책 캐시 갱신 관점
    • [초안] JVM 튜닝 실전: 메모리 구조부터 Virtual Threads, GC 튜닝, 프로파일링까지
    • Java의 로깅 환경
    • MDC (Mapped Diagnostic Context)
    • Java StampedLock — 읽기 폭주에도 쓰기가 밀리지 않는 락
    • Virtual Thread와 Project Loom
  • javascript 페이지로 이동
    • typescript 페이지로 이동
    • AbortController
    • Async Iterator와 제너레이터
    • CommonJS와 ECMAScript Modules
    • 제너레이터(Generator)
    • Http Client
    • Node 백엔드 운영 패턴 — Streams 백프레셔, pipe/pipeline, 멱등성 vs 분산 락
    • Node.js
    • npm vs pnpm — 어떤 기준으로 선택했나
    • `setImmediate()`
  • kafka 페이지로 이동
    • [초안] Kafka 기본 개념 — 토픽, 파티션, 오프셋, 복제
    • Kafka를 사용하여 **데이터 정합성**은 어떻게 유지해야 할까?
    • [초안] Kafka 실전 설계: 파티션 전략, 컨슈머 그룹, 전달 보장, 재시도, 순서 보장 트레이드오프
    • 메시지 전송 신뢰성
  • linux 페이지로 이동
    • fsync — 리눅스 파일 동기화 시스템 콜
    • tmux — Terminal Multiplexer
  • network 페이지로 이동
    • L2(스위치)와 L3(라우터)의 역할 차이
    • L4와 VIP(Virtual IP Address)
    • IP Subnet
  • python 페이지로 이동
    • Python async/await — CompletableFuture·Reactor 와 다른 점, 그리고 blocking I/O 함정
    • Python 의존성 관리 — Java Maven/Gradle 사용자가 만나는 첫 충격
    • FastAPI 기초 — Spring Boot 사용자가 빠르게 익히는 법
    • GPU·CUDA·MPS 기초 — 자바 백엔드 개발자가 처음 만나는 그림
    • Multi-process GPU 워크로드 — 자바 ThreadPool 사용자가 만나는 모델 차이
    • Java 개발자를 위한 Python 심화 — OOP·데코레이터·컨텍스트 매니저
    • PyTorch 기초 — 텐서, 디바이스, 그리고 모델 로딩이 무거운 이유
    • Java 개발자를 위한 Python 문법 핵심
    • ML 서비스 성능 분석 워크플로 — 자바 백엔드 트러블슈팅과 다른 점
    • OCR 동작 원리 — Layout · Text · Post-process 3단계
    • Python 서버의 RSS 가 안 줄어드는 이유 — gc.collect 의 한계와 malloc_trim
  • rabbitmq 페이지로 이동
    • [초안] RabbitMQ Basics — 실전 백엔드 관점에서 정리하는 메시지 브로커 기본기
    • [초안] RabbitMQ vs Kafka — 백엔드 메시징 선택 기준과 실전 운영 관점
  • security 페이지로 이동
    • [초안] 시니어 백엔드를 위한 보안 / 인증 스터디 팩 — Spring Security, JWT, OAuth2, OWASP Top 10
    • [초안] Spring Security 6.x OAuth2 + JWT 상용 인증 설계 — Grant 선택, Resource Server, Refresh Rotation, 로그아웃
  • task 페이지로 이동
    • ai-service-team 페이지로 이동
    • nsc-slot 페이지로 이동
    • sb-dev-team 페이지로 이동
    • the-future-company 페이지로 이동
  • testing 페이지로 이동
    • [초안] 시니어 Java 백엔드를 위한 테스트 전략 완전 정리 — 피라미드부터 TestContainers, 마이크로벤치, Contract까지
  • travel 페이지로 이동
    • 오사카 3박 4일 일정표: 우메다 쇼핑, USJ, 난바·도톤보리, 오사카성
  • web 페이지로 이동
    • [초안] HTTP / Cookie / Session / Token 인증 기본기 — 레거시 JSP와 모바일 API가 공존하는 백엔드 관점
FOS-BLOG · FOOTERall systems normal·v0.1 · 2026.04.27·seoul, kr
Ffos-blog/study

개발 학습 기록을 정리하는 블로그입니다. 공부하면서 기록하고, 기록하면서 다시 배웁니다.

visitors
01site
  • Home↗
  • Posts↗
  • Categories↗
  • About↗
02policy
  • 소개/about
  • 개인정보처리방침/privacy
  • 연락처/contact
03categories
  • AI↗
  • Algorithm↗
  • DB↗
  • DevOps↗
  • Java/Spring↗
  • JS/TS↗
  • React↗
  • Next.js↗
  • System↗
04connect
  • GitHub@jon890↗
  • Source repositoryjon890/fos-study↗
  • RSS feed/rss.xml↗
  • Newsletter매주 1 회 · 한 편의 글→
© 2026 FOS Study. All posts MIT-licensed.
built with·Next.js·Tailwind v4·Geist·Pretendard·oklch
fos-blog/AI/스킬 문서를 신경망처럼 학습시킨다 — Mic…
ai

스킬 문서를 신경망처럼 학습시킨다 — Microsoft SkillOpt 분석

나는 Claude Code 위에서 30개가 넘는 개인 스킬(skill)을 운영한다. 블로그 글 작성, 이력서 갱신, 주간보고, 사내 결재 자동화 같은 반복 워크플로우를 각각 SKILL.md 한 장으로 정의해두고 쓴다. 이 스킬들은 시간이 지나면서 점점 커진다. 한 번 실수하면 "이런 함정이 있더라"를 문서에 적어두고, 다음에 같은 실수를 피하는 식이다. 그...

2026.06.12·7 min read·7 views

나는 Claude Code 위에서 30개가 넘는 개인 스킬(skill)을 운영한다. 블로그 글 작성, 이력서 갱신, 주간보고, 사내 결재 자동화 같은 반복 워크플로우를 각각 SKILL.md 한 장으로 정의해두고 쓴다. 이 스킬들은 시간이 지나면서 점점 커진다. 한 번 실수하면 "이런 함정이 있더라"를 문서에 적어두고, 다음에 같은 실수를 피하는 식이다.

그런데 이 개선 방식에는 두 가지 약점이 있다.

  • 문서가 커지기만 한다 — 항목을 추가하지 삭제하지는 않는다.
  • 그 편집이 정말 개선인지 검증하는 단계가 없다 — 추가한 규칙이 오히려 다른 케이스를 망칠 수도 있다.

Microsoft가 공개한 SkillOpt는 정확히 이 문제를 정조준한다. "스킬 문서를 신경망 가중치처럼 학습시킨다"는 도발적인 발상인데, 공부해보니 내 스킬 운영 방식에 그대로 빌려올 규율이 들어 있었다. 이 글은 SkillOpt가 무엇이고, 어떤 전제 위에서 동작하며, 채점이 어려운 개인 워크플로우에는 어디까지 적용할 수 있는지 정리한 학습 노트다.

SkillOpt가 푸는 문제

에이전트 스킬은 보통 세 가지 방식으로 만들어진다.

  • 사람이 손으로 작성한다.
  • LLM이 한 번 생성하고 끝낸다.
  • 에이전트가 스스로 고쳐쓰는데, 통제 장치가 없다.

세 방식 모두 공통점이 있다. 규율 있는 옵티마이저(optimizer)처럼 동작하지 않는다. 개선이 일어나도 그게 진짜 개선인지 믿을 근거가 없고, 문서는 점점 비대해진다.

SkillOpt의 핵심 통찰은 이 지점에 있다. 가중치 학습이 재현 가능한 이유는 epoch, mini-batch, learning rate, validation 같은 규율 때문이다. 그렇다면 스킬 문서라는 텍스트에도 같은 규율을 입히면 되지 않겠는가.

모델 가중치는 건드리지 않는다. 학습되는 것은 오직 스킬 문서 한 장이다.

모델은 얼어붙은(frozen) 상태로 두고, 별도의 옵티마이저 모델이 스킬 문서를 고친다. 타깃 모델은 그대로, 스킬 문서만 학습 대상이 된다.

학습 루프 — 가중치 학습을 텍스트로 옮기다

SkillOpt의 학습 루프는 머신러닝 학습 사이클을 거의 그대로 베껴왔다.

각 단계를 풀면 이렇다.

  • Rollout — 타깃 모델이 과제를 실행하고, 그 결과를 채점해 궤적(trajectory)과 점수를 기록한다.
  • Reflect — 옵티마이저 모델이 성공 배치와 실패 배치를 따로 분석한다.
  • Edit — 분석을 바탕으로 스킬 문서에 add / delete / replace 편집안을 제안하고 순위를 매긴다.
  • Gate — 후보 편집은 따로 떼어둔 검증셋(held-out) 점수가 엄격히 올라갈 때만 채택된다.

여기서 가장 중요한 단어가 Gate다. 편집을 제안하는 것은 쉽다. 그 편집이 진짜 개선인지 가르는 관문이 학습의 신뢰성을 만든다.

학습을 안정시키는 네 장치

루프 자체보다 이 루프를 떠받치는 안정화 장치가 SkillOpt의 진짜 알맹이다. 가중치 학습에서 발산을 막는 기법들을 텍스트 편집으로 번역했다.

장치역할가중치 학습 대응
편집 예산 제한한 번에 가하는 add/delete/replace 양을 묶어둠learning rate
Validation gateheld-out 점수가 엄격히 오를 때만 채택early stopping
거부 편집 버퍼탈락한 편집을 기억해 같은 실수 반복 방지momentum·history
epoch 단위 meta 업데이트천천히 누적 반영slow weights

특히 편집 예산 제한을 SkillOpt는 "텍스트 learning rate"라고 부른다. 한 번에 문서를 통째로 갈아엎으면 파괴적 재작성(destructive rewrite)이 일어난다. 편집량을 제한하면 문서가 가소성(plasticity)을 유지하면서도 안정적으로 수렴한다. learning rate가 너무 크면 학습이 발산하는 것과 똑같은 원리다.

성능과 산출물

논문급 실험 규모로 검증했다.

  • 7개 타깃 모델 × 6개 벤치마크 × 3개 실행 환경 = 52개 조합
  • 실행 환경은 직접 채팅, Codex CLI, 그리고 Claude Code CLI 세 가지
  • 52개 조합 전부에서 best 또는 동률 1위
  • 무(無)스킬 대비 정확도 +19 ~ +25점

벤치마크는 SearchQA, Sheet, Office, DocVQA, LiveMath, ALFWorld로 구성됐다. 검색 기반 질의응답, 스프레드시트 자동화, 문서 분석, 수학 풀이, 가정 내 과제 계획 같은 정답을 채점할 수 있는 영역들이다.

산출물은 단 하나다. best_skill.md — 보통 300 ~ 2,000 토큰의 컴팩트한 스킬 문서다. 추론 시점에 추가 모델 호출 0회로 타깃 모델에 그대로 붙여 쓴다. 학습할 때만 옵티마이저 모델이 비용을 쓰고, 배포된 산출물은 가벼운 텍스트 한 장이라는 점이 깔끔하다.

SkillOpt-Sleep — 코딩 에이전트의 야간 정리

본체보다 내 워크플로우에 훨씬 가까운 건 SkillOpt-Sleep이다. 코딩 에이전트를 위한 야간 정리(nightly consolidation) 사이클이다.

흐름은 이렇다.

  • 지난 세션 기록을 수집한다.
  • 반복되는 과제 패턴을 채굴한다.
  • API 예산 안에서 오프라인으로 재실행한다.
  • reflect → 제한된 편집 → 실제 held-out 과제로 GATE 순서로 정리한다.
  • 통과한 편집안을 검토용으로 staging 한다.
  • 사람이 채택 여부를 결정한다.

결정적으로 Claude Code 플러그인을 공식 제공한다.

bash
/plugin marketplace add ./plugins/claude-code
/sleep

내가 매일 쌓는 세션 기록을 밤사이 훑어서, 반복 패턴을 찾고, 게이트를 통과한 편집안만 골라 올려준다. 나는 아침에 보고 채택 여부만 정한다. gbrain-evals의 skillopt-v1 벤치마크 테스트에서는 결함 있는 스킬이 held-out 평가 기준 0.00에서 1.00으로 올랐다(Claude·Codex 양쪽, 4개 시드 전부).

내 스킬 운영 방식과 겹치는 지점

공부하면서 흥미로웠던 건, 내가 이미 SkillOpt의 문제의식을 절반쯤 손으로 구현해두고 있었다는 점이다.

내가 이미 하는 것SkillOpt가 더하는 것
스킬 사용 후 회고 → SKILL.md 직접 수정회고를 자동화 + 편집을 게이트로 검증
같은 피드백 2회 반복 시 공통 함정 문서로 승격거부 편집 버퍼로 자동 누적·회피
스킬에 함정 사례를 계속 추가편집 예산 제한으로 문서 비대화 방지

SkillOpt 문서가 콕 집어 비판하는 통제되지 않은 self-revision으로 진화하는 스킬 — 그게 정확히 지금 내 스킬 개선 방식이다. 이 누적식 개선은 Claude Code를 5주 더 쓴 결과에서 정리한 "스킬·CLAUDE.md를 키워가는 방식"과 같은 흐름이다. 회고가 누적될수록 문서는 커지기만 하고, 그 편집이 정말 개선인지 검증하는 단계가 없다. SkillOpt는 바로 그 비대화와 무검증에 두 개의 브레이크를 단다. 편집 예산 제한으로 문서가 무한정 커지는 것을 막고, 검증 게이트로 회귀를 막는다.

결정적 걸림돌 — 채점할 수 있어야 한다

여기서 현실의 벽을 만난다. SkillOpt를 실제로 돌리려면 채점 함수(reward)와 held-out 검증셋이 반드시 있어야 한다. 과제마다 세 가지를 구현해야 한다.

  • dataloader.py — 과제 인스턴스를 로드한다.
  • rollout.py — 스킬을 과제에 대고 실행한다.
  • initial.md — 시드 스킬 문서.

그리고 rollout 결과를 채점하는 reward 함수가 있어야 학습 신호가 생긴다. 이 reward와 held-out 검증셋은 LLM 평가 프레임워크에서 다룬 골든셋·회귀 테스트와 같은 인프라를 요구한다. 바로 이 지점에서 내 스킬 대부분이 탈락한다.

스킬 유형자동 채점 가능?이유
브라우저 결재 자동화불가부수효과·승인 흐름이라 정답이 없음
대화형·사람 개입 워크플로우불가"좋은 답글"의 정답 데이터가 없음
외부 시스템 연동 CLI불가실행할 때마다 시스템 상태가 변함
규칙 기반 산출물일부 가능lint·스타일 위반 수를 점수로 환산 가능

내 스킬의 8할은 "점수"라는 개념 자체가 성립하지 않는다. 사람이 미리보기를 보고 confirm 하는 흐름이 핵심인 워크플로우는, 자동 채점 루프와 근본적으로 맞물리지 않는다. SkillOpt가 벤치마크로 고른 영역(검색·수학·스프레드시트)이 전부 정답이 명확한 과제라는 점이 이 한계를 역으로 보여준다.

그래도 적용할 수 있는 곳

채점 가능성이 보이는 스킬이 몇 개 있다. 여기가 진짜 기회다.

문서 감사형 스킬 — lint 결과가 곧 reward

문서 건전성을 검사하는 스킬은 이미 객관적 신호를 가진다. broken link 0건, orphan 문서 0건, 취소선 오발동 0건 — 전부 자동으로 측정된다. 이 측정값을 reward로 삼으면 "감사 규칙 문서"를 SkillOpt로 학습시켜 놓치는 위반 패턴을 줄이는 실험이 가능하다.

스타일 규칙 기반 글쓰기 스킬 — 체크리스트를 점수로

마크다운 가독성 규칙, 한국어 스타일 규칙은 거의 채점표 형태다. 한 문장 한 줄(semantic line break) 위반 수, 콤마 3개 이상 나열 수, 명사형 종결 수 같은 위반 항목을 세면 그대로 rollout 채점이 된다. 위반 수가 낮을수록 높은 점수를 주는 reward 함수를 짜면 학습 신호가 만들어진다.

가장 현실적인 진입로 — SkillOpt-Sleep만 얹기

전체 학습 루프를 구축하는 대신, Claude Code 플러그인 /sleep만 설치하는 길이 있다.

  • 내 세션 기록에서 반복 패턴을 채굴한다.
  • 게이트를 통과한 편집 제안만 staging 한다.
  • 나는 채택 여부만 결정한다.

이건 내 기존 수동 회고 루프를 자동화하는 것이고, 채점 부담이 본체보다 훨씬 가볍다.

지금 보면 — 도구가 아니라 규율로 받아들이기

공부를 마치고 든 생각은, SkillOpt를 "설치할 도구"로만 보면 핵심을 놓친다는 것이다.

당장 큰 이점은 도구 설치가 아니라 규율의 차용에 있다. 내 회고 루프는 편집을 추가만 하고 검증은 하지 않았다. 여기에 SkillOpt의 두 가지 발상을 의식적으로 끼워넣을 수 있다.

  • 이 편집이 직전 버전 대비 정말 개선인가 — 검증 게이트를 한 단계 추가한다.
  • 문서가 커지기만 하는가 — 편집 예산을 정해 비대화를 막는다.

내 공통 함정 문서 승격 규칙은 이미 거부 편집 버퍼와 같은 발상이니, 그건 잘 가고 있던 셈이다.

현실적인 순서는 이렇게 잡았다.

  • 지금 — 철학만 차용한다. 회고로 스킬을 고칠 때 "이게 직전보다 나은가"를 의식적으로 묻는다.
  • 가볍게 — /sleep 플러그인을 저위험 저장소에서 한 번 돌려보고 제안 품질을 본다.
  • 여력이 생기면 — 문서 감사형 스킬을 첫 본체 학습 대상으로 삼는다. 채점 신호(lint 결과)가 이미 있어서 학습 환경 구축 비용이 가장 낮다.

스킬을 가중치처럼 학습시킨다는 비유가 모든 워크플로우에 통하지는 않는다. 하지만 "텍스트 편집에도 learning rate와 validation이 필요하다"는 감각은, 정답이 없는 개인 워크플로우에도 그대로 쓸 수 있는 자산이었다.

참고 링크

  • microsoft/SkillOpt (GitHub)
  • SkillOpt README
  • SkillOpt 프로젝트 페이지
on this page
  • 01SkillOpt가 푸는 문제
  • 02학습 루프 — 가중치 학습을 텍스트로 옮기다
  • 03학습을 안정시키는 네 장치
  • 04성능과 산출물
  • 05SkillOpt-Sleep — 코딩 에이전트의 야간 정리
  • 06내 스킬 운영 방식과 겹치는 지점
  • 07결정적 걸림돌 — 채점할 수 있어야 한다
  • 08그래도 적용할 수 있는 곳
  • 문서 감사형 스킬 — lint 결과가 곧 reward
  • 스타일 규칙 기반 글쓰기 스킬 — 체크리스트를 점수로
  • 가장 현실적인 진입로 — SkillOpt-Sleep만 얹기
  • 09지금 보면 — 도구가 아니라 규율로 받아들이기
  • 10참고 링크

이런 글도

  • Claude Code 메모리: CLAUDE.md와 .claude/rules를 규칙으로 쓰는 법
    진행 기간: 2026.06 Claude Code로 한 레포를 오래 다루다 보면 "매번 같은 걸 다시 설명하는" 순간이 온다. PR 본문은 이렇게 써라, Dooray 업무 제목은 이 형식이다, 한국어로 풀어 써라. 이걸 어디에 적어둬야 Claude가 실제로 지키는지 — 그게 이 글의 주제다. 나는 그동안 이런 규칙을 프로젝트 안 .claude/skills/s...
    🤖 ai
    ai
    2026.06.08
  • [초안] LLM 평가 프레임워크: 골든셋, 회귀 테스트, LLM-as-a-judge, 사람 피드백 루프
    LLM 기반 기능은 한 가지 곤란한 성질을 가진다. 같은 입력에도 출력이 매번 달라지고, "좋아졌다"가 숫자로 잘 잡히지 않는다. 프롬프트 한 줄을 고치거나 모델 버전을 올렸을 때, 그게 정말 개선인지 아니면 어떤 케이스를 조용히 망가뜨린 퇴행인지 눈으로는 알 수 없다. 그래서 LLM 제품의 신뢰성은 모델 자체보다 평가 체계(evaluation) 에서 갈린...
    🤖 ai
    ai
    2026.06.07
  • [초안] AI 제품 백엔드 안정성 — 지연·비용·권한·관측·도구 실패·폴백/재시도/사람 에스컬레이션
    LLM을 붙인 제품의 백엔드는 일반 CRUD 백엔드와 안정성 모델이 다르다. 일반 백엔드는 "DB가 살아 있으면 같은 입력에 같은 출력"이 기본 전제다. AI 제품 백엔드는 그렇지 않다. - 응답이 비결정적이다 — 같은 입력에도 모델 출력이 매번 달라진다. 그래서 "정상 응답"의 정의 자체를 우리가 따로 만들어야 한다. - 지연이 크고 가변적이다 — 모델...
    🤖 ai
    ai
    2026.06.07
  • [초안] Agentic Workflow 상태 관리 — LangGraph로 보는 State Graph, Checkpoint, Human-in-the-loop, Tool 권한 경계
    도구를 한 번 부르고 끝나는 에이전트는 함수 호출과 다를 게 없다. 진짜 어려움은 에이전트가 여러 step에 걸쳐 오래 살아 있을 때 생긴다. 사용자가 중간에 답을 주길 기다려야 하고, 외부 API가 죽으면 재시도해야 하고, 프로세스가 재시작돼도 진행 중이던 작업을 이어가야 한다. 이때 시스템이 다뤄야 하는 것은 모델의 출력이 아니라 워크플로의 상태(sta...
    🤖 ai
    ai
    2026.06.07

댓글 (0)