fos-blog/study
01 / 홈02 / 카테고리03 / 시리즈
01 / 홈02 / 카테고리03 / 시리즈

카테고리

  • AI 페이지로 이동
    • RAG 페이지로 이동
    • agent 페이지로 이동
    • langgraph 페이지로 이동
    • 사람용 CLI와 AI 에이전트용 CLI는 설계가 다르다
    • agents.md
    • BMAD Method — AI 에이전트로 애자일 개발하는 방법론
    • Claude Code 메모리: CLAUDE.md와 .claude/rules를 규칙으로 쓰는 법
    • Claude Code의 Skill 시스템 - 개발자를 위한 AI 자동화의 새로운 차원
    • Claude Code를 5주 더 쓴 결과 — 스킬·CLAUDE.md를 키워가는 방식
    • Claude Code를 11일 동안 쓴 결과 — 데이터로 본 나의 사용 패턴
    • Claude Code 멀티 에이전트 — Teams
    • AI 에이전트와 디자인의 새 컨벤션 — DESIGN.md, Google Stitch, Claude Design
    • Docling — IBM Research 의 문서 파싱 toolkit 상세 정리
    • 하네스 엔지니어링 실전 — 4인 에이전트 팀으로 코딩 파이프라인 구축하기
    • 하네스 엔지니어링 — 오래 실행되는 AI 에이전트를 위한 설계
    • 멀티모달 LLM (Multimodal Large Language Model)
    • AI 에이전트와 함께 MVP 만들기 — dooray-cli 사례
    • OpenClaw는 context와 memory를 어떻게 관리하나 — 나만의 에이전트를 구성하는 법
    • OpenClaw vs Hermes Agent — 갈아탈까 고민하며 정리한 비교
    • 스킬 문서를 신경망처럼 학습시킨다 — Microsoft SkillOpt 분석
  • ai 페이지로 이동
    • agent 페이지로 이동
    • [초안] AI 제품 백엔드 안정성 — 지연·비용·권한·관측·도구 실패·폴백/재시도/사람 에스컬레이션
    • [초안] LLM 평가 프레임워크: 골든셋, 회귀 테스트, LLM-as-a-judge, 사람 피드백 루프
  • algorithm 페이지로 이동
    • live-coding 페이지로 이동
    • 분산 계산을 위한 알고리즘
  • apartment 페이지로 이동
    • 구리 럭키아파트 24평 인테리어 레퍼런스 모음
  • architecture 페이지로 이동
    • [초안] 시니어 백엔드를 위한 API 설계 실전 스터디 팩 — REST · 멱등성 · 페이지네이션 · 버전 전략
    • [초안] API Versioning과 Backward Compatibility: 시니어 백엔드 관점 정리
    • 캐시 설계 전략 총정리
    • [초안] 커머스 Spring 서비스에 Clean/Hexagonal Architecture를 실용적으로 적용하기
    • [초안] 커머스 도메인 모델링: 주문·재고·노출의 세 축을 분리해서 설계하기
    • 커머스 주문 상태와 데이터 정합성 기본기
    • [초안] 쿠폰/프로모션 동시성과 정합성 기본기 — 선착순·중복 사용 방지·발급/사용/복구
    • [초안] DDD와 도메인 모델링: 시니어 백엔드 관점의 전술/전략 패턴 실전 가이드
    • [초안] Decorator & Chain of Responsibility — 행동을 체인으로 조립하는 두 가지 방식
    • 디자인 패턴
    • [초안] 분산 아키텍처 완전 정복: Java 백엔드 시니어 인터뷰 대비 실전 가이드
    • [초안] 분산 트랜잭션과 Outbox 패턴 — 왜 2PC를 피하고 어떻게 대신할 것인가
    • 분산 트랜잭션
    • [초안] e-Commerce 주문·결제 도메인 모델링: 상태머신, 멱등성, Outbox/Saga 실전 정리
    • [초안] Event Sourcing과 CQRS — 상태가 아니라 변화를 저장한다는 발상
    • [초안] F&B 쿠폰·프로모션·멤버십·포인트 설계
    • [초안] F&B · e-Commerce 디지털 채널 도메인 한 장 정리
    • [초안] F&B 주문/매장/픽업 상태머신 설계
    • [초안] F&B 이커머스 결제·환불·정산 운영 가이드
    • [초안] Hexagonal / Clean Architecture를 Spring 백엔드에 적용하기
    • [초안] 대규모 커머스 트래픽 처리 패턴 — 대규모 회원과 메가 프로모션을 버티는 설계
    • [초안] 레거시 JSP/jQuery 화면과 신규 API가 공존하는 백엔드 운영 전략
    • [초안] MSA 서비스 간 통신: Redis [Cache-Aside](../database/redis/cache-aside.md) × Kafka 이벤트 하이브리드 설계
    • [초안] Observability 입문: 시니어 백엔드가 장애를 탐지하고 대응하는 방식
    • [초안] Outbox / Inbox Pattern 심화 — 분산 메시징의 정합성 문제를 DB 트랜잭션으로 풀어내기
    • [초안] 결제 도메인 멱등성과 트랜잭션 재시도 기본기
    • [초안] 시니어 백엔드를 위한 Resilience 패턴 실전 가이드 — Timeout, Retry, Circuit Breaker, Bulkhead, Backpressure
    • [초안] REST API 버저닝과 모바일 앱 하위 호환성 — 디지털 채널 백엔드 관점
    • [초안] Spring Batch vs Event-Driven — 같은 비동기처럼 보이지만 전혀 다른 두 패러다임
    • [초안] Strategy Pattern — 분기문을 없애는 설계, 시니어 백엔드 인터뷰 핵심 패턴
    • [초안] 시니어 백엔드를 위한 시스템 설계 입문 스터디 팩
    • [초안] 템플릿 메서드 패턴 - 백엔드 처리 골격을 강제하는 가장 오래되고 가장 위험한 패턴
    • [초안] 대규모 트래픽 중 무중단 마이그레이션 — Feature Flag + Shadow Mode 실전
  • database 페이지로 이동
    • milvus 페이지로 이동
    • mysql 페이지로 이동
    • opensearch 페이지로 이동
    • qdrant 페이지로 이동
    • redis 페이지로 이동
    • vespa 페이지로 이동
    • 김영한의-실전-데이터베이스-설계 페이지로 이동
    • [초안] DB Connection Pool Saturation과 Thread Pool 격리
    • 커넥션 풀 크기는 얼마나 조정해야 할까?
    • 인덱스 - DB 성능 최적화의 핵심
    • [초안] JPA N+1과 커머스 조회 모델: 주문/메뉴/쿠폰 도메인에서 살아남기
    • [초안] MyBatis 기본기 — XML Mapper, resultMap, 동적 SQL, 운영 패턴 정리
    • [초안] MyBatis와 JPA/Hibernate 트레이드오프 — 레거시 백엔드를 다루는 시니어 관점
    • 벡터 DB 5종, 아키텍처는 어떻게 다른가
    • 벡터 DB 어떻게 고를까 — OpenSearch · Milvus · Qdrant · Vespa · pgvector 비교
    • 벡터 DB를 실제로 도입한 사례 — 빅테크 프로덕션
    • 역정규화 (Denormalization)
    • 데이터 베이스 정규화
  • devops 페이지로 이동
    • docker 페이지로 이동
    • k8s 페이지로 이동
    • k8s-in-action 페이지로 이동
    • observability 페이지로 이동
    • [초안] 커머스/F&B 채널 장애 첫 5분과 관측성 기본기
    • [초안] 운영 데이터 정합성 장애 대응 — 결제 취소 누락과 중복 적재 런북
    • Envoy Proxy
    • [초안] F&B / e-Commerce 운영 장애 대응과 모니터링 — 백엔드 관점 정리
    • Graceful Shutdown
    • [초안] 시니어 백엔드를 위한 SLO와 Error Budget 기반 장애 대응
  • http 페이지로 이동
    • HTTP Connection Pool
    • HTTPS는 어떻게 안전한가 — TLS, 인증서, 그리고 termination
  • interview 페이지로 이동
    • [초안] AI 서비스 팀 경험 기반 시니어 백엔드 면접 질문 뱅크 — Spring Batch RAG / gRPC graceful shutdown / 전략 패턴 / 12일 AI 웹툰 MVP
    • Observability — 면접 답변 프레임
    • [초안] 시니어 Java 백엔드 면접 마스터 플레이북 — 김병태
    • [초안] NSC 슬롯팀 경험 기반 질문 은행 — 도메인 모델링·동시성·성능·AI 협업
  • java 페이지로 이동
    • concurrency 페이지로 이동
    • jdbc 페이지로 이동
    • opentelemetry 페이지로 이동
    • spring 페이지로 이동
    • spring-batch 페이지로 이동
    • testing 페이지로 이동
    • 더_자바_코드를_조작하는_다양한_방법 페이지로 이동
    • [초안] Java 동시성 락 정리 — 커머스 메뉴/프로모션 정책 캐시 갱신 관점
    • [초안] JVM 튜닝 실전: 메모리 구조부터 Virtual Threads, GC 튜닝, 프로파일링까지
    • Java의 로깅 환경
    • MDC (Mapped Diagnostic Context)
    • Java StampedLock — 읽기 폭주에도 쓰기가 밀리지 않는 락
    • Virtual Thread와 Project Loom
  • javascript 페이지로 이동
    • typescript 페이지로 이동
    • AbortController
    • Async Iterator와 제너레이터
    • CommonJS와 ECMAScript Modules
    • 제너레이터(Generator)
    • Http Client
    • Node 백엔드 운영 패턴 — Streams 백프레셔, pipe/pipeline, 멱등성 vs 분산 락
    • Node.js
    • npm vs pnpm — 어떤 기준으로 선택했나
    • `setImmediate()`
  • kafka 페이지로 이동
    • [초안] Kafka 기본 개념 — 토픽, 파티션, 오프셋, 복제
    • Kafka를 사용하여 **데이터 정합성**은 어떻게 유지해야 할까?
    • [초안] Kafka 실전 설계: 파티션 전략, 컨슈머 그룹, 전달 보장, 재시도, 순서 보장 트레이드오프
    • 메시지 전송 신뢰성
    • [초안] Spring Kafka 컨슈머 오프셋 커밋과 트랜잭션 정렬: AckMode, manual ack, 멱등 처리
  • linux 페이지로 이동
    • fsync — 리눅스 파일 동기화 시스템 콜
    • tmux — Terminal Multiplexer
  • mlops 페이지로 이동
    • Python CUDA 버전 생태계 — nvidia-smi, nvcc, pip, conda가 다 다른 버전을 말하는 이유
    • GPU 컨테이너의 CUDA 버전 호환성 — nvidia-smi부터 이미지 다이어트까지
    • Kubernetes GPU 노드에서 /run tmpfs가 꽉 차서 Pod가 안 뜰 때
    • GPU·CUDA·MPS 기초 — 자바 백엔드 개발자가 처음 만나는 그림
    • Multi-process GPU 워크로드 — 자바 ThreadPool 사용자가 만나는 모델 차이
    • ML 서비스 성능 분석 워크플로 — 자바 백엔드 트러블슈팅과 다른 점
    • 한 GPU 를 여러 프로세스가 나눠 쓰기 — Time-Slicing 과 MPS
  • network 페이지로 이동
    • Connection reset by peer는 누가 보낸 걸까 — 리버스 프록시 홉마다 TCP 연결은 따로 논다
    • L2(스위치)와 L3(라우터)의 역할 차이
    • L4와 VIP(Virtual IP Address)
    • IP Subnet
  • python 페이지로 이동
    • Python async/await — CompletableFuture·Reactor 와 다른 점, 그리고 blocking I/O 함정
    • Python 의존성 관리 — Java Maven/Gradle 사용자가 만나는 첫 충격
    • FastAPI 기초 — Spring Boot 사용자가 빠르게 익히는 법
    • Java 개발자를 위한 Python 심화 — OOP·데코레이터·컨텍스트 매니저
    • PyTorch 기초 — 텐서, 디바이스, 그리고 모델 로딩이 무거운 이유
    • Java 개발자를 위한 Python 문법 핵심
    • ThreadLocal 에서 contextvars 로 — Python 의 요청 컨텍스트 전파
    • OCR 동작 원리 — Layout · Text · Post-process 3단계
    • Python 서버의 RSS 가 안 줄어드는 이유 — gc.collect 의 한계와 malloc_trim
  • rabbitmq 페이지로 이동
    • [초안] RabbitMQ Basics — 실전 백엔드 관점에서 정리하는 메시지 브로커 기본기
    • [초안] RabbitMQ vs Kafka — 백엔드 메시징 선택 기준과 실전 운영 관점
  • security 페이지로 이동
    • [초안] 시니어 백엔드를 위한 보안 / 인증 스터디 팩 — Spring Security, JWT, OAuth2, OWASP Top 10
    • [초안] Spring Security 6.x OAuth2 + JWT 상용 인증 설계 — Grant 선택, Resource Server, Refresh Rotation, 로그아웃
  • task 페이지로 이동
    • ai-service-team 페이지로 이동
    • nsc-slot 페이지로 이동
    • sb-dev-team 페이지로 이동
    • the-future-company 페이지로 이동
  • testing 페이지로 이동
    • [초안] 시니어 Java 백엔드를 위한 테스트 전략 완전 정리 — 피라미드부터 TestContainers, 마이크로벤치, Contract까지
  • travel 페이지로 이동
    • 오사카 3박 4일 일정표: 우메다 쇼핑, USJ, 난바·도톤보리, 오사카성
  • web 페이지로 이동
    • [초안] HTTP / Cookie / Session / Token 인증 기본기 — 레거시 JSP와 모바일 API가 공존하는 백엔드 관점
FOS-BLOG · FOOTERall systems normal·v0.1 · 2026.04.27·seoul, kr
Ffos-blog/study

개발 학습 기록을 정리하는 블로그입니다. 공부하면서 기록하고, 기록하면서 다시 배웁니다.

visitors
01site
  • Home↗
  • Posts↗
  • Categories↗
  • About↗
02policy
  • 소개/about
  • 개인정보처리방침/privacy
  • 연락처/contact
03categories
  • AI↗
  • Algorithm↗
  • DB↗
  • DevOps↗
  • Java/Spring↗
  • JS/TS↗
  • React↗
  • Next.js↗
  • System↗
04connect
  • GitHub@jon890↗
  • Source repositoryjon890/fos-study↗
  • RSS feed/rss.xml↗
  • Newsletter매주 1 회 · 한 편의 글→
© 2026 FOS Study. All posts MIT-licensed.
built with·Next.js·Tailwind v4·Geist·Pretendard·oklch
fos-blog/devops/관리형 클러스터는 누구의 권한으로 클라우드를…
devops

관리형 클러스터는 누구의 권한으로 클라우드를 만지는가 — trust 단절과 service user 전환

> 선언한 LoadBalancer가 안 만들어질 때의 후속 편이다. 그 글에서 "클러스터 내부 인증 경로가 죽었다"까지 격리해 놓고 플랫폼 문의로 넘겼는데, 답이 왔고 원인은 예상보다 훨씬 사람 냄새 나는 것이었다. 클러스터를 만든 사람의 권한이 사라져 있었다. 관리형 쿠버네티스에서 LB 발급, 볼륨 생성, 클러스터 업그레이드가 몇 달에 걸쳐 하나씩 죽어...

2026.07.03·5 min read·0 views

선언한 LoadBalancer가 안 만들어질 때의 후속 편이다. 그 글에서 "클러스터 내부 인증 경로가 죽었다"까지 격리해 놓고 플랫폼 문의로 넘겼는데, 답이 왔고 원인은 예상보다 훨씬 사람 냄새 나는 것이었다. 클러스터를 만든 사람의 권한이 사라져 있었다.

관리형 쿠버네티스에서 LB 발급, 볼륨 생성, 클러스터 업그레이드가 몇 달에 걸쳐 하나씩 죽어 가는 장애를 겪었다. 최종 원인은 코드도 네트워크도 아닌 클러스터의 신원(identity) 모델이었다. 이 글은 그 모델 — 위임 인증(trust)과 service user — 을 이해한 기록이다.

클러스터는 내 비밀번호를 모른다 — 그래서 위임장이 필요하다

관리형 쿠버네티스 클러스터는 운영 중에 계속 클라우드 API 를 호출한다. LoadBalancer 타입 Service 를 만들면 LB API 를, PVC 를 만들면 블록 스토리지 API 를, 업그레이드하면 VM 배포 API 를 부른다. 그런데 이 호출에는 인증이 필요하고, 클러스터가 내 비밀번호를 저장해 둘 수는 없다.

OpenStack 계열 클라우드는 이 문제를 keystone 의 trust 로 푼다. 클러스터를 만들 때 인증 서비스가 위임장을 한 장 발급한다 — "이 클러스터(trustee)는 생성자(trustor)를 대신해, 생성자가 가진 권한 범위 안에서 API 를 호출할 수 있다." 클러스터 안의 컴포넌트들은 이 trust 로 토큰을 발급받아 클라우드를 조작한다. 비밀번호 없이 권한만 빌려 쓰는 구조다.

여기까지는 합리적인 설계다. 문제는 위임장의 수명이다.

위임장은 사람에 묶인다 — 생성자가 떠나면 클러스터의 손발이 묶인다

trust 는 "생성자가 가진 권한을 빌려주는" 구조라서, 생성자(trustor)가 그 프로젝트의 권한을 잃으면 위임장도 무효가 된다. 퇴사, 팀 이동, 권한 정리 — 어떤 이유든 생성자 계정에서 프로젝트 역할이 회수되는 순간, 그 사람 이름으로 발급된 위임장으로는 더 이상 토큰이 나오지 않는다.

내 사례가 정확히 이거였다. 클러스터 상세를 조회해 보니 생성자 user_id 가 지금 운영하는 계정과 달랐고(만든 지 2년 넘은 클러스터였다), 플랫폼 지원의 답변도 한 줄이었다: "클러스터 생성 사용자에게 적절한 권한이 없는 상태입니다."

무서운 점은 깨지는 방식이다. 권한이 회수되는 순간 눈에 보이는 장애가 터지는 게 아니라, 클라우드 API 를 호출하는 시점에만 하나씩 조용히 실패한다.

시점증상정체
권한 회수 직후플랫폼 health 데이터 갱신 정지상태 수집도 trust 기반이라 즉시 중단
몇 주 뒤csi 드라이버 403 CrashLoopBackOff파드가 재시작되며 토큰 재발급 시도 → 거부
몇 달 뒤새 LB 발급 503, 기존 LB 갱신도 실패새 클라우드 리소스가 필요해진 순간 발각
업그레이드 시도master 노드 무응답으로 2회 연속 실패배포 채널도 같은 인증 경로

볼륨을 안 쓰고 LB 를 새로 안 만드는 동안은 아무도 모른다. "장애가 없다"와 "인증이 살아 있다"는 다른 명제라는 걸, 전편에 이어 한 번 더 확인했다.

service_user_enabled: False — 고장 표시가 아니라 세대 표시

진단 중에 클러스터 라벨에서 service_user_enabled: "False" 를 발견하고 한참 헤맸다. 처음엔 "뭔가 꺼져 있어서 고장났나" 싶었는데, 반대였다. 이 라벨은 고장 여부가 아니라 클러스터가 어느 세대의 신원 모델을 쓰는지를 표시한다.

  • False — 구세대. 생성자 개인의 trust 로 동작한다. 이 클러스터가 만들어질 당시의 유일한 방식이었다.
  • True — 신세대. service user, 즉 플랫폼(NKS)이 서비스 수준에서 관리하는 내부 계정의 권한으로 동작한다. 특정 사람에게 묶이지 않는다.

플랫폼도 trust 모델의 사람 의존 문제를 알고 세대 교체를 한 것이다. 새로 만드는 클러스터는 service user 로 시작하지만, 구세대 클러스터는 명시적으로 전환하기 전까지 계속 생성자 trust 에 의존한다. 우리 클러스터의 False 는 "갑자기 꺼진" 게 아니라 처음부터 False 였고, 생성자 권한이 살아 있는 동안은 문제가 드러나지 않았을 뿐이다.

해결 버튼의 이름이 "키페어 변경"이었다

플랫폼 지원이 알려준 해결책은 의외였다: "키페어 변경 기능을 실행한 후 다시 시도해 주세요."

키페어는 노드 VM SSH 접속용 키인데 이게 인증 장애와 무슨 상관인가 싶지만, NHN Cloud NKS 의 키페어 변경 기능은 실제로 두 가지를 수행한다.

  1. 워커 노드 VM 의 SSH 키페어를 선택한 것으로 교체 (이름 그대로의 기능)
  2. 클러스터를 생성자 trust 모델에서 service user 모델로 전환 (문서를 읽어야 알 수 있는 기능)

공식 문서의 표현은 이렇다 — "일반 사용자가 오너로 설정된 클러스터는 키페어 변경 기능을 통해 서비스 사용자의 권한으로 동작하도록 변경할 수 있습니다." 즉 이 버튼이 사실상 신원 모델 마이그레이션 버튼이다. 실행하려면 실행자 본인 소유의 키페어와 프로젝트 ADMIN 권한이 필요하다 (키페어는 프로젝트+사용자 단위 리소스라, 남의 키페어는 목록에 뜨지 않는다).

실행 결과는 극적이었다. 완료 직후 service_user_enabled 가 True 로 바뀌었고, 몇 달간 죽어 있던 것들이 연쇄적으로 살아났다.

  • 3월부터 정지돼 있던 health 데이터가 갱신을 재개했다 (ROTTEN → FRESH)
  • 57일간 재시작 1만 6천 번을 찍던 csi 드라이버가 Running 으로 돌아왔다
  • 몇 시간째 pending 이던 공인 LB 에 IP 가 발급됐다
  • 2회 연속 실패하던 업그레이드가 진행되기 시작했다

증상이 네 개면 원인도 네 개일 것 같지만, 신원이 하나 풀리자 전부 풀렸다. 여러 컴포넌트가 동시에 이상하면 각각을 고치려 들기 전에 공유하는 의존성(인증·네트워크 경로)부터 의심하라는 오래된 격언 그대로였다.

사람에 묶인 인프라 의존성 — 점검 질문

이번 일로 얻은 재사용 가능한 질문은 이것이다. 우리 인프라에서 특정 개인의 계정이 사라지면 무엇이 멈추는가?

  • 관리형 클러스터의 생성자/오너는 누구인가? 그 사람이 아직 프로젝트에 있는가?
  • 구세대 신원 모델(개인 trust)로 도는 클러스터가 있는가? 라벨(service_user_enabled 류)로 확인했는가?
  • CI 배포 토큰, 웹훅, 스케줄 작업의 소유자는 개인 계정인가 서비스 계정인가?
  • 이런 의존이 깨졌을 때 즉시 드러나는가, 다음 사용 시점에야 드러나는가? 후자라면 주기 점검이 필요하다.

개인 의존을 발견하면 서비스 계정으로 옮기는 게 정석이고, 옮길 수 없다면 최소한 문서에 "이 클러스터는 X 계정에 묶여 있음"이라고 남겨야 한다. 그 문서 한 줄이 몇 달짜리 미스터리를 몇 분짜리 확인으로 바꾼다.

지금 보면

전편에서 "조용히 죽은 경로는 쓰는 순간에야 드러난다"고 썼는데, 이번 편의 교훈은 그 앞 단계다 — 경로가 죽는 원인 중에는 기술이 아니라 조직 이벤트(퇴사·권한 회수)도 있다. 기술 모니터링은 csi crashloop 을 잡을 수 있지만, "이 클러스터의 신원이 어느 개인에게 묶여 있다"는 위험은 장애가 나기 전엔 어떤 대시보드에도 안 뜬다. 인프라 자산 목록에 "소유 신원" 컬럼을 하나 추가하는 것 — 이번에 배운 가장 싼 예방책이다.

관련 글

  • 선언한 LoadBalancer가 안 만들어질 때 — 이 장애를 "내부 인증 경로 단절"까지 격리해 간 진단 과정 (전편)
  • 외부 트래픽은 어떻게 Pod까지 닿는가 — 이 작업의 출발점인 공인 진입점 구성

참고 링크

  • Trusts — OpenStack Keystone 공식 문서
  • NHN Kubernetes Service 사용 가이드 — 키페어 변경
  • Cloud Controller Manager — Kubernetes 공식 문서
on this page
  • 01클러스터는 내 비밀번호를 모른다 — 그래서 위임장이 필요하다
  • 02위임장은 사람에 묶인다 — 생성자가 떠나면 클러스터의 손발이 묶인다
  • 03service_user_enabled: False — 고장 표시가 아니라 세대 표시
  • 04해결 버튼의 이름이 "키페어 변경"이었다
  • 05사람에 묶인 인프라 의존성 — 점검 질문
  • 06지금 보면
  • 07관련 글
  • 08참고 링크

이런 글도

  • 선언한 LoadBalancer가 안 만들어질 때 — cloud-controller-manager 장애 격리 진단기
    > 외부 트래픽은 어떻게 Pod까지 닿는가를 먼저 읽으면 좋다. 그 글이 "LoadBalancer 타입 Service를 선언하면 클라우드가 LB를 만들어준다"까지 다뤘다면, 이 글은 선언했는데 안 만들어질 때 어디서부터 파고드는지를 다룬다. 공인 진입점 전환 작업에서 외부 전용 ingress-nginx controller를 배포했다. controller P...
    🚀 devops
    devops
    2026.07.03
  • [초안] F&B / e-Commerce 운영 장애 대응과 모니터링 — 백엔드 관점 정리
    F&B 디지털 채널 백엔드는 일반 커머스보다 운영 변수가 더 많다. 매장 POS, 배달 외부 채널, PG, 멤버십, 쿠폰, 재고, 알림이 한 트랜잭션 안에서 같이 움직이고, 점심·저녁 피크타임이 하루에 두 번 분명하게 찍힌다. 이 시간대에 한 쪽이 어긋나면 주문은 받았는데 매장에 안 떨어졌거나, 결제는 됐는데 쿠폰이 안 빠졌거나, 재고가 0인데 주문이 들어...
    🚀 devops
    devops
    2026.06.16
  • [초안] 운영 데이터 정합성 장애 대응 — 결제 취소 누락과 중복 적재 런북
    결제 취소 누락과 데이터 중복 적재처럼 "돈과 데이터가 한 건 더 많거나 적은" 장애를, 원인 파악 → 조치 → 검증 → 재발 방지의 같은 4단계 루프로 다루는 운영 감각을 정리한다. 이 두 장애는 표면 증상이 정반대로 보이지만(하나는 일어나야 할 일이 안 일어났고, 하나는 일어나지 말아야 할 일이 두 번 일어났다) 뿌리는 같다. 분산 시스템에서 부수효과를...
    🚀 devops
    devops
    2026.06.16
  • 쿠버네티스 핵심 객체 4종 — Pod, Service, Ingress, Namespace의 관계
    쿠버네티스에서 외부 노출 작업을 하다가, Pod니 Service니 Ingress니 하는 단어들이 머릿속에서 자꾸 섞였다. 각각 뉘앙스는 알겠는데 "그래서 이것들이 서로 어떤 관계냐"가 안 잡혔다. 그래서 이 네 가지를 한 번에 정리하기로 했다. 이 네 개의 관계만 잡으면 쿠버네티스의 절반은 이해한 거라고 봐도 된다. 한 문장으로 시작하면 빠르다 — Pod는...
    🚀 devops
    devops
    2026.06.09

댓글 (0)