DEVOPS · OBSERVABILITY
관찰성(Observability) 스택 학습 기록 — metrics·logs·traces 세 축의 운영 경험을 한 곳에 모은다.
Datadog APM 실전 투입 가이드: Java/Spring 서비스 관측성 스택 구축하기
분산 요청이 5\10 개 마이크로서비스를 타고 흐르는 환경에서 장애 탐지 시간(MTTD)과 복구 시간(MTTR)을 초/분 단위로 줄이려면, 로그만 뒤져서는 답이 안 나온다. "어디서 느려졌나"를 5분 안에 집어내려면 metric / log / trace 를 같은 traceid 로 엮을 수 있어야 한다. Datadog 은 Metrics / Logs / APM...
K8s 위 Spring Boot 앱 메트릭 수집하기 (Prometheus Agent + remote_write)
K8s 클러스터에서 Spring Boot 애플리케이션을 운영하다 보면 JVM 힙 사용량, HTTP 요청 수, 응답 시간 같은 지표를 모니터링하고 싶어진다. 팀에 중앙 Grafana가 이미 있다면 클러스터 내에서 Prometheus로 긁어다가 remotewrite로 쏴주기만 하면 된다. 이번에 실제로 적용하면서 삽질한 내용들을 정리해봤다. Spring Boo...
응답을 모두 200으로 래핑하는 환경에서 Prometheus 비즈니스 errorCode 메트릭 만들기
진행 기간: 2026.04 2026.05 운영 중인 API 서버에서 "어떤 비즈니스 에러가 얼마나 발생하고 있는지"를 Grafana에서 보고 싶었다. Spring Boot Actuator + Micrometer 조합이면 보통 httpserverrequestssecondscount{status="4xx"} 같은 표준 메트릭으로 충분한데, 이 서버는 그게 안...