DEVOPS · OBSERVABILITY

observability

3글·category/devops/observability

READMEobservability 시리즈에 대하여

README.md

관찰성(Observability) 스택 학습 기록 — metrics·logs·traces 세 축의 운영 경험을 한 곳에 모은다.

Metrics

K8s 위 Spring Boot 앱 메트릭 수집 — Prometheus Agent + remote_write 구성
Spring Boot 비즈니스 에러 카운터 — Micrometer로 도메인 에러를 메트릭화하는 방법

Tracing / APM

Datadog APM 실전 투입 가이드 — Java/Spring 서비스 관측성 스택 구축

02이 폴더의 글

3 posts

— 001

Datadog APM 실전 투입 가이드: Java/Spring 서비스 관측성 스택 구축하기

분산 요청이 5\10 개 마이크로서비스를 타고 흐르는 환경에서 장애 탐지 시간(MTTD)과 복구 시간(MTTR)을 초/분 단위로 줄이려면, 로그만 뒤져서는 답이 안 나온다. "어디서 느려졌나"를 5분 안에 집어내려면 metric / log / trace 를 같은 traceid 로 엮을 수 있어야 한다. Datadog 은 Metrics / Logs / APM...

—
—

— 002

K8s 위 Spring Boot 앱 메트릭 수집하기 (Prometheus Agent + remote_write)

K8s 클러스터에서 Spring Boot 애플리케이션을 운영하다 보면 JVM 힙 사용량, HTTP 요청 수, 응답 시간 같은 지표를 모니터링하고 싶어진다. 팀에 중앙 Grafana가 이미 있다면 클러스터 내에서 Prometheus로 긁어다가 remotewrite로 쏴주기만 하면 된다. 이번에 실제로 적용하면서 삽질한 내용들을 정리해봤다. Spring Boo...

—
—

— 003

응답을 모두 200으로 래핑하는 환경에서 Prometheus 비즈니스 errorCode 메트릭 만들기

진행 기간: 2026.04 2026.05 운영 중인 API 서버에서 "어떤 비즈니스 에러가 얼마나 발생하고 있는지"를 Grafana에서 보고 싶었다. Spring Boot Actuator + Micrometer 조합이면 보통 httpserverrequestssecondscount{status="4xx"} 같은 표준 메트릭으로 충분한데, 이 서버는 그게 안...

—
—

observability

READMEobservability 시리즈에 대하여

Metrics

Tracing / APM

관련

02이 폴더의 글

observability

READMEobservability 시리즈에 대하여

Metrics

Tracing / APM

관련

02이 폴더의 글