DEVOPS
인프라·배포·모니터링 학습 기록.
[초안] F&B / e-Commerce 운영 장애 대응과 모니터링 — 백엔드 관점 정리
F&B 디지털 채널 백엔드는 일반 커머스보다 운영 변수가 더 많다. 매장 POS, 배달 외부 채널, PG, 멤버십, 쿠폰, 재고, 알림이 한 트랜잭션 안에서 같이 움직이고, 점심·저녁 피크타임이 하루에 두 번 분명하게 찍힌다. 이 시간대에 한 쪽이 어긋나면 주문은 받았는데 매장에 안 떨어졌거나, 결제는 됐는데 쿠폰이 안 빠졌거나, 재고가 0인데 주문이 들어...
[초안] 시니어 백엔드를 위한 SLO와 Error Budget 기반 장애 대응
시니어 백엔드 면접에서 운영 역량을 묻는 질문은 대개 이렇게 시작한다. - “장애를 어떻게 탐지하고 대응하나요?” - “알람이 너무 많이 울리면 어떻게 줄이나요?” - “p99 latency가 튀는데 CPU는 정상입니다. 어디를 보겠습니까?” (p50/p95/p99 가 익숙하지 않으면 Observability 입문 의 "Latency 백분위수" 섹션 참고)...
[초안] 운영 데이터 정합성 장애 대응 — 결제 취소 누락과 중복 적재 런북
결제 취소 누락과 데이터 중복 적재처럼 "돈과 데이터가 한 건 더 많거나 적은" 장애를, 원인 파악 → 조치 → 검증 → 재발 방지의 같은 4단계 루프로 다루는 운영 감각을 정리한다. 이 두 장애는 표면 증상이 정반대로 보이지만(하나는 일어나야 할 일이 안 일어났고, 하나는 일어나지 말아야 할 일이 두 번 일어났다) 뿌리는 같다. 분산 시스템에서 부수효과를...
[초안] 커머스/F&B 채널 장애 첫 5분과 관측성 기본기
커머스나 F&B 디지털 채널은 사용자 경험과 매출이 분 단위로 직결된다. 점심·저녁 피크에 주문 실패가 1%만 튀어도 가맹점·콜센터·SNS로 거의 동시에 신호가 들어오고, 30분이 지나면 일일 매출 지표에 흠집이 남는다. 이때 엔지니어가 가장 자주 실패하는 지점은 "장애가 뭔지 몰라서"가 아니라 첫 5분 동안 무엇을 보고 무엇을 결정해야 하는지 합의되어 있...
Envoy Proxy
Lyft가 만들고 CNCF가 관리하는 고성능 L7 프록시. 마이크로서비스 환경에서 서비스 간 통신을 중개하도록 설계됐다. --- 사실 처음엔 "그냥 nginx 쓰면 안 되나?"라고 생각했다. nginx도 충분히 강력하고 익숙하니까. 근데 유지보수 맡은 OCR 프로젝트를 뜯어보니 Envoy를 쓸 수밖에 없는 이유가 명확했다. | 항목 | nginx | Env...
Graceful Shutdown
서버를 그냥 끄면 안 되는 이유는 단순하다. 처리 중인 요청이 있다. DB 트랜잭션이 열려 있다. 커넥션 풀이 열려 있다. 이것들을 제대로 정리하지 않고 죽으면 클라이언트는 에러를 받고, 데이터는 일관성을 잃을 수 있다. Graceful shutdown은 "받은 요청은 다 처리하고 나서 죽겠다"는 약속이다. --- 프로세스 종료는 OS가 시그널을 보내는 것...