728x90

앞선 글에서 계속 이어집니다.
별 내용은 없습니다만, 앞의 글은 아래 링크로 보실 수 있습니다. 

 

SRE와 DevOps의 차이는 무엇일까? #1 (부제 - SRE는 무엇을 해야 하는가)

구글이 NEXT 2018의 IO116 세션으로 발표했던 Improving Reliability with Error Budgets, Metrics and Tracing in Stackdriver를 읽으면서 일부 내용을 요약해 봤습니다. 내용을 읽으면서 한번 요약을 해보고 이..

ondemand.tistory.com

 


 

  • 증상을 모니터링해야 한다, 원인이 아니라...
  • 너무 많은 알람은 도움이 되지 않는다

 

  • 에러 버짓이 너무 빨리 줄어들면 -> 예산이 소진되기 전에 응답해야 한다
  • 에러 버짓이 너무 천천히 줄어들면 -> 장기 개선 과제를 통해 펄스 알람을 피해야 한다

 

  • 꼭 Stackdriver를 써야 하는 것은 아님
  • SLO 모니터링은 어떻게 정의하는 가
    • 지연과 가용성중 어느 것을 기준으로 삼을 것인지 결정
    • SLI 임계치를 설정
    • 모니터링 윈도우(=컴플라이언스 기간) 정의
    • 요청수를 기준으로 할지 정상/비정상 시간을 기준으로 할지 결정
    • 결국 에러 버짓이 떨어질 때 알람을 발생시켜야 함

 

Stackdriver를 비롯하여 사용가능한 도구가 다르기 때문에... 장표 막 넘기고 4컷으로 요약

일단 알러팅이 정확해야 지치지 않는다

하나씩 레이어를 치우면서 원인을 찾아보자

서로 다른 도메인의 데이터를 관계시켜 원인을 찾아보자

추적 데이터, 높은 빈도로 출현하는 데이터의 조합?
이를 바탕으로 가설을 세우고 시험해 보는 것은 빠른 원인 판단에 도움이 됨

 

728x90

+ Recent posts