테스트 썸네일형 리스트형 [Service] 장애 포인트를 찾기 위한 모니터링 지표 수집과 모니터링 서비스가 잘 동작하고 있는지 확인하기 위해서 사용한다. 서비스가 잘 동작하고 있는가? 에러가 발생하고 있지는 않은가? CPU, DISK 사용량 등 일정량을 넘지 않았는지? 지속적인 지표 수집이 필요하다. 서비스에서의 지표 * API Call 수 * API Latency -> 평균 속도가 아닌 Median 값, 99% 값, 최대값 등의 지표를 수집해야 한다. 서비스 노드 지표 * 서버의 상태 * CPU 사용량 * 메모리 사용량 * 디스크 사용량 * 네트워크 사용량 (파일이나 데이터의 전송량이 얼마나 되는가?) * 현재 동작중인 정상적인 서버의 수 에러 수집 알림 기능 사용 모니터링 지표가 특정 값을 넘는다면, 슬랙이나 메시저 등으로 알람을 보내서 항상 특정 상항에 대한 알람을 보낸다... 더보기 이전 1 다음