본문 바로가기

prometheus4

[Robusta] 직관적인 쿠버네티스 클러스터 알람 받기 그동안 쿠버네티스 워크로드에 대한 알림은 argocd / datadog 일부 만 있었다.그러다가 파드 내에서 OOMKill이 일어나 리스타트 되는 경우가 많다는 것을 알게 되었는데, argocd에서는 이 경우를 감지하지 못하고, datadog 알림은 가독성이 썩 좋진 못했다. 어떤 이유로 restart되었는지 알지 못하고, 어떤 클러스터의 어떤 파드인지도 한 눈에 들어오지 않는다.뭐 사실 이것도 어떻게든 잘 깎으면 개선할 수 있었겠지만, 또 거기에 리소스를 쏟을 시간은 없었다. (사실 하기 싫은거 맞음) 그러다가 Robusta 라는 것을 알게 되었다. (어디 오픈톡방에서 누가 키워드를 남겼는데 이후로 찾아보았다.)레퍼런스는 많이 없었는데, 제니퍼소프트 블로그 글을 보고 일단 한번 설치해 봐야겠다는 생각을.. 2024. 6. 6.
[Grafana Mimir] Mimir Helm 설치/셋업 도중 트러블슈팅 # Ref https://wlsdn3004.tistory.com/50 Grafana Mimir란? 개념부터 설치까지 Prometheus는 쿠버네티스 환경에서 많이 사용하는 인기 있는 오픈소스 모니터링 도구이다. 하지만 몇 가지 치명적인 단점이 있다. 확장 및 고가용성 문제 프로메테우스는 단일 서버로 동작하게 구 wlsdn3004.tistory.com Mimir가 뭔지와 컴포넌트에 대한 자세한 설명은 위를 확인하자. 나는 Mimir를 설치하고, Prometheus 연동 중 트슛 과정만 설명한다. # 권한 설정 먼저 일단 mimir의 데이터는 s3에 담을 것이다. iam policy는 아래처럼 구성하면 된다. { "Statement": [ { "Action": [ "s3:ListBucket", "s3:Put.. 2024. 3. 28.
[grafana] provisioned Datasource/ContactPoint 제거 Provisioned Data Source? -> 콘솔 작업이 아닌, Config를 통해 Provisioning된 Data Source. (Contact Point도 마찬가지) 나같은 경우, grafana 공식 helm chart에서 바로 프로메테우스를 등록시켜주고 있었다. datasources: datasources.yaml: apiVersion: 1 datasources: - name: {Prometheus-Name} type: prometheus access: proxy url: {Prometheus-Url} 그러나 작성해둔 datasource를 지우고 재 배포해봐도 실제로는 삭제되지 않는다. 콘솔에서 삭제 시도 시.. Provisioned data source는 콘솔에서 못지운단다. 그럼 어떻게 .. 2023. 9. 5.
[Grafana Loki] Errors loading rules # 상황 - 중앙 EKS 클러스터에 grafana chart를 사용해 Grafana가 설치되어 있음 - 각 EKS 클러스터별로 loki-stack chart를 사용해 Loki와 promtail이 설치되어 있음 - 각 EKS 클러스터별로 kube-prometheus-stack chart를 통해 Prometheus와 AlertManager가 설치되어 있음 (로키 스택에서 프로메테우스도 전부 깔 수 있지만, 프로메테우스가 먼저 깔려있는 상태에서 로키 도입하다 보니 이렇게 됨) # 문제 상황 Grafana와 Loki를 별도로 쿠버네티스 위에 띄우고, Grafana에서 Data Source로 Loki를 추가했습니다. Connection Test는 성공하지만,,, 위 사진처럼 Alert rules로 가면 로키 데이.. 2023. 7. 27.