Files
homelab-infra/docs/ALERTING_MAP.md
T
Micha 73120869a7 docs: zentrale ALERT_RULES.md + Luecken-Analyse
Nachschlagetabelle aller Prometheus-Alarmregeln (Trigger/Schwelle/Severity/
Aktion) plus Bewertung der Abdeckung. Identifiziert zwei echte blinde Flecke
(kein up==0 Target-Down, kein Disk-Critical-Tier) mit fertigem PromQL als
Empfehlung. Cross-Ref aus ALERTING_MAP.md.

Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>
2026-05-30 16:36:45 +02:00

2.1 KiB

Alerting Map

Stand: 2026-05-23

Ziel: Alle problemrelevanten Homelab-Meldungen landen auf einem Handy-Topic.

Die Prometheus-Alarmregeln im Detail (Trigger, Schwellen, Severity, Handlungshinweis, Luecken-Analyse) stehen in docs/ALERT_RULES.md.

ntfy Topics

Topic Zweck
homelab-alerts Alles, was Aufmerksamkeit braucht: Prometheus, Docker-Events, Posture, Zertifikate/Token, Compose-Drift, Borg-Pre-Hook-Fehler und Restore-Fehler
homelab-info Optionale Erfolgsmeldungen, z. B. erfolgreiche Restore-Testlaeufe

Sender

Sender Pfad Problem-Topic Hinweis
Prometheus / Alertmanager monitoring/alertmanager/alertmanager.yml, monitoring/alertmanager-ntfy-bridge/bridge.py homelab-alerts Zentrale Monitoring-Alerts via Bridge
Posture Check services/posture-check/posture-check.sh homelab-alerts Warning und Critical gehen auf dasselbe Handy-Topic
Cert / Token Check services/posture-check/cert-token-check.sh homelab-alerts Prueft produktive HTTPS-Domains und Cloudflare Token
Compose Runtime Drift services/posture-check/compose-runtime-drift.sh homelab-alerts Meldet Abweichungen zwischen Repo-Compose und Runtime-Image
Docker Critical Events services/posture-check/docker-critical-events.sh homelab-alerts Meldet Docker die, oom und kill Events
Borg Pre-Hook ops/borg-ui/scripts/pre-borg.sh homelab-alerts Meldet Fehler vor Borg, z. B. Posture-, Dump- oder Restore-Freshness-Fehler
Restore Jobs ops/restore-tests/run-restore-job-with-ntfy.sh homelab-alerts Erfolg geht an homelab-info, Fehler immer an homelab-alerts

Konvention

  • NTFY_BASE_URL zeigt standardmaessig auf https://ntfy.kaleschke.info.
  • Neue Problem-Alerts sollen homelab-alerts nutzen.
  • Erfolgsmeldungen sind optional und sollen nicht in homelab-alerts landen, ausser sie sind bewusst als Lebenszeichen gewuenscht.
  • Blackbox-Endpoint-Alerts sollen bekannte WAN-/Provider-Sammelausfaelle zusammenfassen, damit kurze DSL-Reconnects keine ntfy-Flut pro Domain erzeugen.