Files
homelab-infra/docs/ALERT_RULES.md
T

3.1 KiB

Alert Rules

Stand: 2026-05-31

Diese Datei beschreibt die produktiven Alarmwege und wichtigsten Regeln. Die Konfiguration selbst liegt in monitoring/prometheus/alerts.yml und in den Skripten unter services/posture-check/.

Alarmwege

Weg Quelle Ziel
Prometheus / Alertmanager monitoring/prometheus/alerts.yml ntfy homelab-alerts
Posture Check services/posture-check/posture-check.sh ntfy homelab-alerts
Cert / Token Check services/posture-check/cert-token-check.sh ntfy homelab-alerts
Compose Runtime Drift services/posture-check/compose-runtime-drift.sh ntfy homelab-alerts
Docker Critical Events services/posture-check/docker-critical-events.sh ntfy homelab-alerts
Borg Pre-Hook ops/borg-ui/scripts/pre-borg.sh ntfy homelab-alerts
Restore Jobs ops/restore-tests/run-restore-job-with-ntfy.sh Fehler homelab-alerts, Erfolg homelab-info

Prometheus-Regeln

Alarm Ausloeser Severity Aktion
HomelabExternalConnectivityDown mindestens 5 HTTP-Ziele down warning WAN/DNS/Provider pruefen, nicht jede Domain einzeln jagen
HomelabEndpointDown einzelnes HTTP-Ziel down critical Dienst, Traefik-Route und Backend pruefen
HomelabEndpointSlow Endpoint >5s warning Dienstlast oder Backend-Latenz pruefen
HomelabCertificateExpiresSoon Cert <21 Tage warning ACME/Traefik-Renewal beobachten
HomelabCertificateExpiresCritical Cert <=7 Tage critical Renewal sofort pruefen
HomelabDiskAlmostFull Filesystem >85% warning Platz schaffen oder Schwelle pruefen
HomelabDiskCritical Filesystem >95% critical Sofort Platz schaffen
HomelabHighMemoryUsage MemAvailable <10% warning Speicherfresser identifizieren
HomelabTraefik5xx >=5 5xx je Service in 5 Minuten warning betroffenes Backend pruefen
HomelabTextfileExporterStale Textfile-Exporter >2h alt warning Host-Cron pruefen
HomelabBorgMetricsMissing Borg-Metrik fehlt critical Textfile-Exporter oder Borg-UI pruefen
HomelabBorgBackupStale letztes Borg-Backup >30h warning Backup-Lauf nachholen/pruefen
HomelabBorgLastJobFailed letzter Borg-Job fehlgeschlagen critical Borg-UI-Job-Log pruefen
HomelabBorgLastJobCompletedWithWarnings letzter Borg-Job mit Warnungen warning Warnung im Borg-UI-Job lesen
HomelabCriticalContainerDown kritischer Container fehlt critical Komodo/Docker-Status pruefen
HomelabPrometheusTargetDown Scrape-Ziel down critical node-exporter/cadvisor/blackbox/traefik pruefen

Die Liste der ueberwachten Critical-Container steht in services/posture-check/export-prometheus-textfile.sh.

Bekannte Luecken

  • Kein externer Dead-Man's-Switch fuer Prometheus/ntfy-Bridge. Optional spaeter ueber Uptime-Kuma Push-Monitor oder Healthchecks.io.
  • Kein Inode-Alarm. Bei Paperless/Immich spaeter sinnvoll, aber aktuell kein dokumentierter Vorfall.
  • Container-Memory-Limits werden erst nach realen Peak-Daten gesetzt; OOM/kill wird bereits ueber docker-critical-events.sh gemeldet.