# Alert Rules Stand: 2026-05-31 Diese Datei beschreibt die produktiven Alarmwege und wichtigsten Regeln. Die Konfiguration selbst liegt in `monitoring/prometheus/alerts.yml` und in den Skripten unter `services/posture-check/`. ## Alarmwege | Weg | Quelle | Ziel | |---|---|---| | Prometheus / Alertmanager | `monitoring/prometheus/alerts.yml` | ntfy `homelab-alerts` | | Posture Check | `services/posture-check/posture-check.sh` | ntfy `homelab-alerts` | | Cert / Token Check | `services/posture-check/cert-token-check.sh` | ntfy `homelab-alerts` | | Compose Runtime Drift | `services/posture-check/compose-runtime-drift.sh` | ntfy `homelab-alerts` | | Docker Critical Events | `services/posture-check/docker-critical-events.sh` | ntfy `homelab-alerts` | | Borg Pre-Hook | `ops/borg-ui/scripts/pre-borg.sh` | ntfy `homelab-alerts` | | Restore Jobs | `ops/restore-tests/run-restore-job-with-ntfy.sh` | Fehler `homelab-alerts`, Erfolg `homelab-info` | ## Prometheus-Regeln | Alarm | Ausloeser | Severity | Aktion | |---|---|---|---| | `HomelabExternalConnectivityDown` | mindestens 5 HTTP-Ziele down | warning | WAN/DNS/Provider pruefen, nicht jede Domain einzeln jagen | | `HomelabEndpointDown` | einzelnes HTTP-Ziel down | critical | Dienst, Traefik-Route und Backend pruefen | | `HomelabEndpointSlow` | Endpoint >5s | warning | Dienstlast oder Backend-Latenz pruefen | | `HomelabCertificateExpiresSoon` | Cert <21 Tage | warning | ACME/Traefik-Renewal beobachten | | `HomelabCertificateExpiresCritical` | Cert <=7 Tage | critical | Renewal sofort pruefen | | `HomelabDiskAlmostFull` | Filesystem >85% | warning | Platz schaffen oder Schwelle pruefen | | `HomelabDiskCritical` | Filesystem >95% | critical | Sofort Platz schaffen | | `HomelabHighMemoryUsage` | MemAvailable <10% | warning | Speicherfresser identifizieren | | `HomelabTraefik5xx` | >=5 5xx je Service in 5 Minuten | warning | betroffenes Backend pruefen | | `HomelabTextfileExporterStale` | Textfile-Exporter >2h alt | warning | Host-Cron pruefen | | `HomelabBorgMetricsMissing` | Borg-Metrik fehlt | critical | Textfile-Exporter oder Borg-UI pruefen | | `HomelabBorgBackupStale` | letztes Borg-Backup >30h | warning | Backup-Lauf nachholen/pruefen | | `HomelabBorgLastJobFailed` | letzter Borg-Job fehlgeschlagen | critical | Borg-UI-Job-Log pruefen | | `HomelabBorgLastJobCompletedWithWarnings` | letzter Borg-Job mit Warnungen | warning | Warnung im Borg-UI-Job lesen | | `HomelabCriticalContainerDown` | kritischer Container fehlt | critical | Komodo/Docker-Status pruefen | | `HomelabPrometheusTargetDown` | Scrape-Ziel down | critical | node-exporter/cadvisor/blackbox/traefik pruefen | Die Liste der ueberwachten Critical-Container steht in `services/posture-check/export-prometheus-textfile.sh`. ## Bekannte Luecken - Kein externer Dead-Man's-Switch fuer Prometheus/ntfy-Bridge. Optional spaeter ueber Uptime-Kuma Push-Monitor oder Healthchecks.io. - Kein Inode-Alarm. Bei Paperless/Immich spaeter sinnvoll, aber aktuell kein dokumentierter Vorfall. - Container-Memory-Limits werden erst nach realen Peak-Daten gesetzt; OOM/kill wird bereits ueber `docker-critical-events.sh` gemeldet.