Files
homelab-infra/docs/ALERT_RULES.md
T
Micha bc9ace315a Backup-Audit-Hardening: Dump-Frische-Monitoring und Scope-Konsistenz
Findings aus dem Backup-/Restore-Audit 2026-06-18 umgesetzt:

- Dump-Frische als Prometheus-Metrik (homelab_borg_dump_present /
  homelab_borg_dump_age_seconds) im Host-Exporter; schliesst den
  Blindfleck, dass Borg weiterlaeuft und stale Dumps archiviert, ohne
  Job-Fehler.
- Neue Alerts HomelabBorgDumpMissing / HomelabBorgDumpStale (critical)
  plus ALERT_RULES.md.
- Freshness-Gate (.sh + .ps1) und H:-Nearline-Pull um n8n.sqlite.dump
  und postgresql17-globals.sql ergaenzt.
- Critical-Container-Watch um mail-archiver, n8n, homeassistant,
  smarthome-mosquitto erweitert.
- BACKUP_SCOPE: /mnt/user/projekte und sonstige User-Shares ausserhalb
  App-Scope als bewusste offene Operator-Entscheidung dokumentiert;
  Hermes-data-Pfad als geparkt klargestellt.
- MASTER_TODO: Nearline-Pull-Ueberwachung, Host-Pull-Nachzug und
  projekte-Scope-Entscheidung aufgenommen.

Enthaelt ausserdem die zuvor vorbereiteten Scope-Erweiterungen
(nextcloud html+data, n8n, filebrowser, influxdb3) und Scope-Drift-/
Retention-/Compact-/Check-Alerts.

Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>
2026-06-18 20:25:54 +02:00

4.4 KiB

Alert Rules

Stand: 2026-06-18

Diese Datei beschreibt die produktiven Alarmwege und wichtigsten Regeln. Die Konfiguration selbst liegt in monitoring/prometheus/alerts.yml und in den Skripten unter services/posture-check/.

Alarmwege

Weg Quelle Ziel
Prometheus / Alertmanager monitoring/prometheus/alerts.yml ntfy homelab-alerts
Posture Check services/posture-check/posture-check.sh ntfy homelab-alerts
Cert / Token Check services/posture-check/cert-token-check.sh ntfy homelab-alerts
Compose Runtime Drift services/posture-check/compose-runtime-drift.sh ntfy homelab-alerts
Docker Critical Events services/posture-check/docker-critical-events.sh ntfy homelab-alerts
Borg Pre-Hook ops/borg-ui/scripts/pre-borg.sh ntfy homelab-alerts
Restore Jobs ops/restore-tests/run-restore-job-with-ntfy.sh Fehler homelab-alerts, Erfolg homelab-info

Prometheus-Regeln

Alarm Ausloeser Severity Aktion
HomelabExternalConnectivityDown mindestens 5 HTTP-Ziele down warning WAN/DNS/Provider pruefen, nicht jede Domain einzeln jagen
HomelabEndpointDown einzelnes HTTP-Ziel down critical Dienst, Traefik-Route und Backend pruefen
HomelabEndpointSlow Endpoint >5s warning Dienstlast oder Backend-Latenz pruefen
HomelabCertificateExpiresSoon Cert <21 Tage warning ACME/Traefik-Renewal beobachten
HomelabCertificateExpiresCritical Cert <=7 Tage critical Renewal sofort pruefen
HomelabDiskAlmostFull Filesystem >85% warning Platz schaffen oder Schwelle pruefen
HomelabDiskCritical Filesystem >95% critical Sofort Platz schaffen
HomelabHighMemoryUsage MemAvailable <10% warning Speicherfresser identifizieren
HomelabTraefik5xx >=5 5xx je Service in 5 Minuten warning betroffenes Backend pruefen
HomelabTextfileExporterStale Textfile-Exporter >2h alt warning Host-Cron pruefen
HomelabBorgMetricsMissing Borg-Metrik fehlt critical Textfile-Exporter oder Borg-UI pruefen
HomelabBorgBackupStale letztes Borg-Backup >30h warning Backup-Lauf nachholen/pruefen
HomelabBorgLastJobFailed letzter Borg-Job fehlgeschlagen critical Borg-UI-Job-Log pruefen
HomelabBorgLastJobCompletedWithWarnings letzter Borg-Job mit Warnungen warning Warnung im Borg-UI-Job lesen
HomelabBorgDumpMissing erwartetes Dump-Artefakt fehlt im aktuellen Dump-Set critical pre-backup-dumps.sh/User-Script pruefen
HomelabBorgDumpStale Dump-Artefakt >30h alt (Borg laeuft, Dumps eingefroren) critical pre-backup-dumps.sh/User-Script pruefen, nicht nur den Borg-Job
HomelabBorgScopeSourceListMissing Repo-Quellliste fuer Borg-Drift-Check fehlt critical Borg-UI-Mount /local/services/homelab-infra und Repo-Pfad pruefen
HomelabBorgScopeMissingSources Borg UI enthaelt nicht alle Pfade aus ops/borg-ui/all-important-sources.txt critical Live-Borg-Scope an Repo-Quelle angleichen
HomelabBorgScopeExtraSources Borg UI enthaelt Pfade ausserhalb der Repo-Quellliste warning Doku oder Live-Scope bereinigen
HomelabBorgRepositoryCheckStale letzter Borg-Check >14 Tage alt warning Borg-Repository-Check ausfuehren oder Scheduler pruefen
HomelabBorgRetentionDisabled Scheduled Job fuehrt kein Prune aus warning Retention-Einstellung in Borg UI pruefen
HomelabBorgCompactDisabled Scheduled Job fuehrt kein Compact aus warning Compact-Einstellung in Borg UI pruefen
HomelabCriticalContainerDown kritischer Container fehlt critical Komodo/Docker-Status pruefen
HomelabPrometheusTargetDown Scrape-Ziel down critical node-exporter/cadvisor/blackbox/traefik pruefen

Die Liste der ueberwachten Critical-Container steht in services/posture-check/export-prometheus-textfile.sh.

Bekannte Luecken

  • Kein externer Dead-Man's-Switch fuer Prometheus/ntfy-Bridge. Optional spaeter ueber Uptime-Kuma Push-Monitor oder Healthchecks.io.
  • Kein Inode-Alarm. Bei Paperless/Immich spaeter sinnvoll, aber aktuell kein dokumentierter Vorfall.
  • Container-Memory-Limits werden erst nach realen Peak-Daten gesetzt; OOM/kill wird ueber docker-critical-events.sh gemeldet, sobald der Host-Watcher per Unraid User Script aktiviert ist. Start/Stop/Status/Smoke laufen ueber services/posture-check/docker-critical-events-supervisor.sh.