homelab-infra

Author	SHA1	Message	Date
Micha	80385c4560	monitoring: Prometheus-Config als Verzeichnis-Mount (FUSE-Stale-Handle-Fix) Einzeldatei-Bind-Mounts von alerts.yml/prometheus.yml brechen auf dem Unraid-FUSE-Share bei git/Komodo-Updates zu "Stale NFS file handle" (Inode-Wechsel) -> Config-Reload laedt 0 Regeln, nur --force-recreate heilt. Umgestellt auf stabilen Directory-Mount ./prometheus:/etc/prometheus/config:ro plus angepasste --config.file und rule_files. Kuenftig reicht ein Reload. Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>	2026-06-19 10:20:35 +02:00
Micha	bc9ace315a	Backup-Audit-Hardening: Dump-Frische-Monitoring und Scope-Konsistenz Findings aus dem Backup-/Restore-Audit 2026-06-18 umgesetzt: - Dump-Frische als Prometheus-Metrik (homelab_borg_dump_present / homelab_borg_dump_age_seconds) im Host-Exporter; schliesst den Blindfleck, dass Borg weiterlaeuft und stale Dumps archiviert, ohne Job-Fehler. - Neue Alerts HomelabBorgDumpMissing / HomelabBorgDumpStale (critical) plus ALERT_RULES.md. - Freshness-Gate (.sh + .ps1) und H:-Nearline-Pull um n8n.sqlite.dump und postgresql17-globals.sql ergaenzt. - Critical-Container-Watch um mail-archiver, n8n, homeassistant, smarthome-mosquitto erweitert. - BACKUP_SCOPE: /mnt/user/projekte und sonstige User-Shares ausserhalb App-Scope als bewusste offene Operator-Entscheidung dokumentiert; Hermes-data-Pfad als geparkt klargestellt. - MASTER_TODO: Nearline-Pull-Ueberwachung, Host-Pull-Nachzug und projekte-Scope-Entscheidung aufgenommen. Enthaelt ausserdem die zuvor vorbereiteten Scope-Erweiterungen (nextcloud html+data, n8n, filebrowser, influxdb3) und Scope-Drift-/ Retention-/Compact-/Check-Alerts. Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>	2026-06-18 20:25:54 +02:00
Micha	16a266cd79	Add GitOps runtime image drift alert	2026-05-31 13:17:45 +02:00
Micha	0c08d68d2b	monitoring: HomelabPrometheusTargetDown + HomelabDiskCritical Schliesst die zwei in ALERT_RULES.md identifizierten Hoch-Luecken: - up==0 (5m) als critical in neuer Gruppe homelab-meta — Scrape-Targets (node-exporter/cadvisor/blackbox/traefik) sind nicht laenger stille Ausfaelle. - Disk-Critical bei >95% (5m) als critical, zusaetzlich zum bestehenden Warning bei >85% — fuer DB/appdata/Cache-Schreibblockaden. ALERT_RULES.md Tabellen und Status-Abschnitt aktualisiert. Wird wirksam nach Prometheus-Reload via Komodo-Redeploy des monitoring-Stacks. Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>	2026-05-30 22:17:51 +02:00
Micha	8e111d1e04	Prepare monitoring alert rules	2026-05-27 06:38:57 +02:00
Micha	b6bbca43ad	Replace Uptime Kuma with monitoring checks	2026-05-25 16:37:46 +02:00
Micha	a7797fd02e	Consolidate dashboard on Glance	2026-05-25 14:44:46 +02:00
Micha	b6d3ed4832	Tune homelab availability alerts	2026-05-23 10:58:12 +02:00
Micha	db7dc3f2af	Add ntfy alert delivery for monitoring	2026-05-17 11:34:19 +02:00
Micha	2c4854f628	Accept protected HTTP checks in blackbox	2026-05-17 11:25:35 +02:00
Micha	c95fa601f0	Add monitoring replacement baseline	2026-05-17 11:22:38 +02:00
Micha	6e28ea94d2	ops: wire monitoring stack to traefik metrics	2026-05-16 22:10:43 +02:00
Micha	58eb53a6a8	ops: add monitoring compose stack	2026-05-16 21:59:20 +02:00

13 Commits