Files
homelab-infra/docs/AUDIT_2026-05-25_TODO.md
T
Micha c922d1f241 docs(restore): finalize audit - handbook update, reifegrad matrix, backlog
Schliesst das Restore-Skills-Audit 2026-06-02/03 ab:

- RESTORE_HANDBOOK.md auf Stand 2026-06-03: alle 6 verifizierten Tests
  (Vaultwarden, Gitea, Paperless, Immich, Authelia, Komodo-Bootstrap)
  dokumentiert, Frequenz-Tabelle aktualisiert, Betriebsmodus auf V1+
  (mit ntfy), Schnellstart um Immich/Authelia/Komodo ergaenzt,
  Report-Aufbewahrungsregel dokumentiert, Ausbaustufen priorisiert.

- RESTORE_MATRIX.md: neue Sektion "Restore-Test-Reifegrad" mit
  Uebersichtstabelle (pro Dienst: Tier, letzter Test, Typ, naechster
  Lauf) und priorisierter Kandidatenliste fuer fehlende Tests.

- Gitea-Restore: SSH-Check im Report korrekt als "TCP connect only"
  benannt statt "SSH port open" (war Audit-Finding M3).

- AUDIT_2026-05-25_TODO.md: Restore-Audit-Backlog ergaenzt mit den
  verbleibenden 8 offenen Punkten (Nextcloud, Shared PG18, Komodo-Mongo,
  Mailarchiver, Mealie, Traefik, Negativ-Test, E2E-DR-Drill).

Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>
2026-06-03 09:31:19 +02:00

5.7 KiB

Audit-Restliste 2026-05-25

Status: kompakte Restliste. Die erledigten Sprint-Tabellen und langen Audit-Snapshots wurden aus der Arbeitskopie entfernt; Detailhistorie liegt in Git.

Aktuell offene Punkte

Prioritaet Punkt Naechster Schritt
P2 Family-Onboarding praktisch starten Fokus: Vaultwarden als Passwortbasis, Immich-Mobile-Backup auf jedem Handy, Mealie mit erstem Rezept/Einkaufsliste; Ablauf steht in docs/FAMILY_ONBOARDING.md

Restore-Audit Backlog (Stand 2026-06-03)

Ergebnis des Restore-Skills-Audits (Session 2026-06-02/03). Die kritischen Bugfixes (Cron-OR-Semantik, ntfy-Race, Cleanup-Trap, Pfad-Inkonsistenz, Vaultwarden-Token, Paperless-Retry, Header-Validierung, Authelia-Test) sind erledigt und committed. Die folgenden Punkte sind bewusst offener Backlog:

Prioritaet Punkt Status Naechster Schritt
P1 Nextcloud-Restore-Test offen Test nach Paperless-Muster, zusaetzlich occ maintenance:mode-Choreographie und oc_admin-Rolle. Hoechster Lerngewinn unter den fehlenden Tier-2-Tests
P1 Shared PostgreSQL 18 Cluster Restore Drill offen Komplett-Drill: pg_dumpall --globals-only + per-DB Custom-Format-Dumps, inkl. mailarchiver-Bootstrap-Rollenkonflikt. Aktuell nur als Doku in RESTORE_MATRIX, kein automatischer Test
P1 Komodo-Mongo-Daten-Restore offen Echtes mongorestore --archive --gzip von komodo-mongo.archive.gz in die Test-Mongo. Bootstrap-Compose-Test existiert, Daten-Replay nicht. Die Mongo-Dump ist die kanonische Quelle fuer KOMODO_*-Stack-ENVs wenn Vaultwarden gleichzeitig ausfaellt
P2 Mailarchiver-Restore-Test offen Shared Postgres + Authelia-ForwardAuth; nach Nextcloud-Test
P2 Mealie-Restore-Test offen Eigene Postgres + File-Restore
P2 Traefik-Restore-Test offen Tier 1, aber komplex: dynamic/ ist manuell-sync-Ausnahme, LE-State und CF-Token-Mount sind heikel
P3 Negativ-Test fuer Frische-Check offen Einmal pro Quartal bewusst kaputten Dump einfuettern und pruefen ob homelab-alerts feuert
P3 End-to-end-DR-Drill offen Komplett-Bootstrap Phase 1-5 auf einem Wegwerf-Host; realistisch nur mit zweiter Hardware

Bewusst geparkt

Punkt Entscheidung
Authelia 2FA fuer Operator-UIs In diesem Zyklus nicht umgesetzt; erst mit finaler Auth-Policy
Authelia OIDC fuer Apps Geparkt bis klare Familien-/SSO-Entscheidung
CrowdSec vor Traefik Erst nach Auth-Policy neu bewerten
Nextcloud 2FA/Brute-Force-Haertung Gemeinsam mit OIDC/Familienkonten entscheiden
Hermes-Agent NAS-Stack bleibt deaktiviert; Review-Deadline 2026-07-25
USV Anschaffung verschoben; Power-Loss-Risiko bewusst akzeptiert
Zweites Off-site-Ziel Bewusst nicht umgesetzt; neu bewerten bei Hetzner-Problemen, stark wachsendem Datenwert oder geaenderter Betreiber-Praeferenz
Borg append-only auf Hetzner Operator-Entscheidung 2026-06-01: nicht umgesetzt. Der forced-command-Test auf der Storage Box brach Key-Auth und wurde per Passwort-Recovery zurueckgesetzt; Nutzen steht fuer dieses Homelab nicht im Verhaeltnis zum Betriebsrisiko.

Zuletzt geschlossen

  • Alt-Volumes nach Burn-in freigegeben und reversibel archiviert: Shared PG17, Mealie PG17, Nextcloud PG17 und Immich pgvecto.rs liegen seit 2026-06-02 unter /mnt/user/appdata/_archive/pg18-immich-rollback-volumes-20260602; Manifest auf dem Host: /mnt/user/appdata/_archive/pg18-immich-rollback-volumes-20260602/MANIFEST.txt. Keine harte Loeschung, keine aktiven Container-Mounts auf die alten Pfade.
  • Externer Betreibercheck vorbereitet: docs/EXTERNAL_OPERATOR_RUNBOOK.md und ops/maintenance/check-external-operator.sh; Live-Baseline am 2026-06-01: FRITZ!OS 154.08.25, keine Public-AAAA-Records fuer *.kaleschke.info, Host ohne globale Provider-IPv6, WAN 443/tcp offen und 80/tcp/222/tcp geschlossen.
  • FRITZ!Box-Servicefenster UI-seitig abgeschlossen: FRITZ!Box-Dienste aus dem Internet sind aus (HTTPS auf FRITZ!Box-UI, FTP/FTPS auf Speichermedien), aktive WAN-Freigabe bleibt nur 443/tcp -> 192.168.178.58, keine aktive IPv6-Freigabe sichtbar, UPnP-Selbstfreigaben aus.
  • FRITZ!Box-Konfig-Backup exportiert und extern/off-system in Vaultwarden abgelegt: Einstellungen_FRITZ.Box_7590_154.08.25_01.06.26_1318.export; Kennwort und Datei bleiben ausserhalb des Repos.
  • Hetzner-Account-Hygiene erledigt: externe Kontakt-/Rechnungs-Mail bestaetigt, Zahlung ok, 2FA mit Google Authenticator aktiv, Recovery Key offline ausgedruckt.
  • Hetzner Storage Box geprueft: storage-box-1, u565255.your-storagebox.de, SSH-Port 23, SSH aktiv, SMB/WebDAV aus, 64,94 GB / 1 TB belegt; Borg-UI-Key und separater Maintenance-Key funktionieren wieder nach Passwort-Recovery. Borg append-only ist bewusst nicht umgesetzt.
  • Family-View Dashboard ist repo-seitig gebaut: monitoring/grafana/dashboards/family-status.json zeigt Family-App-Uptime, Backup-Alter, TLS-Restlaufzeit, Critical-Container und Image-Drift.
  • Borg-Nachlauf nach dem 2026-05-31-Sprint ist belegt: Archiv Taegliche-Sicherung-2026-06-01T04:30:26.913, 101669 Dateien, rc=0; Freshness-Check am 2026-06-01: Critical 0, Warnings 0.
  • H:/ Nearline-Pull am 2026-06-01 repariert und manuell validiert: kuratierte Borg-Dumps Exit 0, Gitea-Bundles Exit 1 (Robocopy-Erfolg mit Kopien), Report nearline-pull-2026-06-01-082553.md.
  • Immich-, Paperless-, Gitea- und Vaultwarden-Restore-Pfade sind belegt.
  • H:/ Nearline-Pull laeuft seit 2026-05-28 als Windows Scheduled Task.
  • FRITZ!Box-Portfreigaben sind bereinigt: WAN-seitig bleibt 443/tcp.
  • InfluxDB 3 Core ist effektiv nur auf 127.0.0.1:8181 gebunden.
  • Renovate ist produktiv, Major-Updates werden bewusst manuell entschieden.
  • Policy-Check bleibt ohne Criticals; bekannte Root-Ausnahmen sind dokumentiert.