edcb34c3f3
Operator-Befund beim F-17-Versuch: Plex-Server war seit 18.05. unclaimed (Preferences.xml ohne PlexOnline*) und Library-Sections leer. Filmdateien unter /mnt/user/media/* blieben unangetastet. Reclaim als Xeridos via inline PLEX_CLAIM-Env beim docker compose force-recreate. Token nirgendwo persistiert (kein .env, kein Repo, keine Komodo-Stack-ENV); zweiter Recreate ohne Token, damit docker inspect-Snapshot sauber bleibt. Endstand: PlexOnlineUsername Xeridos, PlexOnlineHome 1, PublishServerOnPlexOnlineKey 0 (Remote Access aus). Bibliotheken operator-seitig wieder eingerichtet (/data/movies 1.4 TB, /data/Heimatfilme 300 GB). Plex bleibt LAN/Tailscale-only, konsistent zur FRITZBox-Bereinigung vom selben Tag. Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>
13 KiB
13 KiB
Audit TODO 2026-05-25
Quelle: docs/AUDIT_2026-05-25.md
Status: Arbeitsliste fuer die Umsetzung. Authelia-2FA/OIDC, CrowdSec und Nextcloud-2FA-Haertung bleiben ganz hinten und werden bewusst nicht in diesem Audit-Zyklus angefasst.
Leitplanken
- Authelia-2FA-ACL, Authelia-OIDC und CrowdSec werden in diesem Audit-Zyklus nicht umgesetzt (Operator-Vorgabe 2026-05-26).
- Keine Live-riskanten Bind-/Port-Aenderungen ohne vorher erfasste Host-Werte, insbesondere Tailscale-IP.
- Hermes-Agent ist geparkt, nicht entfernt; Review-Deadline 2026-07-25.
- USV-Anschaffung ist verschoben; Power-Loss-Risiko ist als Operator-Entscheidung 2026-05-26 bewusst akzeptiert.
- Borg-Passphrase ist offline gesichert (bestaetigt 2026-05-26).
- H:/ ist evaluiert als zweite lokale Nearline-Kopie, nicht als Offsite-Ersatz (siehe
docs/CAPACITY_AND_LIFECYCLE.md). - Familien-Einladung ist fuer das Wochenende nach Erreichen des finalen Stands geplant; Family-Onboarding muss familienverstaendlich werden, nicht technisch.
- Jede produktive Aenderung bekommt Validierung und Rollback-Hinweis.
Naechster Startpunkt 2026-05-26
Kontext bewusst gesichert, bevor weitere Live-Aenderungen passieren:
- Host-Schedule fuer Gitea-Bundles und Restore-Freshness pruefen.
- FRITZ!Box-Portfreigaben (UI) gegen Repo-Soll abgleichen (
443/tcp+222/tcp). - H:/ Pull-Workflow festlegen.
- Family-Onboarding-Doku familienverstaendlich umarbeiten, vor der Wochenend-Einladung.
- Authelia 2FA/OIDC und CrowdSec weiterhin nicht anfassen; bleibt bewusst der letzte Block.
Sprint 0 - Inventar und Baseline
| Status | Aufgabe | Ergebnis |
|---|---|---|
| erledigt | Hardware-Inventar ausfuellen | CPU, RAM, Mainboard, BIOS, NIC, Controller, Disks, SMART und Capacity-Baseline erfasst; USV ist als nicht validiert dokumentiert |
| erledigt | Netzwerk-Inventar ausfuellen | Host-IP, Gateway, Tailscale-IP, AdGuard-Bind und FRITZ!Box-Baseline (7590, FRITZ!OS 8.21, Telekom DSL 87/36, 36 Geraete, Gast-WLAN inaktiv, Ausfallschutz inaktiv, 2 Portfreigaben aktiv) erfasst; IPv6 und FRITZ!OS-Update bleiben Operator-Folgeaufgaben |
| erledigt (Baseline) | Externe Abhaengigkeiten dokumentieren | docs/EXTERNAL_DEPENDENCIES.md enthaelt bekannte Provider, Kritikalitaet, Ausfallplaene; Account-Recovery-Codes/Zahlungswege bleiben Off-Repo-Operatorcheck |
| erledigt (Baseline) | Services-Recovery-Pfade beschreiben | docs/SERVICES_RECOVERY.md enthaelt Gitea-/Komodo-/Secrets-Sonderpfade; Gitea-Bundle-/Mirror-Mechanik bleibt als Umsetzungsentscheidung offen |
| erledigt | Baseline-Tag setzen | audit-2026-05-25-baseline ist lokal und remote vorhanden |
| erledigt | Policy-Check neu ausfuehren | SEC001-Warnings aus altem Report sind nicht mehr aktuell |
Sprint 1 - Nicht-kontroverse Sicherheits- und Repo-Hygiene
| Status | Aufgabe | Ergebnis |
|---|---|---|
| erledigt | Borg-Passphrase analog sichern | Operator bestaetigt am 2026-05-26: Passphrase ist offline gesichert und ohne Host/Vaultwarden wiederherstellbar |
| erledigt (repo) | AdGuard Admin-Bind vorbereiten | Tailscale-IP 100.80.98.33 erfasst, Compose-Soll geaendert |
| erledigt | AdGuard Admin-Port auf Tailscale-IP binden | Live validiert: ss -ltnp zeigt 100.80.98.33:8082, DNS auf Port 53 funktioniert, LAN-Zugriff auf 192.168.178.58:8082 schlaegt fehl |
| erledigt | Alte Monitoring-Verzeichnisse entfernen | ops/grafana-influxdb/ und ops/loki/ sind aus dem aktiven Repo entfernt; Rollback erfolgt ueber Git-Historie |
| erledigt | Komodo/Gitea-Restdrift bereinigen | alter Komodo-Stack grafana ist inert und ohne Repo-Pfad/Webhook; Gitea-Hook 35 und komodo-Self-Hook 11 sind inaktiv; aktive Gitea-Hooks haben keine Fehlstatus |
| erledigt | Policy-Warnings triagieren | Plex Host-Netz und digest-gepinnte mutable Tags sind dokumentierte Info-Ausnahmen; monitoring-influxdb3-core als Root-Ausnahme bleibt bewusst als Warning sichtbar |
Sprint 2 - Storage und Recovery verbindlich machen
| Status | Aufgabe | Ergebnis |
|---|---|---|
| erledigt | docs/STORAGE_LAYOUT.draft.md finalisieren |
Datei als docs/STORAGE_LAYOUT.md Active v1.4 gefuehrt; Draft-Blocker entfernt |
| erledigt (Baseline) | Disk- und Share-TBDs eintragen | Disk-Modelle, Seriennummern, Groessen, Filesysteme und Share-Cache-Settings aus docs/HARDWARE_INVENTORY.md und Host-Readout 2026-05-27 uebernommen; Retention-/Schwellen-Kalibrierung bleibt Folgeaufgabe |
| erledigt | Gitea-Repo-Mirror-Mechanik definieren | ops/borg-ui/scripts/gitea-bundle-mirror.sh erzeugt verifizierte Bundles unter /mnt/user/backups/git-bundles/gitea; Host-Erstlauf 2026-05-26: 4 Bundles, Checksums OK, homelab-infra.bundle klonbar und git fsck sauber. Schedule live seit 2026-05-27 ueber User-Script gitea-bundle-mirror-6h (10 */6 * * *); Bundles werden mit chmod 644 geschrieben damit der Nearline-Pull sie greift. |
| erledigt (Doku) | Komodo-Bootstrap-Pfad beschreiben | docs/SERVICES_RECOVERY.md enthaelt linearen Bootstrap in Stufen A-F mit Recovery-Anker ops/komodo/docker-compose.yml, expliziter Abgrenzung zum Self-Stack, Secret-Reihenfolge und Validierungs-Kommandos; docs/DISASTER_RECOVERY.md Stufe 3 verlinkt auf Bootstrap-Pfad. Trockenlauf-Skript bleibt als offene Folgeaufgabe. |
| erledigt | Immich-Restore-Test planen | Testumfang, Datenpfade und Smoke-Test-Kriterium sind in docs/IMMICH_RESTORE_TEST.md, ops/restore-tests/immich-plan.md und ops/restore-tests/immich-runbook.md festgehalten; erster Host-Lauf am 2026-05-27 erfolgreich |
Sprint 3 - Restore und Monitoring
| Status | Aufgabe | Ergebnis |
|---|---|---|
| erledigt | Immich-Restore-Test implementieren | Echter Host-Lauf 2026-05-27 erfolgreich: Borg-Archiv Tägliche-Sicherung-2026-05-27T04:30:06.778, immich.dump extrahiert, isolierter pgvecto-rs-Postgres importiert, Immich-Server ohne ML gestartet, HTTP 200, Login-Marker ok, 11977 Assets und 1 User im Test-DB-Check; Report /mnt/user/backups/restore-reports/immich-2026-05-27.md |
| erledigt | Borg-Stale-Alert bauen | Cron */5 * * * * (export-prometheus-textfile-5min User-Script) schreibt homelab.prom; node-exporter scraped, Prometheus laedt Regel HomelabBorgBackupStale aktiv. Live 2026-05-27 20:33 reloaded; lastConfigTime: 2026-05-27T18:33:06Z; Smoke-Query (time() - homelab_borg_last_completed_timestamp_seconds)/3600 = 16h. Borg-Job-Warning ist aktuell pending (Letzter Lauf completed_with_warnings). |
| erledigt | TLS-Cert-Expiry-Alert bauen | Regeln HomelabCertificateExpiresSoon (21d) und HomelabCertificateExpiresCritical (7d) sind in alerts.yml aktiv und nach Prometheus-Reload geladen. Smoke inactive (keine Cert <21d). |
| erledigt | Container-Down-Alert bauen | HomelabCriticalContainerDown aktiv; Live-Smoke 2026-05-27 sum(homelab_critical_container_running) = 30, alle aktuellen Critical-Container 1. Aktualisierung alle 5 Min ueber Cron. |
| erledigt (Spezifikation) | Family-View Dashboard definieren | docs/FAMILY_VIEW_DASHBOARD.md enthaelt Layout, PromQL-Queries, Thresholds und Build-Reihenfolge fuer ein homelab-family-view-Dashboard. JSON wird bewusst erst angelegt, sobald Borg-Stale-/Cert-Expiry-/Container-Down-Metriken stabil live sind und ein manueller Build im Grafana-UI das Layout bestaetigt hat. |
Sprint 4 - Familien- und Betriebsdoku
| Status | Aufgabe | Ergebnis |
|---|---|---|
| erledigt (final vor Einladung) | Familien-Onboarding schreiben | docs/FAMILY_ONBOARDING.md ist final redigiert: familienverstaendliche Sprache, App-eigene 2FA statt SSO-Versprechen, neuer "Bewusst nicht versprochen"-Block (kein Einheits-Login, kein 24/7-SLA, kein Hotline-Support, keine Datenweitergabe), konkrete Was-tun-Anleitungen. Einladungstermin bleibt Operator-Aufgabe. |
| erledigt (Baseline) | Capacity-/Lifecycle-Review erstellen | Cache 6 %, Array/User-Shares 33 %, lokale Backups 2.2G; H:/-Nearline-Bewertung ergaenzt; externe Cold-Storage-Groessen bleiben offen |
| erledigt | USV-Test oder USV-Entscheidung | Operator-Entscheidung 2026-05-26: aktuell keine USV-Anschaffung; Power-Loss-Risiko wird bewusst akzeptiert und dokumentiert |
| erledigt (Baseline) | H:/ als zusaetzliches lokales Backupziel bewerten | Als zweite Nearline-Kopie und Freeze-Sicherung sinnvoll; kein Offsite-Ersatz, kein CIFS-Hard-Mount am Unraid; Pull-Modell vom Windows-PC ist der getestete Weg (siehe docs/CAPACITY_AND_LIFECYCLE.md) |
| erledigt (Pull live, Scheduled Task offen) | H:/ Groesse und Pull-Schedule festschreiben | Groesse erfasst: 8.0T NTFS, 3.91T belegt, 4.10T frei, Healthy. Erster echter Pull 2026-05-27 20:45 erfolgreich: 19 Borg-Dumps + 10 Gitea-Bundle-Files unter H:\kallilab-nearline-backups. unraid-flash-config.* bewusst ausserhalb Scope (/XF-Exclude, Restore aus Hetzner-Borg). Permission-Fixes in pre-backup-dumps.sh (alle Dumps 0644 ausser Flash-Config), gitea-bundle-mirror.sh (Bundles 0644), export-prometheus-textfile.sh (Metric-File 0644) und pull-critical-backups.ps1 (Report-Bug + ExcludeFiles). Windows Scheduled Task taeglich 05:30 bleibt offen (Operator-Bestaetigung). |
| erledigt 2026-05-28 | FRITZ!Box-Portfreigaben gegen Repo-Soll abgleichen | Bereinigt: 80/tcp entfernt (Mobilfunk-validiert: HTTP timeout, HTTPS weiter erreichbar). 222/tcp bleibt bewusst nicht eingerichtet (Tailscale-only-Linie). UPnP-Selbstfreigabe-Recht fuer PC-192-168-178-71 (VONETS-Bridge, vermutlich SolarEdge-Wechselrichter) deaktiviert. Aktiver Endstand: ausschliesslich 443/tcp -> 192.168.178.58. Details in docs/FRITZBOX_PORT_CORRECTION_PLAN.md. |
Sprint 5 - Auth und Frontdoor, bewusst zuletzt
In diesem Audit-Zyklus werden diese Punkte nicht umgesetzt. Sie sind dokumentiert, damit sie bei einer kuenftigen Policy-Entscheidung sofort priorisiert werden koennen.
| Status | Aufgabe | Begruendung der Parkung |
|---|---|---|
| geparkt | Authelia 2FA fuer Operator-UIs erweitern (F-04) | Operator-Vorgabe 2026-05-26: keine Auth-Aenderungen in diesem Zyklus |
| geparkt | Authelia OIDC fuer Apps pruefen (F-13) | Operator-Vorgabe 2026-05-26: keine Auth-Aenderungen in diesem Zyklus |
| geparkt | CrowdSec vor Traefik pruefen (F-14) | Operator-Vorgabe 2026-05-26: erst nach finaler Auth-Policy |
| geparkt | Nextcloud-2FA-/Brute-Force-Haertung dokumentieren (F-18) | beruehrt Auth-Policy fuer Familien-Konten; gemeinsam mit OIDC-Entscheidung |
Sprint 6 - Geparkte Apps und Folgeentscheidungen
| Status | Aufgabe | Naechster Pruefschritt |
|---|---|---|
| geparkt | Hermes-Agent (F-06) — Operator-Entscheidung produktiv vs. entfernen | Review-Deadline 2026-07-25; bis dahin bleibt der NAS-Stack deaktiviert, das Repo-Verzeichnis erhalten, Dashboard-Domain und ACL-Eintrag unveraendert |
| offen | paperless-gpt / BentoPDF Nutzungsentscheidung | Mit Wochenend-Einladung Familienprobelauf, danach Operator-Entscheidung |
| erledigt 2026-05-28 | Plex Remote Access in UI deaktivieren falls nur LAN/Tailscale (F-17) | Beim Versuch entdeckt: Server war seit 18.05. unclaimed und Bibliotheken leer. Reclaim als Xeridos via inline PLEX_CLAIM-Token, danach Bibliotheken (/data/movies 1.4 TB, /data/Heimatfilme 300 GB) neu angelegt und Remote Access deaktiviert (PublishServerOnPlexOnlineKey=0, Plex-Relay aus). Details in HOMELAB_ARCHITECTURE_MASTER_V2.md Sektion 13. |
| erledigt | infra/redis Doku-Etikett korrigieren (F-16) |
SERVICE_CATALOG, REPO_MAP, MASTER (Sektion 13) und DISASTER_RECOVERY Bootstrap-Stufe 2 auf "primaer Paperless-Redis" praezisiert; keine Compose-Aenderung |
| erledigt | Paperless-DBPass DR-Restore-Reihenfolge in DR-Doc (F-20) | DISASTER_RECOVERY 6.2.1 (Restore-Quellen fuer Stack-ENV-Werte) ergaenzt; SECRETS_MAP um Abschnitt "Stack-ENV-only Secrets - Restore-Wege" mit Reihenfolge Komodo-Mongo-Dump -> Vaultwarden -> externe Notiz erweitert; Paperless, Immich, Mail-Archiver, Speedtest, Komodo, Hermes und Glance je mit Restore-Quelle dokumentiert |
Sprint 7 - Off-site und 3-2-1 (offen)
| Status | Aufgabe | Bemerkung |
|---|---|---|
| offen (Entscheidungsvorlage) | Zweites echtes Off-site (F-03) | H:/ ersetzt das nicht; Optionen rsync.net / BorgBase EU2 / Cold-Wechselplatte in docs/OFFSITE_BACKUP_OPTIONS.md gegenuebergestellt, Empfehlung rsync.net oder Cold-Platte; Operator-Entscheidung und Budget-Freigabe stehen aus |
| erledigt (Routine dokumentiert) | Restore-Lab-Drill quartalsweise dokumentieren | docs/RESTORE_DRILL_ROUTINE.md definiert Drei-Stufen-Modell (Freshness woechentlich / Mini-Restore monatlich-bimonatlich / DR-Sanity quartalsweise), Quartals-Belegung Q1-Q4 mit Dienst-Rotation, Immich 2026-05-27 als bestaetigter Erstlauf gefuehrt, 10-Punkte-Sanity-Check, kein Host-Schedule angelegt. ops/restore-tests/schedule.md verweist jetzt auf Drill-Routine. |
Offene Host-Werte
Diese Werte muessen am Unraid-Host erhoben werden, bevor die entsprechenden Aenderungen sauber umgesetzt werden:
hostname
cat /proc/cpuinfo | awk '/model name|flags/ {print; if(/flags/) exit}'
free -h
dmidecode -t baseboard | head -30
ip -br link
tailscale ip -4
lsblk -o NAME,SIZE,MODEL,SERIAL,FSTYPE,MOUNTPOINT,VENDOR
df -h /mnt/cache /mnt/disk1 /mnt/user
smartctl -a /dev/nvme0n1 | head -80
smartctl -a /dev/sdb | head -80