homelab-infra

Author	SHA1	Message	Date
Micha	207f49f001	docs: retire home assistant influx todo	2026-06-06 08:22:27 +02:00
Micha	a687d9b73e	docs: record redis restore test	2026-06-06 08:11:03 +02:00
Micha	e3459c76d0	fix: use redis pre-cutover restore artifact	2026-06-06 08:08:52 +02:00
Micha	254eb81496	ops: add redis restore test	2026-06-06 08:07:11 +02:00
Micha	9a6d7123ce	docs: record adguard restore test	2026-06-06 08:03:53 +02:00
Micha	151d253aff	ops: add adguard restore test	2026-06-06 08:01:27 +02:00
Micha	dda6021116	docs: record tailscale acl plan and watcher activation	2026-06-05 23:27:40 +02:00
Micha	2f3d184a3b	ops: prepare docker critical events watcher	2026-06-05 22:25:23 +02:00
Micha	bc3ecad45a	backup: windows image baseline for baerchen	2026-06-05 22:19:27 +02:00
Micha	88a42f3f78	audit: read-only system audit 2026-06-05 Windows-Host baerchen (frisch aufgesetzt) und Laufwerksstruktur geprüft. Rohdaten unter audit/raw/, Bericht unter docs/audit/system-audit-2026-06-05.md. Homelab-Server-Abschnitt ausstehend (SSH-Bestätigung fehlt).	2026-06-05 09:01:27 +02:00
Micha	af2c6ee533	docs: record final games partition state	2026-06-04 17:37:11 +02:00
Micha	f382c25696	docs: record post reboot boot check	2026-06-04 17:30:20 +02:00
Micha	d710a506e8	docs: record boot cleanup execution	2026-06-04 17:26:55 +02:00
Micha	2ea65e906d	docs: add boot cleanup plan	2026-06-04 15:06:58 +02:00
Micha	2d438cf02b	docs: add drive restructure review follow-up	2026-06-04 14:40:42 +02:00
Micha	7ba10c893b	docs: document drive restructure status	2026-06-04 14:25:10 +02:00
Micha	fb948ac951	docs: add windows postdelta handoff	2026-06-04 11:51:22 +02:00
Micha	9ca6e47472	docs(dr): wsl2 + borg setup-runbook fuer den gaming-pc Schritt-fuer-Schritt Runbook fuer den letzten verbleibenden P1-Operator- Punkt: WSL2 + Borg-Client + SSH-Keys + Quartals-Smoke-Skript auf dem Operator-Gaming-PC einrichten. 7 Schritte, ~30-60 Min einmaliger Aufwand. Inhalt: - WSL2 Ubuntu installieren - borgbackup installieren - Hetzner-DR-Key aus offline-USB nach ~/.ssh kopieren - borg list Smoke gegen Hetzner Storage Box - GitHub-Deploy-Key analog - dr-smoke.sh Quartals-Skript ablegen - Bestaetigung in EXTERNAL_DEPENDENCIES und AUDIT-Restliste nachziehen Troubleshooting-Sektion fuer die haeufigsten Stolpersteine (WSL-Update, Key-Permissions, Port-23-Block, HTTPS-vs-SSH-URL). REPO_MAP.md um Verweis auf das neue Runbook ergaenzt. Wenn dieses Runbook abgearbeitet ist, sind alle vier Bare-Metal-DR-Pillars produktionsreif.	2026-06-03 20:32:27 +02:00
Micha	38fa8c5dd5	docs(restore): nextcloud restore-test erfolgreich (2026-06-03) Tier-2-Restore-Tests sind damit komplett belegt. Verlauf: - Lauf 1 (commit pre-fix): Borg-Extract+pg_restore ok, HTTP 503 wegen OC_Util.php:486 chmod-Fehlschlag auf shfs/FUSE - Lauf 2 (commit `53c34dc`, check_data_directory_permissions: false): HTTP 503 wegen fehlender .ncdata-Marker-Datei - Lauf 3 (commit `ba87719`, .ncdata-Marker): SUCCESS Endresultat: - HTTP 200 von /status.php - occ status maintenance: false - 126 Tabellen in der wiederhergestellten DB - Quelle: hetzner_borg_appdata_critical, Archiv Taegliche-Sicherung-2026-06-03T04:30:41.432 - Report: /mnt/user/backups/restore-reports/nextcloud-2026-06-03.md Doku-Updates: - RESTORE_MATRIX.md: Nextcloud-Zeile auf "2026-06-03 / quartalsweise" gezogen, Nextcloud aus "Naechste Restore-Test-Kandidaten" entfernt - AUDIT_2026-05-25_TODO.md: Backlog-P1 und Operator-P1 beide auf "erledigt 2026-06-03" - DR_DRILL_2026-06-03.md Folge-Iteration: X-1 als erledigt markiert Restliche P1-Operator-Aufgabe: WSL2+Borg-Client auf DR-Workstation.	2026-06-03 19:35:43 +02:00
Micha	ba87719de3	fix(restore): nextcloud-test create .ncdata marker in test data dir Zweiter Lauf am 2026-06-03 ergab nach dem ersten Fix (config-Permissions) einen neuen Fehler: HTTP 503 mit "Your data directory is invalid. Ensure there is a file called .ncdata in the root of the data directory." Hintergrund: Nextcloud prueft beim HTTP-Request eine Marker-Datei `.ncdata` mit festem Inhalt im Datenverzeichnis. Produktiv liegt der Marker unter /mnt/user/documents/nextcloud-data/.ncdata. Der Smoke-Test mountet diesen Pfad bewusst nicht, also war das Test-data-Verzeichnis leer und Nextcloud hat den Marker vermisst. Fix: Marker vor dem Container-Start anlegen. Die anderen Tier-2-Tests (Paperless, Mealie, Mail-Archiver) brauchten so etwas nicht, weil ihre Apps keine entsprechende Validierungs-Pruefung haben.	2026-06-03 19:30:58 +02:00
Micha	53c34dca0e	fix(restore): nextcloud-test disable check_data_directory_permissions Erster Lauf am 2026-06-03 lief sauber durch alle Phasen (Borg-Extract, pg_restore, Container alle gesund), schlug aber im HTTP-Smoke mit 503 fehl. Ursache (aus dem preserved /mnt/user/backups/restore-lab/_failed/...): - OC_Util.php:486 prueft die Permissions der data-Dir - Skript hatte chmod -R a+rwX gesetzt (0777, letzte Stelle 7) - Nextcloud versucht selbst chmod(0770) als www-data im Container - Unraids shfs/FUSE lehnt chmod von Non-Root ab - Nextcloud meldet "data directory readable by other people" -> 503 Fix: in der gepatchten config.php zusaetzlich 'check_data_directory_permissions' => false setzen. Nextcloud bietet das in OC_Util:480 explizit als Opt-out an, fuer den isolierten Smoke mit Wegwerf-Daten ist das vertretbar (kein Public, kein Traefik). Produktiv bleibt der Check natuerlich an. Patching erfolgt im bestehenden PHP-Injection-Block; idempotent (laeuft keine Aenderung wenn beide Keys schon im config.php sind). Fallback- sed-Pfad fuer Hosts ohne php ebenfalls erweitert.	2026-06-03 19:23:08 +02:00
Micha	7d87698715	docs(dr): Hetzner Storage Box DR-SSH-Key offline gesichert (2026-06-03) Dritte der vier P1-Operator-Aufgaben aus dem DR-Tabletop teil-erledigt. Die SSH-Schicht der DR-Workstation steht; verbleibend ist die WSL2+Borg-Installation auf dem Gaming-PC. Was passiert ist: - ed25519-Keypair `dr-hetzner-2026-06-03` (Passphrase-frei) lokal erzeugt - Public Key per `install-ssh-key` auf der Hetzner Storage Box autorisiert - Smoke `ssh -p23 ... ls` passwortlos erfolgreich, vier Borg-Repos sichtbar (`backup`, `backup2`, `hetzner_borg_appdata`, `hetzner_borg_appdata_critical`) - Private Key offline neben KOMODO_-Notiz und GitHub-Deploy-Key gelegt - Arbeitsplatz-Kopie nach USB-Transfer geloescht EXTERNAL_DEPENDENCIES.md: - DR-Workstation-Kit-Tabelle: SSH-Key-Zeile auf "offline gesichert" - Review-Zeile 2026-06-03 erweitert mit Smoke-Ergebnis AUDIT_2026-05-25_TODO.md: - P1-Eintrag DR-Workstation umformuliert: SSH-Key ist erledigt, Verbleibend ist nur noch WSL2 + Borg-Client-Installation - Eintrag unter "Zuletzt geschlossen" mit Wirkung Stand der DR-Bare-Metal-Pillars: 1. KOMODO_-Notiz offline erledigt 2. GitHub-Mirror Read-Only Deploy-Key offline erledigt 3. Hetzner Storage Box DR-SSH-Key offline erledigt 4. WSL2 + Borg-Client auf DR-Workstation installiert offen 5. Nextcloud-Restore-Test als letzte Tier-2-Luecke schliessen offen	2026-06-03 19:10:01 +02:00
Micha	c47639ecf4	docs(host): Fix Common Problems Plugin deinstalliert (2026-06-03) Befund: Drei `grep -R ... /usr/local/emhttp`-Prozesse aus einem FCP-Daily- Scan-Run hingen seit ~7 Tagen in einem Symlink-Loop. Unraids `/usr/local/emhttp/mnt` ist ein Symlink nach `/mnt` (mehrere TB Array); GNU `grep -R` dereferenziert Symlinks, also walking die FCP-Scan-Greps effektiv das gesamte Array. 3 Cores dauerhaft 100 %, IOWAIT-Peaks 55 %, USB-Flash unter Dauer-IO, Load 14.6 auf 12 Cores. Massnahme: `plugin remove fix.common.problems.plg`. Cron, Plugin-Dir und /tmp-Reste sauber. Load von 14.6 auf 1.08 (1-min) gefallen. Entscheidung: FCP wird bewusst nicht reinstalliert. Begruendung im Architektur-Master Sektion 13. Verbleibende Risiken decken Scrutiny, Monitoring, Posture-Check und Critical-Events-Watcher bereits ab. Repo-Aenderungen: - HOMELAB_ARCHITECTURE_MASTER_V2.md Sektion 13: vollstaendiger Entscheidungs-Log-Eintrag mit Ursache, Massnahme, Begruendung - AUDIT_2026-05-25_TODO.md "Zuletzt geschlossen": Kurzfassung Host-Aenderung wurde via SSH durchgefuehrt (read+remove), keine Compose-/Container-Aenderungen.	2026-06-03 16:29:33 +02:00
Micha	b158f9d871	docs(dr): GitHub-Mirror Read-Only Deploy-Key gesichert (2026-06-03) Zweite der vier P1-Operator-Aufgaben aus dem DR-Tabletop erledigt. Was passiert ist: - SSH-Keypair `dr-readonly-2026-06-03` (ed25519, Passphrase-frei) erzeugt - Public Key in GitHub Repo Settings -> Deploy Keys ohne Write-Access hinterlegt (Title `DR Read-Only 2026-06-03`) - Smoke `git ls-remote git@github.com:michaelkaleschke-spec/homelab-infra.git` erfolgreich (HEAD `d947c7f` matched origin/master) - Private Key offline neben die KOMODO_*-Notiz gelegt - Arbeitsplatz-Kopie auf dem Operator-PC nach USB-Transfer geloescht EXTERNAL_DEPENDENCIES.md: - GitHub-Mirror-Zeile von "noch nicht angelegt" auf "offline gesichert" gezogen, inkl. Deploy-Key-Bezeichnung und Smoke-Bestaetigung - DR-Workstation-Kit-Tabelle: Quartals-Smoke-Befehl mit konkretem GIT_SSH_COMMAND-Aufruf dokumentiert - Review-Zeile 2026-06-03 erweitert AUDIT_2026-05-25_TODO.md: - P1-Read-PAT-Eintrag aus offenen Punkten entfernt - Eintrag unter "Zuletzt geschlossen" mit Wirkung Zwei P1-Operator-Aufgaben bleiben offen: DR-Workstation-Setup, Nextcloud-Restore-Test.	2026-06-03 16:13:29 +02:00
Micha	d947c7f066	docs(dr): KOMODO_-Notiz offline gesichert (Operator-Bestaetigung 2026-06-03) DR-Tabletop-Followup: erste der vier P1-Operator-Aufgaben erledigt. EXTERNAL_DEPENDENCIES.md: - KOMODO_-Notiz-Zeile von "noch nicht angelegt" auf "offline gesichert (Operator-Bestaetigung)" gezogen, mit Hinweis auf die Quelle der Werte (Self-Stack-.env unter /mnt/user/services/stacks/komodo bzw. die Drift-Recovery-Kopie vom 2026-05-04) - DR-Workstation-Kit-Tabelle: Offline-Kopie-Status entsprechend aktualisiert - Review-Zeile 2026-06-03 mit Bestaetigung ergaenzt AUDIT_2026-05-25_TODO.md: - P1-KOMODO_*-Notiz aus den offenen Punkten entfernt - Eintrag unter "Zuletzt geschlossen" mit Quellenpfad und Wirkung Drei P1-Operator-Aufgaben bleiben offen: GitHub-Read-PAT, DR-Workstation-Setup, Nextcloud-Restore-Test.	2026-06-03 16:05:27 +02:00
Micha	9edd6c24e6	docs(dr): tabletop-folge - DR.md + EXTERNAL_DEPENDENCIES haerten Reine Doku-Fixes nach DR-Tabletop 2026-06-03 und Operator-Antworten auf vier offene Fragen. DISASTER_RECOVERY.md: - Abschnitt 3 Voraussetzungen: Operator-DR-Workstation als Pflichtposten - Phase 0: privater GitHub-Mirror, Read-PAT/Deploy-Key, expliziter Repo- Bootstrap-Pfad Workstation -> Unraid - Abschnitt 6.1: homelab_smtp_password.txt, n8n_encryption_key.txt, monitoring/influxdb/filebrowser Secrets nachgezogen - Neuer Abschnitt 7.3: Borg-Extract ohne borg-ui (DR-Workstation oder docker run borgbackup/borg), Passphrase-Eingabe interaktiv - Phase 4 neue Stufe 0 "Docker-Grundlage": docker network create frontend_net/backend_net/monitoring_net + dynamic/ Pre-Check - Phase 4 Stufe 1: LE-Staging-Hinweis bei verlorenem acme.json - Phase 4 Stufe 3 "Wichtige Stolperfallen": KOMODO_-Quelle, Mongo- Datadir/Secret-Mismatch, extra_hosts-IP, Stack-ENV-Wiederherstellung - Phase 5.3: App-DB-Verifikation per docker logs EXTERNAL_DEPENDENCIES.md: - GitHub-Mirror als privat klargestellt + Read-PAT/Deploy-Key Pflicht - Operator-DR-Workstation als kritische Abhaengigkeit - KOMODO_-Notiz und GitHub-Read-PAT als noch nicht angelegt erfasst - Hetzner-Maintenance-Key offline bestaetigt (Operator-Antwort 2026-06-03) - Neuer Abschnitt "DR-Workstation Bare-Metal-Kit" mit konkretem Inhalt AUDIT_2026-05-25_TODO.md: - Vier neue P1-Operator-Aufgaben: KOMODO_*-Notiz, Read-PAT, DR-Workstation- Setup, Nextcloud-Restore-Test scharf laufen lassen DR_DRILL_2026-06-03.md: - Folge-Iteration-Tabelle: welcher Finding wo adressiert wurde Operator-Aufgaben (nicht delegierbar) sind als P1 markiert. Nichts in Runtime/Compose beruehrt, kein Container gestartet.	2026-06-03 16:00:00 +02:00
Micha	7a513e9fc8	docs(dr): tabletop drill 2026-06-03 - findings against DISASTER_RECOVERY Kalter Lesetest gegen das Bare-Metal-Szenario aus DR.md Phase 0 bis 5, mit referenzierten Runbooks (SERVICES_RECOVERY, RESTORE_MATRIX, SECRETS_MAP, RESTORE_HANDBOOK, EXTERNAL_DEPENDENCIES) und Compose-Ankern (ops/komodo, traefik). 23 Findings mit Severity, Repo-Datei + Zeile, Fix-Vorschlag pro Punkt. 1x CRITICAL (Unraid-Flash-Restore ohne laufenden Host), 11x HIGH, 8x MED, 3x LOW. Schwerpunkte: - Bare-Metal-Operator-Workstation als DR-Voraussetzung nicht dokumentiert - Henne-Ei: KOMODO_* externe Notiz vs. Vaultwarden-Reihenfolge - Externe Docker-Netze fehlen in DR.md Phase 4 Stufe 1 - borg-ui-Container als impliziter Borg-Client im Bare-Metal-Bootstrap - Nextcloud-Restore-Skript ist da, ist aber noch nie real gelaufen (X-1) Keine produktiven Pfade beruehrt, kein Container gestartet, keine Skripte ausgefuehrt - reiner Doku-Drill.	2026-06-03 15:48:44 +02:00
Micha	4b96d13510	security(authelia): borg-ui und code-server auf two_factor heben Beide UIs haben effektiv Host-/Backup-Zugriff (Borg-Restore-Scope inkl. /local/secrets, code-server mit Workspace-Mounts). Bisher liefen sie ueber die catch-all-Regel mit nur one_factor. Files und Scrutiny waren bereits two_factor; die Liste wird konsistent gezogen. Wirkung erst nach manuellem Host-Merge (Ausnahme laut docs/WORKFLOW.md): 1. /mnt/user/appdata/authelia/config/configuration.yml mergen 2. docker restart authelia 3. Smoke-Test auf einer der vier 2FA-Domains 4. services/authelia-diff.sh muss exit 0 liefern Audit-Restliste nachgezogen: Tier-1-Operator-2FA geschlossen, restliche geparkte Auth-Themen (OIDC, CrowdSec, Nextcloud-2FA) bewusst weiter offen mit aktualisierter Begruendung.	2026-06-03 15:03:15 +02:00
Micha	642eb88b40	docs(restore): traefik restore successful - 11 of 12 tests green Traefik-Restore am 2026-06-03 erfolgreich: dynamic/ (2 Files) + letsencrypt/acme.json (426K) aus Borg, File-Provider-Boot, /ping 200. Erster Versuch, kein shfs-Problem. 11 von 12 Restore-Tests sind jetzt gruen. Einzig Nextcloud bleibt blockiert durch Unraids shfs-chmod-Inkompatibilitaet. Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>	2026-06-03 14:45:27 +02:00
Micha	dd494046ce	feat(restore): traefik restore smoke test Borg-Extract von dynamic/ und letsencrypt/, Traefik startet mit File-Provider gegen restaurierte Config, /ping Health antwortet. Bewusst kein docker.sock (wuerde produktive Container discovern), kein CF-Token (keine DNS-Challenge), keine produktiven Ports. acme.json-Existenz und -Groesse wird geprueft, TLS-Validitaet nicht. Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>	2026-06-03 14:42:56 +02:00
Micha	16d3b8f2fa	docs(restore): mailarchiver restore successful, update matrix and backlog Mail-Archiver-Restore am 2026-06-03 erfolgreich: Data-Protection-Keys aus Borg + 645M pg_restore + HTTP 200. Erster Versuch, kein shfs-Problem. 10 von 12 Restore-Tests sind jetzt gruen. Verbleibend: Nextcloud (blockiert/shfs-chmod) und Traefik (komplex, niedrigere Prio). Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>	2026-06-03 14:08:28 +02:00
Micha	a9b232195d	feat(restore): mail-archiver restore smoke test Borg-Extract der Data-Protection-Keys + pg_restore des 645M mailarchiver-Dumps in isoliertes Test-Postgres + Container-Boot + HTTP-Smoke. Wegwerf-DB-Connection und Auth-Password, kein produktiver Stack-ENV, kein Authelia-ForwardAuth im Smoke. Machbarkeit vorab verifiziert: Dump vorhanden, App-Image gepinnt, Data-Protection-Keys im Borg, .NET-App hat kein shfs-chmod-Problem. Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>	2026-06-03 14:01:47 +02:00
Micha	5ee4a158d6	docs(restore): mealie restore successful, update matrix and backlog Mealie-Restore-Test am 2026-06-03 erfolgreich: Borg-Data + pg_restore + HTTP 200, 3 Rezepte im Test-DB-Check. Erster Versuch, kein shfs-Problem (Mealie startet als root, kein chmod auf User Shares). Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>	2026-06-03 13:54:05 +02:00
Micha	86435d4091	feat(restore): mealie restore test + freshness check negativ-test fix Mealie-Restore-Test: Borg-Extract der App-Daten + pg_restore in isoliertes Test-Postgres + Mealie-Boot + HTTP /api/app/about Smoke. Machbarkeit vorab verifiziert (kein shfs-chmod-Problem, Mealie laeuft als root und switcht intern auf PUID 99). Freshness-Check: pg_header_ok() Docker-Fallback lieferte bei korruptem Dump return 2 (unchecked) statt return 1 (invalid). Negativ-Test am 2026-06-03 bewiesen: korrupter mealie.dump wird jetzt als DUMP_HEADER_INVALID erkannt (Critical, Exit 1). Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>	2026-06-03 13:49:51 +02:00
Micha	5e52316fab	fix(restore): freshness check pg_header_ok returns 1 on corrupt dump Negativ-Test 2026-06-03: korrupter mealie.dump wurde nicht erkannt, weil der Docker-Fallback-Pfad nach gescheitertem pg_restore --list zu return 2 (unchecked) durchfiel statt return 1 (invalid). Fix: explizites if/else statt &&-Kette, damit fehlgeschlagene Header-Validierung return 1 liefert und als DUMP_HEADER_INVALID in den Critical-Zaehler geht. Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>	2026-06-03 13:47:08 +02:00
Micha	8a4df239fa	fix(restore): pin komodo test mongo to 8.0.23 matching production Produktive Mongo ist 8.0.23, Test-Composes pinnten noch 7.0.32. Eliminiert die Cross-Version-Warnung beim mongorestore. Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>	2026-06-03 13:44:58 +02:00
Micha	893b34a585	docs(restore): shared pg cluster drill successful, all 5 DBs restored Shared PostgreSQL 18 Cluster Restore Drill am 2026-06-03 erfolgreich: Globals + 5 per-DB Custom-Format-Dumps, 290 Tabellen gesamt, data_checksums=on. Alle P1-Backlog-Punkte sind damit erledigt. Ergebnis pro DB: - paperless: 72 Tabellen - mailarchiver: 1 Tabelle - authelia: 25 Tabellen - nextcloud: 126 Tabellen - mealie: 66 Tabellen Mailarchiver-Bootstrap-Rollenkonflikt wurde wie dokumentiert toleriert. Lauf dauerte ~14 Minuten (mailarchiver.dump = 645M). Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>	2026-06-03 13:17:35 +02:00
Micha	d1f9491b24	feat(restore): shared postgresql 18 cluster restore drill Kompletter Restore-Drill fuer den Shared-PostgreSQL-18-Cluster: globals (Rollen) + 5 per-DB Custom-Format-Dumps (paperless, mailarchiver, authelia, nextcloud, mealie). Bekannter mailarchiver-Bootstrap-Rollenkonflikt wird toleriert. Authelia/Nextcloud/Mealie-Dumps als optional markiert. Tabellen-Count pro DB als fachlicher Sanity-Check. Machbarkeit vorab verifiziert: alle Dumps auf Host vorhanden, pg_restore im postgres:18.4-Image verfuegbar, Postgres auf shfs bewiesen durch bestehende Tests. Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>	2026-06-03 13:02:16 +02:00
Micha	14de2f4801	docs(restore): komodo mongo restore successful, update matrix and backlog Komodo-Mongo-Daten-Restore am 2026-06-03 erfolgreich: mongorestore von komodo-mongo.archive.gz in Wegwerf-Mongo, 86904 Dokumente (inkl. 32 Stack-Definitionen). Damit ist die kanonische Quelle fuer KOMODO_*-Stack-ENV-Werte im DR-Fall als wiederherstellbar belegt. Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>	2026-06-03 11:25:32 +02:00
Micha	90d1595285	fix(restore): komodo mongo restore own compose to avoid container name collision Zweiter Lauf scheiterte mit Auth-Failure weil der Container-Name restoretest-komodo-mongo mit dem alten Bootstrap-Test kollidierte (stale Datadir auf shfs mit anderen Credentials). Fix: eigenes Compose mit eigenem Container-Namen (restoretest-komodo-mongorestore) und eigenem Project-Name, damit keine Namenskollision mit dem bestehenden Bootstrap-Test entsteht. Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>	2026-06-03 11:23:17 +02:00
Micha	c1985e177b	fix(restore): komodo mongorestore --noIndexRestore for auth compat Erstlauf 2026-06-03: 86904 Dokumente (inkl. 32 Stack-Dokumente) erfolgreich restored, aber Exit 1 weil der Index-Rebuild mit "Command createIndexes requires authentication" scheitert (Test-User hat keine dbAdmin-Rolle). Fix: --noIndexRestore. Fuer den Smoke-Zweck (Stack-Definitionen lesbar, KOMODO_*-ENV-Werte rekonstruierbar) reicht das. Indexe werden bei einem echten Komodo-Restart ohnehin neu aufgebaut. Nebenbefund: produktive Mongo ist 8.0.23, Test-Compose pinnt 7.0.32. Cross-Version-Warning ist fuer den Lesetest harmlos, aber der Bootstrap-Compose-Pin sollte separat auf 8.0 nachgezogen werden. Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>	2026-06-03 11:20:53 +02:00
Micha	a244f2d677	feat(restore): komodo mongo data restore test Neuer Test: mongorestore von komodo-mongo.archive.gz in eine frische Wegwerf-Mongo. Beweist, dass die Stack-Definitionen und damit die KOMODO_*-Stack-ENV-Werte aus dem Dump rekonstruiert werden koennen (kanonische Quelle laut docs/DISASTER_RECOVERY.md 6.2.1). Machbarkeit vorab verifiziert: Dump 6.0M auf Host vorhanden, mongorestore im mongo:7.0.32-Image verfuegbar, shfs-Write funktioniert. Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>	2026-06-03 11:18:39 +02:00
Micha	ef032f2dde	docs(restore): document nextcloud shfs-chmod blocker Nextcloud-Restore-Test Erstlauf 2026-06-03 nach 5 Iterationen als strukturell blockiert durch Unraid shfs/FUSE eingestuft. Ursache: Nextcloud 33 fuehrt zur Laufzeit chmod() auf Dateien unter /var/www/html aus (OC_Util.php#486). Auf Unraids FUSE/shfs User Shares ist chmod nicht moeglich - weder vom Host (chown ignoriert) noch aus dem Container (Operation not permitted), auch nicht ohne no-new-privileges. In Produktion funktioniert Nextcloud, weil die Daten dort auf einem Cache-Drive (XFS/BTRFS direkt) statt ueber shfs liegen. Scaffold (Skript + Compose) bleibt im Repo als Ausgangspunkt fuer die Loesung. Drei Optionen dokumentiert: a) Restore-Lab auf Cache-Drive b) Docker-Volumes statt Bind-Mounts c) tmpfs + rsync Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>	2026-06-03 11:14:39 +02:00
Micha	6fec64d0a1	fix(restore): nextcloud dump from host path instead of borg extract Erstlauf 2026-06-03: borg_extract fuer den Nextcloud-Dump scheiterte still (Pfad local/borg-dumps/latest/nextcloud.dump existiert im Archiv moeglicherweise unter einem anderen Prefix). Der Dump liegt taeglich frisch auf dem Host unter /mnt/user/backups/borg/dumps/latest/ und wird von dort in Borg gesichert - der Smoke-Wert ist identisch. HTML (App-Code + config) kommt weiterhin aus dem Borg-Archiv. Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>	2026-06-03 11:03:45 +02:00
Micha	5d1ae68705	fix(restore): nextcloud permissions on unraid shfs (no-new-privileges removal) Zweiter Erstlauf 2026-06-03 scheiterte weiterhin mit 503, obwohl config.php korrekt gepatcht war. Ursache: Unraid's FUSE/shfs-Dateisystem auf User-Shares ignoriert chown -R 33:33 still — Dateien bleiben bei sshd:sshd. Der Nextcloud-Entrypoint versucht intern chmod/chown auf /var/www/html und /var/www/html/data, was mit no-new-privileges:true blockiert wird. Fix: - no-new-privileges vom restoretest-nextcloud Container entfernt, damit der Entrypoint Rechte im Container selbst setzen kann (Test-Postgres und Test-Redis behalten no-new-privileges) - Host-seitiger chown durch chmod a+rwX ersetzt (funktioniert auf shfs) - Vertretbar im isolierten Smoke-Kontext (127.0.0.1, Wegwerf-Daten, kein Traefik) Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>	2026-06-03 10:55:56 +02:00
Micha	2913e1005f	fix(restore): nextcloud chown 33:33 for www-data after borg extract Erstlauf 2026-06-03 scheiterte mit dauerhaft 503. config.php-Patching (Redis-Host + trusted_domains) war korrekt, aber Nextcloud konnte die restaurierten Dateien nicht lesen/schreiben: "chmod(): Operation not permitted at OC_Util.php#486". Ursache: Borg-Extract ueber den borg-ui Container legt Dateien mit dem borg-ui-User (sshd o.ae.) an. Nextcloud im Container laeuft als www-data (UID 33). Mit no-new-privileges:true scheitert jeder chmod/ chown-Versuch im Container. Fix: chown -R 33:33 auf html/ und data/ nach dem Extract, bevor der Nextcloud-Container startet. Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>	2026-06-03 10:44:12 +02:00
Micha	6f0e6f0d5a	fix(restore): nextcloud config.php patching for redis host and trusted_domains Erstlauf 2026-06-03 scheiterte mit 503: Redis-Host war noch auf dem produktiven 'nextcloud-redis' statt 'restoretest-nextcloud-redis', und trusted_domains enthielt kein 127.0.0.1 (Nextcloud blockt mit "Access through untrusted domain"). Ursache: das sed-Pattern fuer Redis versuchte den ganzen Array-Block einzeilig zu ersetzen, traf aber das PHP-Mehrzeilenformat nicht. Und das trusted_domains-sed fand das Schliessmuster nicht zuverlaessig. Fix: - Redis-Host separat per sed patchen (nur den 'host'-Wert im Block) - trusted_domains per PHP-CLI rewrite (robuster als sed auf PHP-Arrays) - Fallback auf sed fuer Hosts ohne php Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>	2026-06-03 10:34:30 +02:00
Micha	f473fbaa8b	feat(restore): nextcloud restore smoke test scaffold Nextcloud-Restore-Test nach dem Muster der anderen Restore-Smokes: - Borg-Extract von html (App-Code + config.php) und nextcloud.dump - pg_restore in isoliertes Test-Postgres (mit Retry-Schleife) - config.php wird im Restore-Lab auf Test-DB-Credentials gepatcht (produktive Secrets werden nicht gemountet) - Nextcloud startet gegen restaurierte Daten + Test-Redis - Smoke prueft HTTP /status.php und occ status (maintenance mode) - Produktive Nutzdaten unter /mnt/user/documents/nextcloud-data werden bewusst NICHT gemountet (zu gross fuer regelmaessigen Smoke) Erster Lauf steht aus und braucht Operator-Freigabe auf dem Host. Dispatcher und ntfy-Wrapper um Nextcloud erweitert. Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>	2026-06-03 10:05:10 +02:00
Micha	c922d1f241	docs(restore): finalize audit - handbook update, reifegrad matrix, backlog Schliesst das Restore-Skills-Audit 2026-06-02/03 ab: - RESTORE_HANDBOOK.md auf Stand 2026-06-03: alle 6 verifizierten Tests (Vaultwarden, Gitea, Paperless, Immich, Authelia, Komodo-Bootstrap) dokumentiert, Frequenz-Tabelle aktualisiert, Betriebsmodus auf V1+ (mit ntfy), Schnellstart um Immich/Authelia/Komodo ergaenzt, Report-Aufbewahrungsregel dokumentiert, Ausbaustufen priorisiert. - RESTORE_MATRIX.md: neue Sektion "Restore-Test-Reifegrad" mit Uebersichtstabelle (pro Dienst: Tier, letzter Test, Typ, naechster Lauf) und priorisierter Kandidatenliste fuer fehlende Tests. - Gitea-Restore: SSH-Check im Report korrekt als "TCP connect only" benannt statt "SSH port open" (war Audit-Finding M3). - AUDIT_2026-05-25_TODO.md: Restore-Audit-Backlog ergaenzt mit den verbleibenden 8 offenen Punkten (Nextcloud, Shared PG18, Komodo-Mongo, Mailarchiver, Mealie, Traefik, Negativ-Test, E2E-DR-Drill). Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>	2026-06-03 09:31:19 +02:00
Micha	ba3ef8fcfc	docs(restore): mark authelia smoke successful and schedule	2026-06-03 08:55:04 +02:00

1 2 3 4 5 ...

665 Commits