cd650b19ac
Operational hardening across several services after live incident analysis between 2026-05-18 and 2026-05-20: - Gitea: disable public registration and OpenID signup/signin to stop the external POST / 5xx bursts that triggered availability alerts. New repo-wide policy requires every productive Micha/homelab-infra Komodo stack to ship with an active Gitea->Komodo webhook on the current stack ID (documented in CLAUDE.md, AI_CONTEXT.md, WORKFLOW.md). - posture-check: extract the Disk1 fstype check into its own function so the documented Disk1 NTFS exception no longer raises ntfy warnings, skip POSIX inode checks on NTFS, and dedup ntfy alerts via a fingerprint state file with ALERT_REPEAT_SECONDS (default 24h). Repeat-spam on the same cause now suppressed. - docker-critical-events: parse the event JSON for container name, action, exit code and signal; drop `die exit=0` events (clean stops); ship a structured ntfy message instead of the raw event line. - Borg UI: mount /mnt/user/services into the backup container as /local/services:ro and include homelab-infra, stacks and posture-check in all-important-sources.txt. RESTORE_MATRIX and DISASTER_RECOVERY updated accordingly. - Unraid user scripts: document the new homelab-operations-report-daily cron job and the SMTP password file it expects on the host. - MIGRATION_LOG: capture the four live events from this window - Gitea 5xx burst + signup closure, Komodo webhook reconciliation, posture-check host-version verification, Borg scope extension, and Traefik 5xx alert detuning. Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>
2.7 KiB
2.7 KiB
Aktuelle Restliste - KalliLab CORE
Stand: 2026-05-17
Diese Datei ersetzt die alte Sprint-Liste vom 2026-05-16. Die damaligen Backup-, Posture-, Logging- und Hardening-Bloecke sind weitgehend erledigt oder dokumentiert. Sie bleibt nur als kurze Restliste fuer die naechsten bewussten Arbeitspakete bestehen.
Erledigt / nicht mehr offen
- Filebrowser-Hardening: breiter Appdata-Mount ist entfernt; Filebrowser mountet nur noch Documents, Photos, Projekte und eigenen App-State.
- Authelia Argon2id-Haertung:
iterations: 3,memory: 65536,parallelism: 4,key_length: 32,salt_length: 16sind gesetzt. - Gitea Webhook-Allowlist:
GITEA__webhook__ALLOWED_HOST_LISTist aufkomodo-core,localhost,127.0.0.1,192.168.178.0/24eingeschraenkt. - Backup-Konsistenz: SQLite-/Nextcloud-Dumps, Borg-Scope fuer Nextcloud-Daten, Restore-Matrix und Freshness-Checks sind umgesetzt.
- Posture-/Cert-/Drift-Checks: Skripte und Unraid User Scripts sind vorhanden und geplant.
- Monitoring-Zielstack:
monitoring/buendelt Prometheus, Loki, Promtail, Grafana, node-exporter, cAdvisor und InfluxDB 3 Core im Repo-Zielzustand. - Docker-Log-Rotation: Unraid-native Rotation ist dokumentiert; keine separate
/etc/docker/daemon.jsonsetzen.
Morgen / bewusst spaeter
- Monitoring live finalisieren:
- Secrets
monitoring_grafana_admin_password.txt,monitoring_grafana_influxdb_token.txt,influxdb3_admin_token.jsonauf dem Host pruefen/anlegen monitoringin Komodo deployen- alte Stacks
ops/lokiundops/grafana-influxdbnach erfolgreichem Smoke-Test stoppen https://monitoring.kaleschke.info, Prometheus Targets, Loki-Logs und InfluxDB-Datasource pruefen
- Secrets
- Home Assistant -> InfluxDB finalisieren:
- HA-Token/Writer final pruefen
- erste Messwerte in InfluxDB verifizieren
- Grafana-HA-/Wetter-Dashboard in
monitoring-grafanaaufbauen
- Disk1-NTFS-Migration Phase 2:
- bleibt bewusst separates Migrationsfenster
posture-checkakzeptiert die dokumentierte NTFS-Ausnahme bis dahin ohne ntfy-Warnspam
- Hermes VM-Seite:
- Runner-VM, echte
.env, SSH-Key und Dashboard/Gateway final zusammenfuehren - NAS-Stack erst starten, wenn VM-Seite bereit ist
- Runner-VM, echte
Verbleibende bekannte Warnings
ddns-updater,glances,scrutiny: nutzen nochlatest...@sha256; spaeter durch konkrete Versionstags ersetzen, sofern upstream sinnvoll versioniert.ops/grafana-influxdbundops/loki: bleiben nur noch als Rollback-/Migrationsreferenz im Repo, nach Live-Migration nicht parallel betreiben.scrutiny: bleibtprivileged: true; dokumentierte SMART-Ausnahme, spaeter erneut pruefen.
Regel
Neue Arbeit erst starten, wenn klar ist, ob sie eines der drei Morgen-Themen betrifft oder eine der bekannten Warnings bewusst abbaut.