Micha c677ef0515 Add service removal checklist after stale Borg source finding
Befund vom 2026-05-29: HomelabBorgLastJobCompletedWithWarnings
zuendete vier Tage in Folge mit Borg-Exit-Code 107. Ursache im
Logfile: /local/appdata/homepage wurde am 25.05. entfernt, aber
in der Borg-UI-Source-Liste blieb der Eintrag drin und Borg
warnte taeglich BackupFileNotFoundError. Backups selbst waren
nicht gefaehrdet (alle 23 anderen Quellen sauber archiviert).

Operator hat den Eintrag in der Borg-UI manuell entfernt;
Source-Liste jetzt 23 statt 24, naechster Lauf 2026-05-30 sollte
wieder completed ohne Warning sein.

Erkenntnis: bei Stack-Removal wurde die Borg-Source-Liste nicht
mit-aufgeraeumt. WORKFLOW.md um neuen Abschnitt "Service-Removal-
Checkliste" erweitert mit 9 Pflichtschritten inklusive
Borg-UI-Source-Bereinigung als Schritt 8.

Positiv: die am 2026-05-27 scharfgeschaltete Alert-Pipeline
(Cron Textfile -> node-exporter -> Prometheus -> Alertmanager
-> ntfy-Bridge) hat den Drift binnen 24 h sichtbar gemacht.

Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>
2026-05-29 15:01:45 +02:00
2026-05-25 14:44:46 +02:00
2026-05-25 14:44:46 +02:00
2026-05-16 13:04:22 +02:00
2026-05-27 06:38:57 +02:00
2026-05-23 11:29:08 +02:00
2026-05-06 19:13:52 +02:00
2026-05-26 15:27:37 +02:00

Homelab Infrastructure (KalliLab CORE)

Dieses Repository ist die zentrale Quelle ("Single Source of Truth") fuer die komplette Infrastruktur meines Homelabs.

WICHTIG - Einstieg

Vor jeder Aenderung lesen:

  1. HOMELAB_ARCHITECTURE_MASTER_V2.md
  2. docs/WORKFLOW.md

Bei Restore-, Host-Ausfall- oder Wiederanlauf-Fragen zusaetzlich:

  1. docs/DISASTER_RECOVERY.md
  2. docs/RESTORE_MATRIX.md
  3. docs/SERVICES_RECOVERY.md

Bei Hardware-, Netzwerk-, Provider- oder Kapazitaetsfragen zusaetzlich:

  1. docs/HARDWARE_INVENTORY.md
  2. docs/NETWORK_INVENTORY.md
  3. docs/EXTERNAL_DEPENDENCIES.md
  4. docs/CAPACITY_AND_LIFECYCLE.md

Architektur

  • Host: Unraid
  • Container: Docker Compose
  • Reverse Proxy: Traefik v3 (Service-Routing via Docker-Labels, File-Provider nur fuer zentrale Dynamic-Config)
  • Zugriff: Tailscale (VPN)
  • DNS: AdGuard Home + Unbound
  • GitOps: Gitea + Komodo

Grundprinzipien

  • Gitea Online ist der operative Sollzustand.
  • Der lokale Clone ist die Arbeitskopie.
  • Komodo deployed automatisch aus Gitea und ist kein Bearbeitungsort.
  • Keine produktiven Container ausserhalb von Compose.
  • Traefik ist der einzige oeffentliche Einstiegspunkt.
  • Secrets werden niemals im Repository gespeichert.

Repository-Struktur

  • core/ -> Basisdienste (Gitea)
  • security/ -> sicherheitskritische Dienste
  • infra/ -> Datenbanken und technische Services
  • apps/ -> Anwendungen
  • ops/ -> operative Tools
  • monitoring/ -> zentraler Observability-Stack
  • host-services/ -> Dienste mit Host-Netz
  • traefik/ -> Reverse Proxy Konfiguration
  • docs/ -> Dokumentation und Prozesse
  • env/ -> Beispiel-Umgebungsvariablen

Kurz-Workflow

  1. In GitHub Desktop Fetch origin.
  2. Wenn noetig Pull origin.
  3. Lokal aendern.
  4. Commit erstellen.
  5. Push origin.
  6. Komodo-Webhook und Ergebnis pruefen.
  7. Doku bei Bedarf aktualisieren.

Status

  • Komodo ist der primaere und einzige produktive Stack-Manager.
  • Komodo bleibt bewusst bei nativer Authentifizierung; zentrale Traefik-Auth wird dort nicht pauschal vorgeschaltet.
  • Portainer CE ist abgeschaltet und kein Teil des aktiven Betriebs mehr.
  • Glance ist das aktive produktive Homelab-Dashboard.
  • Traefik dynamic/ bleibt eine dokumentierte manuelle Host-Sync-Ausnahme ausserhalb des normalen Komodo-Deployments.
  • Mutable Image-Tags sind auf die aktuell laufenden Digests eingefroren; echte Versions-Upgrades erfolgen bewusst separat.
  • Disaster-Recovery und dienstspezifische Restore-Quellen sind in docs/DISASTER_RECOVERY.md und docs/RESTORE_MATRIX.md beschrieben.
  • Recovery-kritische Services-Pfade wie Gitea-Repositories, Komodo-Workspaces und Host-Automation sind in docs/SERVICES_RECOVERY.md beschrieben.
  • Hardware-, Netzwerk-, Provider- und Capacity-Inventare sind als operative Audit-Dokumente unter docs/HARDWARE_INVENTORY.md, docs/NETWORK_INVENTORY.md, docs/EXTERNAL_DEPENDENCIES.md und docs/CAPACITY_AND_LIFECYCLE.md vorbereitet.
  • Der verbindliche Detailablauf steht in docs/WORKFLOW.md.
  • nextcloud, bentopdf und monitoring folgen dem dokumentierten Netz-/Secret-/Traefik-Modell; der zentrale Monitoring-Stack buendelt Prometheus, Loki, Promtail, Grafana und InfluxDB 3 Core.
S
Description
Meine NAS-Architektur
Readme 6.1 MiB
Languages
Shell 68%
PowerShell 25.7%
Python 5.6%
JavaScript 0.4%
Dockerfile 0.3%