3.1 KiB
Monitoring Stack
Zielzustand: ein zentraler Observability-Stack fuer KalliLab CORE.
Enthaltene Dienste
monitoring-grafana: zentrale UI unterhttps://monitoring.kaleschke.infomonitoring-prometheus: Metriken mit 30 Tagen Retentionmonitoring-loki: Container-Logs mit 30 Tagen Retentionmonitoring-promtail: Docker-Log-Discovery ueber read-only Docker-Socketmonitoring-node-exporter: Host-Metrikenmonitoring-cadvisor: Container-Metrikenmonitoring-blackbox-exporter: externe HTTP-Erreichbarkeit als Uptime-Kuma-Ablösepfadmonitoring-influxdb3-core: InfluxDB 3 Core fuer Home-Assistant-/Ecowitt-Langzeitdaten
Die alten Pfade ops/loki und ops/grafana-influxdb sind damit abgeloeste Altstaende. Sie bleiben vorerst im Repo als Rollback- und Migrationsreferenz, sollen aber nach erfolgreichem Live-Deploy nicht parallel betrieben werden.
Secrets
Vor dem Deploy muessen diese Host-Dateien existieren:
/mnt/user/appdata/secrets/monitoring_grafana_admin_password.txt
/mnt/user/appdata/secrets/monitoring_grafana_influxdb_token.txt
/mnt/user/appdata/secrets/influxdb3_admin_token.json
Alle Dateien mit Rechten 600 anlegen. Werte niemals ins Git schreiben.
monitoring-influxdb3-core uebernimmt bewusst /mnt/user/appdata/influxdb3/data und /mnt/user/appdata/influxdb3/plugins vom bisherigen Grafana/Influx-Stack, damit Home-Assistant-/Ecowitt-Historie und Token-Katalog erhalten bleiben.
Stack Environment
Default ist sicher lokal:
INFLUXDB_BIND_IP=127.0.0.1
Wenn Home Assistant aus der VM schreiben soll, in Komodo fuer den monitoring-Stack setzen:
INFLUXDB_BIND_IP=192.168.178.58
Migration
- Secrets anlegen.
- Alten
ops/loki-Stack stoppen, wennmonitoring-lokiundmonitoring-promtaillive gehen. - Alten
ops/grafana-influxdb-Stack stoppen, bevormonitoring-influxdb3-coreden LAN-Port192.168.178.58:8181uebernimmt. monitoringvia Komodo deployen undINFLUXDB_BIND_IP=192.168.178.58erst setzen, wenn der Altcontainer den Port freigegeben hat.- Optionales Dashboard-Bootstrap-Profil einmalig ausfuehren.
- Home Assistant Writer gegen
http://192.168.178.58:8181/pruefen;401 Unauthorizedohne Token ist erwartbar.
Smoke-Tests
https://monitoring.kaleschke.infoleitet zu Authelia.- Grafana-Datasources
Prometheus,LokiundInfluxDB 3 Coretesten erfolgreich. - Prometheus Targets:
prometheus,node-exporter,cadvisor,traefik,blackbox-http. - Loki zeigt Container-Logs mit Labels
container,compose_project,compose_service. - InfluxDB 3 Core enthaelt die Datenbank
homelab.
Ablösepfad
- Dozzle bleibt abgeloest:
Homelab / Containers + Logsersetzt Live-Logs und Error-Rate. - Glances erst stoppen, wenn
Homelab / Host OverviewundHomelab / Containers + Logsfuer CPU, RAM, Disk, Network, Container-CPU und Container-RAM passen. - Uptime Kuma erst stoppen, wenn
Homelab / Availabilityund Grafana-Alerting mindestens sieben Tage parallel sauber laufen. - Dashboard-Zielbestand:
Homelab / Availability,Homelab / Containers + Logs,Homelab / Host Overview,Traefik Official Standalone Dashboard.