Grafana Dashboards - Detailbeschreibung

Dashboard-Übersicht (Stand 25.02.2026)

Ordner	Dashboard	UID
KLV	CK Netze KLV	`ck-netze-klv-2026`
Netzwerk	Sophos XGS Firewall (inkl. Standortvergleich)	`3ecb07d2`
Netzwerk	Sophos WLAN Access Points	`c288445e`
Netzwerk	Sophos XGS Syslog	`sophos-syslog-2026`
Netzwerk	Fritz!Box 7590 - WAN Monitoring	`fritzbox-wan-monitoring`
Netzwerk	Netzwerk- und Cloud-Latenzmonitoring CK	`872ed3a0`
Standorte	Netz vroak	`netz-vroak-2026`
Standorte	Services vroak	`services-vroak-2026`
System	NVMe SMART — Samsung SSD 990 EVO Plus	`nvme-smart-2026`
System	Pi-hole	`Pi-hole-Exporter`
System	Internetgeschwindigkeit (Speedtest)	`speedtest-2026`
System	Photovoltaik - Sungrow SH10RT	`909b3358`
System	Salto ProAccess Space	`salto-proaccess-2026`

Inhaltsverzeichnis

Dashboard: Netzwerk- und Cloud-Latenzmonitoring CK
Dashboard: Sophos XGS Firewall
Dashboard: Sophos WLAN Access Points
Auswertungsleitfaden

1. Dashboard: Netzwerk- und Cloud-Latenzmonitoring CK

UID: 872ed3a0-c09a-4401-93fd-ae5c4f71fa0e Variablen: $standort - Filter auf "Hauptstandort", "Referenz" oder "All" Auto-Refresh: 15 Sekunden

Sektion 1: Standortvergleich (ICMP, Packet Loss, HTTP Response)

Panel 1.1: ICMP Latenz - Standortvergleich

Typ: Timeseries (Liniendiagramm)
Query: probe_duration_seconds{job=~"blackbox-icmp.*"} * 1000
Ziele: 8.8.8.8, 1.1.1.1, login.microsoftonline.com, dynamics.com
Legende: {{standort}} -> {{instance}}
Einheit: Millisekunden
Darstellung: Linien mit 8% Fill-Opacity, 2px Linienstärke
Auswertung:
Zeigt die Ping-Laufzeit zu Internet- und Microsoft-Zielen von beiden Standorten
Parallelverschiebung beider Standorte = globales Problem (Internet/Zielserver)
Nur ein Standort betroffen = lokales Netzwerkproblem
Typische Werte: 10-30ms (Google/CF), 20-50ms (Microsoft)
Spikes > 100ms oder dauerhafte Erhöhung sind untersuchungswürdig

Panel 1.2: Packet Loss - Standortvergleich

Typ: Timeseries
Query: (1 - avg_over_time(probe_success{job=~"blackbox-icmp.*"}[5m])) * 100
Einheit: Prozent
Schwellwert-Linie: 2% (rot)
Auswertung:
0% = optimal, alles über 0% zeigt Paketverluste
1-2% = vereinzelte Drops, meist unkritisch
2% über mehrere Minuten = Alert wird ausgelöst
5% = spürbare Beeinträchtigung für Benutzer
Korrelation mit Interface Errors/Discards der Firewall prüfen

Panel 1.3: HTTP Gesamtantwortzeit - Standortvergleich

Typ: Timeseries
Query: probe_duration_seconds{job=~"blackbox-http.*"} * 1000
Ziele: login.microsoftonline.com, businesscentral.dynamics.com
Schwellwert-Fläche: > 3000ms rot hinterlegt
Auswertung:
Zeigt die End-to-End HTTP-Antwortzeit inkl. aller Phasen
Werte < 500ms = sehr gut, 500-1500ms = akzeptabel, > 3000ms = problematisch
Vergleich der Standort-Linien zeigt, ob das Problem lokal oder global ist
Business Central hat typischerweise höhere Werte als Login (mehr serverseitige Verarbeitung)

Panel 1.4: Aktuelle HTTP Antwortzeiten (MS Cloud)

Typ: Stat (Einzelwert-Anzeige)
Query: Gleich wie 1.3
Farbcodierung: Grün < 500ms, Gelb < 1500ms, Orange < 3000ms, Rot > 3000ms
Auswertung:
Schneller Überblick über den aktuellen Zustand
Hintergrundfarbe signalisiert sofort, ob Handlungsbedarf besteht
Sparkline zeigt den Trend

Sektion 2: HTTP Detailanalyse (DNS, TCP, TLS, Processing)

Diese Sektion zerlegt die HTTP-Antwortzeit in ihre Bestandteile, um die Ursache von Latenzen zu identifizieren.

Panel 2.1: DNS Lookup Zeit

Typ: Timeseries
Query: probe_http_duration_seconds{phase="resolve"} * 1000
Schwellwert: 1000ms (rote Linie)
Auswertung:
Zeigt die DNS-Auflösungszeit als Teil der HTTP-Anfrage
Normal: < 50ms (gecachte Einträge), < 200ms (ungecacht)
1s = DNS-Problem (Resolver überlastet, falsche Konfiguration)
War vor dem DNS-Fix auf XGS-30: ~3000ms (Selbstverweis-Problem)

Panel 2.2: TCP Connect Zeit

Typ: Timeseries
Query: probe_http_duration_seconds{phase="connect"} * 1000
Auswertung:
Reine Netzwerklatenz zum Zielserver (TCP 3-Way-Handshake)
Typisch 15-40ms zu Microsoft-Servern
Hohe Werte = Netzwerk/Routing-Problem, nicht anwendungsseitig
Sollte zwischen beiden Standorten ähnlich sein (gleicher Provider)

Panel 2.3: TLS Handshake Zeit

Typ: Timeseries
Query: probe_http_duration_seconds{phase="tls"} * 1000
Auswertung:
TLS 1.2/1.3 Handshake-Dauer
Typisch 30-80ms für TLS 1.3, 50-150ms für TLS 1.2
Spikes können auf serverseitige Last hindeuten
Bei Firewall mit HTTPS-Interception (DecryptHTTPS) verdoppelt sich dieser Wert

Panel 2.4: Server Processing Zeit

Typ: Timeseries
Query: probe_http_duration_seconds{phase="processing"} * 1000
Auswertung:
Time to First Byte (TTFB) nach TLS - rein serverseitige Verarbeitungszeit
Wichtigster Indikator für Microsoft-seitige Probleme
Login: typisch 50-200ms
Business Central: typisch 100-500ms, Spikes bis 14.5s möglich (Microsoft-seitig)
Hohe Werte an BEIDEN Standorten = Microsoft-Problem
Hohe Werte nur an einem Standort = lokales Problem (Firewall-Inspection)

Panel 2.5: Content Transfer Zeit

Typ: Timeseries
Query: probe_http_duration_seconds{phase="transfer"} * 1000
Auswertung:
Dauer für den Download des HTTP-Body
Typisch < 10ms für kleine Antworten (Login-Seite)
Hohe Werte = Bandbreitenproblem oder große Antwort

Panel 2.6: HTTP Phasen Aufschlüsselung (Aktuell)

Typ: Stacked Bar Chart (horizontal)
Query: Alle Phasen, instant=true
Auswertung:
Momentaufnahme: zeigt die aktuelle Aufteilung der Antwortzeit
Auf einen Blick sichtbar, welche Phase dominiert
Ideal zum Vergleich zwischen Standorten (gleiche Antwort, verschiedene Phasen-Anteile)

Panel 2.7: DNS Probe - Lokale Resolver Latenz

Typ: Timeseries (volle Breite)
Queries: probe_duration_seconds und probe_dns_lookup_time_seconds für DNS-Jobs
Auswertung:
Dedizierte DNS-Probes (nicht als Teil von HTTP)
Vergleich aller DNS-Resolver: XGS-40, XGS-30, Google, FritzBox
Zeigt DNS-spezifische Probleme unabhängig von HTTP

Sektion 3: Firewall-Performance (CPU, RAM, Interface Errors)

Panel 3.1: Firewall CPU Auslastung

Typ: Timeseries
Query: sfosXGCPUPercentUsage{job="sophos-xgs-firewall"}
Schwellwerte: > 70% gelb, > 90% rot
Auswertung:
Hohe CPU-Last kann Latenz-Spikes verursachen (DPI-Engine, IPS, AV)
Korrelation mit HTTP-Latenz-Spikes prüfen
XGS-40 typischerweise höher belastet (mehr Benutzer)

Panel 3.2: Firewall RAM Auslastung

Typ: Timeseries
Query: sfosXGMemoryPercentUsage{job="sophos-xgs-firewall"}
Schwellwerte: > 70% gelb, > 90% rot
Auswertung:
RAM-Auslastung > 85% = Connection-Tables und Caches werden verkleinert
Stetig steigender RAM = mögliches Memory Leak (Neustart erforderlich)

Panel 3.3: Firewall Disk Auslastung

Typ: Timeseries
Query: sfosXGDiskPercentUsage{job="sophos-xgs-firewall"}
Schwellwerte: > 70% gelb, > 90% rot
Auswertung:
Log-Dateien, Quarantäne, Reports füllen die Disk
90% = Logging/Reporting kann beeinträchtigt werden

Panel 3.4: Interface Errors (In + Out)

Typ: Timeseries
Query: rate(ifInErrors{ifAlias=~".+"}[5m]) + Out
Einheit: Pakete pro Sekunde
Auswertung:
Errors = physikalische Layer-Probleme (defektes Kabel, Speed-Mismatch, Duplex-Fehler)
Jeder Wert > 0 ist untersuchungswürdig
Korrelation mit Paketverlust prüfen

Panel 3.5: Interface Discards (In + Out)

Typ: Timeseries
Query: rate(ifInDiscards{ifAlias=~".+"}[5m]) + Out
Einheit: Pakete pro Sekunde
Auswertung:
Discards = Queue-Überläufe wegen zu hoher Last
Korrelation mit CPU-Last und Traffic-Spikes prüfen

Panel 3.6: WAN Durchsatz (Port1)

Typ: Timeseries
Query: rate(ifHCInOctets{ifAlias="Port1"}[5m]) * 8 (In, positiv) + Out (negativ)
Einheit: Bits pro Sekunde
Auswertung:
Zeigt den WAN-Traffic beider Firewalls
Nähert sich der Traffic der Leitungskapazität, entstehen Engpässe
Out (Download zum LAN) typischerweise höher als In (Upload)

Panel 3.7: HTTP Hits / Connections (Sophos XGS)

Typ: Timeseries
Query: sfosXGHTTPHits + sfosXGLiveUsers
Auswertung:
HTTP Hits = Anzahl HTTP-Verbindungen durch die Firewall
Live Users = aktive authentifizierte Benutzer
Korrelation mit Tageszeit und Performance

Sektion 4: Jitter-Analyse

Panel 4.1: ICMP Jitter (Latenz-Schwankung)

Typ: Timeseries
Query: stddev_over_time(probe_duration_seconds{job=~"blackbox-icmp.*"}[5m]) * 1000
Schwellwerte: > 10ms gelb, > 50ms rot
Auswertung:
Niedrig und stabil = gute Verbindung
Spikes = temporäre Netzwerkprobleme
Dauerhaft hoch = generelle Netzwerkinstabilität (Switch-Probleme, Überlastung)

Panel 4.2: HTTP Jitter (Antwortzeit-Schwankung)

Typ: Timeseries
Query: stddev_over_time(probe_duration_seconds{job=~"blackbox-http.*"}[5m]) * 1000
Schwellwerte: > 100ms gelb, > 500ms rot
Auswertung:
HTTP-Jitter enthält sowohl Netzwerk- als auch Serverkomponenten
Hoher HTTP-Jitter bei niedrigem ICMP-Jitter = serverseitiges Problem
Korrelation mit Processing-Phase

Panel 4.3: ICMP Latenz Min / Max / Avg (5min)

Typ: Timeseries (drei Linien pro Ziel)
Queries: avg_over_time, max_over_time, min_over_time
Auswertung:
Min-Linie = bestmögliche Latenz (physikalisches Minimum)
Max-Linie = Worst-Case (Retransmissions, Queue-Delays)
Avg-Linie = typische Erfahrung
Große Spreizung Min↔Max = hohes Jitter

Panel 4.4: HTTP Phasen-Jitter (TLS + Processing)

Typ: Timeseries
Queries: stddev_over_time für TLS- und Processing-Phase
Auswertung:
Trennt Netzwerk-Jitter (TLS) von Server-Jitter (Processing)
Processing-Jitter dominant = serverseitiges Problem (typisch für Business Central)
TLS-Jitter dominant = Netzwerkproblem oder Firewall-Inspection

Sektion 5: DNS-Analyse (MS Cloud Resolver)

Panel 5.1: MS DNS Auflösungszeit pro Domain (Hauptstandort)

Typ: Timeseries
Queries: probe_duration_seconds für XGS-40 und XGS-30
Legende: Tabelle mit Mean, Max, Last
Schwellwerte: > 0.5s gelb, > 3s rot
Auswertung:
Vergleich der DNS-Performance beider XGS-Firewalls
Pro Domain: login.microsoftonline.com, businesscentral.dynamics.com, outlook.office365.com, graph.microsoft.com
Unterschiede zwischen den Firewalls zeigen konfigurationsspezifische Probleme
Vor dem DNS-Fix: XGS-30 zeigte ~5s (DNS-Timeout), XGS-40 normal

Panel 5.2: MS DNS Auflösungszeit pro Domain (Referenz)

Typ: Timeseries
Queries: FritzBox und Google DNS
Auswertung:
Baseline-Vergleich: Wie schnell ist DNS ohne XGS-Firewall?
Google DNS: typisch 10-30ms
FritzBox: typisch 1-10ms (lokaler Cache)
Wenn Referenz auch langsam = globales DNS-Problem

Panel 5.3: DNS Auflösungszeit - Resolver-Vergleich (Aktuell)

Typ: Stacked Bar Chart (horizontal)
Query: Alle Resolver, instant=true
Auswertung:
Momentaufnahme aller Resolver nebeneinander
Sofort sichtbar, welcher Resolver langsamer ist
Farbcodierung: grün < 0.1s, gelb < 1s, rot > 1s

Panel 5.4: DNS Erfolgsrate (letzte 15min)

Typ: Stat (Einzelwert)
Query: avg_over_time(probe_success{job=~"blackbox-dns-ms.*"}[15m])
Farbcodierung: Rot < 90%, Gelb < 99%, Grün >= 99%
Auswertung:
100% = perfekt, kein DNS-Ausfall
< 100% = es gab Auflösungsfehler im Zeitraum
Dauerhaft < 90% = DNS-Resolver defekt oder falsch konfiguriert

Panel 5.5: DNS Auflösungszeit-Jitter (Stddev 5min)

Typ: Timeseries
Query: stddev_over_time für Remote-DNS-Jobs
Legende: Tabelle mit Mean und Max
Auswertung:
Hoher Jitter = unregelmäßige DNS-Antwortzeiten
Kann auf Cache-Probleme oder wechselnde Upstream-Resolver hindeuten

Panel 5.6: DNS Spikes: Max vs Avg (5min, Hauptstandort)

Typ: Timeseries
Queries: avg_over_time und max_over_time für XGS-30
Darstellung: Max-Linien gestrichelt
Auswertung:
Max-Werte zeigen Worst-Case-Szenarien
Große Differenz Max↔Avg = sporadische Probleme
Dauerhaft hohe Max-Werte = systematisches Problem

Sektion 6: Alerts Status

Panel 6.1: Aktive Netzwerk-Alerts

Typ: Alert List
Darstellung: Aktuelle und ausstehende Alerts
Filter: Firing und Pending, sortiert nach Schwere
Auswertung:
Zeigt alle aktuell aktiven Warnungen und Alarme
Severity-Farbcodierung: Warning (orange), Critical (rot)
Klick auf Alert zeigt Details mit Labels und Annotations

2. Dashboard: Sophos XGS Firewall

UID: 3ecb07d2-1898-4206-bfed-e5ed187b3882

Dieses Dashboard enthält zwei Sektionen: die Detailansicht einer Firewall und den Standortvergleich beider XGS-Geräte.

Sektion: Firewall-Übersicht

Panel	Typ	Beschreibung	Auswertung
RAM Auslastung	Stat	Aktuelle RAM-Nutzung in %	Farbcodiert: grün/gelb/rot nach Schwelle
Disk Auslastung	Stat	Aktuelle Disk-Nutzung in %	Monitoring auf Disk-Full-Szenarien
Swap Auslastung	Stat	Swap-Nutzung in %	> 0% = RAM-Engpass
Live Users	Stat	Aktive authentifizierte Benutzer	Tagesverlauf zeigt Nutzungsmuster
Uptime	Stat	Laufzeit seit letztem Neustart	Nach Reboot = Reset auf 0
HA Status	Stat	High-Availability Status	0 = Standalone, andere = HA-Modus
RAM/Disk/Swap Verlauf	Timeseries	Historischer Verlauf der Auslastung	Trends und Anomalien erkennen
HTTP/FTP Hits	Timeseries	HTTP und FTP Verbindungszähler	Nutzungsmuster und Lastspitzen
Dienste Status	State-Timeline	On/Off Status der Firewall-Dienste	Ausfälle einzelner Dienste sichtbar
Interface Traffic	Timeseries	Datenraten Top-Ports	Bandbreitennutzung
Interface Errors/Discards	Timeseries	Fehler und Verwürfe pro Interface	Hardware-/Überlastprobleme
Lizenz Status	Table	Ablaufdaten der Lizenzen	Frühzeitige Lizenzerneuerung
Interface Status	Table	Operativer Status aller Interfaces	Ausgefallene Ports erkennen

Sektion: Standortvergleich (XGS-40 vs. XGS-30)

Panel	Beschreibung	Auswertung
RAM/Disk/Swap/Uptime (je XGS)	Stat-Panels pro Firewall	Direkter Vergleich der Auslastung
WAN Durchsatz (je XGS)	Timeseries pro Firewall	WAN-Bandbreitennutzung pro Standort
Gesamt WAN Durchsatz	Timeseries overlay	Beide WANs übereinander = Lastverteilung
LAN Traffic (Port7/Port2)	Timeseries pro Firewall	Interner LAN-Traffic
RAM/Disk Verlauf Vergleich	Timeseries overlay	Langzeittrend der Ressourcennutzung
VPN Tunnel Traffic	Timeseries pro Firewall	VPN-Auslastung zwischen Standorten
Dienste Status	State-Timeline pro Firewall	Service-Ausfälle im Vergleich

3. Dashboard: Sophos WLAN Access Points

UID: c288445e-776d-437e-93f6-51a8f840af1b

Sektion: Sophos Central - Wireless Alerts & Firewall Status

Panel	Typ	Beschreibung
Wireless Alerts	Stat	Anzahl Info/Warning/Error Alerts aus Sophos Central
Firewall Status	Stat	Firewall-Health aus Sophos Central API
Aktive Wireless Alerts	Table	Detailliste aktiver Wireless-Warnungen

Sektion: ICMP Ping Monitoring - AP Erreichbarkeit

Panel	Typ	Beschreibung
AP Erreichbarkeit 40er/30er Netz	Stat	Anzahl erreichbarer APs
Ping Latenz 40er/30er Netz	Stat	Aktuelle Ping-Zeiten zu APs

Sektion: Latenz & Verfügbarkeit Verlauf

Panel	Typ	Beschreibung	Auswertung
Ping Latenz Verlauf	Timeseries	Historische Ping-Latenz pro AP	Erkennung langsamer/instabiler APs
Verfügbarkeit Timeline	State-Timeline	Online/Offline-Status über Zeit	Ausfallmuster und -dauer sichtbar

Sektion: Gesamtvergleich & Statistiken

Panel	Typ	Beschreibung
Ping Latenz Vergleich	Timeseries	Alle APs übereinander
Durchschnittliche Latenz pro Standort	Gauge	Durchschnittslatenz je Netz
Verfügbarkeit pro Standort	Gauge	Prozentualer Uptime
APs Online / Gesamt	Stat	Aktuelle AP-Anzahl
Paketverlust	Timeseries	Paketverlust zu APs
Wireless Alerts Verlauf	Timeseries	Alert-Historie aus Central
AP Status Gesamtübersicht	Table	Zusammenfassung aller APs

4. Auswertungsleitfaden

Tägliche Prüfung (2 Minuten)

Alerts Status im CK-Dashboard checken — gibt es aktive Alarme?
Stat-Panels für HTTP Antwortzeiten — alles grün?
DNS Erfolgsrate — alles bei 100%?

Wöchentliche Analyse (10 Minuten)

Zeitraum auf 7 Tage setzen
ICMP Jitter und HTTP Jitter Trends prüfen — steigt der Jitter?
Firewall CPU/RAM — gibt es einen Aufwärtstrend?
WAN Durchsatz — nähert sich der Traffic der Kapazitätsgrenze?
AP Verfügbarkeit Timeline — gab es AP-Ausfälle?

Bei Performance-Beschwerden

CK-Dashboard öffnen, Standort auf "Hauptstandort" filtern
HTTP Gesamtantwortzeit prüfen — liegt sie über 3s?
Falls ja: HTTP Detailanalyse öffnen:
DNS hoch? → DNS-Resolver prüfen (Panel 5.x)
Processing hoch? → Referenz-Standort vergleichen
Processing an beiden Standorten hoch = Microsoft-Problem
Processing nur am Hauptstandort hoch = Firewall-Inspection-Problem
Firewall CPU prüfen — liegt sie über 70%?
Interface Errors prüfen — gibt es physikalische Fehler?

Bei DNS-Problemen

Sektion 5 (DNS-Analyse) im CK-Dashboard
Resolver-Vergleich — welcher Resolver ist langsam?
Erfolgsrate — gibt es komplette Ausfälle?
DNS Spikes — einzelne Ausreißer oder dauerhaft?
Bei XGS-Resolver-Problemen: DNS-Konfiguration der Firewall prüfen

Erstellt: 17.02.2026 | Letzte Aktualisierung: 25.02.2026