Grafana Dashboards - Detailbeschreibung
Dashboard-Übersicht (Stand 25.02.2026)
| Ordner | Dashboard | UID |
|---|---|---|
| KLV | CK Netze KLV | ck-netze-klv-2026 |
| Netzwerk | Sophos XGS Firewall (inkl. Standortvergleich) | 3ecb07d2 |
| Netzwerk | Sophos WLAN Access Points | c288445e |
| Netzwerk | Sophos XGS Syslog | sophos-syslog-2026 |
| Netzwerk | Fritz!Box 7590 - WAN Monitoring | fritzbox-wan-monitoring |
| Netzwerk | Netzwerk- und Cloud-Latenzmonitoring CK | 872ed3a0 |
| Standorte | Netz vroak | netz-vroak-2026 |
| Standorte | Services vroak | services-vroak-2026 |
| System | NVMe SMART — Samsung SSD 990 EVO Plus | nvme-smart-2026 |
| System | Pi-hole | Pi-hole-Exporter |
| System | Internetgeschwindigkeit (Speedtest) | speedtest-2026 |
| System | Photovoltaik - Sungrow SH10RT | 909b3358 |
| System | Salto ProAccess Space | salto-proaccess-2026 |
Inhaltsverzeichnis
- Dashboard: Netzwerk- und Cloud-Latenzmonitoring CK
- Dashboard: Sophos XGS Firewall
- Dashboard: Sophos WLAN Access Points
- Auswertungsleitfaden
1. Dashboard: Netzwerk- und Cloud-Latenzmonitoring CK
UID: 872ed3a0-c09a-4401-93fd-ae5c4f71fa0e
Variablen: $standort - Filter auf "Hauptstandort", "Referenz" oder "All"
Auto-Refresh: 15 Sekunden
Sektion 1: Standortvergleich (ICMP, Packet Loss, HTTP Response)
Panel 1.1: ICMP Latenz - Standortvergleich
- Typ: Timeseries (Liniendiagramm)
- Query:
probe_duration_seconds{job=~"blackbox-icmp.*"} * 1000 - Ziele: 8.8.8.8, 1.1.1.1, login.microsoftonline.com, dynamics.com
- Legende:
{{standort}} -> {{instance}} - Einheit: Millisekunden
- Darstellung: Linien mit 8% Fill-Opacity, 2px Linienstärke
- Auswertung:
- Zeigt die Ping-Laufzeit zu Internet- und Microsoft-Zielen von beiden Standorten
- Parallelverschiebung beider Standorte = globales Problem (Internet/Zielserver)
- Nur ein Standort betroffen = lokales Netzwerkproblem
- Typische Werte: 10-30ms (Google/CF), 20-50ms (Microsoft)
- Spikes > 100ms oder dauerhafte Erhöhung sind untersuchungswürdig
Panel 1.2: Packet Loss - Standortvergleich
- Typ: Timeseries
- Query:
(1 - avg_over_time(probe_success{job=~"blackbox-icmp.*"}[5m])) * 100 - Einheit: Prozent
- Schwellwert-Linie: 2% (rot)
- Auswertung:
- 0% = optimal, alles über 0% zeigt Paketverluste
- 1-2% = vereinzelte Drops, meist unkritisch
-
2% über mehrere Minuten = Alert wird ausgelöst
-
5% = spürbare Beeinträchtigung für Benutzer
- Korrelation mit Interface Errors/Discards der Firewall prüfen
Panel 1.3: HTTP Gesamtantwortzeit - Standortvergleich
- Typ: Timeseries
- Query:
probe_duration_seconds{job=~"blackbox-http.*"} * 1000 - Ziele: login.microsoftonline.com, businesscentral.dynamics.com
- Schwellwert-Fläche: > 3000ms rot hinterlegt
- Auswertung:
- Zeigt die End-to-End HTTP-Antwortzeit inkl. aller Phasen
- Werte < 500ms = sehr gut, 500-1500ms = akzeptabel, > 3000ms = problematisch
- Vergleich der Standort-Linien zeigt, ob das Problem lokal oder global ist
- Business Central hat typischerweise höhere Werte als Login (mehr serverseitige Verarbeitung)
Panel 1.4: Aktuelle HTTP Antwortzeiten (MS Cloud)
- Typ: Stat (Einzelwert-Anzeige)
- Query: Gleich wie 1.3
- Farbcodierung: Grün < 500ms, Gelb < 1500ms, Orange < 3000ms, Rot > 3000ms
- Auswertung:
- Schneller Überblick über den aktuellen Zustand
- Hintergrundfarbe signalisiert sofort, ob Handlungsbedarf besteht
- Sparkline zeigt den Trend
Sektion 2: HTTP Detailanalyse (DNS, TCP, TLS, Processing)
Diese Sektion zerlegt die HTTP-Antwortzeit in ihre Bestandteile, um die Ursache von Latenzen zu identifizieren.
Panel 2.1: DNS Lookup Zeit
- Typ: Timeseries
- Query:
probe_http_duration_seconds{phase="resolve"} * 1000 - Schwellwert: 1000ms (rote Linie)
- Auswertung:
- Zeigt die DNS-Auflösungszeit als Teil der HTTP-Anfrage
- Normal: < 50ms (gecachte Einträge), < 200ms (ungecacht)
-
1s = DNS-Problem (Resolver überlastet, falsche Konfiguration)
- War vor dem DNS-Fix auf XGS-30: ~3000ms (Selbstverweis-Problem)
Panel 2.2: TCP Connect Zeit
- Typ: Timeseries
- Query:
probe_http_duration_seconds{phase="connect"} * 1000 - Auswertung:
- Reine Netzwerklatenz zum Zielserver (TCP 3-Way-Handshake)
- Typisch 15-40ms zu Microsoft-Servern
- Hohe Werte = Netzwerk/Routing-Problem, nicht anwendungsseitig
- Sollte zwischen beiden Standorten ähnlich sein (gleicher Provider)
Panel 2.3: TLS Handshake Zeit
- Typ: Timeseries
- Query:
probe_http_duration_seconds{phase="tls"} * 1000 - Auswertung:
- TLS 1.2/1.3 Handshake-Dauer
- Typisch 30-80ms für TLS 1.3, 50-150ms für TLS 1.2
- Spikes können auf serverseitige Last hindeuten
- Bei Firewall mit HTTPS-Interception (DecryptHTTPS) verdoppelt sich dieser Wert
Panel 2.4: Server Processing Zeit
- Typ: Timeseries
- Query:
probe_http_duration_seconds{phase="processing"} * 1000 - Auswertung:
- Time to First Byte (TTFB) nach TLS - rein serverseitige Verarbeitungszeit
- Wichtigster Indikator für Microsoft-seitige Probleme
- Login: typisch 50-200ms
- Business Central: typisch 100-500ms, Spikes bis 14.5s möglich (Microsoft-seitig)
- Hohe Werte an BEIDEN Standorten = Microsoft-Problem
- Hohe Werte nur an einem Standort = lokales Problem (Firewall-Inspection)
Panel 2.5: Content Transfer Zeit
- Typ: Timeseries
- Query:
probe_http_duration_seconds{phase="transfer"} * 1000 - Auswertung:
- Dauer für den Download des HTTP-Body
- Typisch < 10ms für kleine Antworten (Login-Seite)
- Hohe Werte = Bandbreitenproblem oder große Antwort
Panel 2.6: HTTP Phasen Aufschlüsselung (Aktuell)
- Typ: Stacked Bar Chart (horizontal)
- Query: Alle Phasen, instant=true
- Auswertung:
- Momentaufnahme: zeigt die aktuelle Aufteilung der Antwortzeit
- Auf einen Blick sichtbar, welche Phase dominiert
- Ideal zum Vergleich zwischen Standorten (gleiche Antwort, verschiedene Phasen-Anteile)
Panel 2.7: DNS Probe - Lokale Resolver Latenz
- Typ: Timeseries (volle Breite)
- Queries:
probe_duration_secondsundprobe_dns_lookup_time_secondsfür DNS-Jobs - Auswertung:
- Dedizierte DNS-Probes (nicht als Teil von HTTP)
- Vergleich aller DNS-Resolver: XGS-40, XGS-30, Google, FritzBox
- Zeigt DNS-spezifische Probleme unabhängig von HTTP
Sektion 3: Firewall-Performance (CPU, RAM, Interface Errors)
Panel 3.1: Firewall CPU Auslastung
- Typ: Timeseries
- Query:
sfosXGCPUPercentUsage{job="sophos-xgs-firewall"} - Schwellwerte: > 70% gelb, > 90% rot
- Auswertung:
- Hohe CPU-Last kann Latenz-Spikes verursachen (DPI-Engine, IPS, AV)
- Korrelation mit HTTP-Latenz-Spikes prüfen
- XGS-40 typischerweise höher belastet (mehr Benutzer)
Panel 3.2: Firewall RAM Auslastung
- Typ: Timeseries
- Query:
sfosXGMemoryPercentUsage{job="sophos-xgs-firewall"} - Schwellwerte: > 70% gelb, > 90% rot
- Auswertung:
- RAM-Auslastung > 85% = Connection-Tables und Caches werden verkleinert
- Stetig steigender RAM = mögliches Memory Leak (Neustart erforderlich)
Panel 3.3: Firewall Disk Auslastung
- Typ: Timeseries
- Query:
sfosXGDiskPercentUsage{job="sophos-xgs-firewall"} - Schwellwerte: > 70% gelb, > 90% rot
- Auswertung:
- Log-Dateien, Quarantäne, Reports füllen die Disk
-
90% = Logging/Reporting kann beeinträchtigt werden
Panel 3.4: Interface Errors (In + Out)
- Typ: Timeseries
- Query:
rate(ifInErrors{ifAlias=~".+"}[5m])+ Out - Einheit: Pakete pro Sekunde
- Auswertung:
- Errors = physikalische Layer-Probleme (defektes Kabel, Speed-Mismatch, Duplex-Fehler)
- Jeder Wert > 0 ist untersuchungswürdig
- Korrelation mit Paketverlust prüfen
Panel 3.5: Interface Discards (In + Out)
- Typ: Timeseries
- Query:
rate(ifInDiscards{ifAlias=~".+"}[5m])+ Out - Einheit: Pakete pro Sekunde
- Auswertung:
- Discards = Queue-Überläufe wegen zu hoher Last
- Korrelation mit CPU-Last und Traffic-Spikes prüfen
Panel 3.6: WAN Durchsatz (Port1)
- Typ: Timeseries
- Query:
rate(ifHCInOctets{ifAlias="Port1"}[5m]) * 8(In, positiv) + Out (negativ) - Einheit: Bits pro Sekunde
- Auswertung:
- Zeigt den WAN-Traffic beider Firewalls
- Nähert sich der Traffic der Leitungskapazität, entstehen Engpässe
- Out (Download zum LAN) typischerweise höher als In (Upload)
Panel 3.7: HTTP Hits / Connections (Sophos XGS)
- Typ: Timeseries
- Query:
sfosXGHTTPHits+sfosXGLiveUsers - Auswertung:
- HTTP Hits = Anzahl HTTP-Verbindungen durch die Firewall
- Live Users = aktive authentifizierte Benutzer
- Korrelation mit Tageszeit und Performance
Sektion 4: Jitter-Analyse
Panel 4.1: ICMP Jitter (Latenz-Schwankung)
- Typ: Timeseries
- Query:
stddev_over_time(probe_duration_seconds{job=~"blackbox-icmp.*"}[5m]) * 1000 - Schwellwerte: > 10ms gelb, > 50ms rot
- Auswertung:
- Niedrig und stabil = gute Verbindung
- Spikes = temporäre Netzwerkprobleme
- Dauerhaft hoch = generelle Netzwerkinstabilität (Switch-Probleme, Überlastung)
Panel 4.2: HTTP Jitter (Antwortzeit-Schwankung)
- Typ: Timeseries
- Query:
stddev_over_time(probe_duration_seconds{job=~"blackbox-http.*"}[5m]) * 1000 - Schwellwerte: > 100ms gelb, > 500ms rot
- Auswertung:
- HTTP-Jitter enthält sowohl Netzwerk- als auch Serverkomponenten
- Hoher HTTP-Jitter bei niedrigem ICMP-Jitter = serverseitiges Problem
- Korrelation mit Processing-Phase
Panel 4.3: ICMP Latenz Min / Max / Avg (5min)
- Typ: Timeseries (drei Linien pro Ziel)
- Queries: avg_over_time, max_over_time, min_over_time
- Auswertung:
- Min-Linie = bestmögliche Latenz (physikalisches Minimum)
- Max-Linie = Worst-Case (Retransmissions, Queue-Delays)
- Avg-Linie = typische Erfahrung
- Große Spreizung Min↔Max = hohes Jitter
Panel 4.4: HTTP Phasen-Jitter (TLS + Processing)
- Typ: Timeseries
- Queries: stddev_over_time für TLS- und Processing-Phase
- Auswertung:
- Trennt Netzwerk-Jitter (TLS) von Server-Jitter (Processing)
- Processing-Jitter dominant = serverseitiges Problem (typisch für Business Central)
- TLS-Jitter dominant = Netzwerkproblem oder Firewall-Inspection
Sektion 5: DNS-Analyse (MS Cloud Resolver)
Panel 5.1: MS DNS Auflösungszeit pro Domain (Hauptstandort)
- Typ: Timeseries
- Queries:
probe_duration_secondsfür XGS-40 und XGS-30 - Legende: Tabelle mit Mean, Max, Last
- Schwellwerte: > 0.5s gelb, > 3s rot
- Auswertung:
- Vergleich der DNS-Performance beider XGS-Firewalls
- Pro Domain: login.microsoftonline.com, businesscentral.dynamics.com, outlook.office365.com, graph.microsoft.com
- Unterschiede zwischen den Firewalls zeigen konfigurationsspezifische Probleme
- Vor dem DNS-Fix: XGS-30 zeigte ~5s (DNS-Timeout), XGS-40 normal
Panel 5.2: MS DNS Auflösungszeit pro Domain (Referenz)
- Typ: Timeseries
- Queries: FritzBox und Google DNS
- Auswertung:
- Baseline-Vergleich: Wie schnell ist DNS ohne XGS-Firewall?
- Google DNS: typisch 10-30ms
- FritzBox: typisch 1-10ms (lokaler Cache)
- Wenn Referenz auch langsam = globales DNS-Problem
Panel 5.3: DNS Auflösungszeit - Resolver-Vergleich (Aktuell)
- Typ: Stacked Bar Chart (horizontal)
- Query: Alle Resolver, instant=true
- Auswertung:
- Momentaufnahme aller Resolver nebeneinander
- Sofort sichtbar, welcher Resolver langsamer ist
- Farbcodierung: grün < 0.1s, gelb < 1s, rot > 1s
Panel 5.4: DNS Erfolgsrate (letzte 15min)
- Typ: Stat (Einzelwert)
- Query:
avg_over_time(probe_success{job=~"blackbox-dns-ms.*"}[15m]) - Farbcodierung: Rot < 90%, Gelb < 99%, Grün >= 99%
- Auswertung:
- 100% = perfekt, kein DNS-Ausfall
- < 100% = es gab Auflösungsfehler im Zeitraum
- Dauerhaft < 90% = DNS-Resolver defekt oder falsch konfiguriert
Panel 5.5: DNS Auflösungszeit-Jitter (Stddev 5min)
- Typ: Timeseries
- Query: stddev_over_time für Remote-DNS-Jobs
- Legende: Tabelle mit Mean und Max
- Auswertung:
- Hoher Jitter = unregelmäßige DNS-Antwortzeiten
- Kann auf Cache-Probleme oder wechselnde Upstream-Resolver hindeuten
Panel 5.6: DNS Spikes: Max vs Avg (5min, Hauptstandort)
- Typ: Timeseries
- Queries: avg_over_time und max_over_time für XGS-30
- Darstellung: Max-Linien gestrichelt
- Auswertung:
- Max-Werte zeigen Worst-Case-Szenarien
- Große Differenz Max↔Avg = sporadische Probleme
- Dauerhaft hohe Max-Werte = systematisches Problem
Sektion 6: Alerts Status
Panel 6.1: Aktive Netzwerk-Alerts
- Typ: Alert List
- Darstellung: Aktuelle und ausstehende Alerts
- Filter: Firing und Pending, sortiert nach Schwere
- Auswertung:
- Zeigt alle aktuell aktiven Warnungen und Alarme
- Severity-Farbcodierung: Warning (orange), Critical (rot)
- Klick auf Alert zeigt Details mit Labels und Annotations
2. Dashboard: Sophos XGS Firewall
UID: 3ecb07d2-1898-4206-bfed-e5ed187b3882
Dieses Dashboard enthält zwei Sektionen: die Detailansicht einer Firewall und den Standortvergleich beider XGS-Geräte.
Sektion: Firewall-Übersicht
| Panel | Typ | Beschreibung | Auswertung |
|---|---|---|---|
| RAM Auslastung | Stat | Aktuelle RAM-Nutzung in % | Farbcodiert: grün/gelb/rot nach Schwelle |
| Disk Auslastung | Stat | Aktuelle Disk-Nutzung in % | Monitoring auf Disk-Full-Szenarien |
| Swap Auslastung | Stat | Swap-Nutzung in % | > 0% = RAM-Engpass |
| Live Users | Stat | Aktive authentifizierte Benutzer | Tagesverlauf zeigt Nutzungsmuster |
| Uptime | Stat | Laufzeit seit letztem Neustart | Nach Reboot = Reset auf 0 |
| HA Status | Stat | High-Availability Status | 0 = Standalone, andere = HA-Modus |
| RAM/Disk/Swap Verlauf | Timeseries | Historischer Verlauf der Auslastung | Trends und Anomalien erkennen |
| HTTP/FTP Hits | Timeseries | HTTP und FTP Verbindungszähler | Nutzungsmuster und Lastspitzen |
| Dienste Status | State-Timeline | On/Off Status der Firewall-Dienste | Ausfälle einzelner Dienste sichtbar |
| Interface Traffic | Timeseries | Datenraten Top-Ports | Bandbreitennutzung |
| Interface Errors/Discards | Timeseries | Fehler und Verwürfe pro Interface | Hardware-/Überlastprobleme |
| Lizenz Status | Table | Ablaufdaten der Lizenzen | Frühzeitige Lizenzerneuerung |
| Interface Status | Table | Operativer Status aller Interfaces | Ausgefallene Ports erkennen |
Sektion: Standortvergleich (XGS-40 vs. XGS-30)
| Panel | Beschreibung | Auswertung |
|---|---|---|
| RAM/Disk/Swap/Uptime (je XGS) | Stat-Panels pro Firewall | Direkter Vergleich der Auslastung |
| WAN Durchsatz (je XGS) | Timeseries pro Firewall | WAN-Bandbreitennutzung pro Standort |
| Gesamt WAN Durchsatz | Timeseries overlay | Beide WANs übereinander = Lastverteilung |
| LAN Traffic (Port7/Port2) | Timeseries pro Firewall | Interner LAN-Traffic |
| RAM/Disk Verlauf Vergleich | Timeseries overlay | Langzeittrend der Ressourcennutzung |
| VPN Tunnel Traffic | Timeseries pro Firewall | VPN-Auslastung zwischen Standorten |
| Dienste Status | State-Timeline pro Firewall | Service-Ausfälle im Vergleich |
3. Dashboard: Sophos WLAN Access Points
UID: c288445e-776d-437e-93f6-51a8f840af1b
Sektion: Sophos Central - Wireless Alerts & Firewall Status
| Panel | Typ | Beschreibung |
|---|---|---|
| Wireless Alerts | Stat | Anzahl Info/Warning/Error Alerts aus Sophos Central |
| Firewall Status | Stat | Firewall-Health aus Sophos Central API |
| Aktive Wireless Alerts | Table | Detailliste aktiver Wireless-Warnungen |
Sektion: ICMP Ping Monitoring - AP Erreichbarkeit
| Panel | Typ | Beschreibung |
|---|---|---|
| AP Erreichbarkeit 40er/30er Netz | Stat | Anzahl erreichbarer APs |
| Ping Latenz 40er/30er Netz | Stat | Aktuelle Ping-Zeiten zu APs |
Sektion: Latenz & Verfügbarkeit Verlauf
| Panel | Typ | Beschreibung | Auswertung |
|---|---|---|---|
| Ping Latenz Verlauf | Timeseries | Historische Ping-Latenz pro AP | Erkennung langsamer/instabiler APs |
| Verfügbarkeit Timeline | State-Timeline | Online/Offline-Status über Zeit | Ausfallmuster und -dauer sichtbar |
Sektion: Gesamtvergleich & Statistiken
| Panel | Typ | Beschreibung |
|---|---|---|
| Ping Latenz Vergleich | Timeseries | Alle APs übereinander |
| Durchschnittliche Latenz pro Standort | Gauge | Durchschnittslatenz je Netz |
| Verfügbarkeit pro Standort | Gauge | Prozentualer Uptime |
| APs Online / Gesamt | Stat | Aktuelle AP-Anzahl |
| Paketverlust | Timeseries | Paketverlust zu APs |
| Wireless Alerts Verlauf | Timeseries | Alert-Historie aus Central |
| AP Status Gesamtübersicht | Table | Zusammenfassung aller APs |
4. Auswertungsleitfaden
Tägliche Prüfung (2 Minuten)
- Alerts Status im CK-Dashboard checken — gibt es aktive Alarme?
- Stat-Panels für HTTP Antwortzeiten — alles grün?
- DNS Erfolgsrate — alles bei 100%?
Wöchentliche Analyse (10 Minuten)
- Zeitraum auf 7 Tage setzen
- ICMP Jitter und HTTP Jitter Trends prüfen — steigt der Jitter?
- Firewall CPU/RAM — gibt es einen Aufwärtstrend?
- WAN Durchsatz — nähert sich der Traffic der Kapazitätsgrenze?
- AP Verfügbarkeit Timeline — gab es AP-Ausfälle?
Bei Performance-Beschwerden
- CK-Dashboard öffnen, Standort auf "Hauptstandort" filtern
- HTTP Gesamtantwortzeit prüfen — liegt sie über 3s?
- Falls ja: HTTP Detailanalyse öffnen:
- DNS hoch? → DNS-Resolver prüfen (Panel 5.x)
- Processing hoch? → Referenz-Standort vergleichen
- Processing an beiden Standorten hoch = Microsoft-Problem
- Processing nur am Hauptstandort hoch = Firewall-Inspection-Problem
- Firewall CPU prüfen — liegt sie über 70%?
- Interface Errors prüfen — gibt es physikalische Fehler?
Bei DNS-Problemen
- Sektion 5 (DNS-Analyse) im CK-Dashboard
- Resolver-Vergleich — welcher Resolver ist langsam?
- Erfolgsrate — gibt es komplette Ausfälle?
- DNS Spikes — einzelne Ausreißer oder dauerhaft?
- Bei XGS-Resolver-Problemen: DNS-Konfiguration der Firewall prüfen
Erstellt: 17.02.2026 | Letzte Aktualisierung: 25.02.2026