Monitoring
Entwicklung / SaaS
Von der Konzeption zur Enterprise-Ready SaaS-Plattform
Für viele Unternehmen ist die ständige Verfügbarkeit ihrer digitalen Dienste absolut geschäftskritisch. Fällt eine Website oder API aus, entstehen sofort Kosten – sei es durch verlorene E-Commerce-Verkäufe oder gestörte interne Prozesse.
Wir standen vor der Herausforderung, eine eigene, hochverfügbare Monitoring-Lösung zu entwickeln. Unser Ziel: Eine Plattform, die nicht nur 24/7 die Erreichbarkeit prüft, sondern auch intelligent alarmiert, extrem flexibel konfigurierbar ist und den strengen europäischen Datenschutzstandards (DSGVO) entspricht.
Unser Ergebnis ist "Monitoring" – eine von Grund auf entwickelte, mandantenfähige SaaS-Anwendung, die wir als Digitalduett konzipiert und vollständig implementiert haben.


Unsere Lösung: Eine skalierbare Echtzeit-Architektur
Wir haben "Monitoring" als robuste , serviceorientierte Anwendung konzipiert, die zwei Kernbereiche nahtlos miteinander verbindet: Ein flexibles Frontend zur Verwaltung und ein hochperformantes, verteiltes Backend für die eigentlichen Checks.
Das System ist von Grund auf auf Zuverlässigkeit und Skalierbarkeit ausgelegt. Es nutzt ein asynchrones Job-Queue-System (BullMQ auf Basis von Redis), um Tausende von Checks parallel zu verarbeiten, ohne die Benutzeroberfläche zu blockieren.
Feature-Highlights
Smartes Backend & Worker-System
Multi-Location Checks
Websites werden von mehreren Standorten (z. B. Nürnberg, Paris, London) parallel geprüft, um Falschalarme durch lokales Routing zu verhindern.
Intelligente Alarm-Logik
Ein Alarm wird erst ausgelöst, wenn ein Fehler von X Standorten über Y aufeinanderfolgende Prüfungen bestätigt wird (z. B. "Down Threshold 50%", "2 Consecutive Checks").
Automatisierte PDF-Reports
Jeden Monat generiert ein dedizierter Worker (mittels Puppeteer Headless Chrome) automatisch Uptime-Reports und versendet diese per E-Mail an die Kunden.
DSGVO-konforme Lösch-Automatik
Gekündigte Konten durchlaufen eine 3-tägige "Grace Period". Danach löscht ein Worker automatisch alle Monitoring-Daten, behält aber Rechnungen (gemäß § 147 AO) 10 Jahre lang revisionssicher bei.
Stabilität & Resilienz
Alle Systemkomponenten, von der Redis-Verbindung bis zum Webhook-Versand, verfügen über automatische Retry-Logiken mit Exponential Backoff, um temporäre Netzwerkausfälle abzufangen.
Flexibles Frontend & Mandanten-Management
Mandantenfähigkeit & Rollen
Das System trennt sauber zwischen Organisationen, Kunden und Benutzern. Ein granulares Rollensystem (Global Admin, Supporter, Editor, Read-Only) steuert präzise, wer was sehen und tun darf.
Dynamische Paket-Steuerung
Jede Organisation kann eigene Monitoring-Pakete mit individuellen Preisen, Intervallen und Features (z. B. "Full-Service" mit 1-Minuten-Intervall) definieren.
Fortschrittliches Alerting
Kunden können komplexe Benachrichtigungs-Ketten mit Prioritäten und Verzögerungen einrichten (z. B. "Prio 1: Sofort Slack. Prio 2: Nach 5 Min SMS an Teamleiter").
Wartungsfenster
Geplante Wartungen können im System hinterlegt werden. Der Alert Evaluator erkennt diese Fenster und pausiert Alarme für den definierten Zeitraum intelligent.
Eskalations-Management
Alarme können pro Website temporär (z. B. mit automatischer Reaktivierung nach 4 Stunden) oder dauerhaft deaktiviert werden, inklusive eines Pflichtfelds zur Begründung für die interne Dokumentation.
Native Integrationen & Webhooks
Out-of-the-Box
Direkte Integrationen für Slack und Discord, die Alarme mit Rich Formatting (Embeds, Color-Coding) senden.
Maximale Konnektivität
Ein leistungsstarkes Webhook-System mit vordefinierten Templates für Jira, PagerDuty und generische POST-Requests.
Sicherheit
Alle Webhooks können optional mit HMAC-SHA256-Signaturen abgesichert werden, um die Authentizität der Anfragen zu verifizieren.
Der technische Stack: Performant, robust, zukunftssicher
Für "Monitoring" haben wir auf einen zukunftssicheren Technologie-Stack gesetzt, der Performance und Wartbarkeit maximiert.
- Runtime: Node.js 18+ (TypeScript)
- Datenbank: PostgreSQL
- ORM: Drizzle ORM (für typsichere SQL-Queries)
- Job Queue: BullMQ mit Redis (für das gesamte Worker-System)
- PDF-Generierung: Puppeteer & Chart.js
- Containerisierung: Docker & Docker Compose
- Observability: Bull Board (zur Visualisierung der Queues)

