Pulsar Sentinel – Cluster Health & Fencing

Aufgabenstellung

In kritischen Produktionsumgebungen mit Apache Pulsar muss sichergestellt sein, dass Broker-Cluster jederzeit hochverfügbar und fehlerresilient arbeiten.
Die integrierten Mechanismen von Pulsar reichten für das Szenario nicht aus, da es spezielle Anforderungen an:

  • Heartbeat-Überwachung über Netzgrenzen hinweg
  • Quorum-Validierung pro Prioritätsgruppe
  • Automatisches Fencing fehlerhafter Nodes
  • Transparente Observability via Prometheus

gab.

Ein dediziertes, leichtgewichtiges Tool sollte diese Lücke schließen.

Lösungsansatz

Ich habe den Pulsar Sentinel als eigenständiges, in Rust geschriebenes Tool entwickelt.
Er kombiniert Heartbeat-Messaging, Health-Checks und Quorum-Logik mit einer klaren Fencing-Strategie:

  • Heartbeat & Cluster-Monitoring: Nodes tauschen zyklisch UDP-Nachrichten aus, inkl. Health-Status der lokalen Broker.
  • Quorum-Check & Prioritäten: Flexible Konfiguration von Prioritätsgruppen, Erkennung von Quorum-Verlust und automatische Eskalation.
  • Grace & Cooldown-Mechanismen: Verhindern unnötiges Fencing durch definierte Toleranzzeiten.
  • Fencing-Integration: Beliebige Shell-Kommandos (z. B. Shutdown, Kubernetes-Drain, Service-Neustart) können automatisiert ausgeführt werden.
  • Prometheus Metrics Endpoint: Alle Status- und Fehlerbedingungen werden als Metriken verfügbar gemacht und in Grafana visualisiert.
  • Konfigurierbarkeit & CLI: Sämtliche Parameter (Timeouts, Ports, Quorum-Größen, Logging) sind über CLI-Flags anpassbar.

Steckbrief

  • Branche: Eigenbedarf
  • Zeitraum: 2025
  • Technologien
    • Rust (Tokio, Warp, Clap, Prometheus Client)
    • Prometheus / Grafana für Monitoring
    • UDP / Multicast Heartbeats
    • TLS / JWT Healthcheck gegen Pulsar-Admin-API

Mit dem Pulsar Sentinel konnte eine robuste Wächterinstanz geschaffen werden, die kritische Messaging-Cluster zuverlässig überwacht.
Das Tool läuft im 24/7-Betrieb, verarbeitet kontinuierlich Heartbeats und liefert transparente Metriken für den Betrieb.
Durch den automatisierten Fencing-Mechanismus wurde die Mean-Time-To-Recovery im Fehlerfall deutlich reduziert – und damit die Gesamtverfügbarkeit der Messaging-Infrastruktur spürbar erhöht.

Sie haben ein ähnliches Vorhaben?

Mit Pulsar Sentinel habe ich ein produktionsreifes Werkzeug entwickelt, das für Stabilität und Verfügbarkeit in komplexen Messaging-Umgebungen sorgt.

Jetzt Beratung anfragen