senn-techsenn-tech
Zurück zum Blog
Infrastruktur2027-06-15

Proxmox HA-Cluster: Quorum, Fencing und das Ende der Einzelhost-Sorgen

Ein einzelner Proxmox-Host ist praktisch — bis er ausfällt. Dann steht alles. Ein HA-Cluster mit drei Knoten ist die Antwort, aber er verlangt, dass man ein paar Konzepte verstanden hat. Hier ist, was zählt.

Die Mindestanatomie

Drei Knoten. Weniger geht nicht — mit zwei Knoten gibt es kein Quorum, der Split-Brain ist vorprogrammiert. Drei Knoten können einen Ausfall verkraften und trotzdem entscheiden: Die verbleibenden zwei haben Mehrheit, die verwaisten VMs werden neu gestartet.

pvecm create <clustername>
pvecm add <ip-des-zweiten-knotens>
pvecm add <ip-des-dritten-knotens>

Fertig ist der Cluster. Aber HA braucht mehr als Corosync.

Fencing: Der unterschätzte Lebensretter

Fencing bedeutet: ein ausgefallener Knoten wird vom Rest des Clusters hart abgeschaltet — Strom weg, Neustart. Ohne Fencing weiss der Cluster nicht, ob der Knoten wirklich tot ist oder nur das Netzwerk hängt. Eine VM, die noch auf dem vermeintlich toten Knoten läuft, während der Cluster sie auf einem anderen startet, produziert Datenkorruption.

Wir nutzen IPMI-Fencing: das iDRAC/iLO des Servers wird vom Cluster angewiesen, den Host aus- und wieder einzuschalten. Das klingt brutal, aber es ist die einzige saubere Lösung.

Shared Storage: Ohne geht es nicht

HA ohne Shared Storage ist ein Witz. Die VM-Disk muss auf einem Storage liegen, den alle Knoten erreichen. Wir fahren Ceph dafür — im Storage-VLAN mit Jumbo Frames, wie im Netzwerk-Artikel beschrieben. Alternativ geht ZFS-Replikation, aber das ist kein synchroner Shared Storage, sondern asynchrone Kopie.

Was wir falsch gemacht haben

  • Zu wenig Corosync-Redundanz: Corosync (das Cluster-Protokoll) läuft über ein dediziertes VLAN — gut. Aber wir hatten es auf dem gleichen physischen Interface wie den Storage-Traffic. Bei Jumbo-Frame-Problemen hing nicht nur Storage, sondern auch das Quorum. Jetzt läuft Corosync über eine zweite, separate NIC.
  • HA ohne Test: Nach dem Aufbau nicht den Stecker gezogen. Macht man genau einmal. Beim ersten Ernstfall stellte sich heraus, dass Fencing nicht griff, weil iDRAC-Zugangsdaten falsch hinterlegt waren.

Was HA nicht kann

Anwendungsfehler nicht auffangen. Wenn das ERP abstürzt, weil eine fehlerhafte Transaktion läuft, hilft kein Cluster. HA fängt Hardware- und Host-Ausfälle — der Rest ist Anwendungswissen.

Fazit

Ein Proxmox-HA-Cluster ist der Endpunkt der Virtualisierungsreise. Drei Knoten, Shared Storage, Fencing — dann laufen VMs auch nachts um drei weiter, wenn niemand zusieht. Der Bau dauert einen Tag. Das Testen den nächsten.