ESX - HA Restart Time

elite-noob · Nov 2, 2010

Hallo zusammen,

bin gerade dabei eine Fehleranalyse bei meinem ESX-System zu machen und finde gerade nicht wie lange HA wartet bevor es Maschinen die auf einem Isolierten Host waren Neu startet.

Ich hab schon im I-Net geschaut etc. aber irgendwie hab ich das Gefühl das ich inzwischen vor lauter Wald keine Bäume mehr sehe.

Wäre dankbar für nen Hinweis mit dem Holzpfosten.

Danke

greetz
chris

Serow · Nov 2, 2010

Hi,

HA schickt im Sekundentakt Heartbeats. Bleiben die Heartbeats 12 Sekunden lang aus haben wir ein Splitbrain, welches dann durch pingen der Isolation Addresses gelöst wird (standardmäßig das default gateway). Wenn du das Advanced Setting das.failuredetectiontime nicht verändert hast, sollten es die 12 Sekunden sein.

ciao
serow

elite-noob · Nov 3, 2010

Nach der Zeit ist aber dann noch kein Shutdown der VMs erfolgt, d.h. ein Neustart wäre noch verfrüht.

Wenn ein Host als Isoliert markiert wurde, wie lange braucht HA dann bis es die VMs woanders versucht zu starten?

greetz
chris

Serow · Nov 3, 2010

Hi,

du musst verstehen, dass VMware HA ein reingepfropfter Service ist, den VMware garnicht selbst programmiert hat

Nach der das.failuredetectiontime solltest du auf dem Host, der die VMs neustarten soll sehen, dass er es versucht, aber solange scheitert bis der "kaputte" ESX sein Lock im VMFS verliert - entweder durch ausschalten der VMs oder dadurch, dass er verpasst das Lock zu updaten (z.B. wenn er down ist).

Ich lese raus, dass du die Isolation Response "Shutdown VMs" genommen hast richtig? Dazu musst du wissen, dass VMware HA einen Fehler im Netz der VMs garnicht erkennt! Wenn HA aktiv wird bezieht sich das immer auf verpasste Heartbeats im _Management_ Netzwerk. Wenn du also das Netz der VMs und das Management Netz physisch voneinander trennst, erkennt HA ein kaputtes VM Netz garnicht. Dementsprechend solltest du "Leave Powered On" wählen, denn Störungen im Management Netz bedeuten nicht, dass die User ihre VMs nicht mehr erreichen - und darauf kommt es ja an!

ciao
serow

elite-noob · Nov 4, 2010

Korrekt, habe "Shutdown VMs" gewählt.

Hintergrund ist folgender.

Wir haben 5 ESX-Host durch den Reboot unserer Core-Switche wurden zwei Host als Isoliert markiert und daher auch die darauf liegenden VMs heruntergefahren. Soweit versteh ich ja alles.

Allerdings verstehe ich nicht das der andere ESX-Host der auf der selben LineCards liegt nicht heruntergefahren wurde.

Szenario sieht genau genommen so aus.

Host 1 - Kleiner Test-Host: (Dieser Host war Down)
Verbunden mit Switch1
Management verbunden auf Linecard 8(1x) & 10(1x)
VM-Netz verbunden auf Linecard 7 (2x) & 8 (1x)

Host 2: (Dieser Host war Down)
Verbunden mit Switch 2
Managment verbunden auf Linecard 9 (1x) & 10 (1x)
VM-Netz verbunden auf Linecard 9 (4x) & 10 (4x)

Host 3:
Managment verbunden auf Linecard 6 (1x) & 7 (1x) auf Switch 1
VM-Netz auf Switch 2 auf Linecard 10 (8x)

Host 4:
Auf Switch 3
Management auf Linecard 6 (1x) & 7 (1x)
VM-Netz auf Linecard 6 (1x) & 7 (2x) & 8 (5x)

Host 5:
Auf Switch 3
Management auf Linecard 6 (1x) & 7 (1x)
VM-Netz auf Linecard 6 (1x) & 7 (7x)

Wenn die Erklärung so unverständlich ist werde ich mal mein Paint bemühen müssen ;-)

Hast du dafür eine erklärung?

greetz
chris

Serow · Nov 4, 2010

Hi,

Paint wäre super

ciao
serow

elite-noob · Nov 4, 2010

Sogar mit Visio ;-)
Wie viele Anschlüsse auf dem Switch jeweils draufgehen müsstest du oben rauslesen, hab es nicht geschafft das übersichtlich darzustellen.

greetz
chris

Serow · Nov 4, 2010

Hi,

also erstmal muss ich sagen, dass ich euer Setup seltsam finde: Das Mgmt Netz jedes Hosts ist nur an einen Switch angebunden. Typischerweise würde man das Mgmt Netz eines Hosts mit sovielen NICs ausstatten, wie man Switche hat und dann eine Strippe zu jedem Switch ziehen zwecks Redundanz!

Eure Trennung zwischen Mgmt und VM ist durch VLANs implementiert richtig?

Kannst du mir nochmal genau schreiben was passiert ist? Du schreibst immer dass Hosts runtergefahren wurden - das dürfte bei HA nicht passieren

Habt ihr die Switche gerebootet (alle gleichzeitig? der Reihe nach? wenn ja in welche Reihenfolge?) und dann wurde die VMs auf Host 1 und 2 runtergefahren?

ciao
serow

elite-noob · Nov 4, 2010

Unser MGM läuft in einem V-Lan die VMs sind in mehreren VLans aktiv (Trunking)
Die Switche wurde rebootet, der reihe nach (Reihenfolge kann ich leider nicht beantworten da unser netzwerker das gemacht hat und sagt dass er es nimmer weiß) dabei wurde Host1/2 vom Cluster als Isoliert markiert und diese Host haben ihre Guest VMs heruntergefahren.

Interssant an der Stelle ist nur, warum die anderen Host sich anders verhalten haben

Btw. die Host stehen in 2 verschiedenen Rechenzentren hier im Werk.

greetz
chris

Serow · Nov 4, 2010

Hi,

ein Host fährt nur dann seine VMs runter wenn Heartbeats ausfallen, er danach ein Gateway pingt und keine Antwort erhalten hat.

Wie es bei euch dazu gekommen ist, dass nur Host 1 und 2 gedacht haben sie wären isoliert ist mir auch nicht klar. Dazu müssten wir jetzt die HA Logs analysieren. Wenn euer Switch 1 ausfällt sollten Host 1 und 3 die VMs runterfahren, wenn Switch 2 ausfällt der Host 2, wenn Switch 3 ausfällt die Hosts 4 und 5. Host 1 und 2 ergibt für mich grad auch nicht viel Sinn. Ich kann mir nur vorstellen, dass aus irgendeinem Grund die das.failuredetectiontime auf den Host unterschiedlich ist. Dazu würde ich den Wert mal fest eintragen in den Advanced Settings, HA dekonfigurieren und wieder aktivieren.

Ich würde allerdings dringend das Setup ändern:

Dann würde ich auf den virtuellen Switchen "Route based on originating virtual port ID" konfigurieren. So wie du das gezeichnet hast habt ihr einen riesen Wald an Single Points of Failure

Wenn ihr in Zukunft an den Switchen arbeitet, solltet ihr entweder den Haken "Enable Host Monitoring" aus der HA Konfiguration während dieser Zeit rausnehmen, oder das.failuredetectiontime so setzen, dass das Cluster Switch-Reboots und STP überlebt!

ciao
serow

elite-noob · Nov 4, 2010

Hallo Serow,

beruhigt mich dass es auch für dich auch erstmal unerklärlich bleibt. ^^
Die Konfig ist hier schon beunruhigend, da stimme ich dir zu, bin jetzt seit fast nem Jahr in dem Gebiet dabei und seit nem dreiviertel Jahr diverse Fehler am Bügeln.

Netzwerk wird demnächst nochmal angegangen, hat wohl nicht so geklappt wie ich gehofft hatte ;-)

Danke an der stelle für deine Hilfe

greetz
chris

Serow · Nov 4, 2010

Hi,

hab noch ne andere Idee: Ich weiss nicht wie das Default Getway der Hosts angebunden ist, aber es wäre z.B. auch möglich, dass z.B. Switch 3 zulange down war und das GW hinter Switch 3 hängt. Aber ich glaube auch das erklärts nicht ganz ...

ciao
serow