Kleines Post-mortem Teilausfall am 24 Januar 17:22 Uhr bis ca. 18:14 Uhr

herrbett · 25. Januar 2020 um 10:22

Am 24. Januar zwischen 17:22 Uhr und 18:14 Uhr gab es einen Ausfall von 2 von 3 VM-Hostsystemen, sowie dadurch auch einen Ausfall des Netzwerkdateisystems Ceph auf das nahezu alle unsere VMs zurückgreifen. Der Ausfall hat dabei folgende Dienste betroffen: DNS, Website, Gitlab, API, Mail, Ticketsystem. Nicht betroffen waren jedoch die Gateways, sowie unsere Core/Backbone Router.

Was ist passiert?

Am 24 Januar sollten mehrere defekte Festplatten in einem der VM-Hosts getauscht werden. Dafür wurde dieser Planmäßig heruntergefahren. Alle VMs wurde auf die beiden weiter laufenden Hostsysteme verteilt. Während des Tausches der Festplatten kam es zu einem Kernel Panic, auf einem der noch laufenden Hostsysteme. Ab diesem Zeitpunkt stand das Netzwerkdateisystem Ceph nicht mehr zur Verfügung, so das alle noch laufenden VMs nicht mehr auf ihre virtuelle Festplatte zugreifen konnten.

Der Ausfall des zweiten VM Hostsystems ist dabei leider erst bemerkt worden, als der erste VM-Host, nun mit neuen Festplatten, wieder hochgefahren wurde.

Nachdem auch das zweite VM Hostsystem wieder gestartet war, stand auch das Netzwerkdateisystem Ceph wieder zur Verfügung und alle VMs konnten normal gestartet werden. Alle Dienste standen ab ca. 18:14 Uhr wieder wie gewohnt zur Verführung.

Wie verhindern wie so einen Ausfall in Zukunft?

Da der Kernelpanic des zweiten VM-Hostystems aufgrund einer „Out of Memory“-Situation aufgetreten ist, werden wir in Zukunft vor dem abschalten eines Systems überprüfen ob genug freier Speicher auf den bestehenden Systemen + ein größerer Sicherheitspuffer zur Verfügung steht. Ein weiterer Ausfall von Ceph lässt sich allerdings nur durch weitere VM-Hostsysteme verhindern, da wir das System an der Untergrenze der Benötigten Systeme Betreiben.