de-DEen-GB
 
rss

Granikos Technology Blog

On Dezember 8, 2015
1340 Views

Am 3. Dezember kam es zu einem Ausfall von Office 365 für viele europäische Kunden des Microsoft Clouddienstes. Grund des Ausfalles war eine Störung in Azure Active Directory.

Was war passiert?

Gegen 9 Uhr (UTC) am 3. Dezember begannen Kunden Störungen im Office 365 Dienst zu melden. Wie inzwischen üblich, wurde diese Störung von unzähligen Tweets begleitet, bevor sich Microsoft in der Lage sah, das Office 365 Health Dashboard zu aktualisieren und über diesen Kanal zu zeigen, dass man von der Störung Kenntnis erlangt hatte.

Die Meldung im Microsoft Azure Health Dashbord lautete:

"SUMMARY OF IMPACT: Between approximately 09:00 and 13:15 on 3rd Dec 2015 UTC, customers experienced intermittent issues accessing Azure services that use, or have dependencies on, Azure Active Directory. A full list of services reporting downstream impact is listed below this message in the History tab of the Service Health Dashboard. While impact was centralized to West Europe and North Europe, customers outside of these regions may have experienced issues as a result of configurations specific to their individual scenarios. PRELIMINARY ROOT CAUSE: A configuration error led to incorrect routing of production traffic. This resulted in the inability to access services dependent on Azure Active Directory authentication and services…"

Bei genauerem Lesen der Meldung zeigt sich, dass es sich nicht um ein Softwareproblem gehandelt hat, sondern offensichtlich um eine Fehlbedienung. Sicher werden wir nie  erfahren, was "configuration error" genau bedeutet, aber wir dürfen getrost davon ausgehen, dass ein viel zu beschäftigter Mitarbeiter einen Fehler gemacht hat, der anschließend automatisch und verzüglich in den europäischen Rechenzentren von Microsoft verteilt wurde.

Fehler durch Fehlbedienungen lassen sich mit keiner Softwarelösung verhindern. Dies liegt in der Natur der Sache. Daher werden auch in der Zukunft technische Störungen in Clouddiensten eher durch menschliche Faktoren entstehen, als durch problematische Softwarekomponenten oder Ausfälle von ganzen Rechenzentren.

Die Dauer von ungefähr vier Stunden entspricht inzwischen dem Durchschnitt von Störungen im Clouddienst. Am 26. November kam es in der Region US-West zu einer Störung im Azure Storage, die knapp über vier Stunden gedauert hat. Und wenn Sie sich die Zeit nehmen, sich die gemeldeten Azure Probleme der letzten 90 Tage anzuschauen, dann werden Sie feststellen, dass mehr Dienste und Regionen betroffen sind, als Sie denken.

Störungen sichtbar machen

Eine der Funktionen, die ebenfalls von der Störung betroffen war, war das Office 365 Dashboard selber. Dies führt für Kunden automatisch zu der unbequemen Situation, dass man von einer Office 365 Störung ausgeht, die eigene Vermutung ohne Zugriff auf das Health Dashboard aber nicht verifizieren kann.

Schlimmer wiegt die Tatsache, dass einzelne Dienste funktionierten und verfügbar waren, wie z.B. Outlook Desktop Sitzungen mit aktiven Sessions, während andere, die eine neue Authentifizierung erforderten, nicht mehr zur Verfügung standen, wie z.B. Remote PowerShell, Outlook on the Web oder SharePoint Online.

Hier hilft eine Softwarelösung zur Überwachung von genutzten Office 365 Dienste.

Mailscape 365 überwacht nicht nur einen einzigen Dienst, um die Funktionsfähigkeit von Office 365 zu überwachen. Dies ist einer der Hauptgründe, warum Gartner Mailscape 365 erst kürzlich in ihrem Bericht "10 Steps to Develop a Practical Network Performance Strategy for Office 365" empfohlen hat.

Mailscape 365 arbeitet mit synthetischen Transaktionen und simuliert so das Verhalten von Clients. Die aktive Nutzung von Anmeldefunktionen (auch AD FS) und Client-Zugriffe führt zu einer verlässlichen Überwachung der Dienste. Bei einem Ausfall des Azure AD, scheitern alle Testzugriffe auf Exchange ActiveSync, AutoDiscover, Outlook Anyhwere, MAPI/HTTP, Maiflow, SharePoint usw.

Mailscape 365 One-View Dashboard

Mailscape 365 zeigt alle Dienste in Störung dediziert an.

Kunden in anderen Regionen konnten mit einem Blick auf das Mailscape 365 One-View Dashboard sofort sehen, dass sie von der Störung nicht betroffen waren.

Interessiert? Starten Sie noch jetzt Ihren persönlichen 21 Tage Test von Mailscape 365.

 

 

Weiterlesen »