Verklaring datacenter m.b.t. storing 6 november

Op dinsdag 6 november was er een grote storing bij het datacenter waar de servers van Orfeus zijn ondergebracht. Veel van onze klanten konden hierdoor tijdelijk niet met Orfeus werken.

We betreuren deze situatie ten zeerste en informeren je graag over de oorzaak van de storing en de vervolgstappen die door het datacenter worden genomen om toekomstige storingen uit te sluiten.

Het datacenter heeft inmiddels een verklaring gegeven. Kort samengevat: een belangrijk apparaat dat het netwerkverkeer in het datacenter regelt, is defect geraakt. Hierdoor was er geen verbinding meer mogelijk tussen de servers in het datacenter en de buitenwereld. Het defecte netwerkapparaat kon enkele uren later vervangen worden.

Lees de volledige verklaring hieronder:

Datacenter schreef op 6 november 2018:

Met deze mail willen we je meer informatie geven over het netwerkincident dat vanochtend heeft plaatsgevonden in zaal A in DCG Amsterdam. Door de netwerkproblemen waren shared colocatieklanten en klanten met een semi of full private rack met redundante netwerkverbinding van 05:32 uur tot 09:23 uur niet bereikbaar. Klanten zonder een redundante netwerkverbinding waren tot uiterlijk 12:04 uur niet bereikbaar. Via onderstaande tijdslijn willen we je graag inzicht geven in de stappen die we hebben ondernomen tijdens het incident.

05:32: Onze monitoringsystemen melden een probleem met de connectiviteit van de shared colocatie, semi en full private racks in zaal A. Onze netwerkengineers starten een onderzoek.

05:45: Uit onderzoek blijkt dat inkomend verkeer wel aankomt op Leaf1, een switch die is verbonden met coreswitch1, maar niet bij de colocatieservers. Uitkomend verkeer komt tot coreswitch1, maar arriveert niet op de bestemming. Ook zien we dat het totale verkeer voor colocatie afneemt.

06:30: In de logs van zowel de leaf- als de coreswitches is geen melding te vinden die dit probleem kan verklaren. Op dit moment hebben we geen enkel inzicht in de oorzaak van dit probleem.

06:30 – 09:23: Omdat er geen aanwijzingen waren hebben we besloten om één voor één de routing engines van de switches te herstarten en de links tussen de switches uit en in te schakelen. Verschillende keren maken we leaf1 of leaf2 VRRP-master en herstarten we de coreswitches.

We merken dat Leaf1 wel ARP verstuurt, maar dat deze niet aankomen bij de colocatieservers. We onderzoeken ACL’s, filters, restricties, anti-DDoS policies, storm control en rate limits, maar zonder resultaat.

09:23: We hebben opnieuw coreswitch1 volledig uit productie genomen en herstellen de verbinding tussen Leaf1 en Leaf2. Deze combinatie zorgt ervoor dat de netwerkverbindingen zich herstellen. De shared colocatie en andere correct geconfigureerde, redundant uitgevoerde colocatie zijn door de laatste wijziging weer up.

09:23 – 12:04 Klanten die slechts één uplink in gebruik hebben en verbonden zijn met Leaf1 zetten we handmatig over naar Leaf2. Hierna wordt de netwerkverbinding opnieuw geconfigureerd waarna de connectiviteit ook voor hen weer wordt hersteld. Omdat dit een handmatig proces betreft, waarbij onze engineers alle racks moeten controleren kost het enige tijd om voor alle klanten de verbinding te herstellen.

12:04: Alle shared colocatie, semi en full private racks in zaal A hebben weer netwerkverbinding.

Vanaf dit moment zijn alle servers in zaal A via Leaf2 verbonden met coreswitch2. We weten dat het probleem zich bevindt tussen Leaf1 en coreswitch1. De situatie is stabiel, echter is hierdoor de netwerkverbinding op dit moment niet redundant. We houden de situatie nauwlettend in de gaten. Samen met onze hardwareleveranciers bekijken we de vervolgstappen om de redundantie zo snel mogelijk weer te herstellen.

We betreuren deze situatie ten zeerste en houden je in de komende dagen uiteraard op de hoogte van de vervolgstappen die we gaan ondernemen.