Aantal omgevingen onbereikbaar
Incident Report for Simplicate
Postmortem

Wat is er gebeurd?

In de avond van donderdag 8 op vrijdag 9 februari 2024 hebben we zoals aangekondigd buiten kantooruren een groep klanten verhuisd naar onze nieuwe AWS hosting omgeving. Na de geautomatiseerde en handmatige controle die we altijd na zo’n stap uitvoeren, leek alles naar behoren te werken. Later in de nacht (als wij geplande automatische achtergrondtaken uitvoeren) heeft onze monitoring gedetecteerd dat onze AWS hostingomgeving onverwacht te veel belast werd en dat prestaties achteruit gingen. Hierdoor was vanaf vrijdagochtend een gedeelte van de omgevingen niet te bereiken. Op vier klantomgevingen na was alles in de middag weer beschikbaar. Tot de nacht van 13 februari waren bepaalde functies in Simplicate die in AWS draaien trager dan gewend.

Hoe weet ik of ik al op AWS gehost ben?

Als je nog geen bericht hebt gehad met een specifieke datum van de verhuizing, dan draait jouw omgeving nog niet op AWS en heb je geen last van dit probleem gehad.

Wat was er technisch aan de hand?
We hebben na zorgvuldig onderzoek twee problemen gevonden:

Ten eerste hebben we last gehad van een cache database die niet goed was geconfigureerd. Deze cache database (Redis / Elasticache) versnelt veel voorkomende queries (database verzoeken). Maar doordat deze database nog niet automatisch mee kon schalen, was de capaciteit te klein voor alle nieuwe omgevingen en ontstond een bottleneck die alles vertraagde.

Ten tweede is er tijdens het verhuizen van een aantal Simplicate omgevingen metadata van de bijbehorende primaire database verloren gegaan (InnoDB Table en Index stats). Dit is geen inhoudelijke bedrijfsdata, maar metadata die nodig is om queries efficiënt te laten verlopen. Doordat deze data miste, duurden sommige verzoeken die normaal in een aantal milliseconden klaar zijn, plots meer dan een uur. Dit was een complex probleem dat veel aandacht nodig had om te vinden.

Hoe is het probleem opgelost?

Ten eerste hebben we vrijdagochtend gelijk handmatig meer capaciteit toegevoegd voor de cache database zodat deze geen bottleneck meer is voor het hele platform. Tegelijk hebben we wat zware omgevingen teruggezet naar onze oude hosting omgeving. Dit proces is (voorafgaand aan de migratie) getest en kwam nu goed van pas. Dit zorgde ervoor dat omgevingen op AWS weer beschikbaar kwamen. Dit was een tijdelijke oplossing, want op sommige drukke momenten werden wat omgevingen alsnog te traag. Op 15 februari hebben we een permanente oplossing uitgerold, waarbij de cache database capaciteit automatisch op- en afschaalt. Hiervoor was een software aanpassing nodig die we eerst hebben getest. Hierna hebben we geen klachten meer ontvangen en was ook onze monitoring stabiel.

Daarnaast hebben we na veel trial & error op 13 februari als definitieve oplossing voor het tweede probleem de metadata van alle primaire databases op AWS herberekend. Daarna zagen we dat ook op dat vlak de prestaties weer waren hersteld.

Hoe voorkomen we dat het in de toekomst niet nog een keer gebeurt?

Ten eerste hebben we nu voldoende capaciteit voor de cache database, een duurzame automatisch meeschalende oplossing is getest en uitgerold. We hebben onze monitoring uitgebreid met de opgedane kennis, want we weten nu nog beter welke metrics er in de gaten gehouden moeten worden.

Ten tweede zorgen we ervoor dat na elke volgende verhuizing naar AWS de metadata van de primaire database preventief herberekend wordt. Daarnaast controleren we na elke volgende migratie extra of de metadata klopt en niet voor prestatieproblemen zorgt.

De verhuizing van klantomgevingen naar AWS is 19 februari hervat en we zien dat bovenstaande maatregelen succesvol werken.

Tot slot

We vinden het vervelend dat, ondanks zorgvuldig ontwerpen, testen en handelen, Simplicate een tijdje niet te gebruiken was. Uiteraard doen we er alles aan om van dit incident te leren en dit soort problemen in de toekomst te voorkomen.

Heb je ondanks dit bericht nog vragen? Neem dan gerust contact op via support@simplicate.nl, 088 - 5200 - 500 of de chat in je omgeving.

Posted Feb 20, 2024 - 10:00 CET

Resolved
This incident has been resolved.

Een verdere uitleg over de oorzaak volgt nog.
Posted Feb 12, 2024 - 14:23 CET
Monitoring
Simplicate lijkt voor iedereen weer bereikbaar. Onze engineers monitoren de situatie nauwlettend.

Meer informatie volgt op een later moment.
Posted Feb 09, 2024 - 14:23 CET
Update
We are continuing to investigate this issue.
Posted Feb 09, 2024 - 09:36 CET
Investigating
Een aantal Simplicate-omgevingen zijn momenteel niet te bereiken. Dit is niet voor alle klanten het geval, maar voor een deel.

Onze engineers doen onderzoek naar de oorzaak van het probleem en hoe dit is op te lossen. Zodra er meer informatie is, zullen we dat op deze pagina delen.
Posted Feb 09, 2024 - 09:14 CET
This incident affected: Webapplicatie.