Our services are unavailable

Incident Report for SMSFactor

Postmortem

English version 🇬🇧

Overview

Starting at 12:24 CET the 2nd of February, we noticed our frontend application server being slow to respond and handle requests. After investigating, we realized we were receiving an unusual amount of incoming requests, resulting in a DDOS scenario.

Timeline (CET)

12:24 - Our front server is receiving unusual amount of incoming requests.
12:25 - We start working on it and try to figure out the source of the incoming requests
12:45 - The consistent incoming requests started creating 'Too many open files' errors on our server, making all applications unable to work properly. We then deciding the temporary cut the traffic so that we could let the server go back to a normal state while identifying the source of the large amount of requests.
12:52 - The server is running back again as expected and the source of the large amount of requests has been handled.

Duration

Start: 12:24 CET
Stop: 12:52 CET
Downtime: Yes
Downtime duration : 7 minutes

Follow-up action items

The source of the requests was legit as it wasn’t an attack of some sort. We were just unable to handle such an amount. We already took measures to ensure it won’t happen again by moving components to a different server to better load-balance the traffic. ‌

Version française 🇫🇷

Aperçu

À partir de 12h24 CET le 2 février, nous avons remarqué que notre serveur d'application frontal était lent à répondre et à traiter les demandes. Après enquête, nous avons réalisé que nous recevions un nombre inhabituel de demandes entrantes, ce qui a provoqué un scénario de DDOS.

Chronologie (CET)

12h24 - Notre serveur frontal reçoit un nombre inhabituel de requêtes entrantes.
12h25 - Nous commençons à travailler dessus et essayons de déterminer la source des requêtes entrantes.
12h45 - Les requêtes entrantes constantes ont commencé à générer des erreurs de type "Too many open files" sur notre serveur, rendant toutes les applications incapables de fonctionner correctement. Nous avons alors décidé de couper temporairement le trafic afin de permettre au serveur de revenir à un état normal tout en identifiant la source du grand nombre de requêtes.
12h52 - Le serveur fonctionne à nouveau comme prévu et la source du grand nombre de requêtes a été gérée.

Durée

Début : 12h24 CET
Fin : 12h52 CET
Indisponibilité : Oui
Durée de l'indisponibilité : 7 minutes

Actions de suivi

La source des requêtes était légitime car il ne s'agissait pas d'une attaque malveillante. Nous n'étions simplement pas en mesure de gérer une telle quantité. Nous avons déjà pris des mesures pour nous assurer que cela ne se reproduira pas en déplaçant certains composants vers un autre serveur afin de mieux équilibrer la charge du trafic.

Posted Feb 05, 2024 - 11:20 CET

Resolved

This incident has been resolved.

Posted Feb 02, 2024 - 15:48 CET

Monitoring

A fix has been implemented and we are monitoring the results.

Posted Feb 02, 2024 - 12:57 CET

Investigating

We are currently investigating this issue.

Posted Feb 02, 2024 - 12:50 CET

This incident affected: API, Customers Portal, Webhooks, Reminder, Mail2SMS, and VLN.