Our services are unavailable
Incident Report for SMSFactor
Postmortem

English version 🇬🇧

Overview

Starting at 07:50 CET the 20th December, the master SQL server became unreachable, making all applications using it useless.

Timeline (CET)

  • 07:50 - The master SQL server becomes unavailable
  • 08:15 - We start working on it and try to figure out what’s happening.
  • 08:30 - Considering we wouldn’t recover the master server, we started to initialize the procedure to upgrade a slave server to be the new master.
  • 08:50 - While working on the solution above, we rebooted the server through the provider interface before committing to the failover solution.
  • 09:10 - The master server is back online and available. Services are starting to get back up and running although the DB remains slow as it needs to warm up and cache data back into the RAM. Some services needed to be manually restarted to reset the DB connection. We eventually didn’t have to elect a new master.
  • 09:34 - All services are up and running as expected.

Duration

  • Start: 07:50 CET
  • Stop: 09:34 CET
  • Downtime: Yes
  • Downtime duration : 1h 44min

Follow-up action items

We should stop trusting our server provider as nothing is 100% safe and anything can happen at any time. We should have faster automatic database failover mechanism system instead of a manual one to elect a new master that we can only use with stress and fear during such moments.

Not only we will look for improvements over our ability to quickly switch the DB traffic to a newly elected master server, we’re also actively considering moving the database towards cloud services. Right now, everything is hosted on dedicated servers and incidents like that, plus the unreliability of the current provider, is no longer acceptable for us, and especially for you. We know how important being capable of offering the best service possible is and we can assure you we’re taking this mission very seriously. Thank you for your much appreciated patience. If you have any further questions, feel free to send an email to support@smsfactor.com.

‌

Version Française 🇫🇷

Aperçu

À partir de 07:50 CET le 20 décembre, le serveur SQL principal est devenu inaccessible, rendant toutes les applications l'utilisant inaccessibles.

Chronologie (CET)

  • 07:50 - Le serveur SQL principal devient indisponible
  • 08:15 - Nous commençons à travailler dessus et essayons de comprendre ce qu’il se passe.
  • 08:30 - Étant donné que nous pourrions ne pas récupérer le serveur principal, nous avons commencé à initialiser la procédure pour mettre à niveau un serveur slave pour qu'il devienne le nouveau serveur principal.
  • 08:50 - Tout en travaillant sur la solution ci-dessus, nous avons redémarré le serveur master via l'interface du fournisseur avant de nous engager dans la solution de basculement.
  • 09:10 - Le serveur principal est de nouveau en ligne et disponible. Les services commencent à se rétablir, bien que la base de données reste lente car elle doit s’échauffer et réinscrire les données du cache dans la RAM. Certains services ont dû être redémarrés manuellement pour réinitialiser la connexion à la base de données. Nous n'avons finalement pas eu à élire un nouveau maître.
  • 09:34 - Tous les services fonctionnent comme prévu.

Durée

  • Début : 07:50 CET
  • Fin : 09:34 CET
  • Temps d'arrêt : Oui
  • Durée de l'arrêt : 1h 44min

Actions de suivi

Nous devrions cesser de faire confiance à notre fournisseur de serveur car rien n'est fiable à 100% et n'importe quoi peut arriver à tout moment. Nous devrions avoir un système de basculement automatique de la base de données plus rapide et plus robuste plutôt qu'un système manuel pour élire un nouveau maître que nous ne pouvons utiliser qu'avec stress et crainte lors de tels moments.

Non seulement nous chercherons des améliorations pour pouvoir rapidement basculer le trafic de la base de données vers un nouveau serveur maître élu, mais nous envisageons également activement de déplacer la base de données vers des services cloud. Pour le moment, tout est hébergé sur des serveurs dédiés et des incidents comme celui-ci, ainsi que l'instabilité du fournisseur actuel, ne sont plus acceptables pour nous, et surtout pour vous. Nous savons à quel point il est important de pouvoir offrir le meilleur service possible et nous pouvons vous assurer que nous prenons cette mission très au sérieux. Merci beaucoup pour votre patience et votre compréhension. Si vous avez d'éventuelles questions, n'hésitez pas à envoyer un e-mail à support@smsfactor.com.

Posted Dec 20, 2023 - 17:27 CET

Resolved
This incident has been resolved.
Posted Dec 20, 2023 - 14:57 CET
Monitoring
A fix has been implemented and we are monitoring the results.
Posted Dec 20, 2023 - 09:44 CET
Update
We are continuing to work on a fix for this issue.
Posted Dec 20, 2023 - 09:33 CET
Identified
The issue has been identified and a fix is being implemented.
Posted Dec 20, 2023 - 09:12 CET
Investigating
We are currently investigating this issue.
Posted Dec 20, 2023 - 08:26 CET
This incident affected: API, Customers Portal, Webhooks, Operator Network, Reminder, Mail2SMS, and VLN.