Às 12:36 (BRT) de 23/09/2020 foi reportado por algumas empresas no grupo de WhatsAPP “ReclameAQUI 20 anos” que o sistema do HugMe estava fora do ar. Quando um agente de suporte efetuou testes de disponibilidade às 12:38 (BRT) o funcionamento da plataforma apresentava comportamento normal de disponibilidade. Ao investigarmos, nosso sistema de observabilidade/monitoria apontou um pico de latência média das requisições. Esse pico de latência iniciou as 12:30, teve seu ápice às 12:33 e normalizou às 12:35 (retornou ao padrão de operação).
Causa raiz
O incidente foi em nosso gateway que faz a comunicação do cliente com o sistema. Houve uma saturação dos recursos do gateway, ou seja, mais demanda do a capacidade de processamento durante o período do incidente. O processo de auto escala responsável por lançar automaticamente mais recursos sempre que necessário não conseguiu responder no tempo necessário para evitar o incidente.
Resolução e recuperação
A orquestração da infraestrutura percebendo a degradação da latência, iniciou seu processo de auto escala. Às 12:31 (BRT) escalou automaticamente os recursos do gateway, e às 12:35 (BRT) a plataforma se adequou ao volume maior, e voltou a operar normalmente. Iremos reavaliar a política de auto escala para entender quais pontos podem ser melhorados para evitar incidentes semelhantes.