Interrupção no serviço isaCloud 2026-02-06 🐞

Reading Time: 2 minutes

Na madrugada de hoje, 06/02/2026, o serviço do isaCloud ficou indisponível às 01:45:

Nesse momento, recebemos o alerta, porém devido a um impeditivo (muito sono), não foi iniciada nenhuma investigação.

Às 6:40 iniciamos o troubleshooting e percebemos que o container que roda o serviço do isaCloud no servidor primário estava parado, com código de saída 137. O mesmo não reiniciava sozinho porque ele é configurado para política restart: unless-stopped. E isso já era um indicativo 🕵️‍♀️.

Percebemos que ao iniciar o container novamente, o mesmo sempre parava após alguns segundos – impreterivelmente.

Eventualmente isso ocorre com containers em caso de shared memory sendo excedida – e daí o container para. Fizemos o ajuste no docker-compose.yaml para setar um shm_size maior que o padrão do Docker que é muito pequeno. E então…. nada.

Imaginamos que poderia estar ocorrendo algum bug inesperado na versão do Docker. Foi feito update dos pacotes e….RÁ! Nada…

Foi então que começamos a desligar outros mecanismos que funcionam em conjunto com o serviço do isaCloud. Paramos o lsyncd e o novíssimo isaCloud HA Manager. E então…. FUNCIONOU, o container não caiu mais.

Pois bem, eram 7:20 e era hora de tomar banho e sair pro escritório.

Chegando no escritório fomos investigar os logs do lsyncd e do isaCloud HA Manager.

O log do lsyncd aparecia um shutdown limpo, com SIGTERM, padrão. Próximo log a ser investigado era do isaCloud HA Manager (que está em validação ainda).

Ao olhar o log do isaCloud HA Manager, no horário das 01:45 da manhã…

A verificação de DNS externa do IP para onde o isaCloud está apontando começou a falhar. O serviço ipinfo.io parou de responder as requisições, gerando um valor inconsistente para a variável que contém o IP atual (nil) e por um bug, ao invés do isaCloud HA Manager abortar a rotina que assegura a role do servidor (primário ou standby), ele seguiu adiante entendendo que o servidor era standby e, com isso, parava o container do serviço.

Pois é… se a Cloudflare e a AWS estão sujeitas a bugs que geram impacto em seus serviços, o isaCloud também 😇.

O código do isaCloud HA Manager que estava em testes vai ser corrigido, criando condições melhores para tratamento de erros bobos como esse, especialmente quando é alguma rotina que depende de um serviço externo.

Aprendizados

Dos aprendizados desse incidente, temos:

  • Ser mais inteligente na hora de programar 🫏
  • Continuar firme sem vibe coding
  • Jamais parar de evoluir o serviço para que ele continue sendo confiável

Com carinho,

Isadora,
The XMPP Lady (fail edition)