Na madrugada de hoje, 06/02/2026, o serviço do isaCloud ficou indisponível às 01:45:

Nesse momento, recebemos o alerta, porém devido a um impeditivo (muito sono), não foi iniciada nenhuma investigação.
Às 6:40 iniciamos o troubleshooting e percebemos que o container que roda o serviço do isaCloud no servidor primário estava parado, com código de saída 137. O mesmo não reiniciava sozinho porque ele é configurado para política restart: unless-stopped. E isso já era um indicativo 🕵️♀️.
Percebemos que ao iniciar o container novamente, o mesmo sempre parava após alguns segundos – impreterivelmente.
Eventualmente isso ocorre com containers em caso de shared memory sendo excedida – e daí o container para. Fizemos o ajuste no docker-compose.yaml para setar um shm_size maior que o padrão do Docker que é muito pequeno. E então…. nada.
Imaginamos que poderia estar ocorrendo algum bug inesperado na versão do Docker. Foi feito update dos pacotes e….RÁ! Nada…
Foi então que começamos a desligar outros mecanismos que funcionam em conjunto com o serviço do isaCloud. Paramos o lsyncd e o novíssimo isaCloud HA Manager. E então…. FUNCIONOU, o container não caiu mais.
Pois bem, eram 7:20 e era hora de tomar banho e sair pro escritório.
Chegando no escritório fomos investigar os logs do lsyncd e do isaCloud HA Manager.
O log do lsyncd aparecia um shutdown limpo, com SIGTERM, padrão. Próximo log a ser investigado era do isaCloud HA Manager (que está em validação ainda).

Ao olhar o log do isaCloud HA Manager, no horário das 01:45 da manhã…

A verificação de DNS externa do IP para onde o isaCloud está apontando começou a falhar. O serviço ipinfo.io parou de responder as requisições, gerando um valor inconsistente para a variável que contém o IP atual (nil) e por um bug, ao invés do isaCloud HA Manager abortar a rotina que assegura a role do servidor (primário ou standby), ele seguiu adiante entendendo que o servidor era standby e, com isso, parava o container do serviço.
Pois é… se a Cloudflare e a AWS estão sujeitas a bugs que geram impacto em seus serviços, o isaCloud também 😇.
O código do isaCloud HA Manager que estava em testes vai ser corrigido, criando condições melhores para tratamento de erros bobos como esse, especialmente quando é alguma rotina que depende de um serviço externo.
Aprendizados
Dos aprendizados desse incidente, temos:
- Ser mais inteligente na hora de programar 🫏
- Continuar firme sem vibe coding
- Jamais parar de evoluir o serviço para que ele continue sendo confiável
—
Com carinho,
Isadora,
The XMPP Lady (fail edition)
