Resumo do Incidente
* Data/Hora do Impacto: 24/10/2025 – entre 14h05 e 17h59m
* Serviços afetados: Acesso ao serviço via internet
* Duração: 3h54m
* Impacto percebido: intermitência de acesso aos serviços hospedados durante o período do incidente.
Foi observada intermitência de acesso aos serviços no DC SP1, com períodos de restabelecimento parcial seguidos de novas degradações.
Durante todo o período, os times técnicos atuaram continuamente na análise e mitigação do problema.
#Linha do tempo resumida
14h05: Monitoramento detecta perda intermitente de conectividade para parte dos serviços no DC SP1.
14h15: Times técnicos de rede e infraestrutura iniciam investigação conjunta.
15h00 – 17h00: Diversas ações de mitigação são aplicadas, incluindo forçar o tráfego por outras
operadoras, mas sem resultado efetivo devido à amplitude do impacto no backbone da Cirion.
17h20: Confirmada a instabilidade generalizada na rede da operadora Cirion.
17h40: Decisão técnica de isolar completamente a Cirion da malha de conectividade, após esgotadas
todas as alternativas seguras de reroteamento.
17h59: Ambiente estabilizado e tráfego restabelecido por rotas alternativas.
#Causa Raiz
A causa raiz foi instabilidade na rede da operadora Cirion, que afetou o roteamento de parte significativa do tráfego de internet.
Devido à extensão do backbone da Cirion e sua interconexão com outras operadoras, as rotas alternativas também apresentaram degradação, tornando o diagnóstico e a mitigação mais complexos.
A decisão de isolar a Cirion exigiu cautela e validações adicionais, uma vez que trata-se de um provedor de grande abrangência, e o isolamento poderia afetar clientes indiretos conectados a esse backbone.
#Ações Corretivas
* Isolamento completo da operadora Cirion da malha de tráfego, após validação de rotas alternativas estáveis.
* Ajuste de políticas de roteamento para priorizar caminhos redundantes.
* Monitoramento intensificado da conectividade externa.
#Próximos Passos
Solicitamos a operadora o detalhamento técnico da falha em seu backbone.
#Situação atual
Os serviços estão operando normalmente desde 17h59, com monitoramento contínuo ativo e sem novas ocorrências registradas
#Conclusão
O incidente evidenciou a importância de decisões criteriosas em eventos que envolvem operadoras de grande abrangência, como a Cirion, onde ações precipitadas poderiam ampliar o impacto.
Apesar da complexidade do cenário e da propagação do problema em múltiplas rotas, o isolamento controlado da operadora afetada resultou na plena recuperação do ambiente.
Reforçamos o nosso compromisso em manter transparência, redundância e melhoria contínua em sua malha de conectividade, garantindo a resiliência e disponibilidade dos serviços frente a eventos externos de grande escala.