Data center da AWS em Frankfurt sofre falha e fica inativo por cerca de três horas

Data center da AWS em Frankfurt sofre falha e fica inativo por cerca de três horas

O data center de Frankfurt foi evacuado devido a uma falha do sistema que resultou na ativação de um sistema de supressão de incêndio 

A Amazon Web Services (AWS) teve uma das suas zonas de disponibilidade em Frankfurt desligada durante cerca de três horas, quando os sistemas de circulação de ar apresentaram uma falha. O incidente aumentou quando um sistema de supressão de incêndio foi acionado e o data center teve que ser evacuado.

O sistema de supressão de incêndio removeu o oxigênio do ar, por isso, por um período de mais ou menos uma hora, a equipe não conseguiu entrar no data hall para consertar a falha, deixando a paralisação mais longa. Todos os sistemas estão operando normalmente agora, de acordo com a página de status da AWS. Como ela era apenas uma zona de disponibilidade, o impacto sobre os clientes foi limitado.

A interrupção começou quando problemas de conectividade para as instâncias do EC2 e altas taxas de erro começaram a ser relatados. A causa da interrupção foi uma falha do sistema que tirou os manipuladores de ar e permitiu que a temperatura aumentasse.

O relatório da Amazon sobre o incidente em Frankfurt afirmou que “Servidores e equipamentos de rede na zona de disponibilidade afetada começaram a desligar quando temperaturas inseguras foram atingidas”. O ocorrido tornou-se mais sério quando múltiplos switches redundantes desligaram. “Um número maior de instâncias EC2 nesta única zona de disponibilidade perdeu a conectividade de rede.”

A equipe da provedora conseguiria facilmente ter corrigido o problema de tratamento de ar antes que qualquer um dos serviços de TI fossem afetados, se não por um problema, afirma a AWS: “Embora nossos operadores normalmente seriam capazes de restaurar o resfriamento antes do impacto, um sistema de supressão de incêndio foi ativado dentro de uma seção da zona de disponibilidade afetada.”

Este sistema de supressão é geralmente ativado quando detecta fumaça, portanto, não deveria ter sido ativado pelo aumento da temperatura da instalação. No entanto, o data center foi “evacuado e lacrado”. Além disso, segundo o site Data Center Dynamics, foi liberado um produto químico que removeria o oxigênio, que teria apagado qualquer incêndio, se acontecesse algum.

Como o alarme de incêndio foi acionado, a equipe não conseguiu fazer nada por um tempo. Para a volta das atividades, o corpo de bombeiros teve que determinar que o local era seguro e, depois, o local teve que tornar-se habitável por humanos mais uma vez: “Para recuperar as instâncias impactadas e os equipamentos de rede, tivemos de esperar até que o corpo de bombeiros pudesse inspecionar a instalação. Depois que o corpo de bombeiros determinou que não havia incêndio no data center e que era seguro retornar, o prédio precisava ser reoxigenado antes de ser seguro para os engenheiros entrarem na instalação e restaurar o equipamento de rede afetado e os servidores.”

Depois do resfriamento, tudo foi se encaixando no seu lugar novamente, exceto alguns poucos volumes que foram afetados, comenta a AWS: “Continuamos a trabalhar para recuperar as últimas instâncias e volumes afetados e abrimos notificações para os clientes afetados restantes por meio do Personal Health Dashboard. Para recuperação imediata desses recursos, recomendamos a substituição de quaisquer instâncias ou volumes afetados restantes, se possível.”

Enquanto isso, o sistema de supressão de incêndio foi desativado. “Este sistema permanecerá inativo até que possamos determinar o que o acionou de maneira inadequada”, afirmou a AWS. Além disso, a provedora comentou que “medidas alternativas de supressão de incêndio estão sendo usadas para proteger o data center”.

Fonte: Data Center Dynamics

Imagem: Tech Monitor




Não há comentários neste post

Adicione a sua sua