Bem-vindo à TOP TIER INFRASTRUCTURE.

contato@toptier.net.br

Notícia

Artigo #03 Mar/2018 - RESPOSTAS PÓS-EVENTOS, FALHAS E QUASE FALHAS EM DATA CENTERS


Artigo #03 Mar/2018 - RESPOSTAS PÓS-EVENTOS, FALHAS E QUASE FALHAS EM DATA CENTERS
É necessário restaurar os serviços com segurança, preservar as informações, prevenir futuras interrupções e relatar com precisão todos os eventos para o perfeito entendimento dos gestores e justificar investimentos em sistemas mais resilientes 

DCD - 26 March 2018 escrito por José Roberto da Silva e Luís V. R. Dória

http://www.datacenterdynamics.com.br/focus/archive/2018/03/respostas-p%C3%B3s-eventos-falhas-e-quase-falhas-em-data-centers

É certo que quando ocorre uma interrupção nos serviços do Data Center, todas as ações serão tomadas no sentido de restabelecer a operação no menor tempo possível. Já mencionamos no artigo anterior os processos e procedimentos que devem estar vigentes, comunicados, acessíveis e treinados para garantir que ações coordenadas sejam tomadas (ex: EOPs, CMP e BC/DR, entre outros).
 
Nosso foco neste artigo são os eventos relacionados a facilities de Data Center, porém as equipes de operação e manutenção de facilities também participarão ativamente dos eventos relacionados a TI, telecomunicações, ciberataques e outros eventos externos que afetem a disponibilidade do Data Center. 
 
Como diretriz básica após um evento de indisponibilidade do Data Center deve-se, pela ordem, restaurar os serviços com segurança, preservar as informações para a realização de Análise de Causa Raiz (RCA), prevenir futuras interrupções de causa semelhante em todos os Data Centers da organização e relatar com precisão todos os eventos de falha ou quase falha para o perfeito entendimento dos gestores e para justificar investimentos em sistemas mais resilientes e na capacitação de profissionais.
 
Após uma interrupção, há uma urgência por parte de todo pessoal envolvido para corrigir discrepâncias e "voltar ao normal" o mais rápido possível. É importante, no entanto, documentar fatos e condições que cercam a interrupção para facilitar a Análise de Causa Raiz (RCA - Root Cause Analysis). É igualmente importante que ações adequadas e racionais sejam tomadas durante o processo de reinicialização. Interrupções podem ser alongadas ou agravadas por tentativas frenéticas para reiniciar equipamentos ou sistemas, entretanto, muitas interrupções de carga crítica podem ser atenuadas ou evitadas por ações de restauração rápidas por parte do pessoal habilitado do Data Center, especialmete com uso de procedimentos formais, se disponíveis, sem colocar as cargas críticas em um risco maior.
 
Para evitar a repetição de um evento, é fundamental: identificar e classificar adequadamente a ocorrência, entender as causas ou os fatores de contribuição, avaliar o impacto nas operações de TI, elaborar relatório detalhado e planejar ações de melhorias ou inovações de processos e procedimentos. 
 
Os eventos são classificados em interrupções não programadas, ou outages, onde há indisponibilidade da carga crítica e em quase falhas, ou eventos salvos que, quer por característica de projeto (ex: redundância) ou por ação da equipe de operação e manutenção, não redundaram em indisponibilidade de TI.
 
Na sequência de um evento deve-se iniciar o processo de relatório com os dados coletados a partir das 24 horas anteriores. Todos os logs de equipamentos e ações detalhadas das equipes envolvidas devem ser relatados para entendimento do evento e determinação da causa raiz ou dos fatores de contribuição. Conhecer como cada evento afeta ou tem potencial de afetar a carga crítica ajuda a elaborar um plano de ações com intuito de evitar a repetição do evento e até determinar o fim de vida útil de equipamentos ou mudanças de tecnologia ou ainda, de fornecedor. 
 
É bastante natural que as organizações concentrem esforços no entendimento de um outage e que não gastem tempo na análise dos eventos salvos, mas estes também podem revelar vícios de projeto, falhas de sistemas e erros em procedimentos, às vezes, encobertos por redundâncias das instalações.
 
Em decorrência das análises de eventos, deve-se criar um processo de Lições Aprendidas para determinar aprimoramentos em treinamentos e processos e alimentar uma base de conhecimento para que os demais Data Centers da organização revejam suas operações e eliminem potenciais riscos de indisponibilidade dentro de um programa de Zero Downtime.
 
*José Roberto da Silva CETa, CET, CEM, CEA e Luís V. R. Dória, CETa, CET, CEM, CEA são diretores da Top Tier Infrastructure.

Designer by Neoware - Criação e Desenvolvimento de Websites e Sistemas - Desafie nossa Criatividade