Você olha para o relógio, vários pensamentos passando por sua cabeça. Por que eu? Porque agora? Qual foi o último resultado do teste de invasão? Como você leva a equipe para fora desta catástrofe de TI e sobrevive para contar sobre ela? Esta é minha história, minha luta pessoal com as “leis Murphy” da TI e como todos podemos nos beneficiar disso.

Era uma segunda-feira, com a qual você sabe que precisa ser extremamente cuidadoso. É sempre o início de semana de trabalho ou bem no meio da noite. (Nenhuma catástrofe de TI acontece quando é conveniente para você, certo? Eles sempre se agrupam e se aglomeram nos momentos mais difíceis.) De qualquer forma, é segunda-feira o fim do dia e vários sistemas simplesmente escurecem. Você obtém aquele toque específico que configurou para o PagerDuty e ele simplesmente não para de tocar. Você sente ‘”A sensação”. Você sabe que está se conectando a uma situação ruim. Ah, e ele já está no meio do seu limite (como é o caso também do Covid-19) e as coisas estão difíceis.

Conectando-se à VPN (suspiro de alívio, a solução VPN dupla em 2 centros de dados diferentes está funcionando) e os painéis básicos mostram que os serviços front-end estão operacionais, mas o procedimento de sala de guerra foi acionado. Isso significa que o monitoramento definido para um evento de tempo de inatividade em grande escala foi correspondido. Enquanto você está se conectando à video chamada, você recebe a seguinte mensagem no canal do grupo de trabalho para incidentes de produção – “Não há energia no data center de back-end”. Agora tudo começa a cair no lugar, os vários alertas, os serviços que estão fora do ar e todas as possíveis coisas ruins que ainda estão por vir. Espere, mais uma coisa chama sua atenção. É a mensagem direta do grupo de logística do data center no telefone. Agora, você já sabe que não há energia, então esta mensagem agora é uma prioridade mais alta do que outras e você abre esse tópico: há algum texto e uma imagem. Pulando o texto, você abre a imagem e vê que os bombeiros estão no data center. Muitas coisas passam pela sua mente, mas pelo menos não tem mangueiras e você não vê água em lugar nenhum da imagem.

 

Gerente de crise

 

Em primeiro lugar, sou o gerente de crise, portanto, obter informações e priorizar ações é meu trabalho. Eu diria algo como “Aviar, Navegar, Comunicar”, apenas para IT / SRE, mas não encontrei a sigla mágica que funciona para mim. Então, o que é importante ao gerenciar um incidente de TI em grande escala que pode evoluir para um tempo de inatividade total dos negócios?:

 

Quais serviços são afetados?

 

Qual é o motivo da interrupção do serviço?

 

Qual é o impacto comercial de cada interrupção do serviço? (para priorizar as próximas etapas)

Temos um plano para consertá-lo (cada interrupção que você identificar)?

Qual é a melhor maneira de comunicar à organização (e aos clientes, se necessário) o que sabemos e o que esperar?

 

As prioridades

 

Agora, nossa maior prioridade é a segurança e a vida humana. Isso pode soar pretensioso, pois somos uma empresa de software e não gerenciamos sistemas de suporte de vida, mas operamos centros de dados e são locais de alta energia com riscos de incêndio e sistemas de supressão de incêndio que não são amigáveis ​​aos humanos. Portanto, quando ficar claro que todos estão seguros e a equipe do data center não está em risco, nossa próxima prioridade é colocar os serviços de impacto comercial novamente online. Seja por meio do plano de DR ou apenas pela força bruta em meio aos desafios, é claro que há muito trabalho pela frente. Desde certificar-se de que temos forças-tarefa trabalhando nos problemas certos (são duas questões para gerenciar, montar a força-tarefa e priorizar as tarefas) para garantir que a consciência situacional seja a mais completa possível.

Antes de mergulhar no plano de jogo e neste incidente específico, é importante entender a regra do gerente de crise. O que essa pessoa faz e por que precisamos dessa pessoa sem mãos no teclado no teclado. Os engenheiros e cientista são mais do que capazes de resolver problemas, problemas complexos, especialmente se fizerem parte da equipe que está escrevendo o código. Nos últimos anos, com o movimento DevOps, tornou-se cada vez mais aceitável ter codificadores disponíveis e não apenas a equipe SRE. Algo parecido com “você construiu, é sua responsabilidade mantê-lo operacional”. Os cientistas, engenheiros (e especificamente os programadores entre eles) agora também fazem parte da equipe que garante que os serviços estejam funcionando. Ter pessoas de origens diferentes, equipes diferentes e abordagens diferentes para a resolução de problemas é ótimo! Também é um desafio. Resolver problemas na produção é muito diferente de trabalhar em um projeto. A pressão de tempo, as necessidades de SLA, as comunicações com a empresa e os diferentes grupos trabalhando para resolver o incidente agora também são fatores para fazer as coisas acontecerem. É por isso que você quer um gerente de crise. Depois de cruzar algum limite de escala (cada organização precisa definir esse limite), você deseja ter essa posição bem definida, para ajudar a direcionar o esforço de trabalho e trazer o problema para uma resolução rápida.

Os problemas de TI não são novidade. Até mesmo o termo “insetos” remonta à contra-almirante Grace Hopper dos anos 50 e às missões Apollo e outros lugares há mais de 50 anos. Com o surgimento do comércio eletrônico e dos serviços de Internet, o domínio do gerenciamento de serviços passou do trabalho de poucos para uma necessidade comercial que agora atinge quase todos os negócios. Encontrar estruturas ou metodologias de solução de incidentes de TI está bem documentado no ITSM, ITIL e outros padrões. Um que achei fácil de usar para os não iniciados está aqui (obrigado Atlassian pela publicação). Em nossa organização de TI, a regra dos gerentes de incidentes não é definida, mas definida no momento com base na disponibilidade do pessoal de plantão. Dito isso, temos uma pequena lista de pessoas de plantão que podem atuar nessa capacidade.

 

Resolvendo o problema

 

Voltando ao nosso incidente, então os bombeiros estão no local, já está claro que não temos energia