Máquina de pedidos, como parte de nossa BMaaS abordagem (que Bare Metal como um Serviço).

 

Quem somos nós?

 

Antes de mergulhar a nova ferramenta construímos, deixe-me apresentar a nossa equipe.

 

Somos uma equipe de 4 DevOps engenheiros baseados em Israel, o gerenciamento de um ambiente local de 7000 bare metal servidores através de 3 Centros de Dados NOS eua.

 

Mas há um pouco mais para ele. Quando dizemos 7000 servidores, que inclui:

 

cerca de 20 diferentes modelos de servidor

 

mais de 100 diferentes modelos de disco

 

…cartões de memória

 

…CPUs

 

…placas raid

 

..NICs

 

…PSUs

 

…e uma combinação de todas as anteriores

 

Portanto, há um monte de opções de configuração de hardware e um monte de valorização dos servidores.

 

Uma vez que estamos localizados no Brasil e em nossos Centros de Dados estão localizados na Europa, em cada Centro de Dados, há uma equipe de suporte 24/7 disponível para lidar com tudo no lado físico. Eles assumem o papel de nossa Remoto “Mãos e Olhos” com qualquer um no local de trabalho relacionadas. Eu vou tratá-los como “Remoto Mãos” neste post do blog.

 

O que fazer?

 

Nós dividimos o nosso trabalho em 3 principais tipos de tarefas:

 

As mudanças planejadas – Nossa alterações previstas são geridos no Jira e está principalmente relacionado com o hardware bilhetes aberto por nossos clientes – principalmente engenheiros da Plataforma em Nuvem do grupo. Costumamos dividir estes bilhetes em 3 tipos de tarefas:

 

atualizações de hardware

 

solicitações de serviço

 

máquina de pedidos (que vamos discutir em mais detalhes mais tarde)

 

Estes podem ser de atualizar os recursos de um servidor, trabalhando em uma suspeita de problema de hardware ou criação de um novo cluster completamente.

 

Alterações imprevistas , Tudo o que tem que ser feito Agora. Durante o horário de trabalho pode ser uma tarefa gerenciada no Jira como um bloqueio/crítica bilhete. Durante horas, ele pode ser um PagerDuty de alerta.

 

Projetos internos – Projetos que nossa equipe inicia e decide gerir. Estas são, geralmente, as tarefas que nossos clientes não conhece ou não gosta muito, mas essas tarefas são mais interessantes e fazer nossa a vida dos usuários e a nossa vida muito melhor. Em essência, nossos projetos internos impedir alterações imprevistas e faça as alterações previstas mais fácil de executar. A nova ferramenta vou discutir cai nesta categoria.

 

Se você gostaria de saber mais sobre quem somos e como fazemos as coisas, altamente recomendo que você siga nossa página no Avance Network

 

O desafio

 

Olhando para trás, há um ano que as nossas tarefas foram distribuídas assim:

 

As mudanças planejadas – 75%

 

Alterações imprevistas – 15%

 

Projetos internos – 10%

 

Isso significa que 90% do trabalho foi o trabalho manual e 10% foram projetos voltados para automação. O significado de ambos era relativamente lento na entrega, muito espaço para erros humanos e frustração, devido à elevada natureza repetitiva a maior parte do trabalho. Simplesmente coloque, ele apenas não escala.

 

A nossa solução para este problema foi a formulação de uma visão, e apresentá-lo para os nossos clientes a obter o seu buyin. Nossos clientes concordaram em tomar uma batida, os prazos de entrega de seus pedidos, para que pudéssemos foco em projetos internos categoria”, com a intenção de investir em automação, e, portanto, a velocidade e robustez de nossa execução.

 

Nós decidimos dar para a construção de tantos processos automatizados quanto possível, a fim de minimizar a quantidade de tempo gasto nas alterações planejadas e não planejadas alterações, uma vez que muitas dessas tarefas apareceu para se prestam muito bem para a automação.

 

O “antes” da foto

 

 

Quando iniciamos nossa viagem em direção a automação, o processo de escolher o mais adequado de servidores para a máquina pedido nos levou um monte de tempo.

 

 

 

Que ficou assim:

 

 

Verificação de hardware disponíveis e verificar se temos livre suficiente de servidores para atender a solicitação

 

Escolha o mais adequado hardware com cuidado (e manualmente) assegurar a restrições de hardware são cumpridas (adequado servidor de fator de forma, o suporte para o número necessário de unidades, adaptador RAID, etc)

 

Reserva de servidores em caráter temporário alocação de pool de modo que ninguém mais vai usá-los para algo mais como eles estão sendo trabalhadas

 

Alocar as peças relevantes em nosso sistema de inventário

 

Enviar a configuração de destino nas Mãos Remotas sistema de gestão que tínhamos construído, para que o nosso técnico gostaria de ter a informação necessária para a tarefa (configuração de servidor de e peças necessárias)

 

Abra um ticket com as informações relevantes (localizações do servidor, número de série, etc) para o local Remoto Mãos da equipe, para começar a trabalhar sobre as alterações de configuração de hardware

 

Tudo isso tinha que ser feito antes de qualquer trabalho prático no hardware mesmo de começar.

 

Além disso, nós também teve de lidar com as falhas no fluxo:

 

erros de configuração

 

incompatibilidades de hardware

 

erros humanos

 

peças com defeito

 

 

 

O “depois” da imagem

 

 

O processo já havia trabalhado, mas levou muito tempo, às vezes, o máximo de horas por pedido, dependendo de quantos servidores foram solicitados e que mudanças eram necessárias para a sua configuração.

 

Enquanto nós tínhamos um conjunto de ferramentas que ajudaram a nos levar para esta fase, muito melhor que no processo anterior tivemos, o que poderia levar dias para a grande pedidos ele iria nos manter à tona, mas ainda são necessários para o trabalho manual que parecia totalmente desnecess&aacut