Apêndice E - Lista de verificação de coordenação de lançamento

Esta é a lista de verificação original da coordenação de lançamento do Google, por volta de 2005, ligeiramente abreviada para ser conciso:

Arquitetura

Máquinas e datacenters

Estimativas de volume, capacidade, e desempenho

Estimativas de tráfego e largura de banda HTTP, “pico” de lançamento, mix de tráfego, 6 meses fora
Teste de carga, teste de ponta a ponta, capacidade por datacenter com latência máxima
Impacto em outros serviços com os quais mais nos preocupamos
Capacidade de armazenamento

Confiabilidade e failover do sistema

O que acontece quando:

Para cada tipo de servidor que se comunica com outros servidores (seus backends):

Como detectar quando os backends morrem, e o que fazer quando morrem
Como terminar ou reiniciar sem afetar clientes ou usuários
Balanceamento de carga, limitação de taxa, tempo de espera, repetição e comportamento de tratamento de erros

Backup/restauração de dados, recuperação de desastres

Monitoramento e gestão de servidores

Monitoramento do estado interno, monitoramento do comportamento de ponta a ponta, gestão de alertas
Monitoramento do monitoramento
Alertas e logs financeiramente importantes
Dicas para executar servidores em ambiente de cluster
Não bloqueie os servidores de e-mail enviando a si mesmo alertas de e-mail em seu próprio código de servidor

Segurança

Revisão da design de segurança, auditoria de código de segurança, risco de spam, autenticação, SSL
Pré-lançamento da visibilidade/controle de acesso, vários tipos de listas negras

Automação e tarefas manuais

Métodos e controle de alterações para atualizar servidores, dados, e configurações
Processo de lançamento, construções repetíveis, canários sob tráfego ao vivo, lançamentos em etapas

Questões de crescimento

Capacidade de reserva, 10x crescimento, alertas de crescimento
Gargalos de escalabilidade, escalas lineares, escalas com hardware, alterações necessárias
Cache, fragmentação/reestilhaçamento de dados

Dependências externas

Sistemas de terceiros, monitoramento, rede, volume de tráfego, picos de lançamento
Degradação graciosa, como evitar a ultrapassagem acidental de serviços de terceiros
Jogar bem com parceiros sindicalizados, sistemas de e-mail, serviços dentro do Google

Programação e planejamento da implementação