Esta é a lista de verificação original da coordenação de lançamento do Google, por volta de 2005, ligeiramente abreviada para ser conciso:
Arquitetura
- Esboço de arquitetura, tipos de servidores, tipos de solicitações de clientes
- Solicitações programáticas de clientes
Máquinas e datacenters
- Máquinas e largura de banda, datacenters, redundância N+2, QoS de rede
- Novos nomes de domínio, balanceamento de carga DNS
Estimativas de volume, capacidade, e desempenho
- Estimativas de tráfego e largura de banda HTTP, “pico” de lançamento, mix de tráfego, 6 meses fora
- Teste de carga, teste de ponta a ponta, capacidade por datacenter com latência máxima
- Impacto em outros serviços com os quais mais nos preocupamos
- Capacidade de armazenamento
Confiabilidade e failover do sistema
O que acontece quando:
- A máquina morre, o rack falha, ou o cluster fica offline
- Falha na rede entre dois datacenters
Para cada tipo de servidor que se comunica com outros servidores (seus backends):
- Como detectar quando os backends morrem, e o que fazer quando morrem
- Como terminar ou reiniciar sem afetar clientes ou usuários
- Balanceamento de carga, limitação de taxa, tempo de espera, repetição e comportamento de tratamento de erros
Backup/restauração de dados, recuperação de desastres
Monitoramento e gestão de servidores
- Monitoramento do estado interno, monitoramento do comportamento de ponta a ponta, gestão de alertas
- Monitoramento do monitoramento
- Alertas e logs financeiramente importantes
- Dicas para executar servidores em ambiente de cluster
- Não bloqueie os servidores de e-mail enviando a si mesmo alertas de e-mail em seu próprio código de servidor
Segurança
- Revisão da design de segurança, auditoria de código de segurança, risco de spam, autenticação, SSL
- Pré-lançamento da visibilidade/controle de acesso, vários tipos de listas negras
Automação e tarefas manuais
- Métodos e controle de alterações para atualizar servidores, dados, e configurações
- Processo de lançamento, construções repetíveis, canários sob tráfego ao vivo, lançamentos em etapas
Questões de crescimento
- Capacidade de reserva, 10x crescimento, alertas de crescimento
- Gargalos de escalabilidade, escalas lineares, escalas com hardware, alterações necessárias
- Cache, fragmentação/reestilhaçamento de dados
Dependências externas
- Sistemas de terceiros, monitoramento, rede, volume de tráfego, picos de lançamento
- Degradação graciosa, como evitar a ultrapassagem acidental de serviços de terceiros
- Jogar bem com parceiros sindicalizados, sistemas de e-mail, serviços dentro do Google
Programação e planejamento da implementação
- Prazos rígidos, eventos externos, segundas ou sextas-feiras
- Procedimentos operacionais padrão para este serviço, para outros serviços
Fonte: Google SRE Book