Apêndice E – Lista de verificação de coordenação de lançamento

Esta é a lista de verificação original da coordenação de lançamento do Google, por volta de 2005, ligeiramente abreviada para ser conciso:

Arquitetura

  • Esboço de arquitetura, tipos de servidores, tipos de solicitações de clientes

  • Solicitações programáticas de clientes

Máquinas e datacenters

  • Máquinas e largura de banda, datacenters, redundância N+2, QoS de rede

  • Novos nomes de domínio, balanceamento de carga DNS

Estimativas de volume, capacidade, e desempenho

  • Estimativas de tráfego e largura de banda HTTP, “pico” de lançamento, mix de tráfego, 6 meses fora

  • Teste de carga, teste de ponta a ponta, capacidade por datacenter com latência máxima

  • Impacto em outros serviços com os quais mais nos preocupamos

  • Capacidade de armazenamento

Confiabilidade e failover do sistema

O que acontece quando:

  • A máquina morre, o rack falha, ou o cluster fica offline

  • Falha na rede entre dois datacenters

Para cada tipo de servidor que se comunica com outros servidores (seus backends):

  • Como detectar quando os backends morrem, e o que fazer quando morrem

  • Como terminar ou reiniciar sem afetar clientes ou usuários

  • Balanceamento de carga, limitação de taxa, tempo de espera, repetição e comportamento de tratamento de erros

Backup/restauração de dados, recuperação de desastres

Monitoramento e gestão de servidores

  • Monitoramento do estado interno, monitoramento do comportamento de ponta a ponta, gestão de alertas

  • Monitoramento do monitoramento

  • Alertas e logs financeiramente importantes

  • Dicas para executar servidores em ambiente de cluster

  • Não bloqueie os servidores de e-mail enviando a si mesmo alertas de e-mail em seu próprio código de servidor

Segurança

  • Revisão da design de segurança, auditoria de código de segurança, risco de spam, autenticação, SSL

  • Pré-lançamento da visibilidade/controle de acesso, vários tipos de listas negras

Automação e tarefas manuais

  • Métodos e controle de alterações para atualizar servidores, dados, e configurações

  • Processo de lançamento, construções repetíveis, canários sob tráfego ao vivo, lançamentos em etapas

Questões de crescimento

  • Capacidade de reserva, 10x crescimento, alertas de crescimento

  • Gargalos de escalabilidade, escalas lineares, escalas com hardware, alterações necessárias

  • Cache, fragmentação/reestilhaçamento de dados

Dependências externas

  • Sistemas de terceiros, monitoramento, rede, volume de tráfego, picos de lançamento

  • Degradação graciosa, como evitar a ultrapassagem acidental de serviços de terceiros

  • Jogar bem com parceiros sindicalizados, sistemas de e-mail, serviços dentro do Google

Programação e planejamento da implementação

  • Prazos rígidos, eventos externos, segundas ou sextas-feiras

  • Procedimentos operacionais padrão para este serviço, para outros serviços

Fonte: Google SRE Book

Esta é a lista de verificação original da coordenação de lançamento do Google, por volta de 2005, ligeiramente abreviada para ser conciso:

Arquitetura

  • Esboço de arquitetura, tipos de servidores, tipos de solicitações de clientes

  • Solicitações programáticas de clientes

Máquinas e datacenters

  • Máquinas e largura de banda, datacenters, redundância N+2, QoS de rede

  • Novos nomes de domínio, balanceamento de carga DNS

Estimativas de volume, capacidade, e desempenho

  • Estimativas de tráfego e largura de banda HTTP, “pico” de lançamento, mix de tráfego, 6 meses fora

  • Teste de carga, teste de ponta a ponta, capacidade por datacenter com latência máxima

  • Impacto em outros serviços com os quais mais nos preocupamos

  • Capacidade de armazenamento

Confiabilidade e failover do sistema

O que acontece quando:

  • A máquina morre, o rack falha, ou o cluster fica offline

  • Falha na rede entre dois datacenters

Para cada tipo de servidor que se comunica com outros servidores (seus backends):

  • Como detectar quando os backends morrem, e o que fazer quando morrem

  • Como terminar ou reiniciar sem afetar clientes ou usuários

  • Balanceamento de carga, limitação de taxa, tempo de espera, repetição e comportamento de tratamento de erros

Backup/restauração de dados, recuperação de desastres

Monitoramento e gestão de servidores

  • Monitoramento do estado interno, monitoramento do comportamento de ponta a ponta, gestão de alertas

  • Monitoramento do monitoramento

  • Alertas e logs financeiramente importantes

  • Dicas para executar servidores em ambiente de cluster

  • Não bloqueie os servidores de e-mail enviando a si mesmo alertas de e-mail em seu próprio código de servidor

Segurança

  • Revisão da design de segurança, auditoria de código de segurança, risco de spam, autenticação, SSL

  • Pré-lançamento da visibilidade/controle de acesso, vários tipos de listas negras

Automação e tarefas manuais

  • Métodos e controle de alterações para atualizar servidores, dados, e configurações

  • Processo de lançamento, construções repetíveis, canários sob tráfego ao vivo, lançamentos em etapas

Questões de crescimento

  • Capacidade de reserva, 10x crescimento, alertas de crescimento

  • Gargalos de escalabilidade, escalas lineares, escalas com hardware, alterações necessárias

  • Cache, fragmentação/reestilhaçamento de dados

Dependências externas

  • Sistemas de terceiros, monitoramento, rede, volume de tráfego, picos de lançamento

  • Degradação graciosa, como evitar a ultrapassagem acidental de serviços de terceiros

  • Jogar bem com parceiros sindicalizados, sistemas de e-mail, serviços dentro do Google

Programação e planejamento da implementação

  • Prazos rígidos, eventos externos, segundas ou sextas-feiras

  • Procedimentos operacionais padrão para este serviço, para outros serviços

Fonte: Google SRE Book

Experimente agora, grátis!