Soneto Shakespeare++ Sobrecarga: 2015-10-21
Informação sobre gestão de incidentes: https://incident-management-cheat-sheet
(As comunicações levam a manter o resumo atualizado).
Resumo: Falha no serviço de pesquisa Shakespeare em cascata devido ao soneto recém-descoberto que não está no índice de pesquisa.
Estado: ativo, incidente #465
Posto(s) de Comando: #shakespeare no IRC
Hierarquia de Comando (todos os respondentes)
- Atual Comandante do Incidente: jennifer
- Chefe de operações: docbrown
- Liderança de planejamento: jennifer
- Comunicação: jennifer
Próximo Comandante do Incidente: a determinar
(Atualize pelo menos a cada quatro horas e na transferência da função de líder de comunicação).
Estado detalhado (última atualização em 2015-10-21 15:28 UTC por jennifer)
Critérios de saída:
- Novo soneto adicionado ao corpo de pesquisa de Shakespeare TODO
- Dentro de SLOs de disponibilidade (99,99%) e latência (99% milhas < 100 ms) durante 30+ minutos TODO
Lista de TODO e bugs arquivados:
- Execute o trabalho MapReduce para reindexar Shakespeare corpus CONCLUÍDO
- Pedir emprestado recursos de emergência para aumentar a capacidade extra CONCLUÍDO
- Habilitar o capacitor de fluxo para equilibrar a carga entre clusters (Bug 5554823) TODO
Cronograma de incidentes (o mais recente primeiro: os horários estão em UTC)
- 2015-10-21 15:28 UTC jennifer
- Aumentar a capacidade de servir globalmente em 2x
- 2015-10-21 15:21 UTC jennifer
- Direcionar todo o tráfego para o cluster sacrificial USA-2 e drenar o tráfego de outros clusters para que eles possam se recuperar de falhas em cascata enquanto executam mais tarefas
- Trabalho de índice MapReduce concluído, aguardando replicação do Bigtable para todos os clusters
- 2015-10-21 15:10 UTC martym
- Adicionar novo soneto ao Shakespeare corpus e iniciar o índice MapReduce
- 2015-10-21 15:04 UTC martym
- Obtém texto de soneto recém-descoberto da lista de e-mail shakespeare-discuss@
- 2015-10-21 15:01 UTC docbrown
- Incidente declarado devido a falha de cascata
- 2015-10-21 14:55 UTC docbrown
- Tempestade de Pager, ManyHttp500s em todos os clusters
Fonte: Google SRE Book