Soneto Shakespeare++ Sobrecarga: 2015-10-21

Informação sobre gestão de incidentes: https://incident-management-cheat-sheet

(As comunicações levam a manter o resumo atualizado).

Resumo: Falha no serviço de pesquisa Shakespeare em cascata devido ao soneto recém-descoberto que não está no índice de pesquisa. 

Estado: ativo, incidente #465

Posto(s) de Comando: #shakespeare no IRC 

Hierarquia de Comando (todos os respondentes

  • Atual Comandante do Incidente: jennifer

  • Chefe de operações: docbrown

  • Liderança de planejamento: jennifer

  • Comunicação: jennifer

Próximo Comandante do Incidente: a determinar 

(Atualize pelo menos a cada quatro horas e na transferência da função de líder de comunicação).

Estado detalhado (última atualização em 2015-10-21 15:28 UTC por jennifer) 

Critérios de saída:

  • Novo soneto adicionado ao corpo de pesquisa de Shakespeare TODO

  • Dentro de SLOs de disponibilidade (99,99%) e latência (99% milhas < 100 ms) durante 30+ minutos TODO 

Lista de TODO e bugs arquivados:

  • Execute o trabalho MapReduce para reindexar Shakespeare corpus CONCLUÍDO

  •  Pedir emprestado recursos de emergência para aumentar a capacidade extra CONCLUÍDO

  •  Habilitar o capacitor de fluxo para equilibrar a carga entre clusters (Bug 5554823) TODO

Cronograma de incidentes (o mais recente primeiro: os horários estão em UTC)

  •  2015-10-21 15:28 UTC jennifer

  •  Aumentar a capacidade de servir globalmente em 2x

  • 2015-10-21 15:21 UTC jennifer

  • Direcionar todo o tráfego para o cluster sacrificial USA-2 e drenar o tráfego de outros clusters para que eles possam se recuperar de falhas em cascata enquanto executam mais tarefas

  • Trabalho de índice MapReduce concluído, aguardando replicação do Bigtable para todos os clusters

  • 2015-10-21 15:10 UTC martym

  • Adicionar novo soneto ao Shakespeare corpus e iniciar o índice MapReduce

  • 2015-10-21 15:04 UTC martym

  • Obtém texto de soneto recém-descoberto da lista de e-mail shakespeare-discuss@
     
  • 2015-10-21 15:01 UTC docbrown

  • Incidente declarado devido a falha de cascata

  • 2015-10-21 14:55 UTC docbrown

  • Tempestade de Pager, ManyHttp500s em todos os clusters 

Fonte: Google SRE Book 

Rolar para cima