Data: 2015-10-23
Participantes: agoogler, clarac, docbrown, jennifer, martym
Anúncios:
- Grande interrupção (#465), estorou o orçamento de erro
Revisão do Item de Ação Anterior
- Certificar o Teletransporte de cabras para uso com gado (bug 1011101)
- As não linearidades na aceleração de massa agora previsíveis, devem ser capazes de atingir com precisão dentro de poucos dias.
Revisão de interrupção
- Novo Soneto (interrupção 465)
- 1.21B consultas perdidas devido a falha em cascata após interação entre bug latente (descritor de arquivo com fugas em pesquisas sem resultados) + não ter novo soneto em corpus + volume de tráfego sem precedentes & inesperado
- O bug do descritor de arquivos foi corrigido (bug 5554825) e implementado para produzir
- Procura de utilização de condensador de fluxo para balanceamento de carga (bug 5554823) e utilização de redução de carga (bug 5554826) para prevenir a recorrência
- Orçamento de erro de disponibilidade aniquilado; pressiona para produzir congelado durante 1 mês, a menos que o docbrown possa obter uma exceção com base no fato de que o evento foi bizarro e imprevisível (mas o consenso é que a exceção é improvável)
Eventos de paginação
- AnnotationConsistencyTooEventual: paginada 5 vezes esta semana, provavelmente devido ao atraso de replicação inter-regional entre Bigtables.
- Investigação ainda em curso, ver bug 4821600
- Nenhuma correção esperada rapidamente, aumentará o limiar de consistência aceitável para reduzir alertas inoperacionais
Eventos sem paginação
- Nenhum
Monitoramento de alterações e/ou silêncios
- AnnotationConsistencyTooEventual, limiar de atraso aceitável aumentado de 60s para 180s, ver bug 4821600; TODO(martym).
Mudanças de produção planejadas
- Cluster USA-1 que vai ficar offline para manutenção entre 2015-10-29 e 2015-11-02.
- Sem necessidade de resposta, o tráfego será automaticamente encaminhado para outros clusters na região.
Recursos
- Os recursos emprestados para responder ao incidente do soneto++, irão desativar instâncias de servidor adicionais e retornar recursos na próxima semana
- Utilização a 60% da CPU, 75% de RAM, 44% do disco (acima de 40%, 70%, 40% na semana passada)
Principais métricas de serviço
- OK Latência de 99 milhas: 88 ms < 100 ms Alvo SLO [30 dias de registro]
- Disponibilidade BAD: 86,95% < 99,99% alvo SLO [30 dias de registro]
Discussão / Atualizações de projetos
- Lançamento do Projeto Molière dentro de duas semanas.
Novos itens de ação
- TODO(martym): Levantar AnnotationConsistencyTooEventual limite
- TODO(docbrown): Devolver a contagem de instâncias ao normal e devolver recursos.
Fonte: Google SRE Book