Apêndice F – Exemplo de Ata de Reunião de Produção

Data: 2015-10-23

Participantes: agoogler, clarac, docbrown, jennifer, martym

Anúncios:

  •  Grande interrupção (#465), estorou o orçamento de erro

Revisão do Item de Ação Anterior

  •  Certificar o Teletransporte de cabras para uso com gado (bug 1011101)

  •  As não linearidades na aceleração de massa agora previsíveis, devem ser capazes de atingir com precisão dentro de poucos dias. 

Revisão de interrupção

  • Novo Soneto (interrupção 465)

  • 1.21B consultas perdidas devido a falha em cascata após interação entre bug latente (descritor de arquivo com fugas em pesquisas sem resultados) + não ter novo soneto em corpus + volume de tráfego sem precedentes & inesperado

  • O bug do descritor de arquivos foi corrigido (bug 5554825) e implementado para produzir

  • Procura de utilização de condensador de fluxo para balanceamento de carga (bug 5554823) e utilização de redução de carga (bug 5554826) para prevenir a recorrência

  • Orçamento de erro de disponibilidade aniquilado; pressiona para produzir congelado durante 1 mês, a menos que o docbrown possa obter uma exceção com base no fato de que o evento foi bizarro e imprevisível (mas o consenso é que a exceção é improvável)

Eventos de paginação

  • AnnotationConsistencyTooEventual: paginada 5 vezes esta semana, provavelmente devido ao atraso de replicação inter-regional entre Bigtables. 

  • Investigação ainda em curso, ver bug 4821600

  • Nenhuma correção esperada rapidamente, aumentará o limiar de consistência aceitável para reduzir alertas inoperacionais

Eventos sem paginação

  • Nenhum

Monitoramento de alterações e/ou silêncios

  • AnnotationConsistencyTooEventual, limiar de atraso aceitável aumentado de 60s para 180s, ver bug 4821600; TODO(martym). 

Mudanças de produção planejadas 

  • Cluster USA-1 que vai ficar offline para manutenção entre 2015-10-29 e 2015-11-02.

  • Sem necessidade de resposta, o tráfego será automaticamente encaminhado para outros clusters na região.

Recursos

  • Os recursos emprestados para responder ao incidente do soneto++, irão desativar instâncias de servidor adicionais e retornar recursos na próxima semana

  • Utilização a 60% da CPU, 75% de RAM, 44% do disco (acima de 40%, 70%, 40% na semana passada)

Principais métricas de serviço

  • OK Latência de 99 milhas: 88 ms < 100 ms Alvo SLO [30 dias de registro]

  • Disponibilidade BAD: 86,95% < 99,99% alvo SLO [30 dias de registro] 

Discussão / Atualizações de projetos 

  • Lançamento do Projeto Molière dentro de duas semanas.

Novos itens de ação 

  • TODO(martym): Levantar AnnotationConsistencyTooEventual limite

  • TODO(docbrown): Devolver a contagem de instâncias ao normal e devolver recursos.

 

Fonte: Google SRE Book

Data: 2015-10-23

Participantes: agoogler, clarac, docbrown, jennifer, martym

Anúncios:

  •  Grande interrupção (#465), estorou o orçamento de erro

Revisão do Item de Ação Anterior

  •  Certificar o Teletransporte de cabras para uso com gado (bug 1011101)

  •  As não linearidades na aceleração de massa agora previsíveis, devem ser capazes de atingir com precisão dentro de poucos dias. 

Revisão de interrupção

  • Novo Soneto (interrupção 465)

  • 1.21B consultas perdidas devido a falha em cascata após interação entre bug latente (descritor de arquivo com fugas em pesquisas sem resultados) + não ter novo soneto em corpus + volume de tráfego sem precedentes & inesperado

  • O bug do descritor de arquivos foi corrigido (bug 5554825) e implementado para produzir

  • Procura de utilização de condensador de fluxo para balanceamento de carga (bug 5554823) e utilização de redução de carga (bug 5554826) para prevenir a recorrência

  • Orçamento de erro de disponibilidade aniquilado; pressiona para produzir congelado durante 1 mês, a menos que o docbrown possa obter uma exceção com base no fato de que o evento foi bizarro e imprevisível (mas o consenso é que a exceção é improvável)

Eventos de paginação

  • AnnotationConsistencyTooEventual: paginada 5 vezes esta semana, provavelmente devido ao atraso de replicação inter-regional entre Bigtables. 

  • Investigação ainda em curso, ver bug 4821600

  • Nenhuma correção esperada rapidamente, aumentará o limiar de consistência aceitável para reduzir alertas inoperacionais

Eventos sem paginação

  • Nenhum

Monitoramento de alterações e/ou silêncios

  • AnnotationConsistencyTooEventual, limiar de atraso aceitável aumentado de 60s para 180s, ver bug 4821600; TODO(martym). 

Mudanças de produção planejadas 

  • Cluster USA-1 que vai ficar offline para manutenção entre 2015-10-29 e 2015-11-02.

  • Sem necessidade de resposta, o tráfego será automaticamente encaminhado para outros clusters na região.

Recursos

  • Os recursos emprestados para responder ao incidente do soneto++, irão desativar instâncias de servidor adicionais e retornar recursos na próxima semana

  • Utilização a 60% da CPU, 75% de RAM, 44% do disco (acima de 40%, 70%, 40% na semana passada)

Principais métricas de serviço

  • OK Latência de 99 milhas: 88 ms < 100 ms Alvo SLO [30 dias de registro]

  • Disponibilidade BAD: 86,95% < 99,99% alvo SLO [30 dias de registro] 

Discussão / Atualizações de projetos 

  • Lançamento do Projeto Molière dentro de duas semanas.

Novos itens de ação 

  • TODO(martym): Levantar AnnotationConsistencyTooEventual limite

  • TODO(docbrown): Devolver a contagem de instâncias ao normal e devolver recursos.

 

Fonte: Google SRE Book

Quanto dói perder talentos em tecnologia?
Programa de Formação em Engenharia de Confiabilidade (SRE)

Experimente agora, grátis!