No Google, temos um modelo padrão de postmortem que nos permite capturar de forma consistente a causa raiz e o gatilho do incidente, o que possibilita a análise de tendências. Usamos essa análise de tendências para nos ajudar a direcionar melhorias que abordam tipos de causas raízes sistêmicas, como design de interface de software defeituoso ou planejamento imaturo de implantação de mudanças.
A Tabela C-1 mostra a divisão dos nossos oito principais gatilhos para interrupções, com base em uma amostra de milhares de postmortems ao longo dos últimos sete anos.
Tabela C-1. Principais gatilhos de interrupção, 2010–2017
- Push de binário: 37%
- Push de configuração: 31%
- Mudança no comportamento do usuário: 9%
- Pipeline de processamento: 6%
- Mudança no provedor de serviço: 5%
- Decadência de desempenho: 5%
- Gerenciamento de capacidade: 5%
- Hardware: 2%
A Tabela C-2 apresenta as cinco principais categorias de causas raízes contribuintes.
Tabela C-2. Cinco principais categorias de causas raízes para interrupções
- Software: 41,35%
- Falha no processo de desenvolvimento: 20,23%
- Comportamentos complexos do sistema: 16,90%
- Planejamento de implantação: 6,74%
- Falha de rede: 2,75%