Quando ocorre um incidente, nós corrigimos o problema e os serviços impactados voltam a funcionar normalmente. Para evitar que esses mesmos incidentes aconteçam novamente, documentamos o processo a fim de aprendizagem e da busca de solução na causa raiz ou de remediação, desta forma, podemos evitar que esse mesmo incidente fique cada vez mais complexo, podendo afetar nossos usuários. Postmortems não é apenas uma análise das falhas, mas uma oportunidade de aprendizado e crescimento para toda a equipe, uma ferramenta essencial para SRE. Neste artigo, exploraremos a importância dos postmortems em projetos e como eles podem impulsionar o progresso.
O que é um postmortem?
Descrito como uma “autópsia”, um postmortem descreve o que foi o incidente, qual foi seu impacto, quais ações devem ser tomadas para mitigá-lo, quais foram as causas raízes do problema e quais ações devem ser acompanhadas para evitar que o incidente volte a se repetir. O objetivo é identificar o que deu errado, por que aconteceu e como evitar problemas semelhantes no futuro. Além disso, postmortem também ajuda a estabelecer uma memória dos acontecimentos e o desenvolvimento de boas práticas de uma organização.
O Postmortem Sem Culpa
Agora que entendemos o que é um postmortem, precisamos entender um pouco mais sobre o Postmortem Sem Culpa ou o Blameless Postmortem. Como profissionais de tecnologia, entendemos que a falha é inevitável, principalmente em sistemas complexos, e que a forma como respondemos a essa falha é extremamente importante.
O objetivo do postmortem, como já sabemos, é entender quais fatores levaram ao incidente e identificar ações que possam evitar que esse tipo de falha ocorra novamente. Um postmortem sem culpa mantém o foco em como um erro foi cometido em vez de quem o cometeu. Esta mentalidade é crucial para garantir que os postmortems tenham o tom certo, capacitando os engenheiros a fornecer relatos verdadeiramente objetivos do que aconteceu ao eliminar o medo de punição.
Esse impulso de culpar e punir tem o efeito, não intencional, de desincentivar a compartilhar de conhecimento necessário para evitar falhas futuras. Os engenheiros hesitaram em se manifestar quando os incidentes ocorreram com medo de serem culpados. Este silêncio aumenta o tempo médio de reconhecimento, o tempo médio de resolução e exacerba o impacto dos incidentes.
Benefícios dos postmortems:
-
- Aprendizado contínuo: os postmortems incentivam uma cultura de aprendizado contínuo, onde as equipes podem refletir sobre suas experiências e identificar áreas de melhoria.
-
- Transparência e responsabilidade: ao conduzir uma análise franca das falhas, os postmortems promovem a transparência e a responsabilidade dentro da equipe.
-
- Prevenção de futuros erros: identificar as causas raiz das falhas permite que a equipe desenvolva planos de ação para evitar problemas semelhantes no futuro.
-
- Fortalecimento da equipe: o processo de postmortem promove a colaboração e a coesão da equipe, à medida que todos trabalham juntos para resolver problemas e impulsionar o progresso.
Dicas para um postmortem eficaz:
-
- Defina objetivos claros: antes de começar, estabeleça objetivos claros para o postmortem e garanta que todos os participantes estejam alinhados.
-
- Encoraje a honestidade: crie um ambiente seguro e encoraje a honestidade e a franqueza ao discutir as falhas e desafios enfrentados.
-
- Evite culpados: remover a culpa de um postmortem dá às pessoas a confiança para escalar os problemas sem medo, além de evitar submeter o risco de criar uma cultura na qual incidentes e problemas são varridos para debaixo do tapete.
-
- Identifique causas raiz: procure ir além dos sintomas superficiais e identificar as verdadeiras causas dos problemas.
-
- Desenvolva planos de ação: com base nas lições aprendidas, desenvolva planos de ação concretos para evitar problemas semelhantes no futuro.
-
- Acompanhamento: não se esqueça de acompanhar o progresso das ações corretivas e revisitar regularmente as lições aprendidas.
Os postmortem da Elven:
Para além de ser uma empresa que tem soluções em todas etapas de uma gestão de incidentes, a Elven produz uma quantidade significativa de postmortems, por isso, usamos a nossa própria ferramenta, a Central de Postmortem, dentro da One Platform, para produzir e armazenar nossos arquivos.
Na central, a criação do postmortem é livre e vai de acordo com o que nossos clientes desejam, mas nossa equipe de operações leva em consideração, na hora de escrever a nossa autópsia, o exemplo de postmortem que contém no Livro SRE da Google. Ou seja, em nossos postmortem sempre contém:
-
- Título
-
- Data
-
- Autores do postmortem
-
- Estado do postmortem
-
- Resumo do problema
-
- Impacto
-
- Descrição da causa raiz
-
- Gatilho do problema
-
- O que foi feito na resolução da causa raiz
-
- Detecção
-
- Ações tomadas
-
- Lições aprendidas
- O que correu bem
-
- O que correu mal
-
- Onde tivemos sorte
- Lições aprendidas
-
- Timeline dos acontecimentos
Os postmortems são uma ferramenta poderosa para impulsionar o progresso e o crescimento em produtos. Ao abraçar uma cultura de aprendizado contínuo e transparência, as equipes podem transformar as falhas em oportunidades de melhoria e fortalecer sua capacidade de enfrentar desafios futuros com confiança.
Mas lembre-se, o objetivo de um postmortem não é atribuir culpa, mas sim aprender e evoluir. Ao adotar essa mentalidade, as equipes podem colher os benefícios significativos que os postmortems oferecem para o sucesso a longo prazo.