Cultura do postmortem: a importância de documentar falhas

Quando ocorre um incidente, nós corrigimos o problema e os serviços impactados voltam a funcionar normalmente. Para evitar que esses mesmos incidentes aconteçam novamente, documentamos o processo a fim de aprendizagem e da busca de solução na causa raiz ou de remediação, desta forma, podemos evitar que esse mesmo incidente fique cada vez mais complexo, podendo afetar nossos usuários. Postmortems não é apenas uma análise das falhas, mas uma oportunidade de aprendizado e crescimento para toda a equipe, uma ferramenta essencial para SRE. Neste artigo, exploraremos a importância dos postmortems em projetos e como eles podem impulsionar o progresso.

O que é um postmortem?

Descrito como uma “autópsia”, um postmortem descreve o que foi o incidente, qual foi seu impacto, quais ações devem ser tomadas para mitigá-lo, quais foram as causas raízes do problema e quais ações devem ser acompanhadas para evitar que o incidente volte a se repetir. O objetivo é identificar o que deu errado, por que aconteceu e como evitar problemas semelhantes no futuro. Além disso, postmortem também ajuda a estabelecer uma memória dos acontecimentos e o desenvolvimento de boas práticas de uma organização.

O Postmortem Sem Culpa

Agora que entendemos o que é um postmortem, precisamos entender um pouco mais sobre o Postmortem Sem Culpa ou o Blameless Postmortem. Como profissionais de tecnologia, entendemos que a falha é inevitável, principalmente em sistemas complexos, e que a forma como respondemos a essa falha é extremamente importante.

O objetivo do postmortem, como já sabemos, é entender quais fatores levaram ao incidente e identificar ações que possam evitar que esse tipo de falha ocorra novamente. Um postmortem sem culpa mantém o foco em como um erro foi cometido em vez de quem o cometeu. Esta mentalidade é crucial para garantir que os postmortems tenham o tom certo, capacitando os engenheiros a fornecer relatos verdadeiramente objetivos do que aconteceu ao eliminar o medo de punição.

Esse impulso de culpar e punir tem o efeito, não intencional, de desincentivar a compartilhar de conhecimento necessário para evitar falhas futuras. Os engenheiros hesitaram em se manifestar quando os incidentes ocorreram com medo de serem culpados. Este silêncio aumenta o tempo médio de reconhecimento, o tempo médio de resolução e exacerba o impacto dos incidentes.

Benefícios dos postmortems:

    • Aprendizado contínuo: os postmortems incentivam uma cultura de aprendizado contínuo, onde as equipes podem refletir sobre suas experiências e identificar áreas de melhoria.

    • Transparência e responsabilidade: ao conduzir uma análise franca das falhas, os postmortems promovem a transparência e a responsabilidade dentro da equipe.

    • Prevenção de futuros erros: identificar as causas raiz das falhas permite que a equipe desenvolva planos de ação para evitar problemas semelhantes no futuro.

    • Fortalecimento da equipe: o processo de postmortem promove a colaboração e a coesão da equipe, à medida que todos trabalham juntos para resolver problemas e impulsionar o progresso.

Dicas para um postmortem eficaz:

    • Defina objetivos claros: antes de começar, estabeleça objetivos claros para o postmortem e garanta que todos os participantes estejam alinhados.

    • Encoraje a honestidade: crie um ambiente seguro e encoraje a honestidade e a franqueza ao discutir as falhas e desafios enfrentados.

    • Evite culpados: remover a culpa de um postmortem dá às pessoas a confiança para escalar os problemas sem medo, além de evitar submeter o risco de criar uma cultura na qual incidentes e problemas são varridos para debaixo do tapete.

    • Identifique causas raiz: procure ir além dos sintomas superficiais e identificar as verdadeiras causas dos problemas.

    • Desenvolva planos de ação: com base nas lições aprendidas, desenvolva planos de ação concretos para evitar problemas semelhantes no futuro.

    • Acompanhamento: não se esqueça de acompanhar o progresso das ações corretivas e revisitar regularmente as lições aprendidas.

Os postmortem da Elven:

Para além de ser uma empresa que tem soluções em todas etapas de uma gestão de incidentes, a Elven produz uma quantidade significativa de postmortems, por isso, usamos a nossa própria ferramenta, a Central de Postmortem, dentro da One Platform, para produzir e armazenar nossos arquivos.

Na central, a criação do postmortem é livre e vai de acordo com o que nossos clientes desejam, mas nossa equipe de operações leva em consideração, na hora de escrever a nossa autópsia, o exemplo de postmortem que contém no Livro SRE da Google. Ou seja, em nossos postmortem sempre contém:

    • Título

    • Data

    • Autores do postmortem

    • Estado do postmortem

    • Resumo do problema

    • Impacto 

    • Descrição da causa raiz 

    • Gatilho do problema

    • O que foi feito na resolução da causa raiz

    • Detecção

    • Ações tomadas 

    • Lições aprendidas
        • O que correu bem

        • O que correu mal

        • Onde tivemos sorte

    • Timeline dos acontecimentos

Os postmortems são uma ferramenta poderosa para impulsionar o progresso e o crescimento em produtos. Ao abraçar uma cultura de aprendizado contínuo e transparência, as equipes podem transformar as falhas em oportunidades de melhoria e fortalecer sua capacidade de enfrentar desafios futuros com confiança.

Mas lembre-se, o objetivo de um postmortem não é atribuir culpa, mas sim aprender e evoluir. Ao adotar essa mentalidade, as equipes podem colher os benefícios significativos que os postmortems oferecem para o sucesso a longo prazo.

Cultura do postmortem: a importância de documentar falhas

Quando ocorre um incidente, nós corrigimos o problema e os serviços impactados voltam a funcionar normalmente. Para evitar que esses mesmos incidentes aconteçam novamente, documentamos o processo a fim de aprendizagem e da busca de solução na causa raiz ou de remediação, desta forma, podemos evitar que esse mesmo incidente fique cada vez mais complexo, podendo afetar nossos usuários. Postmortems não é apenas uma análise das falhas, mas uma oportunidade de aprendizado e crescimento para toda a equipe, uma ferramenta essencial para SRE. Neste artigo, exploraremos a importância dos postmortems em projetos e como eles podem impulsionar o progresso.

O que é um postmortem?

Descrito como uma “autópsia”, um postmortem descreve o que foi o incidente, qual foi seu impacto, quais ações devem ser tomadas para mitigá-lo, quais foram as causas raízes do problema e quais ações devem ser acompanhadas para evitar que o incidente volte a se repetir. O objetivo é identificar o que deu errado, por que aconteceu e como evitar problemas semelhantes no futuro. Além disso, postmortem também ajuda a estabelecer uma memória dos acontecimentos e o desenvolvimento de boas práticas de uma organização.

O Postmortem Sem Culpa

Agora que entendemos o que é um postmortem, precisamos entender um pouco mais sobre o Postmortem Sem Culpa ou o Blameless Postmortem. Como profissionais de tecnologia, entendemos que a falha é inevitável, principalmente em sistemas complexos, e que a forma como respondemos a essa falha é extremamente importante.

O objetivo do postmortem, como já sabemos, é entender quais fatores levaram ao incidente e identificar ações que possam evitar que esse tipo de falha ocorra novamente. Um postmortem sem culpa mantém o foco em como um erro foi cometido em vez de quem o cometeu. Esta mentalidade é crucial para garantir que os postmortems tenham o tom certo, capacitando os engenheiros a fornecer relatos verdadeiramente objetivos do que aconteceu ao eliminar o medo de punição.

Esse impulso de culpar e punir tem o efeito, não intencional, de desincentivar a compartilhar de conhecimento necessário para evitar falhas futuras. Os engenheiros hesitaram em se manifestar quando os incidentes ocorreram com medo de serem culpados. Este silêncio aumenta o tempo médio de reconhecimento, o tempo médio de resolução e exacerba o impacto dos incidentes.

Benefícios dos postmortems:

    • Aprendizado contínuo: os postmortems incentivam uma cultura de aprendizado contínuo, onde as equipes podem refletir sobre suas experiências e identificar áreas de melhoria.

    • Transparência e responsabilidade: ao conduzir uma análise franca das falhas, os postmortems promovem a transparência e a responsabilidade dentro da equipe.

    • Prevenção de futuros erros: identificar as causas raiz das falhas permite que a equipe desenvolva planos de ação para evitar problemas semelhantes no futuro.

    • Fortalecimento da equipe: o processo de postmortem promove a colaboração e a coesão da equipe, à medida que todos trabalham juntos para resolver problemas e impulsionar o progresso.

Dicas para um postmortem eficaz:

    • Defina objetivos claros: antes de começar, estabeleça objetivos claros para o postmortem e garanta que todos os participantes estejam alinhados.

    • Encoraje a honestidade: crie um ambiente seguro e encoraje a honestidade e a franqueza ao discutir as falhas e desafios enfrentados.

    • Evite culpados: remover a culpa de um postmortem dá às pessoas a confiança para escalar os problemas sem medo, além de evitar submeter o risco de criar uma cultura na qual incidentes e problemas são varridos para debaixo do tapete.

    • Identifique causas raiz: procure ir além dos sintomas superficiais e identificar as verdadeiras causas dos problemas.

    • Desenvolva planos de ação: com base nas lições aprendidas, desenvolva planos de ação concretos para evitar problemas semelhantes no futuro.

    • Acompanhamento: não se esqueça de acompanhar o progresso das ações corretivas e revisitar regularmente as lições aprendidas.

Os postmortem da Elven:

Para além de ser uma empresa que tem soluções em todas etapas de uma gestão de incidentes, a Elven produz uma quantidade significativa de postmortems, por isso, usamos a nossa própria ferramenta, a Central de Postmortem, dentro da One Platform, para produzir e armazenar nossos arquivos.

Na central, a criação do postmortem é livre e vai de acordo com o que nossos clientes desejam, mas nossa equipe de operações leva em consideração, na hora de escrever a nossa autópsia, o exemplo de postmortem que contém no Livro SRE da Google. Ou seja, em nossos postmortem sempre contém:

    • Título

    • Data

    • Autores do postmortem

    • Estado do postmortem

    • Resumo do problema

    • Impacto 

    • Descrição da causa raiz 

    • Gatilho do problema

    • O que foi feito na resolução da causa raiz

    • Detecção

    • Ações tomadas 

    • Lições aprendidas
        • O que correu bem

        • O que correu mal

        • Onde tivemos sorte

    • Timeline dos acontecimentos

Os postmortems são uma ferramenta poderosa para impulsionar o progresso e o crescimento em produtos. Ao abraçar uma cultura de aprendizado contínuo e transparência, as equipes podem transformar as falhas em oportunidades de melhoria e fortalecer sua capacidade de enfrentar desafios futuros com confiança.

Mas lembre-se, o objetivo de um postmortem não é atribuir culpa, mas sim aprender e evoluir. Ao adotar essa mentalidade, as equipes podem colher os benefícios significativos que os postmortems oferecem para o sucesso a longo prazo.

Experimente agora, grátis!