Cultura do postmortem: a importância de documentar falhas

Quando ocorre um incidente, nós corrigimos o problema e os serviços impactados voltam a funcionar normalmente. Para evitar que esses mesmos incidentes aconteçam novamente, documentamos o processo a fim de aprendizagem e da busca de solução na causa raiz ou de remediação, desta forma, podemos evitar que esse mesmo incidente fique cada vez mais complexo, podendo afetar nossos usuários. Postmortems não é apenas uma análise das falhas, mas uma oportunidade de aprendizado e crescimento para toda a equipe, uma ferramenta essencial para SRE. Neste artigo, exploraremos a importância dos postmortems em projetos e como eles podem impulsionar o progresso.

O que é um postmortem?

Descrito como uma “autópsia”, um postmortem descreve o que foi o incidente, qual foi seu impacto, quais ações devem ser tomadas para mitigá-lo, quais foram as causas raízes do problema e quais ações devem ser acompanhadas para evitar que o incidente volte a se repetir. O objetivo é identificar o que deu errado, por que aconteceu e como evitar problemas semelhantes no futuro. Além disso, postmortem também ajuda a estabelecer uma memória dos acontecimentos e o desenvolvimento de boas práticas de uma organização.

O Postmortem Sem Culpa

Agora que entendemos o que é um postmortem, precisamos entender um pouco mais sobre o Postmortem Sem Culpa ou o Blameless Postmortem. Como profissionais de tecnologia, entendemos que a falha é inevitável, principalmente em sistemas complexos, e que a forma como respondemos a essa falha é extremamente importante.

O objetivo do postmortem, como já sabemos, é entender quais fatores levaram ao incidente e identificar ações que possam evitar que esse tipo de falha ocorra novamente. Um postmortem sem culpa mantém o foco em como um erro foi cometido em vez de quem o cometeu. Esta mentalidade é crucial para garantir que os postmortems tenham o tom certo, capacitando os engenheiros a fornecer relatos verdadeiramente objetivos do que aconteceu ao eliminar o medo de punição.

Esse impulso de culpar e punir tem o efeito, não intencional, de desincentivar a compartilhar de conhecimento necessário para evitar falhas futuras. Os engenheiros hesitaram em se manifestar quando os incidentes ocorreram com medo de serem culpados. Este silêncio aumenta o tempo médio de reconhecimento, o tempo médio de resolução e exacerba o impacto dos incidentes.

Benefícios dos postmortems:

    • Aprendizado contínuo: os postmortems incentivam uma cultura de aprendizado contínuo, onde as equipes podem refletir sobre suas experiências e identificar áreas de melhoria.

    • Transparência e responsabilidade: ao conduzir uma análise franca das falhas, os postmortems promovem a transparência e a responsabilidade dentro da equipe.

    • Prevenção de futuros erros: identificar as causas raiz das falhas permite que a equipe desenvolva planos de ação para evitar problemas semelhantes no futuro.

    • Fortalecimento da equipe: o processo de postmortem promove a colaboração e a coesão da equipe, à medida que todos trabalham juntos para resolver problemas e impulsionar o progresso.

Dicas para um postmortem eficaz:

    • Defina objetivos claros: antes de começar, estabeleça objetivos claros para o postmortem e garanta que todos os participantes estejam alinhados.

    • Encoraje a honestidade: crie um ambiente seguro e encoraje a honestidade e a franqueza ao discutir as falhas e desafios enfrentados.

    • Evite culpados: remover a culpa de um postmortem dá às pessoas a confiança para escalar os problemas sem medo, além de evitar submeter o risco de criar uma cultura na qual incidentes e problemas são varridos para debaixo do tapete.

    • Identifique causas raiz: procure ir além dos sintomas superficiais e identificar as verdadeiras causas dos problemas.

    • Desenvolva planos de ação: com base nas lições aprendidas, desenvolva planos de ação concretos para evitar problemas semelhantes no futuro.

    • Acompanhamento: não se esqueça de acompanhar o progresso das ações corretivas e revisitar regularmente as lições aprendidas.

Os postmortem da Elven:

Para além de ser uma empresa que tem soluções em todas etapas de uma gestão de incidentes, a Elven produz uma quantidade significativa de postmortems, por isso, usamos a nossa própria ferramenta, a Central de Postmortem, dentro da One Platform, para produzir e armazenar nossos arquivos.

Na central, a criação do postmortem é livre e vai de acordo com o que nossos clientes desejam, mas nossa equipe de operações leva em consideração, na hora de escrever a nossa autópsia, o exemplo de postmortem que contém no Livro SRE da Google. Ou seja, em nossos postmortem sempre contém:

      • Título

      • Data

      • Autores do postmortem

      • Estado do postmortem

      • Resumo do problema

      • Impacto 

      • Descrição da causa raiz 

      • Gatilho do problema

      • O que foi feito na resolução da causa raiz

      • Detecção

      • Ações tomadas 

      • Lições aprendidas
          • O que correu bem

          • O que correu mal

          • Onde tivemos sorte

      • Timeline dos acontecimentos

    Os postmortems são uma ferramenta poderosa para impulsionar o progresso e o crescimento em produtos. Ao abraçar uma cultura de aprendizado contínuo e transparência, as equipes podem transformar as falhas em oportunidades de melhoria e fortalecer sua capacidade de enfrentar desafios futuros com confiança.

    Mas lembre-se, o objetivo de um postmortem não é atribuir culpa, mas sim aprender e evoluir. Ao adotar essa mentalidade, as equipes podem colher os benefícios significativos que os postmortems oferecem para o sucesso a longo prazo.

    Cultura do postmortem: a importância de documentar falhas

    Quando ocorre um incidente, nós corrigimos o problema e os serviços impactados voltam a funcionar normalmente. Para evitar que esses mesmos incidentes aconteçam novamente, documentamos o processo a fim de aprendizagem e da busca de solução na causa raiz ou de remediação, desta forma, podemos evitar que esse mesmo incidente fique cada vez mais complexo, podendo afetar nossos usuários. Postmortems não é apenas uma análise das falhas, mas uma oportunidade de aprendizado e crescimento para toda a equipe, uma ferramenta essencial para SRE. Neste artigo, exploraremos a importância dos postmortems em projetos e como eles podem impulsionar o progresso.

    O que é um postmortem?

    Descrito como uma “autópsia”, um postmortem descreve o que foi o incidente, qual foi seu impacto, quais ações devem ser tomadas para mitigá-lo, quais foram as causas raízes do problema e quais ações devem ser acompanhadas para evitar que o incidente volte a se repetir. O objetivo é identificar o que deu errado, por que aconteceu e como evitar problemas semelhantes no futuro. Além disso, postmortem também ajuda a estabelecer uma memória dos acontecimentos e o desenvolvimento de boas práticas de uma organização.

    O Postmortem Sem Culpa

    Agora que entendemos o que é um postmortem, precisamos entender um pouco mais sobre o Postmortem Sem Culpa ou o Blameless Postmortem. Como profissionais de tecnologia, entendemos que a falha é inevitável, principalmente em sistemas complexos, e que a forma como respondemos a essa falha é extremamente importante.

    O objetivo do postmortem, como já sabemos, é entender quais fatores levaram ao incidente e identificar ações que possam evitar que esse tipo de falha ocorra novamente. Um postmortem sem culpa mantém o foco em como um erro foi cometido em vez de quem o cometeu. Esta mentalidade é crucial para garantir que os postmortems tenham o tom certo, capacitando os engenheiros a fornecer relatos verdadeiramente objetivos do que aconteceu ao eliminar o medo de punição.

    Esse impulso de culpar e punir tem o efeito, não intencional, de desincentivar a compartilhar de conhecimento necessário para evitar falhas futuras. Os engenheiros hesitaram em se manifestar quando os incidentes ocorreram com medo de serem culpados. Este silêncio aumenta o tempo médio de reconhecimento, o tempo médio de resolução e exacerba o impacto dos incidentes.

    Benefícios dos postmortems:

      • Aprendizado contínuo: os postmortems incentivam uma cultura de aprendizado contínuo, onde as equipes podem refletir sobre suas experiências e identificar áreas de melhoria.

      • Transparência e responsabilidade: ao conduzir uma análise franca das falhas, os postmortems promovem a transparência e a responsabilidade dentro da equipe.

      • Prevenção de futuros erros: identificar as causas raiz das falhas permite que a equipe desenvolva planos de ação para evitar problemas semelhantes no futuro.

      • Fortalecimento da equipe: o processo de postmortem promove a colaboração e a coesão da equipe, à medida que todos trabalham juntos para resolver problemas e impulsionar o progresso.

    Dicas para um postmortem eficaz:

      • Defina objetivos claros: antes de começar, estabeleça objetivos claros para o postmortem e garanta que todos os participantes estejam alinhados.

      • Encoraje a honestidade: crie um ambiente seguro e encoraje a honestidade e a franqueza ao discutir as falhas e desafios enfrentados.

      • Evite culpados: remover a culpa de um postmortem dá às pessoas a confiança para escalar os problemas sem medo, além de evitar submeter o risco de criar uma cultura na qual incidentes e problemas são varridos para debaixo do tapete.

      • Identifique causas raiz: procure ir além dos sintomas superficiais e identificar as verdadeiras causas dos problemas.

      • Desenvolva planos de ação: com base nas lições aprendidas, desenvolva planos de ação concretos para evitar problemas semelhantes no futuro.

      • Acompanhamento: não se esqueça de acompanhar o progresso das ações corretivas e revisitar regularmente as lições aprendidas.

    Os postmortem da Elven:

    Para além de ser uma empresa que tem soluções em todas etapas de uma gestão de incidentes, a Elven produz uma quantidade significativa de postmortems, por isso, usamos a nossa própria ferramenta, a Central de Postmortem, dentro da One Platform, para produzir e armazenar nossos arquivos.

    Na central, a criação do postmortem é livre e vai de acordo com o que nossos clientes desejam, mas nossa equipe de operações leva em consideração, na hora de escrever a nossa autópsia, o exemplo de postmortem que contém no Livro SRE da Google. Ou seja, em nossos postmortem sempre contém:

        • Título

        • Data

        • Autores do postmortem

        • Estado do postmortem

        • Resumo do problema

        • Impacto 

        • Descrição da causa raiz 

        • Gatilho do problema

        • O que foi feito na resolução da causa raiz

        • Detecção

        • Ações tomadas 

        • Lições aprendidas
            • O que correu bem

            • O que correu mal

            • Onde tivemos sorte

        • Timeline dos acontecimentos

      Os postmortems são uma ferramenta poderosa para impulsionar o progresso e o crescimento em produtos. Ao abraçar uma cultura de aprendizado contínuo e transparência, as equipes podem transformar as falhas em oportunidades de melhoria e fortalecer sua capacidade de enfrentar desafios futuros com confiança.

      Mas lembre-se, o objetivo de um postmortem não é atribuir culpa, mas sim aprender e evoluir. Ao adotar essa mentalidade, as equipes podem colher os benefícios significativos que os postmortems oferecem para o sucesso a longo prazo.