Quais são e como calcular as principais métricas de falha para Gestão de Incidentes

As questões que envolvem métricas de falha para Gestão de Incidentes têm sido amplamente debatidas. Especialistas divergem argumentando que as métricas não são realmente úteis por si mesmas por não contemplarem as perguntas mais complicadas a respeito de COMO os incidentes são resolvidos, O QUE funciona (e o que não funciona), e sobretudo QUANDO os problemas escalam ou diminuem.

Fato é que métricas de incidentes como o MTTR (de Mean Time To Recovery), MTBF (Mean Time Between Failures), e MTTA (Mean Time to Acknowledge), juntas, podem dar uma boa dimensão dos problemas e ensejar conversas que levam às respostas das questões mais complexas que envolvem a verificação de integridade (health-checks) e a Confiabilidade do sistema como um todo.

Como identificar cada métrica de falha?

Por serem várias siglas começando com “mean time” (tempo médio), e todas muito parecidas, a divergência já começa pelos nomes. MTTR, por exemplo, pode significar Mean Time To Recovery (ou Restore), Mean Time To Resolve (ou Repair) e Mean Time To Respond. Por isso seremos muito didáticos neste post, explicando uma a uma, começando pela mais popular de todas: o MTTR.

Mean Time To Recovery (MTTR)

Tempo médio de recuperação ou tempo médio de restauração (Mean Time to Recovery) é o intervalo de tempo gasto para se recuperar de uma falha no sistema. Esse MTTR é calculado a partir da divisão do tempo total de inatividade durante um período específico pelo número de incidentes. Dessa forma, vamos supor que um sistema tenha ficado inativo por 1 hora em quatro incidentes separados em um período de 24 horas. Sendo assim, o MTTR seria de 15 minutos, ou 60 minutos (tempo total) por 4 (número de incidentes).

Essa é uma métrica de alto nível, boa para avaliar: 1) se existe um problema; e 2) a velocidade do processo geral de recuperação.
Para tanto, você pode querer fazer algumas perguntas, como:

Seu processo de recuperação é rápido o suficiente?
Como ele se compara aos seus concorrentes?
Existe atraso entre uma falha e um alerta?
Os alertas estão demorando mais do que deveriam para chegar à pessoa certa?
É possível descobrir rapidamente qual é o problema?
Existem processos que poderiam ser melhorados?
As equipes de manutenção são tão eficazes quanto poderiam ser?
Se estão demorando demais, o que está atrapalhando o processo?

É preciso analisar muito além do Mean Time To Recovery para responder a todas essas perguntas. No entanto, essa métrica específica pode fornecer um ponto de partida valioso para diagnosticar se há algum problema com o processo de recuperação do sistema. O que nos leva a outros KPIs (indicadores-chave de desempenho) no processo de gerenciamento de incidentes, como o Mean Time to Resolve, sobre o qual falaremos a seguir.

Mean Time To Resolve ou Repair (MTTR)

Tempo médio para resolver ou tempo médio para reparar (Mean time to resolve) é o tempo médio necessário para resolver uma falha no sistema. Isso inclui a soma do tempo gasto: ao detectar a falha, diagnosticar o problema, repará-lo e também o tempo gasto para garantir que a falha não aconteça novamente.

É considerada uma métrica associada à satisfação do cliente, usada em um cenário de incidentes não planejados. O MTTR oferece uma visão ampla para consertar e resolver incidentes, pois vai além do tempo de inatividade do sistema (downtime) e inclui o trabalho depois que o downtime é resolvido. Este KPI também evita que incidentes semelhantes ocorram no futuro.

Para calcular o Mean time to resolve, some o tempo de resolução total e divida pelo número de incidentes, como na fórmula abaixo:

MTTR = Soma de todos os tempos para resolver o incidente / Número de incidentes

Um total de 3 horas em um período de 24 horas para um único incidente com uma equipe que passou mais 3 horas consertando o sistema para garantir que a interrupção não aconteça novamente terá somado um total de 6 horas gastas para resolver o problema.

Mean Time To Respond (MTTR)

O tempo médio de resposta é o período que corresponde ao momento em que o alerta sobre um incidente é emitido pela primeira vez e a resolução desse incidente. Este MTTR costuma ser aplicado à segurança cibernética para medir o sucesso de uma determinada equipe na neutralização de ataques ao sistema. Também ajuda a visualizar quanto tempo ao longo do período se resume aos sistemas de alerta e quanto corresponde ao trabalho real da equipe de segurança.

O Mean time to respond é calculado a partir da soma de todos os alertas de tempo de resposta com a divisão pelo número de incidentes:

**MTTR = Soma de todos os períodos de resposta / Número de incidente**

Assim, em um cenário de 6 incidentes ao longo de uma semana de trabalho, considerando 2h o tempo total entre o alerta e a correção do problema, o MTTR para essa semana seria de 20 minutos.

Essa é uma métrica de gestão de incidentes que pode ser usada para avaliar o desempenho de uma equipe de especialistas em Segurança da Informação, por estar relacionada à segurança funcional de dispositivos e produtos de software.

Mean Time Between Failures (MTBF)

O tempo médio entre falhas (MTBF) é uma métrica para falhas em sistemas reparáveis, usada para rastrear a disponibilidade e a confiabilidade de um produto. O termo tem origem na indústria da aviação, onde as falhas de sistema significam consequências decisivas, não apenas em termos de custo, mas também em vidas humanas.

A métrica é útil para compradores que desejam ter a certeza de obter o produto mais confiável, viajar no avião mais seguro ou mesmo escolher o equipamento de fabricação mais seguro para uma fábrica. Quanto maior for o tempo entre as falhas, mais confiável é o sistema.

Calcular o MTBF também é simples. Primeiro, tomamos o número total de horas operacionais para um determinado ativo em um determinado período. Em seguida, dividimos esse número pelo número de falhas que ocorreram ao longo do mesmo período de tempo, como na fórmula abaixo:

**MTBF = Número de horas de tempo operacional / Número total de falhas**

Então, imagine que um determinado equipamento esteja totalmente operacional há 1.000 horas em um período de nove meses. No mesmo período, esse ativo quebrou quatro vezes. O MTBF para esse equipamento, então, é de 250 horas. Em vez de mostrar a vida típica de um produto, o MTBF representa uma medida estatística sobre uma grande família de produtos.

A disponibilidade, também conhecida como tempo de atividade (uptime), é um dos principais indicadores da eficácia geral do equipamento e é sempre uma área estratégica para melhorar a produtividade. O tempo de atividade total de um equipamento pode ser expresso em termos de MTBF juntamente com outra métrica que descrevemos acima, o MTTR (mean time to repair).

Mean Time to Acknowledge (MTTA)

O MTTA (tempo médio para reconhecimento) mede quanto tempo leva para uma empresa responder, em média, a interrupções ou incidentes em todo o sistema de operações. É o tempo médio que leva desde o momento em que um alerta é acionado até o início dos trabalhos para resolver problema. Essa métrica é útil para rastrear a capacidade de resposta da uma equipe e também a eficácia do sistema de alerta.

O MTTA é calculado pela divisão do tempo total gasto para reconhecer todos os incidentes pelo número de incidentes durante um determinado intervalo de tempo. Por exemplo: se foram 5 incidentes em um total de 50 minutos entre o alerta e o reconhecimento de todos os 5, basta dividir 50 por 5 para obter uma média MTTA de dez minutos.

Essa métrica rastreia o que é a etapa mais importante para resolver os problemas – reconhecer o fato de que algo deu errado e garantir ao cliente que o problema está sendo resolvido. Também mostra como a organização é responsiva aos problemas à medida que eles acontecem.

Para reduzir o MTTA, é preciso primeiro rastreá-lo. Sem a medição adequada, não é possível saber com certeza se os esforços para reduzir o MTTA foram bem-sucedidos. A equipe está sofrendo de “fadiga de alerta” e demorando muito tempo para responder? Essa métrica ajudará a sinalizar o problema.

No vídeo abaixo, nosso CEO Bruno Pereira usa uma analogia simples para explicar as métricas MTTA, MTTR e MTBF, métricas essas presentes na nossa plataforma de monitoramento One Platform:

Share the Post:

A imagem mostra um profissional observando atentamente uma tela de computador com diversos gráficos e indicadores de desempenho relacionados à área de Business Analytics.

Hotfix vs. Patch: quando cada um é a melhor solução?

Os usuários cobram agilidade e disponibilidade dos sistemas, por isso lidar com falhas rapidamente é uma questão de sobrevivência para

A imagem retrata um NOC (Network Operations Center), com várias telas dispostas em um formato curvado, exibindo gráficos, indicadores e dados relacionados a redes e monitoramento.

Como estruturar um NOC de alta performance para monitoramento 24/7

Em um mundo onde a tecnologia é o coração das operações, garantir que sistemas e aplicações estejam sempre disponíveis é