Insights
Insights fornece uma visão abrangente dos dados históricos de uma organização permitindo que a liderança tome decisões informadas para aprimorar a maturidade operacional. Encontrado no menu lateral, o Insights é composto pelas seguintes abas:
Incidents
Incidents oferece uma visualização geral do esforço de resposta ao longo do tempo de cada incidente que aconteceu em uma organização. Você pode filtrar os incidentes de acordo com intervalo de datas, severidade e origem do incidente.
- Total Incidents: o total de incidentes que a organização enfrentou em um determinado período;
- Total Response Effort: somatório total do tempo de envolvimento em um incidente, medido a partir do acknowledge até sua resolução;
- MTTA (Mean Time to Acknowledge): média de tempo para reconhecimento de um incidente;
- MTTR (Mean Time to Resolve): média de tempo desde o gatilho de um incidente até a sua resolução;
- Time Cluster: grupo correspondente ao período em que o incidente ocorreu:
- Business Hour Interruptions: interrupções que ocorreram de segunda a sexta-feira, entre 8h e 18h;
- Off Hour Interruptions: interrupções que ocorreram de segunda a sexta-feira entre 18h e 22h, ou durante o final de semana entre 18h e 22h;
- Sleep Hour Interruptions: interrupções que ocorreram em de segunda-feira a domingo entre 22h e 8h.
- TTA (Time to Acknowledge): quantidade de tempo entre o gatilho do incidente até o seu reconhecimento.
- TTR (Time to Resolve): tempo desde o gatilho do incidente até a sua resolução.
Responders
O Responders fornece insights sobre o impacto dos incidentes em seus responders, além de trazer dados sobre como foi a sua resolução. Ele também inclui uma lista individual de incidentes baseado em cada responder. Você pode filtrar esse dashboard de acordo com intervalo de datas, severidade, responders, time cluster e MTTR.
- Total Incidents: o total de incidentes que a organização enfrentou em um determinado período;
- Total Response Effort: somatório total dos tempos de envolvimento dos responders com os incidentes, medido a partir do momento em que um responder dá o acknowledge até que o incidente seja resolvido;
- MTTA (Mean time to Acknowledge): média de tempo que um responder levou para o reconhecimento de um incidente;
- MTTR (Mean time to Resolve): média de tempo desde o gatilho de um incidente até o tempo sua resolução por um responder;
Monitoring Performance
O Monitoring Performance possibilita acompanhar e entender o desempenho de monitoramentos realizados pela One Platform em tempo real. Ela oferece uma visão de dados relacionados à saúde dos produtos digitais, permitindo que os usuários identifiquem rapidamente tendências, padrões e anomalias.
-
Downtime: tempo de inatividade dos monitoramentos;
- Outages: quantas interrupções tiveram nos monitoramentos;
- Uptime: Percentual de disponibilidade do recurso monitorado;
- Maximum Response Time: tempo máximo de resposta (latência) do monitoramento;
- Minimum Response Time: tempo mínimo de resposta (latência) do monitoramento;
- Average Response Time: tempo médio de resposta (latência) do monitoramento;
- Uptime per Day: Percentual de disponibilidade do recurso monitorado em comparação aos dias;
- Latency per Hour
: tempo de inatividade dos monitoramentos;
- Top Downtime Resources: Recursos com maior tempo de inatividade, mostrando quantas horas cada recurso ficou indisponível.
- Top AVG Latencies per Resources: Latência média por recurso, mostrando o tempo médio de resposta em milissegundos (ms) para cada recurso monitorado.
Dora Metrics
- Deployment Frequency: a métrica de frequência de implantação, avalia o número de deploys realizados em um período de tempo. Para calcular, meça a quantidade de implementações em um período previamente determinado.
- Lead Time for Changes: essa métrica avalia o tempo desde o commit mais antigo em um merge até o momento do merge na branch de destino. A média simples dos últimos 30 dias é exibida. Para medir, avalie a data de início do teste e a data de implementação real.
- Change Failure Rate: indica a taxa de falha das mudanças, calculada dividindo o número de hotfixes e rollbacks pelo número de deploys. Isso ajuda a equilibrar a métrica Deployment Frequency.
- Mean Time to Recover: indica a média de tempo necessária para a equipe recuperar falhas e problemas que interrompem os sistemas e aplicações.
- Change Failure Rate by Month: Mede a taxa de falhas das mudanças, calculada mensalmente, dividindo o número de hotfixes e rollbacks pelo número total de deploys realizados no mês.
- MTTR by Month: Indica o tempo médio necessário para a equipe recuperar falhas e problemas críticos, calculado mensalmente.
- Deploy Frequency by Month: Avalia a frequência de deploys realizados em um mês, ajudando a monitorar a cadência de entrega de mudanças.
- Lead Time for Changes by Month: Mede o tempo médio entre o commit mais antigo e o merge na branch de destino, calculado mensalmente para avaliar a eficiência do fluxo de trabalho ao longo do mês.
- Deploy Frequency and Change Failure Rate by Day: Monitoramento diário da frequência de deploys e da taxa de falhas associadas a mudanças, para avaliar a agilidade na entrega e a qualidade das implementações.
Business Impact
O Business Impact foi desenvolvido para fornecer uma análise do impacto financeiro causado por incidentes nos sistemas da empresa. Utilizando algoritmos avançados e dados em tempo real, ela calcula quanto cada minuto de inatividade pode custar para a organização, oferecendo uma visão clara e quantificável dos prejuízos potenciais. Na One Platform, o Business Impact calcula o custo estimado para a sua empresa resolver o incidente. O cálculo realizado é: Total Estimated Costs = Total Response Hours x Estimated Costs. É importante certificar-se de que o Business Impact contabiliza todas as equipes que estiveram envolvidas em um incidente, ou seja, se duas pessoas (ou times) responderam ao mesmo incidente, o tempo será considerado duas vezes.
Real-time Explorer
A aba Real-Time Explorer foi desenvolvida para fornecer uma visão detalhada e em tempo real do desempenho dos agents instalados nos ambientes dos nossos clientes. Esta funcionalidade permite a visualização instantânea de eventos de hits e failure, oferecendo uma compreensão aprofundada das operações em curso. Com esta ferramenta, é possível monitorar de forma contínua e precisa, identificando rapidamente quaisquer problemas, o que fortalece a confiabilidade e a performance dos sistemas monitorados.