Parte II – Princípios

Esta seção examina os princípios subjacentes ao funcionamento típico das equipes de SRE – os padrões, comportamentos e áreas de preocupação que influenciam o domínio geral das operações de SRE.

O primeiro capítulo desta seção, e a parte mais importante a ser lida, se você deseja obter o quadro mais amplo do que exatamente o SRE faz e como raciocinamos sobre isso, é “Abraçando o Risco”. Esse capítulo analisa o SRE através da lente do risco – sua avaliação, gerenciamento e o uso de error budget para fornecer abordagens neutras úteis para o gerenciamento de serviços.

Os objetivos de nível de serviço são outra unidade conceitual básica para o SRE. A indústria geralmente agrupa conceitos díspares sob a bandeira geral dos acordos de nível de serviço, uma tendência que torna mais difícil pensar sobre esses conceitos com clareza. Em “Objetivos de nível de serviço” buscamos separar indicadores de objetivos e acordos, examinamos como o SRE usa cada um desses termos e fornecemos algumas recomendações sobre como encontrar métricas úteis para suas próprias aplicações.

Eliminar o trabalho árduo é uma das tarefas mais importantes do SRE e é o tema do Capítulo 5. Definimos “trabalho árduo” como sendo um trabalho operacional rotineiro e repetitivo, que não oferece valor duradouro, e que se escala linearmente com o crescimento do serviço.

Seja no Google ou em outro lugar, o monitoramento é um componente absolutamente essencial para fazer as coisas certas em produção. Se você não pode monitorar um serviço, não sabe o que está acontecendo e, se não sabe o que está acontecendo, não pode ser confiável. Leia o Capítulo 6, “Monitorando Sistemas Distribuídos”, para obter algumas recomendações sobre o quê e como monitorar, e algumas práticas recomendadas independente de implementação.

Em “A evolução da automação no Google”, examinamos a abordagem do SRE para a automação e examinamos alguns estudos de caso de como o SRE implementou a automação, tanto em casos de sucesso como em casos de fracasso.

A maioria das empresas trata a Engenharia de Lançamento como uma reflexão tardia. No entanto, como você aprenderá no Capítulo 8, a engenharia de lançamento não é crítica apenas para a estabilidade geral do sistema – já que a maioria das interrupções resultam de uma mudança de algum tipo. É também a melhor maneira de garantir que as versões sejam consistentes.

Um princípio fundamental de qualquer engenharia de software eficaz – não apenas a engenharia orientada para a confiabilidade – é a simplicidade, uma qualidade que, uma vez perdida, pode ser extraordinariamente difícil de se recuperar. No entanto, como diz o velho ditado, um sistema complexo que funciona necessariamente evoluiu de um sistema simples que funciona. O Capítulo 9, “Simplicidade”, entra neste tópico em detalhes.

Leitura complementar do Google SRE

Aumentar a velocidade do produto com segurança é um princípio fundamental para qualquer organização. No artigo “Making Push On Green a Reality“, publicado em outubro de 2014, mostramos que tirar os humanos do processo de lançamento pode, paradoxalmente, reduzir o trabalho dos SREs enquanto aumenta a confiabilidade do sistema.

Fonte: Google SRE Book

Rolar para cima