Bootcamp Formação SRE: Elevando a maturidade em Cloud/DevOps pela educação. Início em março de 2023. Garanta sua vaga!
Bootcamp Formación SRE: Elevando la madurez en Cloud/DevOps por la educación. Inicio en Abril. ¡Garantice su vaga!
Parte II – Princípios
outubro 3, 2021
By Laura Loenert
Esta seção examina os princípios subjacentes ao funcionamento típico das equipes de SRE – os padrões, comportamentos e áreas de preocupação que influenciam o domínio geral das operações de SRE.
O primeiro capítulo desta seção, e a parte mais importante a ser lida, se você deseja obter o quadro mais amplo do que exatamente o SRE faz e como raciocinamos sobre isso, é “Abraçando o Risco”. Esse capítulo analisa o SRE através da lente do risco – sua avaliação, gerenciamento e o uso de orçamentos de erro para fornecer abordagens neutras úteis para o gerenciamento de serviços.
Os objetivos de nível de serviço são outra unidade conceitual básica para o SRE. A indústria geralmente agrupa conceitos díspares sob a bandeira geral dos acordos de nível de serviço, uma tendência que torna mais difícil pensar sobre esses conceitos com clareza. Em “Objetivos de nível de serviço” buscamos separar indicadores de objetivos e acordos, examinamos como o SRE usa cada um desses termos e fornecemos algumas recomendações sobre como encontrar métricas úteis para suas próprias aplicações.
Eliminar o trabalho árduo é uma das tarefas mais importantes do SRE e é o tema do Capítulo 5. Definimos “trabalho árduo” como sendo um trabalho operacional rotineiro e repetitivo, que não oferece valor duradouro, e que se escala linearmente com o crescimento do serviço.
Seja no Google ou em outro lugar, o monitoramento é um componente absolutamente essencial para fazer as coisas certas em produção. Se você não pode monitorar um serviço, não sabe o que está acontecendo e, se não sabe o que está acontecendo, não pode ser confiável. Leia o Capítulo 6, “Monitorando Sistemas Distribuídos”, para obter algumas recomendações sobre o quê e como monitorar, e algumas práticas recomendadas independente de implementação.
Em “A evolução da automação no Google”, examinamos a abordagem do SRE para a automação e examinamos alguns estudos de caso de como o SRE implementou a automação, tanto em casos de sucesso como em casos de fracasso.
A maioria das empresas trata a Engenharia de Lançamento como uma reflexão tardia. No entanto, como você aprenderá no Capítulo 8, a engenharia de lançamento não é crítica apenas para a estabilidade geral do sistema – já que a maioria das interrupções resultam de uma mudança de algum tipo. É também a melhor maneira de garantir que as versões sejam consistentes.
Um princípio fundamental de qualquer engenharia de software eficaz – não apenas a engenharia orientada para a confiabilidade – é a simplicidade, uma qualidade que, uma vez perdida, pode ser extraordinariamente difícil de se recuperar. No entanto, como diz o velho ditado, um sistema complexo que funciona necessariamente evoluiu de um sistema simples que funciona. O Capítulo 9, “Simplicidade”, entra neste tópico em detalhes.
Leitura complementar do Google SRE
Aumentar a velocidade do produto com segurança é um princípio fundamental para qualquer organização. No artigo “Making Push On Green a Reality“, publicado em outubro de 2014, mostramos que tirar os humanos do processo de lançamento pode, paradoxalmente, reduzir o trabalho dos SREs enquanto aumenta a confiabilidade do sistema.
Esta seção examina os princípios subjacentes ao funcionamento típico das equipes de SRE – os padrões, comportamentos e áreas de preocupação que influenciam o domínio geral das operações de SRE.
O primeiro capítulo desta seção, e a parte mais importante a ser lida, se você deseja obter o quadro mais amplo do que exatamente o SRE faz e como raciocinamos sobre isso, é “Abraçando o Risco”. Esse capítulo analisa o SRE através da lente do risco – sua avaliação, gerenciamento e o uso de orçamentos de erro para fornecer abordagens neutras úteis para o gerenciamento de serviços.
Os objetivos de nível de serviço são outra unidade conceitual básica para o SRE. A indústria geralmente agrupa conceitos díspares sob a bandeira geral dos acordos de nível de serviço, uma tendência que torna mais difícil pensar sobre esses conceitos com clareza. Em “Objetivos de nível de serviço” buscamos separar indicadores de objetivos e acordos, examinamos como o SRE usa cada um desses termos e fornecemos algumas recomendações sobre como encontrar métricas úteis para suas próprias aplicações.
Eliminar o trabalho árduo é uma das tarefas mais importantes do SRE e é o tema do Capítulo 5. Definimos “trabalho árduo” como sendo um trabalho operacional rotineiro e repetitivo, que não oferece valor duradouro, e que se escala linearmente com o crescimento do serviço.
Seja no Google ou em outro lugar, o monitoramento é um componente absolutamente essencial para fazer as coisas certas em produção. Se você não pode monitorar um serviço, não sabe o que está acontecendo e, se não sabe o que está acontecendo, não pode ser confiável. Leia o Capítulo 6, “Monitorando Sistemas Distribuídos”, para obter algumas recomendações sobre o quê e como monitorar, e algumas práticas recomendadas independente de implementação.
Em “A evolução da automação no Google”, examinamos a abordagem do SRE para a automação e examinamos alguns estudos de caso de como o SRE implementou a automação, tanto em casos de sucesso como em casos de fracasso.
A maioria das empresas trata a Engenharia de Lançamento como uma reflexão tardia. No entanto, como você aprenderá no Capítulo 8, a engenharia de lançamento não é crítica apenas para a estabilidade geral do sistema – já que a maioria das interrupções resultam de uma mudança de algum tipo. É também a melhor maneira de garantir que as versões sejam consistentes.
Um princípio fundamental de qualquer engenharia de software eficaz – não apenas a engenharia orientada para a confiabilidade – é a simplicidade, uma qualidade que, uma vez perdida, pode ser extraordinariamente difícil de se recuperar. No entanto, como diz o velho ditado, um sistema complexo que funciona necessariamente evoluiu de um sistema simples que funciona. O Capítulo 9, “Simplicidade”, entra neste tópico em detalhes.
Leitura complementar do Google SRE
Aumentar a velocidade do produto com segurança é um princípio fundamental para qualquer organização. No artigo “Making Push On Green a Reality“, publicado em outubro de 2014, mostramos que tirar os humanos do processo de lançamento pode, paradoxalmente, reduzir o trabalho dos SREs enquanto aumenta a confiabilidade do sistema.
Quanto dói perder talentos em tecnologia?
Programa de Formação
em Engenharia de Confiabilidade (SRE)
Profissionais qualificados que vão gerar valor mais rápido em seus times
Pessoas ficam mais tempo nas empresas que oferecem oportunidades de aprendizado e crescimento na carreira
Formação realizada com Cohort-based Learning para máximo engajamento e aprendizado dos membros, conectando com instrutores e mentores de destaque nas comunidades de Cloud/DevOps