Livro SRE
O livro de SRE do Google é uma referência excelente para profissionais de tecnologia. Para democratizar de forma mais ampla o acesso ao conteúdo, estamos disponibilizando esta tradução gratuita online, compatível com a licença Creative Commons do livro original.

Apêndice F – Exemplo de Ata de Reunião de Produção
Data: 2015-10-23 Participantes: agoogler, clarac, docbrown, jennifer, martym Anúncios: Grande
Apêndice E – Lista de verificação de coordenação de lançamento
Esta é a lista de verificação original da coordenação de
Apêndice D – Exemplo de Postmortem
Soneto Shakespeare ++ Postmortem (incidente #465) Data: 2015-10-21 Autores: jennifer,
Apêndice C – Exemplo de Documento de Estado de Incidente
Soneto Shakespeare++ Sobrecarga: 2015-10-21 Informação sobre gestão de incidentes: https://incident-management-cheat-sheet
Apêndice B – Uma coleção de Melhores Práticas para Serviços de Produção
Escrito por Ben Treynor Sloss Editado por Betsy Beyer Falhar
Apêndice A – Tabela de disponibilidade
A disponibilidade é geralmente calculada com base no tempo em
Capítulo 34 – Conclusão
Escrito por Benjamin Lutch Editado por Betsy Beyer Li este
Capítulo 33 – Lições Aprendidas de Outras Indústrias
Escrito por Jennifer Petoff Editado por Betsy Beyer Uma análise
Parte V – Conclusões
Após abordarmos muitos aspectos sobre como o SRE funciona no
Capítulo 32 – O Modelo de Envolvimento Evolutivo do SRE
Escrito por Acacio Cruz e Ashish Bhambhani Editado por Betsy
Capítulo 31 – Comunicação e Colaboração em SRE
Escrito por Niall Murphy com Alex Rodriguez, Carl Crous, Dario
Capítulo 30 – Integrar um SRE para se Recuperar da Sobrecarga Operacional
Escrito por Randall Bosetti Editado por Diane Bates É política
Capítulo 29 – Lidar com Interrupções
Escrito por Dave O’Connor Editado por Diane Bates “Carga operacional”,
Capítulo 28 – Acelerar os SREs para estar de plantão e para além
Como posso amarrar um Jetpack aos meus novatos enquanto mantenho
Parte IV – Gerenciamento
Nossa seleção final de tópicos abrange o trabalho em equipe
Capítulo 27 – Lançamentos de produtos confiáveis em escala
Escrito por Rhandeev Singh e Sebastian Kirsch with Vivek Rau
Capítulo 26 – Integridade de dados: o que se lê é o que se escreveu
Escrito por Raymond Blum and Rhandeev Singh Editado por Betsy
Capítulo 25 – Pipelines de processamento de dados
Escrito por Dan Dennison Editado por Tim Harvey Este capítulo
Capitulo 24 – Agendamento periódico distribuído com Cron
Escrito por Štěpán Davidovič Editado por Kavita Guliani Este capítulo
Capítulo 23 – Gerenciamento de estado crítico: consenso distribuído para Confiabilidade
Escrito por Laura Nolan Editado por Tim Harvey Os processos
Capítulo 22 – Lidando com falhas em cascata
Escrito por Mike Ulrich “Se no início você não conseguir,
Capítulo 21 – Como lidar com sobrecarga
Escrito por Alejandro Forero Cuervo Editado por Sarah Chavis Evitar
Capítulo 20 – Balanceamento de carga no datacenter
Balanceamento de carga no datacenter Escrito por Alejandro Forero Cuervo
Capítulo 19 – Balanceamento de carga no frontend
Balanceamento de carga no frontend Escrito por Piotr LewandowskiEditado por
Capítulo 18 – Engenharia de Software em SRE
Engenharia de Software em SRE Escrito por Dave Helstroom e
Capítulo 17 – Teste de Confiabilidade
Teste de confiabilidade Escrito por Alex Perry e Max LuebbeEditado
Capítulo 16 – Rastreamento de Interrupções
Rastreamento de interrupções Escrito por Gabe KrabbeEditado por Lisa Carey
Capítulo 15 – Cultura Postmortem: Aprendendo com o Fracasso
Cultura Postmortem: Aprendendo com o Fracasso Escrito por John Lunney
Capítulo 14 – Gerenciamento de Incidentes
Gerenciamento de Incidentes Escrito por Andrew StribblehillEditado por Kavita Guliani
Capítulo 13 – Resposta de Emergência
Resposta de emergência Escrito por Corey Adam BayeEditado por Diane
Capítulo 12 – Solução de problemas eficaz
Capítulo 12 – Solução eficaz de problemas Escrito por Chris
Capítulo 11 – Estar de Plantão
Estar de Plantão Escrito por Andrea SpadacciniEditado por Kavita Guliani
Capítulo 10 – Alertas na Prática com Dados de Séries Temporais
Escrito por Jamie WilkinsonEditado por Kavita Guliani “Que as consultas
Capítulo 9 – Simplicidade
Capítulo 9: Simplicidade Escrito por Max Luebbe Editado por Tim
Capítulo 8 – Engenharia de Lançamento
Capítulo 8: Engenharia de Lançamento Escrito por Dinah McNutt Editado
Capítulo 7 – A evolução da automação no Google
Capítulo 7: A evolução da automação no Google Escrito por
Capítulo 6 – Monitorando Sistemas Distribuídos
Capítulo 6 – Monitorando Sistemas Distribuídos Escrito por Rob Ewaschuk
Capítulo 5 – Eliminando o trabalho pesado
Capítulo 5: Eliminando o trabalho pesado Escrito por Vivek Rau
Capítulo 4: Objetivos de Nível de Serviço
Capítulo 4: Objetivos de Nível de Serviço Escrito por Chris
Capítulo 3 – Abraçando o Risco
Capítulo 3 – Abraçando o Risco Escrito por Marc AlvidrezEditado
Parte II – Princípios
Esta seção examina os princípios subjacentes ao funcionamento típico das
Capítulo 2: O ambiente de produção no Google, sob o ponto de vista do SRE
O ambiente de produção no Google, sob o ponto de
Capítulo I – Introdução
Introdução Escrito por Benjamin Treynor SlossRevisado por Betsy Beyer Esperança
Parte I – Introdução
Esta seção fornece algumas orientações de alto nível sobre o