Cloud Native · DevOps · SRE · AIOps contato@nilum.com.brLinkedIn

Postmortem sem culpado.

Todo incidente é uma aula cara. A pergunta é se o time vai sair dela mais forte ou mais assustado. Quando o postmortem vira caça ao culpado, acontece o pior dos dois mundos: a pessoa se defende, a causa real fica escondida, e o mesmo erro volta: só que agora ninguém avisa cedo, com medo de sobrar.

O postmortem blameless (sem culpado) parte de um princípio simples: as pessoas agiram de forma razoável com a informação que tinham na hora. Se o resultado foi ruim, o problema está no sistema (nos sinais, nas barreiras, nos processos), não no caráter de quem apertou o botão.

Pessoas não causam incidentes, sistemas permitem

Se um único clique consegue derrubar produção, o problema não é o clique: é não existir validação, revisão ou rollback que segure esse clique. Culpar a pessoa conserta zero. Corrigir a barreira que faltou conserta para todo mundo, para sempre.

Segurança psicológica não é moleza: é o que faz o time relatar o problema cedo, quando ainda é barato.
ANATOMIA DE UM INCIDENTE falha detecção mitigação resolução MTTD MTTR Encurtar MTTD (detectar antes) e MTTR (recuperar antes) reduz o impacto de cada incidente.
// O postmortem investiga por que cada intervalo foi o que foi.

A anatomia de um bom postmortem

  • Linha do tempo: o que aconteceu, em ordem, com horários: fatos, não interpretações.
  • Impacto: quem foi afetado, por quanto tempo, em que magnitude.
  • Fatores que contribuíram: as várias causas, não "a" causa única; incidentes raramente têm só uma.
  • O que ajudou e o que atrapalhou na detecção e na resposta.
  • Ações: com dono e prazo, atacando o sistema, não "ter mais cuidado".

Pergunte "por quê" mais de uma vez

A primeira resposta quase nunca é a causa real. "O deploy quebrou" → por quê? "Faltou uma variável de ambiente" → por quê? "Não havia validação no pipeline" → por quê? "Ninguém é dono desse passo". A correção útil mora no fim da cadeia (criar a validação), não no começo (culpar quem fez o deploy). Pare de perguntar quando chegar em algo que o próprio sistema pode prevenir.

Ação sem dono é desabafo

O postmortem só gera valor se virar mudança. Toda ação precisa de responsável, prazo e prioridade real; caso contrário o documento vira um arquivo bonito que ninguém relê, e o aprendizado evapora até o próximo incidente idêntico.

Cultura é o que sobra depois

Times que fazem postmortem sem culpa relatam mais incidentes, não menos, e isso é ótimo: significa que os problemas aparecem cedo, à luz do dia, quando ainda são baratos de resolver. Medo produz silêncio, e silêncio produz a surpresa cara de madrugada.

Quando ajudamos um time, a resposta a incidentes e o ritual de postmortem entram junto com a parte técnica, porque confiabilidade é tanto método quanto ferramenta, e isso fica com o time depois que saímos. Se os seus incidentes não estão virando aprendizado, vamos conversar.

Os seus incidentes viram aprendizado ou só susto?

Conte o seu cenário em uma conversa de diagnóstico. A gente ajuda a montar resposta a incidentes e postmortems que fortalecem o time.

Agendar diagnóstico