Todo incidente é uma aula cara. A pergunta é se o time vai sair dela mais forte ou mais assustado. Quando o postmortem vira caça ao culpado, acontece o pior dos dois mundos: a pessoa se defende, a causa real fica escondida, e o mesmo erro volta: só que agora ninguém avisa cedo, com medo de sobrar.
O postmortem blameless (sem culpado) parte de um princípio simples: as pessoas agiram de forma razoável com a informação que tinham na hora. Se o resultado foi ruim, o problema está no sistema (nos sinais, nas barreiras, nos processos), não no caráter de quem apertou o botão.
Pessoas não causam incidentes, sistemas permitem
Se um único clique consegue derrubar produção, o problema não é o clique: é não existir validação, revisão ou rollback que segure esse clique. Culpar a pessoa conserta zero. Corrigir a barreira que faltou conserta para todo mundo, para sempre.
Segurança psicológica não é moleza: é o que faz o time relatar o problema cedo, quando ainda é barato.
A anatomia de um bom postmortem
- Linha do tempo: o que aconteceu, em ordem, com horários: fatos, não interpretações.
- Impacto: quem foi afetado, por quanto tempo, em que magnitude.
- Fatores que contribuíram: as várias causas, não "a" causa única; incidentes raramente têm só uma.
- O que ajudou e o que atrapalhou na detecção e na resposta.
- Ações: com dono e prazo, atacando o sistema, não "ter mais cuidado".
Pergunte "por quê" mais de uma vez
A primeira resposta quase nunca é a causa real. "O deploy quebrou" → por quê? "Faltou uma variável de ambiente" → por quê? "Não havia validação no pipeline" → por quê? "Ninguém é dono desse passo". A correção útil mora no fim da cadeia (criar a validação), não no começo (culpar quem fez o deploy). Pare de perguntar quando chegar em algo que o próprio sistema pode prevenir.
Ação sem dono é desabafo
O postmortem só gera valor se virar mudança. Toda ação precisa de responsável, prazo e prioridade real; caso contrário o documento vira um arquivo bonito que ninguém relê, e o aprendizado evapora até o próximo incidente idêntico.
Cultura é o que sobra depois
Times que fazem postmortem sem culpa relatam mais incidentes, não menos, e isso é ótimo: significa que os problemas aparecem cedo, à luz do dia, quando ainda são baratos de resolver. Medo produz silêncio, e silêncio produz a surpresa cara de madrugada.
Quando ajudamos um time, a resposta a incidentes e o ritual de postmortem entram junto com a parte técnica, porque confiabilidade é tanto método quanto ferramenta, e isso fica com o time depois que saímos. Se os seus incidentes não estão virando aprendizado, vamos conversar.