Run SheetDevOpsIncident Review

Blameless Postmortem

KomplexitätMedium

Zeit30-90 min

Teilnehmende3-12

FormatBoth

MaturityCanonical

Vorbedingung

Was vorher fertig sein muss

Vorher abschließenIncident Timelinenicht im Katalog

Eine chronologische Timeline des Incidents mit Zeitstempeln aller relevanten Ereignisse (Alarme, Aktionen, Recoveries) ist erstellt und im Tool abrufbar.

Ohne: Ohne Timeline diskutiert die Gruppe über Reihenfolge und Erinnerung, statt über Mechanismen.

Vorher abschließenIncident Command

Ein dokumentierter Incident-Verlauf mit benannten Rollen (Incident Commander, Communications, Operations) liegt vor, sodass Beteiligte und Entscheidungen nachvollziehbar sind.

Ohne: Ohne Rollendokumentation kollabiert die Analyse in Versionen-der-Wahrheit pro Beteiligtem.

Vorbereitung

Was vor Start vorliegen muss

Materialien

Postmortem-Template (Header, Timeline, Impact, Root Cause, Contributing Factors, Action Items, Lessons); geteiltes Dokument; Log-Auszüge und Graphen vom Incident-Tag; Chat-Transkript aus dem Incident-Channel; Liste der Beteiligten.

Personen / Rollen

Facilitator ohne direkte Incident-Beteiligung; Incident Commander des Vorfalls; alle Operatoren mit aktiver Handlung im Verlauf; ein Scribe für das Protokoll; optional ein neutraler Beobachter aus einem anderen Team für Externblick.

Vorabinfos

Incident-ID, Dauer, Impact in Zahlen (Nutzer, Umsatz, SLO-Verletzung); Timeline-Entwurf 24 h vor Termin; bekannte Workarounds; bisherige Hypothesen aus dem Chat-Verlauf; Datum und Owner des Termins.

Zeitbedarf

60-90 min Workshop, plus 2 h asynchrone Vorbereitung durch Facilitator

Setup

Termin maximal 5 Werktage nach Resolution. Template mit Header und Timeline-Skeleton vorab ausfüllen. Regel ansagen: Sprache fokussiert auf Systemverhalten, keine Namen in Ursachenformulierungen. Aufzeichnung optional, aber Konsens vorab.

Kernfrage

Die eine Frage, die diese Methode beantwortet

Welche Systembedingungen und Entscheidungspunkte haben den Incident möglich gemacht, und welche konkreten Massnahmen verhindern die Wiederholung?

Ablauf

Marker: Phase

Schritt	Dauer	Aktion	Hinweis
1Phase 1: Timeline-Walkthrough	20 min	Facilitator liest die Timeline laut vor, Beteiligte ergänzen Lücken, korrigieren Zeitstempel und kennzeichnen Entscheidungspunkte. Keine Diskussion über Ursachen, nur Faktenbasis.	Wenn das Team in Phase 1 in Diskussion rutscht, Facilitator stoppt und schiebt Punkte in Phase 3. Timeline ist Grundlage, nicht Bewertung.
2Phase 2: Impact-Erfassung	10 min	Nutzer-Impact, Geschäfts-Impact und SLO-Verletzungen in Zahlen festhalten. Mindestens: Dauer der Beeinträchtigung, Anzahl betroffener Nutzer, geschätzter Umsatz- oder Reputationseffekt.	Zahlen brauchen Quelle. Wenn Schätzungen, dann als Schätzung markieren. Impact treibt Priorität der Action Items.
3Phase 3: Contributing Factors	30 min	Beitragende Faktoren in Kategorien sammeln: Technik, Prozess, Organisation, Information. Pro Faktor: was hat das System getan oder unterlassen, was hätte den Verlauf verändert. Sprache neutral halten.	Facilitator unterbricht bei Personifizierungen und formuliert um. Statt „X hat vergessen“ wird daraus „der Prozess hatte keinen Kontrollpunkt“.
4Phase 4: Action Items	20 min	Pro Contributing Factor 0-2 Massnahmen mit Owner, Frist und Priorität. Action Items als kleine, ausführbare Tickets, keine Programme. Detection-Massnahmen klar von Ursachen-Massnahmen trennen.	Wenn alle Action Items „bessere Doku“ oder „mehr Training“ sind, fehlt System-Tiefe. Mindestens eine technische Massnahme pro relevantem Faktor.
5Phase 5: Lessons und Sign-off	10 min	Drei Lessons Learned formulieren, die andere Teams interessieren könnten. Veröffentlichungs-Format und Adressaten klären. Sign-off durch Incident Commander und Facilitator.	Lessons gehören in den teamübergreifenden Lernkanal, nicht nur in den lokalen Wiki-Ordner. Wenn Lessons nur intern bleiben, fehlt der Multiplikator-Effekt.

Artefakt

Was am Ende rauskommt

Form

Postmortem-Dokument im Engineering-Wiki mit Header (Incident-ID, Datum, Severity, Dauer), Timeline mit Zeitstempeln, Impact-Zahlen, Contributing Factors in Kategorien, Action Items mit Owner und Frist, Lessons Learned und Sign-off-Block.

Tool-Alternativen

Confluence-Seite im SRE-Space
GitHub- oder GitLab-Wiki im Service-Repo
Notion-Datenbank mit Postmortem-Template
Dediziertes Tool wie Jeli, FireHydrant oder Rootly

Versionierung / Ownership

Pro Incident ein Dokument mit Incident-ID im Titel. Status-Feld (draft, review, signed-off, follow-up-done). Action-Item-Status wird im Dokument-Header aktuell gehalten. Spätere Erkenntnisse als datierter Anhang, nicht durch Überschreibung.

markdown

Blameless Postmortem

Vorlage für Lernen, beitragende Faktoren und Maßnahmen nach einem Incident.

# Blameless Postmortem

## Zusammenfassung

Was ist passiert, welche Wirkung hatte es?

## Impact

- Kundenauswirkung:
- Dauer:
- Betroffene Systeme:

## Timeline

Link oder Auszug der Timeline.

## Beitragende Faktoren

- ...

## Was lief gut?

- ...

## Was verbessern wir?

| Maßnahme | Owner | Datum | Erwartete Wirkung |
|---|---|---|---|

## Follow-up

Review-Termin und Status.

Beispielausgabe

Konkret gefülltes Szenario

blameless-postmortem-beispiel.md

markdown

## Postmortem INC-2026-0847 — Order-API Degradation 14.05.2026

**Severity**: SEV-2. **Dauer**: 35 min (09:12-09:47 UTC). **Impact**: 8,2% der Checkout-Requests mit HTTP 500, geschätzt 1.240 betroffene Nutzer, 14.200 EUR Umsatzverlust laut Finance-Schätzung.

### Timeline
- 09:12 PagerDuty alert SEV-2 auf order-api.error_rate.
- 09:14 @anna übernimmt als Incident Commander.
- 09:21 Batch-Job batch-recon-202 als Korrelation identifiziert.
- 09:33 Batch-Job manuell gestoppt.
- 09:47 Error Rate unter SLO, Incident geschlossen.

### Contributing Factors
- Technik: Batch und Online-Traffic teilen denselben Connection Pool ohne Quota.
- Prozess: Code-Review-Checkliste enthielt keinen Pool-Split-Check für Batch-Workloads.
- Information: Batch-Job wurde am Vortag aktiviert, ohne dass On-Call das wusste.

### Action Items
1. Eigener Connection Pool für Batch-Workloads (Owner: @anna, P1, bis 21.05.).
2. Review-Checkliste um Batch-Pool-Check erweitern (Owner: @ben, P2, bis 28.05.).
3. Slack-Notification für aktivierte Batches an #on-call (Owner: @chris, P3, bis 04.06.).

### Lessons
- Shared Resource Pools sind eine wiederkehrende Schwachstelle, Quota-Strategie teamweit prüfen.
- Batch-Aktivierung muss On-Call sichtbar sein, nicht nur Owner-Team.

Was tun

Postmortem bleibt intern, eine separate Stakeholder-Zusammenfassung wird daraus abgeleitet. Trennung von Lerndokument und Kommunikationsartefakt.

Abbruchkriterien

Done-Signale, in unter einer Minute prüfbar

Incident Commander oder zentrale Operatoren sind nicht verfügbar, Timeline ist nicht verifizierbar.

Kein Facilitator ohne Incident-Beteiligung verfügbar, Moderation ist befangen.

Termin findet später als 10 Werktage nach Incident statt, Erinnerungslücke ist zu gross.

Severity ist SEV-3 oder niedriger, leichter Postmortem (1-Seiter) reicht.

Team-Kultur unterstützt keine blame-freie Sprache, Workshop kippt in Defensivposition.

Action-Item-Owner hat keine Umsetzungs-Kapazität, Massnahmen bleiben theoretisch.

Run Sheet durchgearbeitet?

Zum Steckbrief für Zweck, ähnliche Methoden und Quellen — oder direkt zur nächsten Methode im Katalog.

Zum Steckbrief Weitere Methoden