Run SheetOperationsRoot Cause Analysis

5 Whys

KomplexitätLow

Zeit15-30 min

Teilnehmende2-6

FormatWorkshop

MaturityCanonical

Vorbedingung

Was vorher fertig sein muss

Vorher abschließenIncident Timelinenicht im Katalog

Eine chronologische Abfolge der Ereignisse mit Zeitstempeln liegt vor, mindestens vom ersten Symptom bis zur Stabilisierung.

Ohne: Ohne Timeline spekuliert die Gruppe über die Reihenfolge und produziert Ursachen, die zeitlich nicht zum Symptom passen.

Vorher abschließenBlameless Postmortem

Ein etabliertes Postmortem-Setting existiert oder wird in derselben Session genutzt, sodass psychologische Sicherheit als Norm gilt.

Ohne: Ohne diese Norm rutscht die Kette nach zwei Whys in Schuldzuweisung statt in systemische Ursachen.

Vorbereitung

Was vor Start vorliegen muss

Materialien

Whiteboard oder Miro-Board mit vertikaler Kette aus sechs Boxen (Problem + 5 Whys); Stift; Timer; Link zum auslösenden Ticket oder Incident-Report.

Personen / Rollen

Ein Facilitator, der die Kette führt und neutral nachfragt; zwei bis fünf Personen mit direktem Systemkontakt (mindestens ein Engineer, ein Operator); ein Scribe, der jede Antwort wörtlich mitschreibt.

Vorabinfos

Konkretes Problem als ein Satz mit Datum und Auswirkung; Incident-ID oder Ticket-Link; relevante Logs oder Graphen der letzten 24 Stunden; bekannte Workarounds.

Zeitbedarf

15-30 min

Setup

Problem-Satz oben in die erste Box schreiben. Fünf leere Boxen vertikal darunter. Timer auf 20 min. Regel ansagen: keine Namen, nur Mechanismen. Antwort jeder Box wird Ausgangspunkt der nächsten Why-Frage.

Kernfrage

Die eine Frage, die diese Methode beantwortet

Welche steuerbare Ursache hinter dem Symptom kann das Team mit einer konkreten Countermeasure beheben?

Ablauf

Marker: Minute

Schritt	Dauer	Aktion	Hinweis
10-2 min	2 min	Problem als beobachtbares Symptom formulieren: was, wann, wie oft, welcher Effekt. Keine Vermutung über Ursache.	Wenn der Satz schon eine Ursache enthält („weil X kaputt war“), neu schreiben. Sonst springt die Kette zu spät ein.
22-15 min	13 min	Why-Kette aufbauen: Pro Box eine Why-Frage, eine Antwort, durchgängig auf Mechanismen statt Personen. Nach jedem Why prüfen, ob die Antwort durch Logs oder Daten belegbar ist.	Spätestens beim dritten Why sollte die Antwort technischer oder prozesshafter werden. Bleibt sie auf der Verhaltensebene, fehlt Datenzugang oder Systemkenntnis.
315-22 min	7 min	Stoppkriterium prüfen: Ist die unterste Antwort durch das Team selbst änderbar? Wenn nein, einen Why zurückgehen oder den Pfad verzweigen.	Häufig endet eine Kette zu früh bei „der Service ist alt“. Das ist keine steuerbare Ursache; entweder weiter oder zweite Kette parallel.
422-30 min	8 min	Eine bis drei konkrete Countermeasures notieren, je mit Owner und Zieldatum. Countermeasure muss die identifizierte Ursache adressieren, nicht das Symptom.	Wenn die Countermeasure „Monitoring verbessern“ lautet, ist es eine Detection-Massnahme, keine Ursachenbehebung. Beides notieren, klar trennen.

Artefakt

Was am Ende rauskommt

Form

Markdown- oder Wiki-Eintrag im Incident-Verzeichnis mit Problem-Satz, durchnummerierter Why-Kette (Frage und Antwort je Schritt), identifizierter Root Cause und Liste von Countermeasures mit Owner und Datum.

Tool-Alternativen

Markdown im Repo unter docs/incidents/
Confluence-Seite im Postmortem-Space
Miro-Board mit Snapshot-Export
Linear- oder Jira-Issue mit Why-Kette im Body

Versionierung / Ownership

Datum, Incident-ID und Decider im Header. Spätere Korrekturen als Edit-Log am Ende anhängen, nicht überschreiben. Bei neuen Erkenntnissen Status auf `revised` setzen und ursprüngliche Kette behalten.

markdown

5 Whys Arbeitsvorlage

Kompakte Arbeitsvorlage für 5 Whys mit Kontext, Input, Ergebnisartefakten und nächstem Schritt.

# 5 Whys Arbeitsvorlage

## Ziel

Einfache Technik, um von Symptomen zu tieferliegenden Ursachen vorzudringen.

## Kontext

Wann und wofür nutzen wir diese Methode?

## Input

Welche Daten, Beobachtungen, Entscheidungen oder Materialien liegen vor?

## Durchführung

Kurze Notizen entlang des Run Sheets.

## Ergebnisartefakte
- Root Cause Notes:
- Countermeasures:

## Annahmen und offene Fragen

- ...

## Entscheidung / Nächster Schritt

Owner, Datum und Erfolgssignal.

Beispielausgabe

Konkret gefülltes Szenario

5-whys-beispiel.md

markdown

## Problem
Am 14.05.2026 zwischen 09:12 und 09:47 UTC lieferte das Order-API für rund 8% der Checkout-Requests HTTP 500 zurück.

## Why-Kette
1. Warum 500er? Der Order-Service warf TimeoutException beim Datenbankzugriff.
2. Warum Timeouts? Der Connection Pool war ausgelastet (max 20, in use 20).
3. Warum ausgelastet? Ein neuer Batch-Job hielt 15 Verbindungen für 8 min offen.
4. Warum so lang? Der Job nutzte denselben Pool wie der Online-Traffic ohne eigene Quota.
5. Warum kein Pool-Split? In der Code Review fehlte die Checkliste für Batch-Workloads.

## Countermeasures
- Eigener Connection Pool für Batch (Owner: @anna, bis 21.05.).
- Checkliste für Batch-Jobs in CODEOWNERS-Review ergänzen (Owner: @ben, bis 28.05.).

Was tun

Facilitator fragt explizit nach abweichenden Hypothesen pro Schritt. Bei Uneinigkeit beide Pfade dokumentieren und durch Daten entscheiden.

Abbruchkriterien

Done-Signale, in unter einer Minute prüfbar

Kein Teilnehmer mit direktem Systemkontakt anwesend, alle Antworten sind Hörensagen.

Keine Logs, Metriken oder Konfigurationen verfügbar, jede Antwort bleibt unverifizierbare Vermutung.

Symptom ist nicht reproduzierbar oder einmalig, Kausalkette ist nicht prüfbar.

Session kippt nach zwei Whys in Schuldzuweisung, psychologische Sicherheit fehlt.

Nach 30 min keine steuerbare Ursache erreicht, Methode ist zu leichtgewichtig für den Fall.

Problem hat mehr als drei unabhängige Ursachenpfade, lineare Kette führt in die Irre.

Run Sheet durchgearbeitet?

Zum Steckbrief für Zweck, ähnliche Methoden und Quellen — oder direkt zur nächsten Methode im Katalog.

Zum Steckbrief Weitere Methoden