methodatlas
Run SheetOperationsRoot Cause Analysis

5 Whys

KomplexitätLow
Zeit15-30 min
Teilnehmende2-6
FormatWorkshop
MaturityCanonical
01

Vorbedingung

Was vorher fertig sein muss

Vorher abschließenIncident Timelinenicht im Katalog

Eine chronologische Abfolge der Ereignisse mit Zeitstempeln liegt vor, mindestens vom ersten Symptom bis zur Stabilisierung.

Ohne: Ohne Timeline spekuliert die Gruppe über die Reihenfolge und produziert Ursachen, die zeitlich nicht zum Symptom passen.
Vorher abschließenBlameless Postmortem

Ein etabliertes Postmortem-Setting existiert oder wird in derselben Session genutzt, sodass psychologische Sicherheit als Norm gilt.

Ohne: Ohne diese Norm rutscht die Kette nach zwei Whys in Schuldzuweisung statt in systemische Ursachen.
02

Vorbereitung

Was vor Start vorliegen muss

Materialien

Whiteboard oder Miro-Board mit vertikaler Kette aus sechs Boxen (Problem + 5 Whys); Stift; Timer; Link zum auslösenden Ticket oder Incident-Report.

Personen / Rollen

Ein Facilitator, der die Kette führt und neutral nachfragt; zwei bis fünf Personen mit direktem Systemkontakt (mindestens ein Engineer, ein Operator); ein Scribe, der jede Antwort wörtlich mitschreibt.

Vorabinfos

Konkretes Problem als ein Satz mit Datum und Auswirkung; Incident-ID oder Ticket-Link; relevante Logs oder Graphen der letzten 24 Stunden; bekannte Workarounds.

Zeitbedarf

15-30 min

Setup

Problem-Satz oben in die erste Box schreiben. Fünf leere Boxen vertikal darunter. Timer auf 20 min. Regel ansagen: keine Namen, nur Mechanismen. Antwort jeder Box wird Ausgangspunkt der nächsten Why-Frage.

03

Kernfrage

Die eine Frage, die diese Methode beantwortet

Welche steuerbare Ursache hinter dem Symptom kann das Team mit einer konkreten Countermeasure beheben?

04

Ablauf

Marker: Minute

SchrittDauerAktionHinweis
10-2 min
2 minProblem als beobachtbares Symptom formulieren: was, wann, wie oft, welcher Effekt. Keine Vermutung über Ursache.Wenn der Satz schon eine Ursache enthält („weil X kaputt war“), neu schreiben. Sonst springt die Kette zu spät ein.
22-15 min
13 minWhy-Kette aufbauen: Pro Box eine Why-Frage, eine Antwort, durchgängig auf Mechanismen statt Personen. Nach jedem Why prüfen, ob die Antwort durch Logs oder Daten belegbar ist.Spätestens beim dritten Why sollte die Antwort technischer oder prozesshafter werden. Bleibt sie auf der Verhaltensebene, fehlt Datenzugang oder Systemkenntnis.
315-22 min
7 minStoppkriterium prüfen: Ist die unterste Antwort durch das Team selbst änderbar? Wenn nein, einen Why zurückgehen oder den Pfad verzweigen.Häufig endet eine Kette zu früh bei „der Service ist alt“. Das ist keine steuerbare Ursache; entweder weiter oder zweite Kette parallel.
422-30 min
8 minEine bis drei konkrete Countermeasures notieren, je mit Owner und Zieldatum. Countermeasure muss die identifizierte Ursache adressieren, nicht das Symptom.Wenn die Countermeasure „Monitoring verbessern“ lautet, ist es eine Detection-Massnahme, keine Ursachenbehebung. Beides notieren, klar trennen.
05

Artefakt

Was am Ende rauskommt

Form

Markdown- oder Wiki-Eintrag im Incident-Verzeichnis mit Problem-Satz, durchnummerierter Why-Kette (Frage und Antwort je Schritt), identifizierter Root Cause und Liste von Countermeasures mit Owner und Datum.

Tool-Alternativen
  • Markdown im Repo unter docs/incidents/
  • Confluence-Seite im Postmortem-Space
  • Miro-Board mit Snapshot-Export
  • Linear- oder Jira-Issue mit Why-Kette im Body
Versionierung / Ownership

Datum, Incident-ID und Decider im Header. Spätere Korrekturen als Edit-Log am Ende anhängen, nicht überschreiben. Bei neuen Erkenntnissen Status auf `revised` setzen und ursprüngliche Kette behalten.

markdown

5 Whys Arbeitsvorlage

Kompakte Arbeitsvorlage für 5 Whys mit Kontext, Input, Ergebnisartefakten und nächstem Schritt.

# 5 Whys Arbeitsvorlage

## Ziel

Einfache Technik, um von Symptomen zu tieferliegenden Ursachen vorzudringen.

## Kontext

Wann und wofür nutzen wir diese Methode?

## Input

Welche Daten, Beobachtungen, Entscheidungen oder Materialien liegen vor?

## Durchführung

Kurze Notizen entlang des Run Sheets.

## Ergebnisartefakte
- Root Cause Notes:
- Countermeasures:

## Annahmen und offene Fragen

- ...

## Entscheidung / Nächster Schritt

Owner, Datum und Erfolgssignal.
06

Beispielausgabe

Konkret gefülltes Szenario

5-whys-beispiel.md
markdown
## Problem
Am 14.05.2026 zwischen 09:12 und 09:47 UTC lieferte das Order-API für rund 8% der Checkout-Requests HTTP 500 zurück.

## Why-Kette
1. Warum 500er? Der Order-Service warf TimeoutException beim Datenbankzugriff.
2. Warum Timeouts? Der Connection Pool war ausgelastet (max 20, in use 20).
3. Warum ausgelastet? Ein neuer Batch-Job hielt 15 Verbindungen für 8 min offen.
4. Warum so lang? Der Job nutzte denselben Pool wie der Online-Traffic ohne eigene Quota.
5. Warum kein Pool-Split? In der Code Review fehlte die Checkliste für Batch-Workloads.

## Countermeasures
- Eigener Connection Pool für Batch (Owner: @anna, bis 21.05.).
- Checkliste für Batch-Jobs in CODEOWNERS-Review ergänzen (Owner: @ben, bis 28.05.).
07

Stolperfallen

Symptome erkennen, gegensteuern

Falle

Personifizierung statt Mechanismus

Symptom

Antworten enthalten Namen oder Rollen („weil X nicht aufgepasst hat“) statt Systemverhalten.

Was tun

Antwort umformulieren: was hat das System getan oder unterlassen, das den Fehler ermöglicht hat. Falls Person tatsächlich relevant, frage nach dem fehlenden Sicherheitsnetz im Prozess.

Falle

Zu früh gestoppt

Symptom

Endantwort ist eine Tatsachenbeschreibung („so war das schon immer“) ohne hebelfähige Stelle.

Was tun

Mindestens einen Why weiter, oder Kette verzweigen. Wenn nach sieben Whys keine steuerbare Ursache, ist die Methode ungeeignet, A3 oder Causal Loop Diagram nutzen.

Falle

Datenfreie Kette

Symptom

Antworten klingen plausibel, sind aber Vermutungen ohne Log-Beleg.

Was tun

Pro Antwort einen Beleg fordern (Log-Auszug, Graph, Konfig-Zeile). Wenn keiner verfügbar, Why als „unverifizierte Annahme“ markieren und Followup-Spike planen.

Falle

Lineare Kette bei verzweigter Ursache

Symptom

Mehrere unabhängige Pfade führen zum Symptom, aber nur einer wird verfolgt.

Was tun

Bei verdächtiger Verzweigung zweite Why-Kette parallel aufmachen. Beide bis zum Stoppkriterium führen und am Ende Countermeasures kombinieren.

Falle

Countermeasure adressiert Symptom

Symptom

Die abgeleitete Massnahme ist Monitoring, Alarm oder Hotfix, nicht die Ursache aus der Kette.

Was tun

Detection und Ursachenbehebung getrennt notieren. Pro identifizierter Root Cause mindestens eine Massnahme, die die Wiederholung verhindert, nicht nur die Sichtbarkeit verbessert.

Falle

Konsens statt Wahrheit

Symptom

Die Gruppe einigt sich schnell auf eine Antwort, dissidente Stimmen verstummen.

Was tun

Facilitator fragt explizit nach abweichenden Hypothesen pro Schritt. Bei Uneinigkeit beide Pfade dokumentieren und durch Daten entscheiden.

08

Abbruchkriterien

Done-Signale, in unter einer Minute prüfbar

Kein Teilnehmer mit direktem Systemkontakt anwesend, alle Antworten sind Hörensagen.
Keine Logs, Metriken oder Konfigurationen verfügbar, jede Antwort bleibt unverifizierbare Vermutung.
Symptom ist nicht reproduzierbar oder einmalig, Kausalkette ist nicht prüfbar.
Session kippt nach zwei Whys in Schuldzuweisung, psychologische Sicherheit fehlt.
Nach 30 min keine steuerbare Ursache erreicht, Methode ist zu leichtgewichtig für den Fall.
Problem hat mehr als drei unabhängige Ursachenpfade, lineare Kette führt in die Irre.

Run Sheet durchgearbeitet?

Zum Steckbrief für Zweck, ähnliche Methoden und Quellen — oder direkt zur nächsten Methode im Katalog.