Run SheetGrowthExperimentation

A/B Testing

KomplexitätHigh

Zeit1-4 Wochen

Teilnehmende1-6

FormatAsync

MaturityCanonical

Vorbedingung

Was vorher fertig sein muss

Vorher abschließenHypothese mit Erfolgsmetriknicht im Katalog

Eine testbare Hypothese liegt schriftlich vor mit erwarteter Wirkung, Erfolgsmetrik und plausibler Effektgroesse.

Ohne: Ohne Hypothese degeneriert das Experiment zu „mal sehen, was rauskommt“, Lernrate ist nahe null.

Vorher abschließenFunnel Analysis

Die betroffene Conversion-Stelle ist im Funnel identifiziert und die Baseline-Rate bekannt.

Ohne: Ohne Baseline laesst sich Stichprobengroesse nicht berechnen, Test laeuft zu kurz oder zu lang.

Vorher abschließenCounter-Metrics

Mindestens eine Gegenmetrik ist definiert, die Schaden durch Manipulation oder Nebenwirkungen sichtbar macht.

Ohne: Ohne Counter-Metric optimiert das Team eine Stufe und uebersieht, dass eine spaetere Stufe leidet.

Vorbereitung

Was vor Start vorliegen muss

Materialien

Experimentier-Tool mit Bucketing und statistischer Auswertung; Vorlage fuer Experiment-Brief (Hypothese, Varianten, Metriken, Sample, Dauer, Stop-Regel); Sample-Size-Rechner.

Personen / Rollen

Ein Experiment-Owner (Product oder Growth); Engineer fuer Implementierung; Datenanalyst fuer Auswertung; Reviewer fuer Brief-Freigabe; Stakeholder fuer Go-Live-Entscheidung.

Vorabinfos

Baseline-Conversion und Varianz; bekannte saisonale Effekte; minimum detectable effect (MDE) als Ziel; Tracking-Plan fuer Erfolgs- und Counter-Metriken; bereits laufende Tests, um Interferenz zu pruefen.

Zeitbedarf

1-2 Wochen Setup, plus 1-4 Wochen Laufzeit

Setup

Experiment-Brief schreiben, von Reviewer freigeben lassen. Sample-Size-Berechnung mit MDE, Alpha (0.05) und Power (0.8). Variant-Implementierung hinter Feature-Flag. Dry-Run mit interner Gruppe vor Rollout.

Kernfrage

Die eine Frage, die diese Methode beantwortet

Liefert die Variante einen statistisch signifikanten Effekt auf die Erfolgsmetrik ohne Counter-Metrik zu verschlechtern?

Ablauf

Marker: Phase

Schritt	Dauer	Aktion	Hinweis
1Phase 1: Brief und Sample-Size	2-4 h	Experiment-Brief schreiben: Hypothese (wenn-dann-weil), Varianten A/B (oder mehr), Erfolgsmetrik, Counter-Metriken, MDE, Sample pro Variante, Laufzeit, Stop-Regeln, Decision-Rule.	MDE realistisch waehlen. Wenn MDE 1% absolute Conversion ist, aber Baseline 5%, braucht es zehntausende Nutzer. Sample-Berechnung explizit dokumentieren.
2Phase 2: Implementierung und QA	1-5 Tage	Variante hinter Feature-Flag. Random Bucketing pruefen (50/50-Verteilung). Tracking-Events fuer Erfolg und Counter pruefen. QA in Staging plus internes Dogfooding.	Bucketing-Fehler ruinieren das Experiment unsichtbar. Sample Ratio Mismatch (SRM) ist die haeufigste Fehlerquelle. Pre-Test-Health-Check mit Chi-Quadrat-Test.
3Phase 3: Rollout und Monitoring	1-4 Wochen	Stufenweiser Rollout (1% -> 10% -> 50%) zur Stabilitaetspruefung. Taegliches Monitoring auf Crashes, Latenz, Beschwerden. Keine Zwischeninterpretation der Erfolgsmetrik vor Sample-Erreichung.	Peeking (vorzeitiges Schauen) erhoeht False-Positive-Rate massiv. Wenn ein Tool sequenzielle Tests anbietet, nutzen. Sonst: nicht reinschauen.
4Phase 4: Auswertung	1-2 Tage	Nach Sample-Erreichung Auswertung pro Variante: Punktschaetzer, Konfidenzintervall, p-Wert, praktische Effektgroesse. Counter-Metriken pruefen. Segment-Analyse fuer Heterogenitaet.	p<0.05 allein reicht nicht. Effektgroesse muss praktisch relevant sein und Counter-Metriken duerfen sich nicht signifikant verschlechtern. Sonst Decision-Rule explizit.
5Phase 5: Entscheidung und Rollout	1 Tag	Decision: Ship, Iterate, Kill. Bei Ship: 100%-Rollout planen, Test-Code aufraeumen. Bei Iterate: naechste Hypothese formulieren. Bei Kill: Variante entfernen, Lessons Learned notieren.	Jedes Experiment liefert Wissen, auch ein „Kill“. Lessons Learned in Knowledge Base ablegen, sonst wird der naechste Test denselben Effekt suchen.

Artefakt

Was am Ende rauskommt

Form

Experiment-Report mit Brief, Sample-Size-Begruendung, finalen Werten (Punkt, KI, p), Counter-Metriken, Segment-Analyse, Decision und Followup. Ergaenzt um Tracking-Plan und Brief-Aenderungslog.

Tool-Alternativen

Statsig, Optimizely oder VWO mit eingebauter Auswertung
GrowthBook (Open Source) mit Bayesian-Analyse
Eigene Pipeline mit Snowflake, dbt und Python-Auswertung
LaunchDarkly mit Feature-Flags plus Amplitude-Analyse

Versionierung / Ownership

Pro Experiment eindeutige ID und Ordner mit Brief, Code-Referenzen, Auswertung und Decision. Briefe versionieren, Aenderungen waehrend Laufzeit dokumentieren. Archiv fuer abgeschlossene Tests durchsuchbar halten.

markdown

A/B Testing Arbeitsvorlage

Kompakte Arbeitsvorlage für A/B Testing mit Kontext, Input, Ergebnisartefakten und nächstem Schritt.

# A/B Testing Arbeitsvorlage

## Ziel

Vergleicht zwei oder mehr Varianten anhand definierter Erfolgsmetriken.

## Kontext

Wann und wofür nutzen wir diese Methode?

## Input

Welche Daten, Beobachtungen, Entscheidungen oder Materialien liegen vor?

## Durchführung

Kurze Notizen entlang des Run Sheets.

## Ergebnisartefakte
- Experiment Result:
- Decision Log:
- Learning Summary:

## Annahmen und offene Fragen

- ...

## Entscheidung / Nächster Schritt

Owner, Datum und Erfolgssignal.

Beispielausgabe

Konkret gefülltes Szenario

ab-testing-beispiel.md

markdown

## A/B-Test EXP-2026-042 - Buchungs-CTA-Position Mobil

**Hypothese**: Wenn der Buchungs-CTA auf Mobil oberhalb des Folds erscheint, steigt Conv-to-Booking-Start von 33% auf mindestens 38%, weil weniger Nutzer den Button verfehlen.

**Varianten**: A (Kontrolle, CTA unter Beschreibung), B (CTA fixed top, sticky).

**Metriken**
- Erfolg: Conv Detail -> Booking-Start.
- Counter: Stornoquote nach Buchung, Beschwerden im Support.

**Sample**: 12.800 Nutzer pro Variante (MDE 5pp, Power 0.8, Alpha 0.05). Sample Window 18 Tage.

**Ergebnis (Laufzeit 18 Tage, n=25.840)**
| Metrik | A | B | Delta | p |
|---|---|---|---|---|
| Conv-to-Start | 33.1% | 39.4% | +6.3pp | <0.001 |
| Stornoquote | 4.2% | 4.4% | +0.2pp | 0.31 |
| Support-Tickets | 12 | 14 | +2 | 0.62 |

**Segment**: iOS +7.1pp, Android +5.4pp. Beide signifikant.

**Decision**: Ship. Rollout 100% am 27.05. Folge-Hypothese: Sticky CTA auf Desktop fuer Tablet-Layout pruefen.

Was tun

Vor Start Interferenz-Check: betreffen Experimente dieselbe Metrik oder denselben UI-Bereich? Bei Konflikt orthogonal aufteilen (verschiedene Layer) oder seriell.

Abbruchkriterien

Done-Signale, in unter einer Minute prüfbar

Baseline-Traffic erreicht das berechnete Sample in unter 4 Wochen nicht.

Implementierung ist nicht hinter Feature-Flag, Rollback bei Problemen nicht moeglich.

Counter-Metriken sind nicht definiert oder nicht getrackt.

Sample Ratio Mismatch ist persistent und Ursache nicht behebbar.

Variante kann nicht ohne Nebeneffekt auf andere laufende Experimente betrieben werden.

Geschaeftsentscheidung ist bereits gefallen, Experiment dient nur als Theaterbeleg.

Saisonaler Sondereffekt (Feiertag, Kampagne) verzerrt den Zeitraum vollstaendig.

Run Sheet durchgearbeitet?

Zum Steckbrief für Zweck, ähnliche Methoden und Quellen — oder direkt zur nächsten Methode im Katalog.

Zum Steckbrief Weitere Methoden