methodatlas
Run SheetGrowthExperimentation

A/B Testing

KomplexitätHigh
Zeit1-4 Wochen
Teilnehmende1-6
FormatAsync
MaturityCanonical
01

Vorbedingung

Was vorher fertig sein muss

Vorher abschließenHypothese mit Erfolgsmetriknicht im Katalog

Eine testbare Hypothese liegt schriftlich vor mit erwarteter Wirkung, Erfolgsmetrik und plausibler Effektgroesse.

Ohne: Ohne Hypothese degeneriert das Experiment zu „mal sehen, was rauskommt“, Lernrate ist nahe null.
Vorher abschließenFunnel Analysis

Die betroffene Conversion-Stelle ist im Funnel identifiziert und die Baseline-Rate bekannt.

Ohne: Ohne Baseline laesst sich Stichprobengroesse nicht berechnen, Test laeuft zu kurz oder zu lang.
Vorher abschließenCounter-Metrics

Mindestens eine Gegenmetrik ist definiert, die Schaden durch Manipulation oder Nebenwirkungen sichtbar macht.

Ohne: Ohne Counter-Metric optimiert das Team eine Stufe und uebersieht, dass eine spaetere Stufe leidet.
02

Vorbereitung

Was vor Start vorliegen muss

Materialien

Experimentier-Tool mit Bucketing und statistischer Auswertung; Vorlage fuer Experiment-Brief (Hypothese, Varianten, Metriken, Sample, Dauer, Stop-Regel); Sample-Size-Rechner.

Personen / Rollen

Ein Experiment-Owner (Product oder Growth); Engineer fuer Implementierung; Datenanalyst fuer Auswertung; Reviewer fuer Brief-Freigabe; Stakeholder fuer Go-Live-Entscheidung.

Vorabinfos

Baseline-Conversion und Varianz; bekannte saisonale Effekte; minimum detectable effect (MDE) als Ziel; Tracking-Plan fuer Erfolgs- und Counter-Metriken; bereits laufende Tests, um Interferenz zu pruefen.

Zeitbedarf

1-2 Wochen Setup, plus 1-4 Wochen Laufzeit

Setup

Experiment-Brief schreiben, von Reviewer freigeben lassen. Sample-Size-Berechnung mit MDE, Alpha (0.05) und Power (0.8). Variant-Implementierung hinter Feature-Flag. Dry-Run mit interner Gruppe vor Rollout.

03

Kernfrage

Die eine Frage, die diese Methode beantwortet

Liefert die Variante einen statistisch signifikanten Effekt auf die Erfolgsmetrik ohne Counter-Metrik zu verschlechtern?

04

Ablauf

Marker: Phase

SchrittDauerAktionHinweis
1Phase 1: Brief und Sample-Size
2-4 hExperiment-Brief schreiben: Hypothese (wenn-dann-weil), Varianten A/B (oder mehr), Erfolgsmetrik, Counter-Metriken, MDE, Sample pro Variante, Laufzeit, Stop-Regeln, Decision-Rule.MDE realistisch waehlen. Wenn MDE 1% absolute Conversion ist, aber Baseline 5%, braucht es zehntausende Nutzer. Sample-Berechnung explizit dokumentieren.
2Phase 2: Implementierung und QA
1-5 TageVariante hinter Feature-Flag. Random Bucketing pruefen (50/50-Verteilung). Tracking-Events fuer Erfolg und Counter pruefen. QA in Staging plus internes Dogfooding.Bucketing-Fehler ruinieren das Experiment unsichtbar. Sample Ratio Mismatch (SRM) ist die haeufigste Fehlerquelle. Pre-Test-Health-Check mit Chi-Quadrat-Test.
3Phase 3: Rollout und Monitoring
1-4 WochenStufenweiser Rollout (1% -> 10% -> 50%) zur Stabilitaetspruefung. Taegliches Monitoring auf Crashes, Latenz, Beschwerden. Keine Zwischeninterpretation der Erfolgsmetrik vor Sample-Erreichung.Peeking (vorzeitiges Schauen) erhoeht False-Positive-Rate massiv. Wenn ein Tool sequenzielle Tests anbietet, nutzen. Sonst: nicht reinschauen.
4Phase 4: Auswertung
1-2 TageNach Sample-Erreichung Auswertung pro Variante: Punktschaetzer, Konfidenzintervall, p-Wert, praktische Effektgroesse. Counter-Metriken pruefen. Segment-Analyse fuer Heterogenitaet.p<0.05 allein reicht nicht. Effektgroesse muss praktisch relevant sein und Counter-Metriken duerfen sich nicht signifikant verschlechtern. Sonst Decision-Rule explizit.
5Phase 5: Entscheidung und Rollout
1 TagDecision: Ship, Iterate, Kill. Bei Ship: 100%-Rollout planen, Test-Code aufraeumen. Bei Iterate: naechste Hypothese formulieren. Bei Kill: Variante entfernen, Lessons Learned notieren.Jedes Experiment liefert Wissen, auch ein „Kill“. Lessons Learned in Knowledge Base ablegen, sonst wird der naechste Test denselben Effekt suchen.
05

Artefakt

Was am Ende rauskommt

Form

Experiment-Report mit Brief, Sample-Size-Begruendung, finalen Werten (Punkt, KI, p), Counter-Metriken, Segment-Analyse, Decision und Followup. Ergaenzt um Tracking-Plan und Brief-Aenderungslog.

Tool-Alternativen
  • Statsig, Optimizely oder VWO mit eingebauter Auswertung
  • GrowthBook (Open Source) mit Bayesian-Analyse
  • Eigene Pipeline mit Snowflake, dbt und Python-Auswertung
  • LaunchDarkly mit Feature-Flags plus Amplitude-Analyse
Versionierung / Ownership

Pro Experiment eindeutige ID und Ordner mit Brief, Code-Referenzen, Auswertung und Decision. Briefe versionieren, Aenderungen waehrend Laufzeit dokumentieren. Archiv fuer abgeschlossene Tests durchsuchbar halten.

markdown

A/B Testing Arbeitsvorlage

Kompakte Arbeitsvorlage für A/B Testing mit Kontext, Input, Ergebnisartefakten und nächstem Schritt.

# A/B Testing Arbeitsvorlage

## Ziel

Vergleicht zwei oder mehr Varianten anhand definierter Erfolgsmetriken.

## Kontext

Wann und wofür nutzen wir diese Methode?

## Input

Welche Daten, Beobachtungen, Entscheidungen oder Materialien liegen vor?

## Durchführung

Kurze Notizen entlang des Run Sheets.

## Ergebnisartefakte
- Experiment Result:
- Decision Log:
- Learning Summary:

## Annahmen und offene Fragen

- ...

## Entscheidung / Nächster Schritt

Owner, Datum und Erfolgssignal.
06

Beispielausgabe

Konkret gefülltes Szenario

ab-testing-beispiel.md
markdown
## A/B-Test EXP-2026-042 - Buchungs-CTA-Position Mobil

**Hypothese**: Wenn der Buchungs-CTA auf Mobil oberhalb des Folds erscheint, steigt Conv-to-Booking-Start von 33% auf mindestens 38%, weil weniger Nutzer den Button verfehlen.

**Varianten**: A (Kontrolle, CTA unter Beschreibung), B (CTA fixed top, sticky).

**Metriken**
- Erfolg: Conv Detail -> Booking-Start.
- Counter: Stornoquote nach Buchung, Beschwerden im Support.

**Sample**: 12.800 Nutzer pro Variante (MDE 5pp, Power 0.8, Alpha 0.05). Sample Window 18 Tage.

**Ergebnis (Laufzeit 18 Tage, n=25.840)**
| Metrik | A | B | Delta | p |
|---|---|---|---|---|
| Conv-to-Start | 33.1% | 39.4% | +6.3pp | <0.001 |
| Stornoquote | 4.2% | 4.4% | +0.2pp | 0.31 |
| Support-Tickets | 12 | 14 | +2 | 0.62 |

**Segment**: iOS +7.1pp, Android +5.4pp. Beide signifikant.

**Decision**: Ship. Rollout 100% am 27.05. Folge-Hypothese: Sticky CTA auf Desktop fuer Tablet-Layout pruefen.
07

Stolperfallen

Symptome erkennen, gegensteuern

Falle

Sample Ratio Mismatch

Symptom

Variant A und B haben deutlich ungleich viele Nutzer trotz 50/50-Zuteilung.

Was tun

Test abbrechen, Bucketing-Code reviewen. Haeufige Ursache: Variante laedt langsamer und Nutzer brechen ab, oder Cookie-Logik wirft Nutzer raus. Chi-Quadrat-Test bei jedem Experiment automatisch.

Falle

Peeking

Symptom

Nach 3 Tagen wirkt Variante besser, Team beendet den Test fruehzeitig.

Was tun

Vor Start fixierte Laufzeit oder sequenziellen Test verwenden. Frueh-Stop ohne Korrektur erzeugt False-Positives. Decision erst nach Sample-Erreichung.

Falle

Multiple Testing ohne Korrektur

Symptom

Mehrere Metriken werden parallel ausgewertet, mindestens eine wird signifikant „durch Zufall“.

Was tun

Vorab eine primaere Erfolgsmetrik benennen. Sekundaere Metriken explorativ kennzeichnen. Bei mehreren Primaerzielen Bonferroni- oder Benjamini-Hochberg-Korrektur.

Falle

Praktisch irrelevanter Effekt

Symptom

Effekt ist signifikant, aber 0.1pp; Aufwand der Implementierung uebersteigt den Nutzen.

Was tun

Decision-Rule erweitert: nicht nur Signifikanz, sondern Mindest-Effektgroesse. Wenn praktische Schwelle nicht erreicht, kein Ship.

Falle

Nebenwirkung auf nachgelagerte Stufe

Symptom

Click-Rate steigt, aber Aktivierung oder Retention faellt unter Variant B.

Was tun

Counter-Metriken bewusst breiter waehlen, mindestens eine Lagging Metric (Aktivierung, Retention). Bei signifikanter Verschlechterung kein Ship trotz positivem Primaerziel.

Falle

Tests laufen parallel und interferieren

Symptom

Mehrere Experimente teilen sich Nutzer und Erfolgsmetrik, Ergebnisse widersprechen sich.

Was tun

Vor Start Interferenz-Check: betreffen Experimente dieselbe Metrik oder denselben UI-Bereich? Bei Konflikt orthogonal aufteilen (verschiedene Layer) oder seriell.

08

Abbruchkriterien

Done-Signale, in unter einer Minute prüfbar

Baseline-Traffic erreicht das berechnete Sample in unter 4 Wochen nicht.
Implementierung ist nicht hinter Feature-Flag, Rollback bei Problemen nicht moeglich.
Counter-Metriken sind nicht definiert oder nicht getrackt.
Sample Ratio Mismatch ist persistent und Ursache nicht behebbar.
Variante kann nicht ohne Nebeneffekt auf andere laufende Experimente betrieben werden.
Geschaeftsentscheidung ist bereits gefallen, Experiment dient nur als Theaterbeleg.
Saisonaler Sondereffekt (Feiertag, Kampagne) verzerrt den Zeitraum vollstaendig.

Run Sheet durchgearbeitet?

Zum Steckbrief für Zweck, ähnliche Methoden und Quellen — oder direkt zur nächsten Methode im Katalog.