methodatlas
Run SheetUX ResearchEvaluation Research

Usability Testing

KomplexitätMedium
Zeit1-2 h je Session
Teilnehmende5-8
FormatBoth
MaturityCanonical
01

Vorbedingung

Was vorher fertig sein muss

Vorher abschließenTestbares Artefaktnicht im Katalog

Ein klickbarer Prototyp, ein Staging-System oder das Live-Produkt mit den Test-Pfaden ist verfügbar und stabil.

Ohne: Ohne testbares Artefakt testet man Hypothesen statt Realität, Erkenntnisse sind über die nächste Iteration hinaus nicht belastbar.
Vorher abschließenDefinierte Tasksnicht im Katalog

3-5 realistische Aufgaben mit klarem Erfolgskriterium sind formuliert, abgeleitet aus tatsächlichen Nutzungs-Szenarien.

Ohne: Ohne klare Tasks beobachten Tester unstrukturiert und vergleichen Probanden nicht konsistent.
02

Vorbereitung

Was vor Start vorliegen muss

Materialien

Testbares Artefakt (Prototyp, Staging, Live); Aufgaben-Skript mit Wortlaut; Recording-Tool (Lookback, Maze, Zoom mit Screen Share); Beobachtungs-Template (Task, beobachtetes Verhalten, Probleme, Schwere 1-4); Belohnung für Teilnehmer.

Personen / Rollen

Ein Moderator für die Sessions; ein bis drei stille Beobachter für Notizen aus dem Team; optional Note-Taker für Synthese; Recruiter für 5-8 Teilnehmer aus Zielgruppe.

Vorabinfos

Aufgaben in Reihenfolge mit Wortlaut; Erfolgskriterien pro Task; bekannte Hypothesen (was wir vermuten, dass schiefgeht); Demografie der Teilnehmer; Testumgebung mit Daten-Setup.

Zeitbedarf

1-2 h je Session, plus 4-8 h Vorbereitung und Synthese

Setup

5-8 Sessions à 45-60 min planen (Nielsen-Schwelle: 5 Tester decken ~85% der Usability-Probleme auf). Pilot mit 1 Person, dann Hauptdurchläufe. Stille Beobachter im Raum oder remote, Moderator führt allein. Schweregrad-Skala festlegen (1=Show-Stopper, 4=kosmetisch).

03

Kernfrage

Die eine Frage, die diese Methode beantwortet

Können typische Nutzer die zentralen Tasks erfolgreich, effizient und zufriedenstellend abschließen, und wo scheitern sie woran?

04

Ablauf

Marker: Phase

SchrittDauerAktionHinweis
1Phase 1: Briefing und Warm-up
5-10 minTeilnehmer begrüßen, Zweck erklären („Wir testen das Produkt, nicht Sie“). Think-Aloud-Methode einführen, Einwilligung bestätigen. Demographische Warm-up-Fragen.Tester unter Druck zu setzen verzerrt Ergebnisse. „Es gibt kein Falsch hier“ explizit sagen. Wenn Tester schweigt, freundlich an Think-Aloud erinnern.
2Phase 2: Tasks ausführen lassen
30-45 minTasks in Reihenfolge vorlesen. Tester arbeiten selbstständig, Moderator beobachtet stumm. Nur bei festsitzen vorsichtig nachfragen („Was denken Sie gerade?“). Keine Hilfe geben, kein Lösungsweg vorgeben.Wenn Tester nach 5 min nicht weiterkommt und das Erfolgskriterium nicht erreicht, Task abbrechen. Das ist ein Daten-Punkt, kein Versagen.
3Phase 3: Post-Task-Fragen
5-10 minNach jedem Task: Schwierigkeitsbewertung (1-7), kurzer „Was war frustrierend?“ und „Was war hilfreich?“. Am Ende SEQ oder UMUX-Lite-Fragebogen.Quantitative Mini-Skala plus qualitative Begründung. Nur quantitativ ist dünn, nur qualitativ schwer vergleichbar.
4Phase 4: Debriefing pro Session
10 min nach jeder SessionModerator und Beobachter notieren je Top-3 Probleme. Schweregrad zuweisen. Aufzeichnung sichern und ablegen.Sofort nach Session debriefen. Sonst vermischen sich Sessions in der Erinnerung und Detail geht verloren.
5Phase 5: Synthese und Rangliste
3-6 h nach allen SessionsAlle Probleme aggregieren, doppelte konsolidieren. Pro Problem Häufigkeit (wie viele Tester betroffen) und Schweregrad. Top-Probleme nach Häufigkeit × Schwere sortieren. Empfehlungen ableiten.Häufigkeit allein irreführend. Show-Stopper bei 1/5 ist wichtiger als kosmetischer Hinweis bei 5/5. Schwere ernst nehmen.
05

Artefakt

Was am Ende rauskommt

Form

Usability-Report mit Sample-Beschreibung, Task-Erfolgsraten, Liste der Probleme (sortiert nach Häufigkeit × Schwere), Zitat-Belegen, Empfehlungen pro Problem und Aufzeichnungs-Links (intern).

Tool-Alternativen
  • Lookback für Remote-Recording und Highlights
  • Maze für asynchrone Tests und automatisierte Aufzeichnung
  • Zoom mit Screen Share und manuellen Notizen
  • UserTesting für externe Tester-Pools
  • Dovetail für Synthese und Tagging der Aufzeichnungen
Versionierung / Ownership

Pro Test-Runde eigene Reports mit Datum und Artefakt-Version. Wiederholungs-Tests nach Fixes mit explizitem „getestet gegen Version Y am …“ Status. Verlauf der wichtigsten Probleme über Test-Runden hinweg visualisieren.

markdown

Usability Testing Arbeitsvorlage

Kompakte Arbeitsvorlage für Usability Testing mit Kontext, Input, Ergebnisartefakten und nächstem Schritt.

# Usability Testing Arbeitsvorlage

## Ziel

Beobachtet Menschen beim Verwenden eines Designs, um Usability-Probleme zu finden.

## Kontext

Wann und wofür nutzen wir diese Methode?

## Input

Welche Daten, Beobachtungen, Entscheidungen oder Materialien liegen vor?

## Durchführung

Kurze Notizen entlang des Run Sheets.

## Ergebnisartefakte
- Usability Issues:
- Severity List:
- Recommendations:

## Annahmen und offene Fragen

- ...

## Entscheidung / Nächster Schritt

Owner, Datum und Erfolgssignal.
06

Beispielausgabe

Konkret gefülltes Szenario

usability-testing-beispiel.md
markdown
## Usability Test — Checkout-Prototyp v2 (KW 19/2026, n=5)

**Sample**: 5 Online-Shopper aus Zielgruppe (3 mobil, 2 Desktop). Vergütung 30 EUR.

### Task-Erfolgsraten
| Task | Erfolg | Avg Zeit | Avg SEQ |
|---|---|---|---|
| Produkt in Warenkorb | 5/5 | 0:42 | 6,4 |
| Checkout starten | 5/5 | 0:18 | 6,8 |
| Lieferadresse eingeben | 3/5 | 2:24 | 4,2 |
| Zahlungsmethode wählen + bezahlen | 4/5 | 1:48 | 5,0 |
| Bestellbestätigung verstehen | 5/5 | 0:25 | 6,2 |

### Top-Probleme

**P1 (Show-Stopper, 2/5 betroffen, Severity 1)**: PLZ-Feld validiert beim Verlassen, Fehlertext erscheint UNTER dem nächsten Feld. Tester sahen Fehler nicht und scheiterten am Submit.
- Zitat (T2): „Ich habe drei Mal gedrückt und nichts passierte, dann hab ich abgebrochen.“
- Empfehlung: Inline-Fehlermeldung direkt unter PLZ-Feld, plus Focus auf das betroffene Feld bei Submit-Fehler.

**P2 (Major, 3/5 betroffen, Severity 2)**: „Lieferadresse identisch mit Rechnungsadresse“-Checkbox war aus, Tester füllten Adresse doppelt.
- Zitat (T4): „Warum muss ich das zweimal eingeben?“
- Empfehlung: Checkbox per Default an.

**P3 (Moderate, 2/5 betroffen, Severity 3)**: Apple-Pay-Button war nicht als anklickbar erkennbar (zu klein, fehlende Affordance).
- Empfehlung: Größeren Touch-Bereich, klare CTA-Beschriftung.

### Empfehlungs-Priorität
1. P1 vor Launch fixen (Show-Stopper)
2. P2 vor Launch (kostengünstig, hoher Effekt)
3. P3 in nächster Iteration (Apple-Pay-Adoption-Hebel)
07

Stolperfallen

Symptome erkennen, gegensteuern

Falle

Moderator hilft

Symptom

Bei Schwierigkeiten gibt Moderator Hinweise oder verteidigt das Design.

Was tun

Standardphrasen üben: „Was denken Sie?“, „Was würden Sie als nächstes tun?“. Schweigen aushalten. Hilfe verfälscht das Ergebnis komplett.

Falle

Nutzungssituation künstlich

Symptom

Tester sitzen in einem Raum vor unbekanntem Gerät mit Beobachtern, Verhalten weicht von echter Nutzung ab.

Was tun

Möglichst auf Tester-Gerät testen (Remote-Test, eigenes Handy). Beobachter unsichtbar oder minimal. Realistische Aufgaben-Szenarien.

Falle

Zu viele Tasks

Symptom

10+ Tasks in einer Session, Tester ermüden, letzte Tasks liefern Müll-Daten.

Was tun

Maximal 5 Hauptaufgaben in 60 min. Wenn mehr nötig, mehrere Sessions oder kürzere Aufgaben. Müdigkeit produziert Pseudo-Daten.

Falle

Bestätigungs-Bias bei Synthese

Symptom

Probleme, die dem Team nicht passen, werden als „Nutzer-Fehler“ kategorisiert und ignoriert.

Was tun

Regel: was zwei oder mehr Tester treffen, ist immer ein Design-Problem. Severity diskutieren, nicht Existenz.

Falle

Keine Wiederholung nach Fix

Symptom

Probleme werden gefixt, aber nicht erneut getestet. Es ist unbekannt, ob der Fix wirkt oder neue Probleme erzeugt.

Was tun

Wiederholungs-Test nach Major-Fixes mit 3-5 neuen Testern. Fix-Verifikation ist Teil der Definition of Done.

08

Abbruchkriterien

Done-Signale, in unter einer Minute prüfbar

Kein testbares Artefakt verfügbar, Spekulation statt Test.
Tasks sind nicht realistisch oder nicht aus echten Szenarien abgeleitet.
Keine 5+ Teilnehmer aus Zielgruppe rekrutierbar.
Moderator hat keine Erfahrung mit Usability-Testing, Lenkungs-Bias garantiert.
Keine Zeit für Pilot, erste Probanden sind unfreiwillige Versuchsobjekte.
Stakeholder will Design verteidigen, nicht lernen, Test wird Theater.

Run Sheet durchgearbeitet?

Zum Steckbrief für Zweck, ähnliche Methoden und Quellen — oder direkt zur nächsten Methode im Katalog.