Multi-Modell-Benchmark · April 2026
Wir haben 12 führende Large-Language-Modelle entlang der drei Achsen getestet, die für klinische Dokumentation tatsächlich zählen: medizinische Faktentreue, Halluzinationsrate und End-to-End-Latenz. 60+ generierte Notizen, ausgewertet gegen ein 10-Kriterien-Rubrik aus realem Ärzte-Feedback, an 6 repräsentativen deutschen Konsultationen aus Kardiologie und Rheumatologie.
Warum diese Studie zählt
Medizinische Dokumentation ist der Anwendungsfall mit dem höchsten Risiko für LLMs. Eine halluzinierte Medikation, ein gelöschter Negativbefund oder eine falsch zugeordnete Therapieentscheidung ist nicht ein Qualitätsproblem — es ist ein Patientensicherheits- und medico-legales Problem.
Wir mussten wissen, welche der heutigen Frontier-Modelle zuverlässig:
- Jedes klinische Faktum aus einem Arzt-Patient-Gespräch extrahieren
- Nichts erfinden, was nicht gesagt wurde
- Spracherkennungs-Fehler dekodieren (z. B. „Rinbok" → Rinvoq / Upadacitinib)
- Therapieentscheidungen korrekt dokumentieren — inklusive Patientenablehnungen und Kompromisse
- Schnell genug sein, dass Ärzte das System tatsächlich nutzen
Methodik
Test-Korpus
- 6 deutsche Konsultations-Transkripte aus anonymisierten realen Visiten
- Komplexitätsbänder: 2 einfach (469–501 Wörter), 2 mittel (639–757 Wörter), 2 komplex (1.141–2.204 Wörter)
- Zwei Fachrichtungen: Kardiologie und Rheumatologie
- Echte STT-Verstümmelungen absichtlich erhalten (z. B. „Mira" → Humira, „Rinbok" → Rinvoq, „Drittensulum" → Prednisolon) — wir testen die STT-Korrekturfähigkeit unter Produktionsbedingungen
Bewertungs-Rubrik (10 Dimensionen, gewichtet)
Abgeleitet aus realem Ärzte-Feedback, gesammelt über 9 Monate in einer deutschen rheumatologischen Praxis (Immunologikum Hamburg, Juli 2025 – März 2026).
| Dimension | Gewicht |
|---|---|
| Faktische Vollständigkeit | 20% |
| Halluzinationskontrolle | 10% |
| STT-Korrektur | 10% |
| Medizinische Terminologie-Präzision | 10% |
| Therapie-Status-Genauigkeit | 15% |
| Sektions-Platzierung | 10% |
| Template-Compliance | 10% |
| Geschlechterneutraler / unpersönlicher Stil | 10% |
| Variable Zusammenfassungs-Eröffnungen | 10% |
| Standardisierte Aktivitätsbegriffe | 5% |
Jedes Kriterium wird pro Notiz mit 1–10 bewertet, gewichtet zu einem 0–10-Gesamtscore. Schwellen: PASS ≥8,5 · NEEDS_REVIEW ≥6,0 · FAIL <6,0.
Test-Design
Jedes Modell erhielt den gleichen System-Prompt, das gleiche User-Template und das gleiche Transkript. Jeder API-Call wurde isoliert ausgeführt — die Latenz spiegelt einen einzelnen Round-Trip wider, ohne Batching, ohne Aggregations-Effekte. Calls gingen direkt an den Provider-Endpoint (Azure OpenAI Responses API für die GPT-5-Familie; Azure AI Foundry für Mistral). Refusals wurden bis zu zweimal wiederholt; persistente Refusals wurden protokolliert.
Die 12 getesteten Modelle
| Modell | Anbieter / Kontext |
|---|---|
| GPT-5.1 | OpenAI · 200K Token |
| GPT-5.4 | OpenAI · 200K Token |
| GPT-5 | OpenAI · 200K Token |
| GPT-5-mini | OpenAI · 200K Token |
| GPT-5-nano | OpenAI · 200K Token |
| GPT-4.1 | OpenAI · 1M Token (non-reasoning) |
| Mistral Large 3 | Mistral AI · 131K Token |
Mehrere Reasoning- und Verbosity-Konfigurationen der GPT-5-Familie wurden geprüft, weil diese Settings die Qualität und Latenz materiell verändern.
Ergebnisse
Finale Rangfolge — beste Konfiguration je Modell
- GPT-5.1 (low reasoning, medium verbosity)23,7 s · ~1.300 reasoning tokens8.77
- GPT-5.4 (no reasoning, medium verbosity)15,4 s · 0 reasoning tokens8.67
- GPT-5.4 (no reasoning, high verbosity)17,2 s8.63
- GPT-5.1 (no reasoning, medium verbosity)12,0 s8.60
- GPT-5.4 (no reasoning, low verbosity)13,0 s8.57
- GPT-5.4 (low reasoning, low verbosity)36,6 s8.55
- GPT-5.4 (low reasoning, medium verbosity)32,5 s8.53
- GPT-5.1 (no reasoning, low verbosity)12,4 s8.40
- GPT-5.1 (low reasoning, low verbosity)27,5 s8.38
- GPT-5.4 (medium reasoning, medium verbosity)85,6 s · ~7.000 reasoning tokens8.30
- GPT-5-mini (medium / medium)111,6 s · ~5.200 reasoning tokens8.00
- GPT-4.1 (non-reasoning)10,8 s7.80
- Mistral Large 315,3 s7.70
- GPT-5-nano (medium / medium)112,3 s · ~12.500 reasoning tokens6.30
Brand-Gradient-Balken signalisieren: höher ist besser. Die zwei hervorgehobenen Zeilen markieren unsere Produktions-Empfehlungen.
- GPT-4.1 (non-reasoning)10.8 s
- GPT-5.1 (no reasoning, medium verbosity)12.0 s
- GPT-5.1 (no reasoning, low verbosity)12.4 s
- GPT-5.4 (no reasoning, low verbosity)13.0 s
- Mistral Large 315.3 s
- GPT-5.4 (no reasoning, medium verbosity)15.4 s
- GPT-5.4 (no reasoning, high verbosity)17.2 s
- GPT-5.1 (low reasoning, medium verbosity)23.7 s
- GPT-5.1 (low reasoning, low verbosity)27.5 s
- GPT-5.4 (low reasoning, medium verbosity)32.5 s
- GPT-5.4 (low reasoning, low verbosity)36.6 s
- GPT-5.4 (medium reasoning, medium verbosity)85.6 s
- GPT-5-mini (medium / medium)111.6 s
- GPT-5-nano (medium / medium)112.3 s
Flache ink-Balken signalisieren: niedriger ist besser. Reasoning-Modi multiplizieren die Latenz um den Faktor 5–10×.
Was wir gelernt haben
1. Reasoning-Tokens sind für diese Aufgabe meist verschwendet
Das herausragende Ergebnis: Reasoning verbessert die Qualität selten und verschlechtert die Latenz immer.
| Konfiguration | Qualität · Latenz · Reasoning-Tokens |
|---|---|
| reasoning = none | 8,67 · 15,4 s · 0 |
| reasoning = low | 8,55 · 36,6 s · 700 |
| reasoning = medium | 8,30 · 85,6 s · 7.000 |
Mehr Reasoning → schlechtere Scores, 5,5× die Latenz. Bei Dokumenten-Extraktion (wo die Antwort im Input liegt, nicht im inferierten Reasoning) ist Reasoning das falsche Werkzeug.
2. Verbosity hat einen kleinen, aber realen Effekt
Der Wechsel von verbosity=low zu verbosity=medium fügt ~5–10 % Latenz
hinzu, verbessert aber konsistent die Vollständigkeits-Scores um 0,05–0,15
Punkte. verbosity=high bringt keine weitere Verbesserung.
3. Neuer ≠ besser
GPT-4.1 (das ältere non-reasoning-Modell mit dem größten Kontextfenster von 1M Tokens) erreichte 7,8 — einen vollen Punkt unter GPT-5.4 / GPT-5.1. Die GPT-5-Familie ist bei klinischer Faktentreue messbar besser. Das breitere Kontextfenster von GPT-4.1 ist irrelevant, wenn Transkripte in 6K Token passen.
4. Kleiner ist deutlich schlechter
GPT-5-nano erreichte 6,3 mit massiver Output-Duplikation. Mini- und Nano-Varianten von Reasoning-Modellen können die Vollmodelle bei dieser Aufgabe nicht ersetzen.
5. Mistral Large 3 hat eine Sektions-Routing-Schwäche
Mistral folgte Sektions-Titeln statt Sektions-Anweisungen: Wenn eine Sektion mit „Aktuelle Beschwerden" betitelt war, die Anweisung aber „Komorbiditäten und Impfungen" lautete, wurden trotzdem aktuelle Symptome dort platziert. GPT-5.x folgte Anweisungen korrekt. Das ist ein realer architektonischer Unterschied.
6. Refusal-Raten unterscheiden sich
GPT-5.4 lehnte ~5 % der Erstversuche ab (besonders mit höherem Reasoning). Stets erfolgreich beim zweiten Versuch. GPT-5.1 hatte 0 Refusals über alle Tests.
7. STT-Korrektur ist der größte Qualitäts-Differenzierer
Die komplexen Transkripte enthielten 7+ STT-verstümmelte Medikamentennamen. Die Top-Modelle dekodierten alle korrekt; ältere / kleinere Modelle rieten falsch oder erfanden Substanznamen, statt Mehrdeutigkeit zu kennzeichnen.
Kosten-Betrachtung
| Modell-Klasse | Kosten / Notiz · Empfehlung |
|---|---|
| GPT-5.4 (no reasoning) | $0,04–0,06 · Produktions-Default |
| GPT-5.1 (low reasoning) | $0,06–0,10 · Höhere-Qualität-Modus |
| GPT-5.1 (no reasoning) | $0,04–0,05 · Kosten-optimiert |
| GPT-4.1 | $0,03–0,05 · Niedrigere Qualität |
| GPT-5-mini / nano | $0,01–0,02 · Nicht empfohlen für medizinische Aufgaben |
| Mistral Large 3 | $0,04–0,06 · Qualitäts-Regression |
Geschätzt pro Notiz für einen durchschnittlichen 6.000-Token-Prompt + 1.500-Token-Completion. Infrastruktur-Overhead nicht enthalten.
Der Kosten-Unterschied zwischen dem besten und dem schlechtesten Modell in unserem Test-Set beträgt etwa 4× — bedeutsam, aber klein im Vergleich zur Qualitäts-Lücke (8,77 vs. 6,30). Für medizinische Dokumentation ergibt es selten ökonomischen Sinn, auf das günstigste Modell zu optimieren. Die Reduktion der ärztlichen Bearbeitungszeit durch einen höheren-Qualitäts- Erstentwurf zahlt das Modell mehrfach zurück.
Praktische Empfehlungen
Wählen Sie ein einzelnes Modell — exponieren Sie keine Modell-Auswahl an klinische Nutzer
Wir empfehlen ausdrücklich ein Default-Modell plus optional einen einzigen Toggle. Eine Liste von LLM-Namen für Ärzte verursacht Entscheidungsmüdigkeit und inkonsistente Outputs in einer Praxis.
Für die meisten Teams: GPT-5.4 (reasoning = none, verbosity = medium)
- 8,67 / 10 durchschnittliche Qualität
- ~15 Sekunden End-to-End (≈24 Sekunden mit Backend-Overhead)
- Null Reasoning-Tokens — vorhersehbare Kosten
- Exzellente STT-Korrektur
- Exzellente Refusal-Dokumentation (das medico-legal kritische Detail)
Für Teams mit Maximum-Qualitäts-Priorität: GPT-5.1 (reasoning = low, verbosity = medium)
- 8,77 / 10
- Konservativeres
[unklar]-Flagging bei STT-mehrdeutigen Inhalten - ~25 Sekunden (~30 s mit Backend-Overhead)
- Mehr Erhalt von Arzt-Kontext (genannte Konsiliarii, Liefermengen — die Detailstufe, die in laufender Versorgung zählt)
Modelle, die wir GEGEN für medizinische Aufgaben empfehlen
- GPT-5.4 mit medium reasoning — heavy reasoning bei Extraktions-Aufgaben verschlechtert Output und verdreifacht Latenz
- GPT-5-mini und GPT-5-nano — Sektions-Routing-Fehler, Content-Duplikation, gelöschte Fakten
- Mistral Large 3 — folgt Sektions-Titeln statt Anweisungen; nicht sicher für abrechnungs-kritische Untersuchungsbefunde
- GPT-4.1 — eine Generation hinter STT-Korrektur und klinischer Reasoning-Tiefe
Limitationen
- Stichprobengröße sind 6 Transkripte — repräsentativ über Komplexitäts-Bänder, aber nicht statistisch groß. Langfristige Validierung kommt aus Monitoring der ärztlichen Edit-Raten in Produktion.
- Zwei Fachrichtungen getestet (Kardiologie und Rheumatologie). Andere Fachrichtungen können andere Rangfolgen ergeben.
- Tests komplett auf Deutsch (de-DE). Befunde übertragen sich nicht direkt auf englischsprachige Deployments ohne Re-Validierung.
- Modelle getestet im April 2026; Provider-seitige Updates können Scores verschieben. Wir re-validieren vor jeder Modell-Migration.
Fazit
Die Frontier der LLM-Qualität in medizinischer Faktenextraktion liegt aktuell bei GPT-5.1 und GPT-5.4 mit moderater Verbosity und ohne Reasoning. Kontraintuitiv schadet mehr Reasoning bei dieser Aufgabe — Extraktion ist begrenzt durch das, was das Transkript enthält, nicht durch das, was das Modell inferieren kann.
Für Health-Tech-Teams, die heute ein LLM wählen: bezahlen Sie nicht für Reasoning, das Sie nicht brauchen, vertrauen Sie keinen kleineren Varianten für medizinische Texte, und validieren Sie immer an realen STT-verstümmelten Inhalten statt an sauberen Prompts.