Welches LLM für medizinische Dokumentation? Ein Multi-Modell-Benchmark (April 2026)

Multi-Modell-Benchmark · April 2026

Wir haben 12 führende Large-Language-Modelle entlang der drei Achsen getestet, die für klinische Dokumentation tatsächlich zählen: medizinische Faktentreue, Halluzinationsrate und End-to-End-Latenz. 60+ generierte Notizen, ausgewertet gegen ein 10-Kriterien-Rubrik aus realem Ärzte-Feedback, an 6 repräsentativen deutschen Konsultationen aus Kardiologie und Rheumatologie.

Warum diese Studie zählt

Medizinische Dokumentation ist der Anwendungsfall mit dem höchsten Risiko für LLMs. Eine halluzinierte Medikation, ein gelöschter Negativbefund oder eine falsch zugeordnete Therapieentscheidung ist nicht ein Qualitätsproblem — es ist ein Patientensicherheits- und medico-legales Problem.

Wir mussten wissen, welche der heutigen Frontier-Modelle zuverlässig:

Jedes klinische Faktum aus einem Arzt-Patient-Gespräch extrahieren
Nichts erfinden, was nicht gesagt wurde
Spracherkennungs-Fehler dekodieren (z. B. „Rinbok" → Rinvoq / Upadacitinib)
Therapieentscheidungen korrekt dokumentieren — inklusive Patientenablehnungen und Kompromisse
Schnell genug sein, dass Ärzte das System tatsächlich nutzen

Methodik

Test-Korpus

6 deutsche Konsultations-Transkripte aus anonymisierten realen Visiten
Komplexitätsbänder: 2 einfach (469–501 Wörter), 2 mittel (639–757 Wörter), 2 komplex (1.141–2.204 Wörter)
Zwei Fachrichtungen: Kardiologie und Rheumatologie
Echte STT-Verstümmelungen absichtlich erhalten (z. B. „Mira" → Humira, „Rinbok" → Rinvoq, „Drittensulum" → Prednisolon) — wir testen die STT-Korrekturfähigkeit unter Produktionsbedingungen

Bewertungs-Rubrik (10 Dimensionen, gewichtet)

Abgeleitet aus realem Ärzte-Feedback, gesammelt über 9 Monate in einer deutschen rheumatologischen Praxis (Immunologikum Hamburg, Juli 2025 – März 2026).

Bewertungsdimensionen mit Gewichtung

Dimension	Gewicht
Faktische Vollständigkeit	20%
Halluzinationskontrolle	10%
STT-Korrektur	10%
Medizinische Terminologie-Präzision	10%
Therapie-Status-Genauigkeit	15%
Sektions-Platzierung	10%
Template-Compliance	10%
Geschlechterneutraler / unpersönlicher Stil	10%
Variable Zusammenfassungs-Eröffnungen	10%
Standardisierte Aktivitätsbegriffe	5%

Jedes Kriterium wird pro Notiz mit 1–10 bewertet, gewichtet zu einem 0–10-Gesamtscore. Schwellen: PASS ≥8,5 · NEEDS_REVIEW ≥6,0 · FAIL <6,0.

Test-Design

Jedes Modell erhielt den gleichen System-Prompt, das gleiche User-Template und das gleiche Transkript. Jeder API-Call wurde isoliert ausgeführt — die Latenz spiegelt einen einzelnen Round-Trip wider, ohne Batching, ohne Aggregations-Effekte. Calls gingen direkt an den Provider-Endpoint (Azure OpenAI Responses API für die GPT-5-Familie; Azure AI Foundry für Mistral). Refusals wurden bis zu zweimal wiederholt; persistente Refusals wurden protokolliert.

Die 12 getesteten Modelle

Modell-Übersicht

Modell	Anbieter / Kontext
GPT-5.1	OpenAI · 200K Token
GPT-5.4	OpenAI · 200K Token
GPT-5	OpenAI · 200K Token
GPT-5-mini	OpenAI · 200K Token
GPT-5-nano	OpenAI · 200K Token
GPT-4.1	OpenAI · 1M Token (non-reasoning)
Mistral Large 3	Mistral AI · 131K Token

Mehrere Reasoning- und Verbosity-Konfigurationen der GPT-5-Familie wurden geprüft, weil diese Settings die Qualität und Latenz materiell verändern.

Ergebnisse

Finale Rangfolge — beste Konfiguration je Modell

Qualität — beste Konfiguration je Modell

ConfigurationScore (0–10)

GPT-5.1 (low reasoning, medium verbosity)23,7 s · ~1.300 reasoning tokens8.77
GPT-5.4 (no reasoning, medium verbosity)15,4 s · 0 reasoning tokens8.67
GPT-5.4 (no reasoning, high verbosity)17,2 s8.63
GPT-5.1 (no reasoning, medium verbosity)12,0 s8.60
GPT-5.4 (no reasoning, low verbosity)13,0 s8.57
GPT-5.4 (low reasoning, low verbosity)36,6 s8.55
GPT-5.4 (low reasoning, medium verbosity)32,5 s8.53
GPT-5.1 (no reasoning, low verbosity)12,4 s8.40
GPT-5.1 (low reasoning, low verbosity)27,5 s8.38
GPT-5.4 (medium reasoning, medium verbosity)85,6 s · ~7.000 reasoning tokens8.30
GPT-5-mini (medium / medium)111,6 s · ~5.200 reasoning tokens8.00
GPT-4.1 (non-reasoning)10,8 s7.80
Mistral Large 315,3 s7.70
GPT-5-nano (medium / medium)112,3 s · ~12.500 reasoning tokens6.30

Brand-Gradient-Balken signalisieren: höher ist besser. Die zwei hervorgehobenen Zeilen markieren unsere Produktions-Empfehlungen.

Latenz — End-to-End pro Notiz

ConfigurationSekunden

GPT-4.1 (non-reasoning)10.8 s
GPT-5.1 (no reasoning, medium verbosity)12.0 s
GPT-5.1 (no reasoning, low verbosity)12.4 s
GPT-5.4 (no reasoning, low verbosity)13.0 s
Mistral Large 315.3 s
GPT-5.4 (no reasoning, medium verbosity)15.4 s
GPT-5.4 (no reasoning, high verbosity)17.2 s
GPT-5.1 (low reasoning, medium verbosity)23.7 s
GPT-5.1 (low reasoning, low verbosity)27.5 s
GPT-5.4 (low reasoning, medium verbosity)32.5 s
GPT-5.4 (low reasoning, low verbosity)36.6 s
GPT-5.4 (medium reasoning, medium verbosity)85.6 s
GPT-5-mini (medium / medium)111.6 s
GPT-5-nano (medium / medium)112.3 s

Flache ink-Balken signalisieren: niedriger ist besser. Reasoning-Modi multiplizieren die Latenz um den Faktor 5–10×.

Was wir gelernt haben

1. Reasoning-Tokens sind für diese Aufgabe meist verschwendet

Das herausragende Ergebnis: Reasoning verbessert die Qualität selten und verschlechtert die Latenz immer.

GPT-5.4 — Reasoning-Trade-off

Konfiguration	Qualität · Latenz · Reasoning-Tokens
reasoning = none	8,67 · 15,4 s · 0
reasoning = low	8,55 · 36,6 s · 700
reasoning = medium	8,30 · 85,6 s · 7.000

Mehr Reasoning → schlechtere Scores, 5,5× die Latenz. Bei Dokumenten-Extraktion (wo die Antwort im Input liegt, nicht im inferierten Reasoning) ist Reasoning das falsche Werkzeug.

2. Verbosity hat einen kleinen, aber realen Effekt

Der Wechsel von verbosity=low zu verbosity=medium fügt ~5–10 % Latenz hinzu, verbessert aber konsistent die Vollständigkeits-Scores um 0,05–0,15 Punkte. verbosity=high bringt keine weitere Verbesserung.

3. Neuer ≠ besser

GPT-4.1 (das ältere non-reasoning-Modell mit dem größten Kontextfenster von 1M Tokens) erreichte 7,8 — einen vollen Punkt unter GPT-5.4 / GPT-5.1. Die GPT-5-Familie ist bei klinischer Faktentreue messbar besser. Das breitere Kontextfenster von GPT-4.1 ist irrelevant, wenn Transkripte in 6K Token passen.

4. Kleiner ist deutlich schlechter

GPT-5-nano erreichte 6,3 mit massiver Output-Duplikation. Mini- und Nano-Varianten von Reasoning-Modellen können die Vollmodelle bei dieser Aufgabe nicht ersetzen.

5. Mistral Large 3 hat eine Sektions-Routing-Schwäche

Mistral folgte Sektions-Titeln statt Sektions-Anweisungen: Wenn eine Sektion mit „Aktuelle Beschwerden" betitelt war, die Anweisung aber „Komorbiditäten und Impfungen" lautete, wurden trotzdem aktuelle Symptome dort platziert. GPT-5.x folgte Anweisungen korrekt. Das ist ein realer architektonischer Unterschied.

6. Refusal-Raten unterscheiden sich

GPT-5.4 lehnte ~5 % der Erstversuche ab (besonders mit höherem Reasoning). Stets erfolgreich beim zweiten Versuch. GPT-5.1 hatte 0 Refusals über alle Tests.

7. STT-Korrektur ist der größte Qualitäts-Differenzierer

Die komplexen Transkripte enthielten 7+ STT-verstümmelte Medikamentennamen. Die Top-Modelle dekodierten alle korrekt; ältere / kleinere Modelle rieten falsch oder erfanden Substanznamen, statt Mehrdeutigkeit zu kennzeichnen.

Kosten-Betrachtung

Kosten je generierter Notiz

Modell-Klasse	Kosten / Notiz · Empfehlung
GPT-5.4 (no reasoning)	$0,04–0,06 · Produktions-Default
GPT-5.1 (low reasoning)	$0,06–0,10 · Höhere-Qualität-Modus
GPT-5.1 (no reasoning)	$0,04–0,05 · Kosten-optimiert
GPT-4.1	$0,03–0,05 · Niedrigere Qualität
GPT-5-mini / nano	$0,01–0,02 · Nicht empfohlen für medizinische Aufgaben
Mistral Large 3	$0,04–0,06 · Qualitäts-Regression

Geschätzt pro Notiz für einen durchschnittlichen 6.000-Token-Prompt + 1.500-Token-Completion. Infrastruktur-Overhead nicht enthalten.

Der Kosten-Unterschied zwischen dem besten und dem schlechtesten Modell in unserem Test-Set beträgt etwa 4× — bedeutsam, aber klein im Vergleich zur Qualitäts-Lücke (8,77 vs. 6,30). Für medizinische Dokumentation ergibt es selten ökonomischen Sinn, auf das günstigste Modell zu optimieren. Die Reduktion der ärztlichen Bearbeitungszeit durch einen höheren-Qualitäts- Erstentwurf zahlt das Modell mehrfach zurück.

Praktische Empfehlungen

Wählen Sie ein einzelnes Modell — exponieren Sie keine Modell-Auswahl an klinische Nutzer

Wir empfehlen ausdrücklich ein Default-Modell plus optional einen einzigen Toggle. Eine Liste von LLM-Namen für Ärzte verursacht Entscheidungsmüdigkeit und inkonsistente Outputs in einer Praxis.

Für die meisten Teams: GPT-5.4 (reasoning = none, verbosity = medium)

8,67 / 10 durchschnittliche Qualität
~15 Sekunden End-to-End (≈24 Sekunden mit Backend-Overhead)
Null Reasoning-Tokens — vorhersehbare Kosten
Exzellente STT-Korrektur
Exzellente Refusal-Dokumentation (das medico-legal kritische Detail)

Für Teams mit Maximum-Qualitäts-Priorität: GPT-5.1 (reasoning = low, verbosity = medium)

8,77 / 10
Konservativeres [unklar]-Flagging bei STT-mehrdeutigen Inhalten
~25 Sekunden (~30 s mit Backend-Overhead)
Mehr Erhalt von Arzt-Kontext (genannte Konsiliarii, Liefermengen — die Detailstufe, die in laufender Versorgung zählt)

Modelle, die wir GEGEN für medizinische Aufgaben empfehlen

GPT-5.4 mit medium reasoning — heavy reasoning bei Extraktions-Aufgaben verschlechtert Output und verdreifacht Latenz
GPT-5-mini und GPT-5-nano — Sektions-Routing-Fehler, Content-Duplikation, gelöschte Fakten
Mistral Large 3 — folgt Sektions-Titeln statt Anweisungen; nicht sicher für abrechnungs-kritische Untersuchungsbefunde
GPT-4.1 — eine Generation hinter STT-Korrektur und klinischer Reasoning-Tiefe

Limitationen

Stichprobengröße sind 6 Transkripte — repräsentativ über Komplexitäts-Bänder, aber nicht statistisch groß. Langfristige Validierung kommt aus Monitoring der ärztlichen Edit-Raten in Produktion.
Zwei Fachrichtungen getestet (Kardiologie und Rheumatologie). Andere Fachrichtungen können andere Rangfolgen ergeben.
Tests komplett auf Deutsch (de-DE). Befunde übertragen sich nicht direkt auf englischsprachige Deployments ohne Re-Validierung.
Modelle getestet im April 2026; Provider-seitige Updates können Scores verschieben. Wir re-validieren vor jeder Modell-Migration.

Fazit

Die Frontier der LLM-Qualität in medizinischer Faktenextraktion liegt aktuell bei GPT-5.1 und GPT-5.4 mit moderater Verbosity und ohne Reasoning. Kontraintuitiv schadet mehr Reasoning bei dieser Aufgabe — Extraktion ist begrenzt durch das, was das Transkript enthält, nicht durch das, was das Modell inferieren kann.

Für Health-Tech-Teams, die heute ein LLM wählen: bezahlen Sie nicht für Reasoning, das Sie nicht brauchen, vertrauen Sie keinen kleineren Varianten für medizinische Texte, und validieren Sie immer an realen STT-verstümmelten Inhalten statt an sauberen Prompts.

Quellen

Choosing the Right LLM for Medical Note Generation — Nixi AI Benchmarking Report — Nixi AI (2026)