Nixi AI

TEIL I

Welches LLM für medizinische Dokumentation? Ein Multi-Modell-Benchmark (April 2026)

Nixi AI hat 12 LLMs an deutschen Konsultations-Transkripten getestet: Faktentreue, Halluzinationsrate, Latenz. Ergebnisse, Trade-offs und Modell-Empfehlungen für die klinische Dokumentation.

Mahsa YarahmadiCEO & Co-Founder · Nixi AI

Veröffentlicht 25. April 2026

Multi-Modell-Benchmark · April 2026

Wir haben 12 führende Large-Language-Modelle entlang der drei Achsen getestet, die für klinische Dokumentation tatsächlich zählen: medizinische Faktentreue, Halluzinationsrate und End-to-End-Latenz. 60+ generierte Notizen, ausgewertet gegen ein 10-Kriterien-Rubrik aus realem Ärzte-Feedback, an 6 repräsentativen deutschen Konsultationen aus Kardiologie und Rheumatologie.

Warum diese Studie zählt

Medizinische Dokumentation ist der Anwendungsfall mit dem höchsten Risiko für LLMs. Eine halluzinierte Medikation, ein gelöschter Negativbefund oder eine falsch zugeordnete Therapieentscheidung ist nicht ein Qualitätsproblem — es ist ein Patientensicherheits- und medico-legales Problem.

Wir mussten wissen, welche der heutigen Frontier-Modelle zuverlässig:

  1. Jedes klinische Faktum aus einem Arzt-Patient-Gespräch extrahieren
  2. Nichts erfinden, was nicht gesagt wurde
  3. Spracherkennungs-Fehler dekodieren (z. B. „Rinbok" → Rinvoq / Upadacitinib)
  4. Therapieentscheidungen korrekt dokumentieren — inklusive Patientenablehnungen und Kompromisse
  5. Schnell genug sein, dass Ärzte das System tatsächlich nutzen

Methodik

Test-Korpus

  • 6 deutsche Konsultations-Transkripte aus anonymisierten realen Visiten
  • Komplexitätsbänder: 2 einfach (469–501 Wörter), 2 mittel (639–757 Wörter), 2 komplex (1.141–2.204 Wörter)
  • Zwei Fachrichtungen: Kardiologie und Rheumatologie
  • Echte STT-Verstümmelungen absichtlich erhalten (z. B. „Mira" → Humira, „Rinbok" → Rinvoq, „Drittensulum" → Prednisolon) — wir testen die STT-Korrekturfähigkeit unter Produktionsbedingungen

Bewertungs-Rubrik (10 Dimensionen, gewichtet)

Abgeleitet aus realem Ärzte-Feedback, gesammelt über 9 Monate in einer deutschen rheumatologischen Praxis (Immunologikum Hamburg, Juli 2025 – März 2026).

Bewertungsdimensionen mit Gewichtung
DimensionGewicht
Faktische Vollständigkeit20%
Halluzinationskontrolle10%
STT-Korrektur10%
Medizinische Terminologie-Präzision10%
Therapie-Status-Genauigkeit15%
Sektions-Platzierung10%
Template-Compliance10%
Geschlechterneutraler / unpersönlicher Stil10%
Variable Zusammenfassungs-Eröffnungen10%
Standardisierte Aktivitätsbegriffe5%

Jedes Kriterium wird pro Notiz mit 1–10 bewertet, gewichtet zu einem 0–10-Gesamtscore. Schwellen: PASS ≥8,5 · NEEDS_REVIEW ≥6,0 · FAIL <6,0.

Test-Design

Jedes Modell erhielt den gleichen System-Prompt, das gleiche User-Template und das gleiche Transkript. Jeder API-Call wurde isoliert ausgeführt — die Latenz spiegelt einen einzelnen Round-Trip wider, ohne Batching, ohne Aggregations-Effekte. Calls gingen direkt an den Provider-Endpoint (Azure OpenAI Responses API für die GPT-5-Familie; Azure AI Foundry für Mistral). Refusals wurden bis zu zweimal wiederholt; persistente Refusals wurden protokolliert.

Die 12 getesteten Modelle

Modell-Übersicht
ModellAnbieter / Kontext
GPT-5.1OpenAI · 200K Token
GPT-5.4OpenAI · 200K Token
GPT-5OpenAI · 200K Token
GPT-5-miniOpenAI · 200K Token
GPT-5-nanoOpenAI · 200K Token
GPT-4.1OpenAI · 1M Token (non-reasoning)
Mistral Large 3Mistral AI · 131K Token

Mehrere Reasoning- und Verbosity-Konfigurationen der GPT-5-Familie wurden geprüft, weil diese Settings die Qualität und Latenz materiell verändern.

Ergebnisse

Finale Rangfolge — beste Konfiguration je Modell

Qualität — beste Konfiguration je Modell
ConfigurationScore (0–10)
  • GPT-5.1 (low reasoning, medium verbosity)23,7 s · ~1.300 reasoning tokens8.77
  • GPT-5.4 (no reasoning, medium verbosity)15,4 s · 0 reasoning tokens8.67
  • GPT-5.4 (no reasoning, high verbosity)17,2 s8.63
  • GPT-5.1 (no reasoning, medium verbosity)12,0 s8.60
  • GPT-5.4 (no reasoning, low verbosity)13,0 s8.57
  • GPT-5.4 (low reasoning, low verbosity)36,6 s8.55
  • GPT-5.4 (low reasoning, medium verbosity)32,5 s8.53
  • GPT-5.1 (no reasoning, low verbosity)12,4 s8.40
  • GPT-5.1 (low reasoning, low verbosity)27,5 s8.38
  • GPT-5.4 (medium reasoning, medium verbosity)85,6 s · ~7.000 reasoning tokens8.30
  • GPT-5-mini (medium / medium)111,6 s · ~5.200 reasoning tokens8.00
  • GPT-4.1 (non-reasoning)10,8 s7.80
  • Mistral Large 315,3 s7.70
  • GPT-5-nano (medium / medium)112,3 s · ~12.500 reasoning tokens6.30

Brand-Gradient-Balken signalisieren: höher ist besser. Die zwei hervorgehobenen Zeilen markieren unsere Produktions-Empfehlungen.

Latenz — End-to-End pro Notiz
ConfigurationSekunden
  • GPT-4.1 (non-reasoning)10.8 s
  • GPT-5.1 (no reasoning, medium verbosity)12.0 s
  • GPT-5.1 (no reasoning, low verbosity)12.4 s
  • GPT-5.4 (no reasoning, low verbosity)13.0 s
  • Mistral Large 315.3 s
  • GPT-5.4 (no reasoning, medium verbosity)15.4 s
  • GPT-5.4 (no reasoning, high verbosity)17.2 s
  • GPT-5.1 (low reasoning, medium verbosity)23.7 s
  • GPT-5.1 (low reasoning, low verbosity)27.5 s
  • GPT-5.4 (low reasoning, medium verbosity)32.5 s
  • GPT-5.4 (low reasoning, low verbosity)36.6 s
  • GPT-5.4 (medium reasoning, medium verbosity)85.6 s
  • GPT-5-mini (medium / medium)111.6 s
  • GPT-5-nano (medium / medium)112.3 s

Flache ink-Balken signalisieren: niedriger ist besser. Reasoning-Modi multiplizieren die Latenz um den Faktor 5–10×.

Was wir gelernt haben

1. Reasoning-Tokens sind für diese Aufgabe meist verschwendet

Das herausragende Ergebnis: Reasoning verbessert die Qualität selten und verschlechtert die Latenz immer.

GPT-5.4 — Reasoning-Trade-off
KonfigurationQualität · Latenz · Reasoning-Tokens
reasoning = none8,67 · 15,4 s · 0
reasoning = low8,55 · 36,6 s · 700
reasoning = medium8,30 · 85,6 s · 7.000

Mehr Reasoning → schlechtere Scores, 5,5× die Latenz. Bei Dokumenten-Extraktion (wo die Antwort im Input liegt, nicht im inferierten Reasoning) ist Reasoning das falsche Werkzeug.

2. Verbosity hat einen kleinen, aber realen Effekt

Der Wechsel von verbosity=low zu verbosity=medium fügt ~5–10 % Latenz hinzu, verbessert aber konsistent die Vollständigkeits-Scores um 0,05–0,15 Punkte. verbosity=high bringt keine weitere Verbesserung.

3. Neuer ≠ besser

GPT-4.1 (das ältere non-reasoning-Modell mit dem größten Kontextfenster von 1M Tokens) erreichte 7,8 — einen vollen Punkt unter GPT-5.4 / GPT-5.1. Die GPT-5-Familie ist bei klinischer Faktentreue messbar besser. Das breitere Kontextfenster von GPT-4.1 ist irrelevant, wenn Transkripte in 6K Token passen.

4. Kleiner ist deutlich schlechter

GPT-5-nano erreichte 6,3 mit massiver Output-Duplikation. Mini- und Nano-Varianten von Reasoning-Modellen können die Vollmodelle bei dieser Aufgabe nicht ersetzen.

5. Mistral Large 3 hat eine Sektions-Routing-Schwäche

Mistral folgte Sektions-Titeln statt Sektions-Anweisungen: Wenn eine Sektion mit „Aktuelle Beschwerden" betitelt war, die Anweisung aber „Komorbiditäten und Impfungen" lautete, wurden trotzdem aktuelle Symptome dort platziert. GPT-5.x folgte Anweisungen korrekt. Das ist ein realer architektonischer Unterschied.

6. Refusal-Raten unterscheiden sich

GPT-5.4 lehnte ~5 % der Erstversuche ab (besonders mit höherem Reasoning). Stets erfolgreich beim zweiten Versuch. GPT-5.1 hatte 0 Refusals über alle Tests.

7. STT-Korrektur ist der größte Qualitäts-Differenzierer

Die komplexen Transkripte enthielten 7+ STT-verstümmelte Medikamentennamen. Die Top-Modelle dekodierten alle korrekt; ältere / kleinere Modelle rieten falsch oder erfanden Substanznamen, statt Mehrdeutigkeit zu kennzeichnen.

Kosten-Betrachtung

Kosten je generierter Notiz
Modell-KlasseKosten / Notiz · Empfehlung
GPT-5.4 (no reasoning)$0,04–0,06 · Produktions-Default
GPT-5.1 (low reasoning)$0,06–0,10 · Höhere-Qualität-Modus
GPT-5.1 (no reasoning)$0,04–0,05 · Kosten-optimiert
GPT-4.1$0,03–0,05 · Niedrigere Qualität
GPT-5-mini / nano$0,01–0,02 · Nicht empfohlen für medizinische Aufgaben
Mistral Large 3$0,04–0,06 · Qualitäts-Regression

Geschätzt pro Notiz für einen durchschnittlichen 6.000-Token-Prompt + 1.500-Token-Completion. Infrastruktur-Overhead nicht enthalten.

Der Kosten-Unterschied zwischen dem besten und dem schlechtesten Modell in unserem Test-Set beträgt etwa 4× — bedeutsam, aber klein im Vergleich zur Qualitäts-Lücke (8,77 vs. 6,30). Für medizinische Dokumentation ergibt es selten ökonomischen Sinn, auf das günstigste Modell zu optimieren. Die Reduktion der ärztlichen Bearbeitungszeit durch einen höheren-Qualitäts- Erstentwurf zahlt das Modell mehrfach zurück.

Praktische Empfehlungen

Wählen Sie ein einzelnes Modell — exponieren Sie keine Modell-Auswahl an klinische Nutzer

Wir empfehlen ausdrücklich ein Default-Modell plus optional einen einzigen Toggle. Eine Liste von LLM-Namen für Ärzte verursacht Entscheidungsmüdigkeit und inkonsistente Outputs in einer Praxis.

Für die meisten Teams: GPT-5.4 (reasoning = none, verbosity = medium)

  • 8,67 / 10 durchschnittliche Qualität
  • ~15 Sekunden End-to-End (≈24 Sekunden mit Backend-Overhead)
  • Null Reasoning-Tokens — vorhersehbare Kosten
  • Exzellente STT-Korrektur
  • Exzellente Refusal-Dokumentation (das medico-legal kritische Detail)

Für Teams mit Maximum-Qualitäts-Priorität: GPT-5.1 (reasoning = low, verbosity = medium)

  • 8,77 / 10
  • Konservativeres [unklar]-Flagging bei STT-mehrdeutigen Inhalten
  • ~25 Sekunden (~30 s mit Backend-Overhead)
  • Mehr Erhalt von Arzt-Kontext (genannte Konsiliarii, Liefermengen — die Detailstufe, die in laufender Versorgung zählt)

Modelle, die wir GEGEN für medizinische Aufgaben empfehlen

  • GPT-5.4 mit medium reasoning — heavy reasoning bei Extraktions-Aufgaben verschlechtert Output und verdreifacht Latenz
  • GPT-5-mini und GPT-5-nano — Sektions-Routing-Fehler, Content-Duplikation, gelöschte Fakten
  • Mistral Large 3 — folgt Sektions-Titeln statt Anweisungen; nicht sicher für abrechnungs-kritische Untersuchungsbefunde
  • GPT-4.1 — eine Generation hinter STT-Korrektur und klinischer Reasoning-Tiefe

Limitationen

  • Stichprobengröße sind 6 Transkripte — repräsentativ über Komplexitäts-Bänder, aber nicht statistisch groß. Langfristige Validierung kommt aus Monitoring der ärztlichen Edit-Raten in Produktion.
  • Zwei Fachrichtungen getestet (Kardiologie und Rheumatologie). Andere Fachrichtungen können andere Rangfolgen ergeben.
  • Tests komplett auf Deutsch (de-DE). Befunde übertragen sich nicht direkt auf englischsprachige Deployments ohne Re-Validierung.
  • Modelle getestet im April 2026; Provider-seitige Updates können Scores verschieben. Wir re-validieren vor jeder Modell-Migration.

Fazit

Die Frontier der LLM-Qualität in medizinischer Faktenextraktion liegt aktuell bei GPT-5.1 und GPT-5.4 mit moderater Verbosity und ohne Reasoning. Kontraintuitiv schadet mehr Reasoning bei dieser Aufgabe — Extraktion ist begrenzt durch das, was das Transkript enthält, nicht durch das, was das Modell inferieren kann.

Für Health-Tech-Teams, die heute ein LLM wählen: bezahlen Sie nicht für Reasoning, das Sie nicht brauchen, vertrauen Sie keinen kleineren Varianten für medizinische Texte, und validieren Sie immer an realen STT-verstümmelten Inhalten statt an sauberen Prompts.

Quellen

  1. Choosing the Right LLM for Medical Note Generation — Nixi AI Benchmarking ReportNixi AI (2026)

Was das für Ihre Praxis bedeutet

Was die Befunde für Ihre Praxis bedeuten.

Wenn Sie Einzelpraxis-Arzt sind

Weniger Zeit für Dokumentation heißt mehr Kapazität für die Patienten, die Sie ohnehin schon sehen. Starten Sie mit Basic, die Testphase nutzt dieselbe Engine, die in den Studien auf dieser Seite ausgewertet wurde.

Wenn Sie im Praxisteam arbeiten

Die Befunde übertragen sich auf Praxen mit mehreren Behandelnden. Practice Pro bringt geteilte Vorlagen, zentrale Verwaltung und das optionale PVS-Integration-Add-On für die automatische Synchronisation.

Wenn Sie in einer Klinik oder einem MVZ entscheiden

Standardisierte Dokumentation, messbare Zeitersparnis und Patienten, die den Einsatz begrüßen, drei KPIs, die Ihre Geschäftsleitung sehen will. Enterprise umfasst die direkte KIS-/HIS-Integration.

Aufbauend auf

  • DSGVO- & § 203-StGB-konform
  • Klinisch geprüft vor Veröffentlichung
  • EULAR-validierter Ansatz

Ihre Kollegen sparen bereits eine Stunde am Tag

Starten Sie Ihre kostenlose Testphase und finden Sie heraus, warum.