Öffentlich
Es sind noch 0 von 1 Plätzen verfügbar.

Guten Morgen an alle,
ich selbst habe noch nie ein Benchmark vorbereitet. So, wie ich das verstehe haben wir zwei Möglichkeiten: 1) die Erhebung gleich mit unseren ersten Kunden einfließen lassen oder 2) ein simuliertes Fachgespräch erzeugen. Ich tendiere zu 2. Hier können wir schnell und unkompliziert die Daten erheben. Die Simulation sollte inhaltlich gut gewählt werden.
| Dimension | KPI | Messmethode | Einheit / Skala | Ziel / Schwelle |
|---|---|---|---|---|
| Qualität | BLEU, COMET, MQM | Automatisierte Metriken / Experten-Bewertung | Punktzahl (0–100) | > 75 |
| Verständlichkeit | Human Rating durch Fachexperten | Likert (1–5) | ≥ 4 | |
| Korrektheit | Anzahl korrekt übertragener Inhalte | % korrekt | > 90 % | |
| Latenz | Average Lagging (AL) | Differenz zwischen Eingang & Ausgabe | Zeit (Sekunden/Wörter) | < 2 Sek. |
| Real-Time Factor (RTF) | Verhältnis Verarbeitungszeit zu Audiozeit | Faktor (z. B. 0.8x) | ≤ 1.0 | |
| First Word Lag | Zeit bis zum ersten übersetzten Wort | Zeit (ms) | < 500 ms | |
| Terminologietreue | Term Accuracy | Korrektheit fachspezifischer Terminologie | % korrekt verwendeter Begriffe | > 95 % |
| Term Consistency | Einheitlichkeit terminologischer Verwendung | Konsistenzrate | > 90 % | |
| Term Coverage | Abdeckung definierter Fachtermini | % abgedeckt | > 95 % |
Vielleicht wäre auch ein VPL-ANÜ-Gespräch eine interessante Version? @tobias.goecke @lukas.ranft @marcus.schaefer @daniel.doebling @thomas.bienek
Session wird geladen ...
Viewer: 0