
Überblickend zielt dieser Feature Request darauf ab, die Gebärdensprach-Übersetzung in SpeakSphere vollständig on-premise verfügbar zu machen. Alle KI-Modelle (ASR, Gloss-Mapper, Gestenerkennung, Avatar-Rendering) werden lokal in einem air-gapped Kubernetes-Cluster ausgeführt, beschleunigt durch GPU-/INT8-Optimierungen. Dadurch bleiben Audio-/Videodaten im Rechenzentrum, die Latenz sinkt unter 150 ms und Vorgaben aus European Accessibility Act, WCAG 2.2 AAA sowie ISO 27001 Annex A.11 werden eingehalten.
1 Problemstellung & Nutzen
Hörende und gehörlose Mitarbeitende können in on-premise-Installationen bislang nur über externe Dolmetscher kommunizieren.
Regulatorische Vorgaben (EAA 2025, WCAG 2.2 AAA) verlangen native Sign-Unterstützung in Unternehmens-Kommunikation.
Datenschutz-kritische Branchen (Finanz, KRITIS) lehnen Cloud-Dienste ab und fordern ISO 27001-konforme, physisch abgesicherte Verarbeitung.
2 Ziel & Scope
Implementierung einer bidirektionalen Echtzeit-Gebärdensprach-Übersetzung in SpeakSphere, die ausschließlich auf Kundensystemen läuft, offline funktionsfähig ist und weniger als 150 ms End-to-End-Latenz erreicht.
3 Funktionale Anforderungen
| Nr. | Anforderung | Details on-prem |
|---|---|---|
| F-1 | Speech-to-Sign | Whisper-INT8 (OpenVINO) übersetzt Audio in Text-Gloss und triggert Avatar-Animation. (How to install and use Whisper offline (no internet required) #1463, OpenVINO/whisper-large-v3-int8-ov - Hugging Face) |
| F-2 | Sign-to-Speech/Text | GPU-beschleunigte MediaPipe-Pose + YOLO/LSTM erkennen Gesten; Ausgabe als Untertitel oder TTS. ([GPU Support |
| F-3 | Avatar-Rendering | 3-D-SignAvatars laufen als Unity-Container; lokaler Asset-Cache. (SignAvatar - Generate Sign Language from Speech using AI) |
| F-4 | UI-Toggle & API | Aktivierbar per Shortcut oder REST; User-Präferenz persistiert. |
| F-5 | Fallback Dolmetscher | Menschliche Dolmetscher können per SIP-Bridge zugeschaltet werden. |
4 Nicht-funktionale Anforderungen
| Kategorie | Zielwert | Quelle/Begründung |
|---|---|---|
| Latenz | ≤ 150 ms 95-Perzentil | OpenVINO INT8 beschleunigt Whisper um >30 %. (OpenVINO/whisper-large-v3-int8-ov - Hugging Face) |
| Genauigkeit | ≥ 95 % WER / ≥ 92 % F1 (Gesten) | Benchmark Jetson-Orin YOLO-v5. (Deploying YOLOv5 on NVIDIA Jetson Orin with cuDLA) |
| Sicherheit | ISO 27001 Annex A.11 & GDPR Data-Sovereignty | Keine Daten außerhalb. (ISO 27001:2013 – Annex A.11: Physical & Environmental Security, GDPR Data Sovereignty: Guide to Storage Location Rules) |
| Verfügbarkeit | Offline-Betrieb > 48 h | Air-gapped K8s-Cluster-Guide. (Running EKS in an Air-Gapped Environment - AWS Tip - Medium) |
| Barrierefreiheit | WCAG 2.2 AAA 1.2.6, EAA | (Ultimate Guide to the European Accessibility Act (EAA) for Video, Understanding Success Criterion 1.2.6: Sign Language (Prerecorded)) |
5 Architektur
ASR Offline: Whisper-Modelle werden als signierte OCI-Images aus interner Registry geladen.
Sign-Recognition: Jetson AGX Orin Nodes liefern 90 fps bei 18 W.
Messaging: NATS garantiert <10 ms Intra-Cluster Delivery.
6 Deployment & Betrieb
Helm Air-Gap Bundle exportieren → USB-Transfer →
helm install signsuite --set global.registry=registry.local.GitOps-Updates via ArgoCD; Images mit Cosign signiert.
HorizontalPodAutoscaler skaliert GPU-Pods >70 % Utilisation.
Wartung: Quartalsweise Modell-Refresh; Offline-Benchmark-Suite prüft Accuracy.
7 Akzeptanzkriterien
Aktivierung per UI-Toggle oder API-Flag
<200 ms.Fehlquote Gestenerkennung ≤ 5 % bei Standard-DGS-Korpus.
Pen-Test bestätigt keine ausgehenden Verbindungen.
Interner Accessibility-Audit bestätigt WCAG/EAA-Konformität.
8 Risiken & Gegenmaßnahmen
| Risiko | Auswirkung | Maßnahme |
|---|---|---|
| GPU-Engpässe | Verzögerungen | INT8-Fallback auf CPU, zusätzliche Nodes. |
| Modell-Poisoning | Sicherheitslücke | Cosign-Verifikation + SBOM-Scan. |
| Dialekt-Varianz | Verständnisfehler | Federated Fine-Tuning mit Nutzerfeedback. |
9 Roadmap (kalenderwoche 2025)
| Phase | KW | Deliverable |
|---|---|---|
| POC | 27-33 | Demo Offline-ASR & Avatar |
| Alpha | 34-42 | Bidirektional DGS/ASL, Helm-Chart |
| Beta | 43-52 | Admin-Dashboard, GDPR-DPIA |
| GA | Q1/26 | KRITIS-Zertifizierung, Roll-out |
10 Referenzen
Whisper Offline Install (How to install and use Whisper offline (no internet required) #1463)
OpenVINO INT8 Whisper Model (OpenVINO/whisper-large-v3-int8-ov - Hugging Face)
YOLO Deployment on Jetson Orin (Deploying YOLOv5 on NVIDIA Jetson Orin with cuDLA)
ISO 27001 Annex A.11 (ISO 27001:2013 – Annex A.11: Physical & Environmental Security)
GDPR Data Sovereignty Guide (GDPR Data Sovereignty: Guide to Storage Location Rules)
Air-Gapped Kubernetes Best Practices (Running EKS in an Air-Gapped Environment - AWS Tip - Medium)
MediaPipe GPU Support Docs (GPU Support | Google AI Edge - Gemini API)
Helm Air-Gap Bundles Docs (Package Air Gap Bundles for Helm Charts - Replicated Docs)
SignAvatar Project (SignAvatar - Generate Sign Language from Speech using AI)
NATS Server Docs (Installing, running and deploying a NATS Server)
SignAll Realtime Translator (SignAll | AI Sign Language Translation)
European Accessibility Act Guide (Ultimate Guide to the European Accessibility Act (EAA) for Video)
WCAG 2.2 1.2.6 Understanding (Understanding Success Criterion 1.2.6: Sign Language (Prerecorded))
OpenVINO Gesture Demo (Gesture Recognition Python* Demo - OpenVINO™ documentation)
Watch-Party
Session wird geladen ...
Viewer: 0
