
Beim Aufruf von https://speaksphere.com/speaksphere/ in Google Chrome erscheint eine auf Glasmorphismus basierende Karte vor einem vollflächigen Hintergrundbild. Dort wählt man zunächst die eigene Sprache aus einem Dropdown-Menü, gibt anschließend einen beliebigen Raumnamen ein und klickt auf „In Sphere eintreten“. Während dieser Aktion holt sich der Client mittels getUserMedia den Mikrofonzugang, öffnet bei Bedarf den Web-Audio-Kontext und stellt über einen WebSocket eine Verbindung zum Django-Backend her. Gleichzeitig werden für jede künftige Peer-Verbindung WebRTC-Instanzen mit dem Perfect-Negotiation-Pattern vorbereitet; ein öffentlicher Google-STUN-Server dient dabei der NAT-Durchdringung. Erst nach erfolgreichem Beitritt wird der große Mikrofonknopf angezeigt, der als Push-to-Talk-Taste fungiert.
Sobald die Taste gedrückt wird, startet ein MediaRecorder, der das Mikrofonsignal alle 300 Millisekunden in einem WebM-Container puffert; parallel versucht die im Chrome verfügbare SpeechRecognition-API den gesprochenen Text lokal zu transkribieren. Beim Loslassen des Knopfs sendet der Client entweder Transkript und Audiostück oder – falls die Browser-STT nicht vorhanden ist – nur das Audiofragment an den Server. Das Backend, implementiert als Django-Channels-WebSocket-Consumer, verwaltet alle Teilnehmer in einem Raum-Dictionary, leitet Signalisierungsnachrichten für WebRTC weiter und entscheidet für jedes erhaltene Transkript, ob es unverändert an Peers mit derselben Sprache oder übersetzt an anderssprachige Peers geschickt werden muss.
Für Übersetzungen formuliert der Server einen präzisen System-Prompt und ruft DeepSeek-r1 40b lokal von SupraWorx auf. Das Ergebnis wird anschließend von Amazon Polly und von SupraSpeech Service in Ogg Vorbis synthetisiert; je nach Sprache kommt eine passende Stimme zum Einsatz, bevorzugt die Neural-Engine, sofern verfügbar. Der so erzeugte Base-64-Audiostrom wird an die jeweiligen Zielteilnehmer gestreamt, wo er per Web-Audio-API dekodiert und abgespielt wird. Ein winziger Equalizer neben jedem Audioelement zeigt dem Nutzer durch Animation an, ob gerade etwas abgespielt wird.
Auf diese Weise entsteht eine nahtlose Walkie-Talkie-Erfahrung: Teilnehmende halten den Mikrofonknopf, sprechen in ihrer eigenen Sprache und hören auf der Gegenseite entweder das Original oder unmittelbar die synthetisch gesprochene Übersetzung – beides nahezu latenzfrei, solange alle Beteiligten einen modernen Chromium-Browser verwenden. Sämtliche Daten verbleiben dabei im RAM; weder Audiodateien noch Transkripte werden aktuell persistiert, und OpenAI Bibliothek werden ausschließlich in der SupraWorx Umgebung verwendet, was die Privatsphäre zusätzlich schützt.
Aktuelle Sprachen: English, Deutsch, Español, Français, Italiano, Polski, Română, Português, 日本語 (Japanese)
Watch-Party
Session wird geladen ...
Viewer: 0
