Business-Earbuds-Dolmetscher Timekettle W4 Pro mit KI im Test: Endlich Star Treks Tricorder oder der Babelfisch?
Smartphones sind unlängst ziemlich vielseitige und leistungsstarke Alltagscomputer. Dank Google Translate, DeepL und Co sind sie auch ziemlich effektive Übersetzergeräte.
Trotzdem gibt es noch eigenständige Dolmetschergeräte, im Falle der Timekettle W4 Pro bezahlt man dafür stolze 450 Euro. Für den Preis bekommt man bereits ein sehr gutes Mittelklasse-Smartphone. Lohnt sich das? Was können die Dolmetscher-Earbuds besser als das Smartphone? Haben wir hier dank Künstlicher Intelligenz etwa die lang ersehnte Übersetzungsfunktionalität eines Tricorders aus Star Trek? Wir finden es in unserem Test heraus.
Technischen Merkmale - 40 Sprachen, 93 Akzente
Um mit einem Fakt gleich aufzuräumen: Die W4 Pro ersetzen kein Smartphone für das Dolmetschen, für die Nutzung ist die Timekettle-App dringend Voraussetzung, hier gibt es dann auch erst die KI-Funktionen und selbst das 1-zu-1-Gespräch gelingt nicht ohne App-Verbindung.
Außerdem ist es zwar möglich offline zu übersetzen, dann allerdings stehen "nur" 13 Sprachen zur Verfügung. Erst online kommt das ganze Können der Dolmetscher zutage. Die W4 Pro können in 40 Sprachen übersetzen und sollen 93 Akzente beherrschen.
Besonderes Augenmerk legen die Hersteller dabei auf die beinahe nahtlose Übersetzungsgeschwindigkeit. Nur 0,2 Sekunden soll die Antwortzeit betragen.
Wichtig hierfür sind die Earbuds. Anders als beispielsweise beim Timekettle X1, hier gab es In-Ear-Hörer, sind die W4 Pro in einem offenen Design konzipiert, was total Sinn ergibt. Denn gerade beim 1-zu-1-Gespräch, wenn man dem Gegenüber einer seiner beiden Earbuds reicht, können In-Ear-Kopfhörer doch unhygienisch rüberkommen. Anders die W4 Pro, durch das offene Design muss man keine Probleme mit daran klebenden Ohrabsonderungen des Vornutzers fürchten. Außerdem lässt sich dadurch besser die eigene Stimme durchhören, was ebenfalls Vorteile hat. In jedem der beiden Earbuds sind gleich drei Mikrofone verbaut, sie sollen für eine präzise Aufnahme des Gesagten sorgen und Unwesentliches herausfiltern.
Neben 1-zu-1-Gesprächen bieten die Ohrhörer in Verbindung mit der App noch die Funktionen "Listen and Play" sowie Media Translation. Bei Ersterem kann beispielsweise ein Träger mit beiden Earbuds einem Meeting in fremder Sprache folgen. Wenn der Träger selbst sprechen möchte, tippt er auf einen seiner Earbuds und sodann werden seine sprachlichen Ausführungen übersetzt und über die Smartphonelautsprecher an alle weitergegeben.
Media Translation bezieht sich auf Übersetzungen von Apps, die auf dem Smartphone laufen. Hier kann man sich beispielsweise eine YouTubevideo, das auf dem Smartphone läuft, übersetzen lassen.
Im Gegensatz zu Google wirbt der Hersteller zudem mit "Privacy-First Translation Earbuds", sämtliche Gespräche sollen privat bleiben und nicht verwendet werden. Dennoch können Daten weitergegeben werden, die Datenschutzbedingungen sind recht umfangreich und sehr allgemein gehalten.
Gehäuse und Ergonomie - Ungewöhnliches Ladecase
Die Earbuds selbst bestehen größtenteils aus Plastik. Durch ihren Bügel halten sie am Ohr, allerdings wackeln sie doch recht stark, wenn die tragende Person den Kopf etwas schneller bewegt. Eine kleine, farbige LED zeigt an, wenn sie geladen bzw. in das Ladecase eingesetzt werden. Auf Spritzwasserschutz oder andere Features muss man verzichten. Selbst für Over-Ear-Kopfhörer sind die W4 Pro zudem recht groß geraten. Zum Vergleich die Marshall Motif II A.N.C. In-Ear-Buds.
Noch größer und etwas ungewöhnlich ist das Ladecase. Die Außenumrandung besteht aus Alu, der Rest aus Plastik. Es lässt sich in zwei Hälften teilen, sodass man einem Gesprächspartner nicht den blanken Ohrhörer hinhalten muss, sondern den Hörer in der Ladeschale übergeben kann. Allerdings könnte die Größe der Box auch zu der Meinung verleiten, die W4 Pro wären klobig und deutlich weniger mobil als andere Earbuds. An der Hinterseite gibt es am Case einen USB-C-Ladeport. Eine LED zeigt den Ladezustand an. Das Case inklusive Earbuds wiegt 187 Gramm.
Nachhaltigkeit
Nachhaltigkeit spielt beim Marketing der teuren Dolmetscher-Earbuds keine Rolle, der Hersteller macht keine Angaben zu den verwendeten Materialien.
Verpackt sind die Earbuds in einer schicken, schwarzen Pappbox, in deren Inneren aber auch Hartschaum als Dämmstoff zum Einsatz kommt.
Bedienung und Funktionen - KI-App übernimmt alle Übersetzungen
Die Timekettle-App ist, wie erwähnt, zur Nutzung obligatorisch, beim ersten Start ist das Anlegen eines Accounts notwendig. Leider findet man die App nicht in den Stores, ein QR-Code führt zur Download-Seite, der man vertrauen muss. Zum Koppeln der Hörer muss zudem der Standort aktiviert werden und das bei jedem Neustart der App.
Die Hörer selbst haben nur eine einzige Bedienfunktion, durch ein Tippen auf die Hörer kann im Modus "Listen and Play" zwischen Zuhören und selbst Sprechen umgeschaltet werden, was praktisch ist, da man dann nicht zum Smartphone greifen muss, das womöglich auf dem Konferenztisch liegt, um allen Teilnehmern die eigene Stimme zu übersetzen.
Neben den drei Übersetzungsmodi One-on-One, Listen & Play und Media Translation kann am Hauptbildschirm der App noch der Offlinemodus aktiviert werden, woraufhin aber die Medienübersetzung ausgegraut wird. Außerdem wird ganz oben der Status der Earbuds angezeigt. Auch Feedback lässt sich gleich über den Homescreen abgeben oder der Kundenservice kontaktieren.
Unten gibt es noch Tabs, unter "Discover" finden sich einige wenige Anleitungen zu den Timekettle-Produkten, im Falle der W4 Pro nur eine, nämlich wie man sie mit dem Smartphone koppelt. Der AI-Tab ist sicherlich spannend. Hier kann man Begriffe eintippen und sich übersetzen und sogar vorsprechen lassen. Zudem sind hier auch die Memos der vergangenen Gespräche und Aufzeichnungen zu finden, die man sich auch zusammenfassen lassen kann. Zusätzlich kann man darüber die eigenen Sprachfertigkeiten trainieren, denn es gibt ein KI-Modell, mit dem man in der Übungssprache sprechen kann, das Modell macht dann Verbesserungsvorschläge und stellt Fragen, um eine Konversation zu simulieren. Im Gegensatz zu den 40 Sprachen bei den Übersetzungen, scheint es den KI-Bot aber nur in Englisch, Spanisch und Chinesisch zu geben.
Praxistest - Wo bleibt der Kontext?
Sound
Für den aufgerufenen Preis enttäuscht die Klangqualität der Buds leider. Man merkt deutlich, dass der Hersteller keine universell nutzbaren Kopfhörer konzipiert hat, sondern diese speziell zum Zwecke von Übersetzungen designt wurden. Musik klingt auf den W4 Pro nicht ansprechend. Bässe sind deutlich unterrepräsentiert, Höhen und Mitten wirken nicht sonderlich ausdifferenziert. Insgesamt ergibt sich ein blecherner, unschöner Klang beim Abspielen von Musik.
Zusätzlich fällt auf, dass sich das Verstellen der Lautstärke (über das Smartphone) auf die Balance der Ohrhörer auswirkt, was eigentlich nicht passieren sollte. Verändern wir also die Lautstärke, so wird diese nicht gleichmäßig auf dem linken und rechten Ohr abgesenkt oder erhöht, sondern plötzlich wirkt der linke oder rechte Ohrhörer lauter/leiser im Vergleich zum anderen zuvor.
Für andere Zwecke als zum Übersetzen wird man die Earbuds also eher nicht verwenden. Zudem hört man auf den Earbuds ohne Sound ein leises Grundrauschen, eher eine Art minimales Rattern, das bei Sound allerdings nicht mehr wahrnehmbar ist. Bei dem Preis hätte Timekettle den Earbuds aber deutlich mehr Audioqualität spendieren können.
One-on-One
Das Kerngeschäft der W4 Pro. Möchte man sich mit dem Gegenüber zweisprachig unterhalten, so reicht man der anderen Person einen der beiden Earbuds in der Ladeschale, stellt in der App die beiden Sprachen ein und kann loslegen. Natürlich können wir keine Aussagen über die vielen Sprachen treffen, wir haben uns im Test auf Englisch und Deutsch konzentriert.
Die Qualität kann aber bereits hier noch lange nicht mit einem menschlichen Dolmetscher mithalten. Vor allem Denkpausen des Sprechers in der Mitte eines Satzes sind für das Timekettle-System ein Problem. Dann fügt der KI-Übersetzer einfach mitten im Satz ein unpassendes Satzende ein. Setzt der Redner wieder ein und vervollständigt den Satz, so fängt die KI-Übersetzung einen neuen Satz an. Man kann sich wohl gut vorstellen, dass dies die Sinnhaftigkeit des Gesagten teils deutlich durcheinanderwürfelt.
Auffällig ist auch, dass das System die größeren Zusammenhänge im Gespräch nicht erfasst. Obwohl ich u.a. mit meinem Sohn (er Deutsch, ich Englisch) teste und er mich mit "Papa" anredet, deutet die KI auch im folgenden Gesprächsverlauf meine Anrede an ihn abwechselnd mal als "Du" oder dann doch wieder als "Sie". Dann angesichts des Businesskontextes doch wenigstens konsequent beim "Sie" bleiben.
Auch die sonstige Übersetzungsqualität ist eher mittelmäßig, was in den meisten Fällen am nicht erkannten Kontext liegt. Ähnlich klingende Wörter wie "Meine" und "Deine" werden oftmals verwechselt, wodurch das Gesagte dann keinen Sinn mehr ergibt, eine Kontexterkennung könnte das richtig stellen. Ein anderes Beispiel sind weniger bekannte Wörter, die dann einfach falsch und gefühlt nach dem Zufallsprinzip übersetzt werden. Dass es sich bei einem Wortwechsel um die Trendsportart Slacklining dreht, hat sich die KI offenbar auch nicht aus dem Kontext erschließen können. "Flecklein" ist ebenso wenig eine Sportart wie "Select Lining", dabei hatte die KI 1 Minute vorher "Slackline" richtig erkannt, das ist aber nicht haften geblieben, die KI lernt also leider nicht durch den Gesprächsverlauf. Eine Erfassung des Kontextes würde hier zumindest nicht immer neue Wortkreationen hervorrufen.
Da die Übersetzungsstimme im Ohr des Gegenübers stets stark verspätet einsetzt und man ja auch nicht über die Übersetzung drüber sprechen möchte, sollte man sich also an bestimmte Gesprächsregeln halten, um eine möglichst gute Übersetzung zu ermöglichen. Dazu gehört ein flüssiges, aber nicht zu schnelles und deutliches Sprechen ohne Denkpausen, dann aber Pausen nach etwa 2 Sätzen einlegen, klare Satzstrukturen und möglichst wenig Umgangssprache. Manche Verhaltensregeln sind auch im Businessumfeld schwerer einzuhalten als andere.
Listen & Play
Der wohl vielseitigste Modus. Hier hört man diversen Quellen zu und bekommt die Übersetzung aufs Ohr und das Transkript aufs Handy. Beworben wird der Einsatz in Meetings, aber auch Sendungen aus dem Radio oder dem TV lassen sich so übersetzen, auch andere Situationen sind vorstellbar. Möchte man die Rollen umkehren und selber sprechen, so genügt ein Tipp auf den rechten Ohrhörer oder auch in der App und das eigene Handy gibt den anderen Meeting-Teilnehmern das Gesagte des Trägers übersetzt wider.
Andererseits ist dies vielleicht auch der fehleranfälligste Modus, da das System hier oftmals in einem größeren, weiteren Kontext operieren muss, es unter Umständen also mit mehreren, abwechselnden Stimmen, mehr Hintergrundgeräuschen und weiter entfernten Sprechern klarkommen muss. Zudem haben wir von Timekettle erfahren, dass der Listen-Teil im Listen & Play auch der einzige Modus ist, bei dem das Smartphone anstelle der Earbuds für die Audioaufzeichnung verantwortlich ist. Daher ist die Erkennung stark modellabhängig.
Beispielsweise haben wir ein YouTubevideo über unsere Laptoplautsprecher wiedergegeben. Während die Lautstärke für uns normal bis hoch war, konnten die W4 Pro offenbar nicht gut genug empfangen. Erst als wir die Lautstärke deutlich anhoben, ließen sich die Ohrhörer zu einer Übersetzung motivieren. Es kommt auch ständig vor, dass eine Übersetzung anfängt und dann mitten im Satz abbricht, weil über die Smartphoneaufnahme offenbar die Erkennung leidet (Pixel 7 Pro). Wohlgemerkt auf meinem Schreibtisch bei einem recht lauten YouTubevideo (70 % Laptoplautstärke über interne Speaker) ohne Nebengeräusche. Selbst bei 100 % geht die Übersetzung oftmals einfach nicht weiter, an der Lautstärke kann dies eigentlich nicht liegen. Insgesamt ist der Modus eher unzuverlässig, zumindest bei der Erfassung von abgespielten Medien.
Das Erfassen von natürlichen Stimmen gelingt hier besser, zumindest ohne Nebengeräusche. Allerdings lässt hier teils die Übersetzungsqualität etwas zu wünschen übrig. Vor allem wenn der Sprecher im Satz eine kleine Pause einlegt, wird dies schnell als Satzende gewertet und neu angefangen, was teils den Sinn des ursprünglich Gesagten verzerrt. Richtig gut scheint das selber Sprechen zu funktionieren, unser selbst Gesagtes wurde problemlos übersetzt und wenn man Pausen macht, können die Meeting-Teilnehmer gut den Übersetzungen über den Smartphone-Lautsprecher lauschen.
Media Translation
Bei Media Translation geht es spezifisch um die Übersetzung aus Apps, die auf dem gleichen Smartphone laufen wie die Timekettle-App.
Wenn wir also diesen Modus in der Timekettle-App aktivieren und parallel beispielsweise YouTube (oder Zoom etc.) öffnen, so können wir uns die Stimmen in einem Video übersetzen lassen, dabei wird das Gesagte auch transkribiert und auf Wunsch in Originalsprache und Übersetzung oder nur als Übersetzung oder auch gar nicht angezeigt. Soweit so gut. Die Übersetzungen funktionieren hier ebenfalls recht gut und schnell, weil die App die Tonspur direkt vom Smartphone gut erfassen kann. Das Overlay-Fenster mit den Transkriptionen kann verkleinert oder vergrößert und auch frei verschoben oder geschlossen werden - sehr gut.
Ein oder eher mehrere kleinere Probleme gibt es aber auch hierbei.
- Da man am Smartphone nur eine Lautstärkewippe für alle Apps gemeinsam hat, überlagern sich die Lautstärke des Originals, welches leider nicht leiser wird, und die der Übersetzung, was es sehr anstrengend macht, sich speziell auf den Übersetzungskanal zu konzentrieren und zuzuhören. Hier müsste das Original-YouTube-Video automatisch leiser werden.
- Timekettles behauptet, dass die Übersetzung weitestgehend verzögerungsfrei abläuft. Das stimmt aber bestenfalls für die Transkription, nicht jedoch für das Audio. Das Übersetzungsaudio setzt erst etliche Transkriptzeilen später ein. Dies bedeutet, dass das Audio zeitlich nicht mit der Transkription übereinstimmt, was das Mitlesen erschwert. Schlimmer aber ist, dass das Übersetzungsaudio nicht mit dem Originalvideo übereinstimmt. Während unser guter Alex im Video also beispielsweise etwas über ein spezifisches Laptopmodell erzählt (auf Englisch), fängt die deutsche Übersetzerstimme gerade an uns sein Intro zu übersetzen. Dadurch fällt es deutlich schwerer einem Video zu folgen. Das Tor in der Sportschau-Spiel-Zusammenfassung bekommen wir in der Audioübersetzung erst 7 - 10 Sekunden später mit.
- Stoppen wir ein Video, hört etwa 2 Sekunden später auch die (Audio-) Übersetzung auf. Das ist natürlich sinnvoll, andererseits kann dies in Verbindung mit der starken Verzögerung zwischen Original und Audioübersetzung dazu führen, dass wir nach dem Ende eines Videos (also dem automatischen Stoppen des Videos) bestimmte Endteile davon gar nicht mehr auditorisch übersetzt bekommen. Stoppen wir ein Video/Audio und setzen es anschließend wieder fort, so setzt das Audio nach der gewohnten Verzögerung wieder ein, allerdings erst ab dem neuen Start, was zuvor durch die Verzögerung und das Pausieren noch nicht zu Ende übersetzt war, wird nicht mehr auditiv übersetzt, sondern ist nur in der Transkription nachlesbar.
Insgesamt aber funktioniert das Übersetzen recht gut, alle getesteten Apps wurden erkannt, darunter auch Hörspiele mit dem VLC-Player oder die ARD-Mediathek. Das ist durchaus sehr praktisch und die Übersetzungsqualität kann sich sehen lassen. An der starken Verzögerung der Übersetzungsstimme sollte Timekettle aber noch arbeiten.
Preismodell mit Fischen
Auch nach dem Kauf der Dolmetscher-Ohrhörer fallen unter Umständen weitere Gebühren an, was daran liegt, dass sich Hersteller die KI-Integration bezahlen lassen, vermutlich auch wegen Lizenzgebühren. Auf welches LLM Timekettle hier genau setzt, ist nicht bekannt. Jeder Nutzende bekommt pro Monat 300 Freiminuten an Übersetzungen, danach muss man weitere Minutenpakete dazukaufen. Und die bezahlt man womit? Natürlich mit "Fish".
Fish geht wohl auf den Babelfish zurück, den man sich in dem Douglas-Adams-Roman "Per Anhalter durch die Galaxis" ins Ohr stecken und sodann sämtliche gesprochene Sprachen verstehen kann. Wer diesen Hintergrund nicht kennt, wird den Währungsnamen, gerade im Businessbereich, eventuell etwas unseriös finden.
Jedenfalls kosten 500 Zusatzminuten 5 Fish, 1.200 Minuten 10 Fish, für 2.000 Minuten zahlt man 15 Fish. Und wo bekommt man die "Fishe" her? Fish Coins, also die virtuellen Münzen, muss man durch Einzahlungen erwerben, das geht via Googles In-App-Zahlungen über den Google Play Store. Hier kosten 5 Fish aktuell 10,99 Euro, also genau der Preis, der dann für 500 Zusatzminuten anfällt.
Neben den zusätzlichen Minuten zahlt man leider auch für Offline-Pakete zusätzlich. Die ersten beiden sind über Gutscheine noch kostenlos, danach kostet jedes Offline-Paket 5 Fish, also ebenfalls rund 11 Euro. Möchte man also English - Spanisch haben (Deutsch gibt es offline nur in Kombination mit Englisch und Chinesisch), werden 11 Euro fällig, für Englisch - Französisch wieder 11 Euro und so weiter. Kann man so machen, aber Sympathien weckt das nicht gerade.
Immerhin sollen die virtuellen Münzen nicht verfallen, andererseits kann man sie sich später auch nicht wieder auszahlen lassen.
Pro
Contra
Fazit - Noch kein Babelfisch
Also wie viel Babelfisch oder Tricorder stecken in den Timekettle W4 Pro? Es ist schon cool mit dem fremdsprachigen Gegenüber auch ohne Sprachkenntnisse kommunizieren zu können und wenn die Erkennung gut funktioniert, so wie im Modus Media Translation, bekommt man schon ein tolles Gefühl für die Vision dahinter. Aber das Gesamtpaket überzeugt uns noch nicht ganz.
Die Übersetzungen funktionieren noch nicht zuverlässig genug, zu oft funktioniert die Erkennung nicht optimal oder arbeitet ungenau. Im Listenmodus kann man das noch auf das Smartphone schieben, die suboptimale Erkennung und die fehlende Kontexterfassung sind aber generelle Schwachpunkte. Auch die Audio-Verzögerung ist störend, die Ohrhörer sind von minderer Audioqualität und taugen nicht zum Musik hören, trotzdem ist das Paket recht teuer. Darüber hinaus werden auch nach dem Kauf weitere Gebühren für eine intensivere Nutzung fällig. Offline-Pakete lässt sich der Hersteller zusätzlich bezahlen.
Der Timekettle-Dolmetscher W4 Pro ist im aktuellen Zustand noch nicht ganz optimiert, vor allem die Erkennung, aber auch Geschwindigkeit, Übersetzungsqualität und Audioqualität lassen jede Menge Potential erkennen, sind jedoch (noch) nicht auf dem beworbenen Niveau. Zudem ist das Paket derzeit zu teuer für das Gebotene.
Preis und Verfügbarkeit
Die Timekettle W4 Pro gibt es sowohl auf der Hersteller-Webseite als auch auf Amazon für 449 Euro. Wie im Test erwähnt gibt es aber auch nach dem Kauf noch diverse, potentielle Zusatzkosten in Form von Offline-Sprachpaketen, zusätzliche Nutzungsminuten und mehr.
Momentan gibt es auch bei Timekettle den Black Friday Abverkauf. Durch den Rabatt kosten die W4 Pro aktuell nur noch 359 Euro.
Transparenz
Die Auswahl der zu testenden Geräte erfolgt innerhalb der Redaktion. Das vorliegende Testmuster wurde dem Autor vom Hersteller unentgeltlich zu Testzwecken überlassen. Eine Einflussnahme auf den Testbericht gab es nicht, der Hersteller erhielt keine Version des Reviews vor der Veröffentlichung. Es bestand keine Verpflichtung zur Publikation. Unsere Reviews erfolgen stets ohne Gegenleistung oder Kompensationen. Als eigenständiges, unabhängiges Unternehmen unterliegt Notebookcheck keiner Diktion von Herstellern, Shops und Verlagen.