Tacotron 2: Neue, menschenähnliche Spracherzeugung vorgestellt
Das neue, Tacotron 2 benannte System liefert auch unter Nutzung des neuronalen Netzwerks WaveNet sehr menschliche Sprache, die auch Betonungen vergleichsweise realitätsnah umsetzen kann. WaveNet wurde dabei mithilfe von Material einer professionellen Sprecherin trainiert.
Die Forscher haben neben einem wissenschaftlicher Paper auch zahlreiche Beispiel-Ausgaben der Spracherzeugung veröffentlicht, die zeigen, dass Tacotron 2 auch komplexe Wörter darstellen kann. Die Betonung von einzelnen Wörtern in Sätzen unterscheidet sich je nach konkreter Satzstellung und -länge, zudem ist der Algorithmus nicht anfällig gegenüber Tippfehler.
Eigenen Angaben nach bewerten Probanden die Qualität der erzeugten Sprache mit 4,53 von 5 Punkten - und damit nur wenig schlechter als von professionellen Sprechern eingesprochene Sequenzen. Bis die Technik etwa in Googles Smart Home-Geräten angewendet wird, dürfte noch etwas Zeit vergehen.