Google: Neuer Ansatz bei Text-to-Speech-Modellen
Ein Forscherteam von Google hat einen Bericht veröffentlicht, in welchem es um einen neuen Software-Ansatz von Text-to-Speech-Modellen geht. Die Software heißt aktuell Tacotron und scheint sich in ersten internen Tests teilweise besser zu schlagen, als andere existierende Produkte. Der Unterschied zu einer klassischen TTS-Software liegt darin, dass die neue Software die Sprache aus den einzelnen Buchstabenfolgen synthetisiert. Um das Modell zu trainieren, hat man immer jeweils einen Textausschnitt mit einer Audiodatei einer professionellen North-America-English-Sprecherin kombiniert. Gemessen wurde der Erfolg im Mean Opinion Score, in welchem die Software mit einer Punktzahl von 3,8 bewertet wurde, was dafür, dass sich die Software noch in Entwicklung befindet, erstaunlich gut ist.
Der Mean Opinion Score ist eine Skala von 1-5, bei welcher 1 für gar nicht verständlich und 5 für ohne Anstrengung verständlich steht.