Google-KI kann Einzelstimmen aus einer Menschenmenge herausfiltern
Beim Cocktailparty-Phänomen hören Menschen aus dem Stimmgewirr einer Party plötzlich ihren eigenen Namen heraus und auch sonst sind Menschen in der Lage bewusst Stimmen aus Menschenmengen herauszufiltern. Einer von Google entwickelten Deep-Learning-Engine gelingt dies nun auch, teilweise sogar deutlich besser als dem Menschen.
Die Künstliche Intelligenz kann spezifische Audiospuren von Personen isolieren, indem sie die Gesichter beim Sprechen anschaut und auswertet. Das Entwicklerteam trainierte das künstliche neuronale Netzwerk zunächst darin individuelle Sprecher zu erkennen, wenn diese alleine sprechen. Daraufhin kreierten sie virtuelle Parties, inklusive Hintergrundgeräusche, um der KI das Isolieren von mehreren Stimmen in separate Audio Tracks beizubringen.
Die Ergebnisse sind erstaunlich, wie sich gut anhand des Videos nachvollziehen lässt. Selbst wenn Personen direkt gegeneinander ansprechen, schafft es die KI beide Stimmen in einer separaten Audiospur abzulegen. Das klappt selbst dann, wenn das Gesicht des Sprechers temporär abgedeckt wird, bspw. durch ein Mikrofon.
Die möglichen Anwendungsfälle liegen auf der Hand: Das Entwicklerteam spricht von den Möglichkeiten u.a. bei Videotelefonaten in lauter Umgebung, wo die Technik dabei helfen könnte die lauten Geräusche zu blockieren. Aber natürlich dürfte eine ganz andere Industrie ebenfalls Gefallen an der Technik finden: Bei der Überwachung von Personen wäre eine Aufzeichnung verschiedener, klarer Audiospuren je Person natürlich extrem hilfreich.