Ugyan az elmúlt években különösen nagy fejlődésen ment keresztül a számítógép által generált beszéd minősége, ám a Google most a riválisoknak alaposan odapirítva bemutatta a második generációs hangképző technológiáját. A rendszer szinte teljesen tökéletesen képes utánozni annak a személynek a beszédét, akinek a hangmintáival betanították, bár egyelőre csak papírról felolvasós stílusban.
A Tacotron 2 érdekessége, hogy két különálló neurális hálózat segítségével működik. Az egyik rendszer leképezi a bemenetként megadott szöveg spektrogramját, majd átadja a Wavenet nevű másik rendszernek, amely az adatok használatával legenerálja a végleges beszédet.
A rendszer talán legnagyobb fegyvere, hogy angol nyelven a szövegkörnyezet elemzésének, továbbá az írásjelek megértésének köszönhetően igazán remekül tud hangsúlyozni.
Ezen a weblapon meghallgatható néhány a rendszerrel generált példamondat, a legutolsó „Tacotron 2 or Human?" részben pedig összehasonlítható a számítógép által generált beszéd, és a gépi hang alapját adó személy beszéde. Fentről lefelé a második, az első, az első, és a második a gépi verzió.
Ha szeretne még több érdekes techhírt olvasni, akkor kövesse az Origo Techbázis Facebook-oldalát, kattintson ide!