Az MIT Számítástechnikai és Mesterséges Intelligencia Laboratóriumának (CSAIL) kutatói először a mély neurális hálózatukat képezték ki oly módon, hogy több millió, a közösségi videómegosztó portálról letöltött videót tápláltak bele, amelyeken emberek a kamera előtt beszélnek. Ez a hatalmas adathalmaz arra „tanította" a mesterséges intelligenciát (AI), hogy
bizonyos hangjellemzőket korreláljon az arcvonásokkal, amelyek megfelelnek az életkornak, nemnek vagy etnikai hovatartozásnak.
A folyamat során a hang és az arcvonások korrelációjának kezdeti feladatán kívül nem történt emberi beavatkozás. Az AI mindezt magától „tanulta meg", külső felügyelet nélkül.
A rendszer tesztelésére a kutatók egy úgynevezett arcdekódert terveztek, amely egyetlen állóképből képes rekonstruálni a beszélő arcát, függetlenül annak megvilágításától vagy a beállítástól.
Ezt a digitális rekonstrukciót hasonlították össze azokkal a portrékkal, amelyek kizárólag a beszélő hangjából származtak.
Végül megdöbbentő eredmények születtek. És bár a szintetizált arcok általánosnak számítottak, tehát az előállított képek nem konkrét személyekről származtak, ennek ellenére sikerült megörökíteniük a beszélő alapvető arcvonásait, például a bőrszínt, a nemet és az életkort. Minél hosszabbak voltak a hangfelvételek, a szintetizált portré annál pontosabbnak bizonyult, írja a ZME Science online tudományos portál.
De akadt olyan eset is, amikor nem találtak egyezést.
A mesterséges intelligencia a magas hangokat gyakran nőinek azonosította, még olyan esetekben is, amikor férfiaktól származtak, például fiatal fiúktól. Az amerikai angolul beszélő ázsiai férfiaknak fehér férfiakra emlékeztető portréik voltak, de ez megváltozott, amikor az ázsiai hang kínaiul beszélt.
A szakemberek szerint a rendszer pontosságának javítása több, az általános populációra reprezentatív képzési adatszolgáltatás kérdése. Felhívták a figyelmet arra is, hogy a mesterséges intelligencia rendszer valós alkalmazásait egyelőre igen óvatosan kell kezelni.