Ha az ember ránéz egy fotóra, nagy valószínűséggel kitalálja, hogy milyen eseményt ábrázolhat, és nagy pontossággal jósolja meg, mi lehet a következő képkocka. Egy motoron ülő nő valószínűleg éppen száguld a járgányon, ha egy képen frizbi tart a kutya felé, akkor a kutya nagy eséllyel ugrani készül érte.
Alapvető képességünk, hogy a képen látható információk alapján következtetünk egy jövőbeli cselekményre, kutatók pedig azon dolgoznak, hogy ezt a számítógépeknek is megtanítsák. Ez az úgynevezett "machine vision", azaz gépi látás egyik legnagyobb kihívása manapság.
Az MIT kutatói speciálisan tanított neurális hálókat használtak fel erre a feladatra, meglepően jó eredményekkel. A hálók fotókból készítenek videókat olyan módon, hogy a gép megjósolja, mi lehet a következő képkockán. A módszernek azonban számos korlátja van –
a videók csak egymásodperces hosszúságúak,
kicsik, és sokszor borzasztó minőségűek. Mégis impresszív képesség ez egy géptől, és egy lépéssel közelebb visz ahhoz, hogy a gépek is emberibben lássák a világot.
A neurális háló betanításához több mint kétmillió videót töltöttek le a Flickr képmegosztóról, majd ezeket válogatták szét négyféle különböző kategóriába, a rajtuk látható jelenetek szerint: golfpálya, strandok, vasútállomások és kórházak. Ezen adatok alapján a háló nem csak rövid videókat tudott generálni, amik hasonlóak voltak a képekhez, de a videón látható volt az is, hogy mi következhet utána.
Természetesen a gép azt találgatta,
hogy mely pixelek változhatnak,
nem pedig magát a jelenetet értette meg. Nagy eséllyel reálisan eltalálta, mi mozoghat a következő másodpercben, de sokszor irreális végeredmény született. Az elkészült gifeket itt nézheti meg.
A strandolós, tóparti képből egy olyan videót készített, amin felcsapnak a hullámok, a vasútállomáson pedig a vonat mozdult meg. Azokon a képeken, amelyeken emberek szerepeltek, nehezebben boldogult.
Más gépi tanulásos rendszerek is értek már el áttörő eredményeket hasonló területeken, van már olyan algoritmus, ami a videók alá illő hangokat generál. A Facebook egyik vezetője, Al Yann LeCun tavaly egy interjút is adott témában, amelyben elmondta, hogy a jövőbeli mozgások megjósolása egy gép esetében olyan, mint a puzzle. Prediktív gépeket előbb fogunk fejleszteni, ez sokkal előbb jön el, minthogy egy gép teljes egészében megértse egy adott kép és videó tartalmát, és az alapján következtessen.