Az Albertai Egyetem (Kanada) Számítógépes Póker Kutatócsoportjának legújabb fejlesztése, a DeepStack névre keresztelt mesterségesintelligencia-rendszer a professzionális póker világának nehézfiúit darálta be egy összesen 3000 leosztásból álló, négy hétig tartó játszmasorozatban. Ezzel a mesterséges intelligencia (MI) újabb jelentős trófeát aratott azok után, hogy számítógépes programok a sakk és a go emberi nagymestereit már korábban maguk mögé utasították. A pókerprogramot alkotó albertai kutatócsoport, melynek tagjai között a prágai Károly Egyetem és a Cseh Műszaki Egyetem munkatársai is szerepeltek, a Science folyóiratban adott hírt a történelmi győzelemről.
A póker a sakkhoz, a dámához és a góhoz képest egészen más feladattal szembesíti az MI-t. A táblajátékok esetében mindkét játékos teljesen tisztában van a játék állásával, a rendelkezésükre álló információ tehát teljes és szimmetrikus eloszlású.
A póker egészen más tészta: itt egyik játékos se ismeri a másik lapjait, ezért mindketten tökéletlen és aszimmetrikus eloszlású információ alapján kénytelenek döntéseket hozni. Ráadásul a póker szóban forgó változata, a Texas hold'em heads-up no-limit variánsa olyan komplex, hogy minden játékmenet során 10160 (egy egyes, utána százhatvan nullával) döntési pont adódik. Ez a szám messze nagyobb, mint ahány atom van a világegyetemben; ilyen feltételek mellett az összes lehetséges döntés végigelemzése nyilvánvalóan nem opció.
A számítógépnek ezért az „intuícióját" kell használnia, amelyet mély tanulási algoritmusok segítségével fejleszt. Ahelyett, hogy egészen a játék végéig megpróbálná lefuttatni a helyzetek elemzését, az emberekhez hasonlóan csupán néhány lépéssel gondolkodik előre, és minden döntés után felülvizsgálja a stratégiáját. Ezzel a módszerrel a döntési pontok számát 10160-ról 107-re redukálja, és ennyi műveletet egy közönséges laptop processzora is 5 másodperc alatt elvégez.
„A póker régóta nagy kihívás volt az MI számára – mondta el Michael Bowling, az Albertai Egyetem természettudományos fakultásának tanára és a tanulmány vezető kutatója. – Ez a játék a tökéletlen információ iskolapéldája, amennyiben a játékosok nem ugyanahhoz az információhoz férnek hozzá, és nem ugyanabból a perspektívából nézik a játékot.
" Bár pókerról lévén szó mindvégig játékról beszélünk, a tökéletlen információs játék valójában véresen komoly ügy: a vele foglalkozó matematikai modellek írják le a legjobban azt, ahogyan döntéshozó ágensek kölcsönhatnak a való életben. „Új MI technikákra van szükségünk azoknak a helyzeteknek a kezelésére, amelyekben a döntéshozók eltérő szemszögből látják az eseményeket" – állítja Bowling, hangsúlyozva, hogy a tökéletlen információs játékokat megoldó MI algoritmusok alkalmazhatósága messze túlmutat a kaszinók világán. – „Gondolhatunk szinte bármilyen valós problémahelyzetre. Valamennyi résztvevő kissé másmilyen perspektívából szemléli a helyzetet, ugyanúgy, ahogy a pókerjátékosok is csak a saját lapjaikat ismerik." Bowling szerint egyebek mellett a megfelelő orvosi kezelések kiválasztása és a védelmi stratégiák tervezése terén kínálkoznak a legkézenfekvőbb alkalmazások.
A kanadai programozók nem ma kezdték a tökéletlen információs játékokkal való birkózást. Az Albertai Egyetemen 1996-ben állt fel a Számítógépes Póker Kutatócsoport, amelyet 2006 óta Bowling vezet. 2008-ban a csoport kifejlesztette a Polaris nevű programot, amely a Texas hold'em póker egy kevésbé komplex változatát, a heads-up limitet játszotta, és ebben a versenyszámban győzte le sorra a játék emberi bajnokait. Ezt követte a 2015-ben publikált Cepheus, majd a 2016-ban debütált DeepStack.
„A felkészülés során a rendszerünknek megtanítjuk az egyes állásokhoz rendelhető értéket – magyarázza Bowling. – Minden helyzet maga is egy mini-pókerjátszma. Ahelyett, hogy a program egy nagy pókerjátszmát oldana meg, kis játszmák millióit elemzi végig, s mindegyik elemzés tovább csiszolja az intuícióját arról, hogyan is működik a póker. És ez az intuíció hajtja előre a DeepStack-et az egész játék során."
Az olyan komplex problémák kezelésében, mint a heads-up no-limit hold'em, fontos az éppen felmerülő szituációk értékelése. Annak köszönhetően, hogy a program csak belátható mélységben gondolja mindig újra a stratégiát, az egyes döntések a játék bonyolultsága ellenére is emberi időléptékben zajlanak. A 3-5 másodperces gondolkodási időt egy teljesen közönséges, Nvidia grafikus processzorral felszerelt laptop is könnyűszerrel tudja tartani.
A DeepStack megmérettetésére tavaly decemberben került sor, amikor a Nemzetközi Pókerszövetség 17 ország 33 játékosát kérte fel az MI-rendszerrel való erőpróbára. A játékosokat arra kérték, hogy négy hét leforgása alatt egy 3000 leosztásból álló játszmasorozatot játsszanak a számítógéppel. Végül csak 11-en játszották végig a teljes sorozatot; a DeepStack valamennyiüket megverte, egy kivétellel statisztikailag szignifikáns mértékben. Ezzel a DeepStack lett az első számítógépes program, amely professzionális játékosokat győzött le a heads-up no-limit Texas hold'em pókerban.