"A magyar automata kereső legyőzi a kézzel készült katalógust"

Vágólapra másolva!
A magyar iGlue webkereső nem versenyez a Google-lal, inkább intelligens lexikont épít, ennek szócikkeivel címkézi fel a weboldalakat. A cég már túl van a kockázati tőkén, most az amerikai tőzsdére készül. Az alapítóval arról is beszélgettünk, hogy Szomjas György nem tikkadt ki, viszont filmrendező.
Vágólapra másolva!

A magyar programozók és bölcsészek által kifejlesztett iGlue kereső nem hasonlít a Google-ra. A hagyományos keresők a keresőszóhoz legjobban kapcsolható weboldalak listáját adják, míg ez az úgynevezett szemantikus, azaz nyelvi jelentésre építő kereső kijelöli egy weboldalon az összes olyan szót, amelyhez képes további alapinformációkat csatolni, legyen szó személyről, helyszínről vagy intézményről - tulajdonképpen lexikoncikkeket kapcsol a szöveg fontos kifejezéseihez. Ám nem egyszerűen összeveti a szöveg szavait a saját szótárával, hanem a szövegkörnyezetből kitalálja azt is, melyik jelentéshez kell további információval szolgálnia. Nem mindegy például, hogy egy név az emberre vagy a róla elnevezett épületre hivatkozik-e.

Forrás: [origo]
A magyar szövegből főleg a neveket ismeri fel az iGlue

Kezdetben csak pár mondatos életrajzot, apró fotót, definíciót mutat az iGlue, ám az információk között tallózva akár a vonatkozó Wikipedia-oldalakig, Google Térképig és netes videókig is eljuthatunk. Ha végeztünk az olvasgatással, az iGlue ablakából kikattintva visszatérünk a kiindulási cikkhez. A szoftver mindent a weblap felett megjelenő rétegben mutat meg, használatához nem kell böngészőfülek között navigálni. Bárki kipróbálhatja: az iGlue weboldaláról egyetlen kattintással telepíthető a böngészőkiegészítő.

Vaskó Péterrel, az iGlue alapítójával beszélgettünk arról, hogy a Google-t nem lehet egy másik keresővel legyőzni, hogy a huszonegyedik század latinja az angol nyelv, és hogy mi a baj az internet építőköveinek számító linkekkel.

Az Emir irodalmi adatbázis kapcsán hallottalak először a tudás összekapcsolásáról és adatbázis-építésről beszélni. Hogyan lett ebből a mostani iGlue?

Korábban az ELTE-n tanítottam, és ott kezdtük el barátaimmal, Tóth Tündével és Fodor Jánossal fejleszteni az Elektronikus Magyar Irodalom (Emir) nevű adatbázist, hogy bemutathassuk, hogyan kapcsolódnak emberek, helyek, művek és fogalmak. Az egyetem jó hely volt kutatni, termékfejlesztésre viszont nem alkalmas, ezért vittük ki inkább a piacra az ötletet. A Power Of the Dream Ventures kockázati tőkebefektetővel csináltuk meg az iGlue-t fejlesztő céget és kezdtük el a munkát.

Honnan származik az ötlet?

Korábban a Filmvilág szerkesztőjeként megterveztük az akkor éppen 25 éves papíralapú magazin digitális archiválását és webre vitelét. Ez 2001-2002-ben történt, közvetlenül a dotkomválság után. Látszott, hogy azok a cégek maradtak életben, amelyek az online megjelenő hatalmas mennyiségű adat átláthatóvá tételével foglalkoztak. Ilyen volt a Google, az Amazon vagy például a Wikipedia. Azon kezdtünk el gondolkozni, hogy miként lehetne a webes információszervezést még hatékonyabbá és a felhasználók számára élvezetesebbé tenni, lévén a szükséges információkhoz való hozzájutás mind a mai napig igen macerás feladat.

Fotó: Tuba Zoltán [origo]
Az internetet csak automatikus eszközökkel lehet lexikonná alakítani

Abból indultunk ki, hogy betűsorok helyett jelentésszinten fogjuk meg a tartalmat. Hogy a szoftver felismerje, mikor áll névként, foglalkozásként vagy mondjuk egy könyv címeként a szövegben a kovács szó. A neten ma is megtalálható verzióban van egy funkció, amelyet tartalmi elemek kiemelésének hívnak, ezzel a szövegben szereplő személyeket, rendezőket, operatőröket, filmcímeket be lehet színezni. A kereső tudja, hogy a Szomjas György karaktersor nem azt jelenti, hogy György ki van tikkadva, hanem ez egy ember neve, aki rendező.

Ezt meg lehet oldani linkeléssel is. Szomjas György nevére rárakom a Wikipedia oldalának a linkjét, és akit érdekel, át tud kattintani.

A link bizonytalan eszköz, és megvannak a korlátai. Nagyon törékeny, a linkek 25-30 százaléka egy év alatt használhatatlanná válik, 404-es hibaoldalra vezeti a netezőt a kívánt cikk helyett. Egy hat-hét éves weblap esetében pedig alig találunk működő linkeket. Ahogy a linkek eltörnek, megsemmisül a felépített információs kapcsolati háló is. A helyzet iróniája, hogy a jelenlegi high-tech információs megoldásunk alig éli túl a saját létrejöttét, ez pedig, lássuk be, elég ciki. Tulajdonképpen egy múzeumi sumér agyagtáblának jobb a túlélési esélye, mint a mai legmodernebb weblapnak. A másik probléma, hogy a link nem csak törékeny, de nagyon vékony is, A-ból csak B-be tud mutatni, C-be, D-be, E-be már nem. Végül pedig csak az oldal gazdája tud az adott tartalomhoz linket kapcsolni, másnak általában nincs lehetősége, hogy tartalmakat adjon hozzá az oldalhoz.

A mi célunk az volt, hogy a szoftverünk bármely oldalt automatikusan, mintegy varázsütésre helyben megjeleníthető gazdag információs hálóval lásson el. Sőt, ezt a lehetőséget a program a felhasználók számára is lehetővé teszi. Bármelyik bejelentkezett iGlue-felhasználó kijelölhet szavakat, szövegrészeket, amelyekhez azután képet, videót, térképet, szöveget csatolhat. Ez a hozzáadott érték azután mindenki számára azonnal láthatóvá válik. Ezzel a módszerrel az eddig passzív oldalak egy csapásra közösségi térré, multimédiás wiki-oldallá alakíthatók.

Mivel tud többet az iGlue, mint a Filmvilág archívumában használt megoldás?

A lap archívuma kézzel volt felcímkézve, diákok azonosították be a rendezőket, színészeket, filmcímeket a szövegben, amire a keresés épült. Bizonyos korlátok között jól működött a megoldás, de nyilvánvaló volt, hogy a robbanásszerűen növekvő netes tartalomtömegre gépi megoldást kell kifejleszteni. A Google is megmutatta a Yahoo-val szemben, hogy az algoritmussal dolgozó kereső legyőzi a kézzel összerakott katalógust.

Az volt a célunk, hogy az iGlue az ember felismerőképességének 75-80 százalékával rendelkezzen. Azaz tudja, hogy ha a szövegben a John F. Kennedy név szerepel, akkor az egykori elnökről, a repülőtérről, a stadionról vagy anyahajóról van szó. Hét éve kezdtünk el dolgozni ezen, és mostanra értünk el odáig, hogy a szoftver lassan eléri ezt az arányt, kezdi egyre nagyobb biztonsággal felismerni a tartalmat.

Ha nincs kézi szerkesztés, akkor honnan gyűjti be az iGlue a címkékre kattintva megjelenő tartalmat?

Több mint száz forrást kezel a rendszerünk, köztük a Wikipediát is, ami az egyik kedvencünk, mert több mint tíz éve folyamatosan frissül és bővül. Az adatgyűjtő modulunk meglátogatja az oldalakat, "elolvassa" a szöveget, és elemi információegységekre bontva tárolja el: például ez a személy neve, itt született, így hívták a feleségét, ezt a könyvet írta.

Fotó: Tuba Zoltán [origo]
"Ki kell találnunk egy új sportot, amiben mi vagyunk a legjobbak"

A különböző típusú információkhoz eltérő modelleket használunk, természetesen más adatok tartoznak egy személyhez, mint például egy városhoz vagy egy céghez. Ezek az információk azután legószerűen összekapcsolódnak az iGlue adatbázisában: például ez a személy ebben a városban született és ennél a cégnél dolgozott.

Így áll össze az elemek, konkrét személyek, városok, cégek "ujjlenyomata", amelynek segítségével fel tudjuk ismerni őket a szövegben. Ha a cikkbe írt JFK mellett például a felesége neve szerepel vagy az 1963-as évszám, akkor valószínűleg az amerikai elnökről van szó, ha a Boeing vagy az érkezési idő szavak, akkor a program a reptérre fog tippelni.

Korábban ki voltatok kiáltva a Google kihívójának, de a jelek szerint már más utakon jártok.

Eszünk ágában sincs a Google-lal versenyezni a saját pályáján. Ez olyan lenne, mint a pestlőrinci focicsapattal kiállni a Manchester United ellen. Mi inkább úgy határoztunk, hogy kitalálunk egy új sportot, amelyben mi vagyunk a legjobbak, ráadásul érdekesebb, mint a régi foci. Aztán az Apple, amely azelőtt soha nem csinált telefont, jött, és az újfajta felhasználói élménnyel és logikával megváltoztatta a játékszabályokat. Mi is a szabályok, reflexek megváltoztatásán dolgozunk.

Számunkra a Google vagy a Wikipedia (az iGlue inkább ez utóbbi rokona) nem ellenség, hanem éppenséggel az iGlue-ban is jelenlévő hasznos eszköz, amely például segíti a felhasználókat a kézi címkézés során. Célunk inkább egyfajta szimbiózis. Azt szeretnénk, ha pár éven belül ugyanúgy benne lenne az iGlue-ikonra való kattintás az emberek ujjbegyében, amikor háttér-információra van szükségük, mint ahogyan most a Google beírása akkor, amikor a teljes webet akarják átfésülni. A kétféle megközelítés inkább kiegészíti és nem helyettesíti egymást.

Hogyan fog bevételt termelni az újságoktól teljesen függetlenül működő, a netezők által bekapcsolható szolgáltatás?

Mint közismert, a Google bevételeinek döntő hányada az online hirdetési bevételeiből származik. A szövegelemzésnek köszönhetően mi még náluk is pontosabban tudjuk, milyen tartalmi elemek szerepelnek egy adott weboldalon, ami azt jelenti, hogy az eddigieknél sokkal pontosabban tudunk az adott oldalakhoz kereskedelmi információkat kötni. Ha például valaki Ronaldóról vagy Brad Pittről kér információt, az iGlue-n belül egy kis kosár ikonnal elő tudja hívni a vele kapcsolatos Amazon, E-bay, Netflix ajánlatot, vagy más hasonló kereskedelmi információt. Mindez egyszerre jó a felhasználónak, mert nem irreleváns reklámok tömegét kell kerülgetnie, és jó a hirdetőknek, mert jobb hatékonysággal tudják elérni a célközönségüket.

Fotó: Tuba Zoltán [origo]
Hamarosan megjelenik az amerikai tőzsdén az iGlue

Az eszközt összeraktuk, most olyan partnereket keresünk, akikkel egy kísérleti projektet indíthatunk, vagy akár hosszabb távú együttműködésbe kezdhetünk. Célunk jelenleg, hogy minél több felhasználó próbálja ki az iGlue-t, hiszen ez alapvetően egy kreatív eszköz, amelynek az értéke elsősorban a felhasználók kreativitásától, ötleteitől függ. Ennek érdekében egy versenyt is szeretnénk rendezni a közeljövőben, ahol díjazni kívánjuk a közösség számára leghasznosabb és legkreatívabb felhasználókat.

Az eddig mutatott példákban mindig angol oldalakon dolgozott az iGlue.

Az angol ma a világ latinja, a tört angolt beszélik a legtöbben. Ez a kulturális trend, és a piac nagysága azt diktálta, hogy erre a nyelvre készítsük el először az eszközt. Érdekes lenne kipróbálni a kínaival is, a nyelvi elemzés azonban itt igen kemény dió. Így van ez a magyar nyelv esetében is, ami jóval nehezebben elemezhető gépi úton, mint a jóval egyszerűbb struktúrájú angol. Egyébként a magyar a következő célpontunk, jelenleg dolgozunk rajta, néhány hónapon belül készülünk el vele. Azonban addig is, mint mindegyik máson, a kézi annotálás a magyar nyelvű weboldalakon is kipróbálható.

Az iGlue bemutatkozik a május 17-18-án Budapesten, a Jövő Házában megrendezett Magyar Innovációs Techshow-n is új verziójával.

Google News
A legfrissebb hírekért kövess minket az Origo Google News oldalán is!