"A web első évtizede arról szólt, hogy a gépeket megtanítottuk olvasni, most jön az, hogy megtanulják a szövegeket értelmezni" - idézte Sir Tim Berners-Lee, a világháló atyjának célkitűzését Szakadát István, Budapesti Műszaki Egyetem Gazdaságtudományi Karának docense, aki az ELTÉ-n megrendezett in4 (innováció, integráció, információszabadság, intelligens web) konferencián tartott előadásában. Ez egyébként nem más, mint a Web 3.0, legalábbis az internetes kiberkultúrában ezt a nevet kapta az elképzelés, amelyet a szakemberek szemantikus web néven ismerhetnek.
Az intelligens web ígérete
Az elképzelés célját nagyjából úgy foglalhatnánk össze, hogy a hálózat ne csak tárolja az információkat, hanem meg is értse azokat. A tudósok arra szeretnék megtanítani a számítógépeket, hogy a nekik átadott információt ugyanúgy értelmezzék, mint ahogyan az ember megért egy olvasott szöveget. Ennek megvalósítása nem egyszerű, és Szakadát professzor szavai szerint most még csupán nem más, mint egy ígéret.
Douglas Engelbart, az egér feltalálója már ötven évvel ezelőtt kijelentette: az emberiség számára nem az a legfontosabb feladat, hogy újabb és újabb tudást halmozzon fel, hanem ennél sokkal fontosabb, hogy a valaki által már leírt tudást valahogyan elérhetővé tegye - idézte az előadó egy másik nagy gondolkodó szavait. A szemantikus weben munkálkodók egyik legfontosabb célja pontosan az, hogy az információt visszakereshetővé tegyék: ha ugyanis a számítógép nem csak tárolja, hanem meg is érti az információt, akkor helyes választ tud adni annak, aki azt keresi.
A tudás visszakeresésére már van egy több száz éves fejlődés során kidolgozott metódus, mégpedig a könyvtári katalógus. A katalogizálás hagyományos módszereivel viszont lehetetlen lépést tartani az információ mennyiségének növekedésével. A Szakadát professzor által elmondottak alapján úgy tűnik: az emberiség tudásának nagy része könyvtárakban és az interneten van - eltemetve. A könyvtárosok ugyanis nem győzik a feldolgozást, az interneten pedig nagyságrendekkel több az olyan információ, amelyet a webkeresők sem látnak (ezt nevezik mély webnek).
A megváltó (?) címkézés
Bár a Web 3.0 még messze van, a Web 2.0 már kialakított egy, a hagyományosnál jóval eredményesebb módszert az információ visszakereshetővé tételére: a felhasználói tartalomszolgáltatást, amelynek során a felhasználók jellemzően maguk kategorizálják azt, amit az interneten megosztanak (jellemzően feltöltenek vagy létrehoznak). Ennek eszköze a címkézés, amely önkéntes alapon, mindenféle megszabott normától vagy szabályozástól mentesen történik - ellentétben a szakemberek által végzett munkával. Persze emiatt nem is szakszerű, ám erre Szakadát professzor szerint a statisztikai törvényszerűségek adnak megoldást: a nagy számok törvénye miatt a hibás jelölésre rá lehet bukkanni, és ki lehet javítani.
Az előadó szerint a tartalmak felhasználók általi rendszerezése (tudományos nevén a folkszonómia elve) olyannyira hatékony, hogy egyenesen az a kérdés vetődik fel, lesznek-e a jövőben egyáltalán könyvtárak? A professzor szerint ugyan szükség van a könyvtáros szakemberek tudására, de munkájukat át kell szervezni úgy, hogy abba beépüljenek a folkszonómia által nyújtott lehetőségek. Az új kihívásoknak pedig véleménye szerint csak úgy lehet megfelelni, ha az egyes tudományterületek képviselői ebben együttműködnek egymással, és a jogrendet is át kell alakítani. Az előadó ez utóbbi kapcsán a Creative Commonst említette, mint az új korszak követelményeinek megfelelő szerzői jogkezelő rendszert, mivel "a kultúrát nem lehet copyright-olni".
Az OSZK olvasóterme. Lehet, hogy nem sokáig látunk már ilyet?
A közösségi címkézés persze nem minden - tudtuk meg Szakadát professzortól, amikor előadása után tovább faggattuk a folkszonómiával kapcsolatban. A felhasználók ugyanis nem fognak minden címkét hozzátapasztani az egyes adatokhoz. "A folkszonómia soha nem fogja megmondani a rendszernek, hogy a puli a kutya egyik fajtája. ... Azt is odaírja, hogy az egy állat? Az élőlényt is? Nem, mert úgy gondolkodunk, hogy csak az egyik, legfontosabb szót írja oda az ember." - világított rá ennek lényegére az előadó.
Az már a szemantikus web feladata lesz, mindazt a tudást átadja a számítógépeknek, ami az emberek fejében van az egyes fogalmakkal kapcsolatban, de az sem elég, hogy a gép ismerjen minden egyes címkét, hanem ismernie kell majd az azok között fennálló viszonyokat - relációkat - is ahhoz, hogy következtetni tudjon a jelentésre. Sőt, az még mindig nem elég, hiszen ez a tudás is változik: az egér például húsz évvel ezelőtt a köztudatban még csak a rágcsálót jelentette, és semmi köze nem volt számítógépekhez.
Problémás adatbázisok
A digitális korszakban az információ kezelésének kulcsa az adatbázis, és ezzel kapcsolatban több más előadás is foglalkozott az in4 konferencián. Hallhattunk például arról, hogy mind a könyvtári, mind a földrajzi adatbázisokban milyen nehézségeket okoz a tulajdonnevek kezelése, ami megint csak akkor jelentkezik, amikor vissza kell keresni egy információt.
Hiába ugyanarról a személyről van szó, nem mindegy, hogy Plutarkhosz Plutarkhosz, Plutarchos, Plutarchus vagy Plutarch néven szerepel egy adatbázisban, nem is beszélve az eredeti, görög betűs írásmódról, de a Kárpátokat is meg lehet találni Karpaty, Carpati vagy Carpathian Mountains néven nyelvtől, írásmódtól függően. Ami a földrajzi adatbázisokat illeti, ezen a területen a legizgalmasabb fejlesztések a közösségi tartalmakat bevonó alkalmazások. Ezek közül itt csak egyet emelnénk ki: a Wikimapia egy olyan térképszájt, amelyen a Google műholdas felvételeire a felhasználók maguk jelölgethetik be és írhatják le a számukra fontos, érdekes pontokat.
A konferencián bemutatott legérdekesebb fejlesztés azonban az EMIR, vagyis az Elektronikus Magyar Irodalom nevű online adatbázis volt. Vaskó Péter, a szájt főszerkesztője - és a konferencia egyik fő szervezője - ennek kapcsán elmondta: öt éve dolgoznak a szájt megújításán, és eddig mindössze 1,8 millió forintot öltek bele - de ennek ellenére megállapítottuk, hogy lenyűgözű munkát végeztek. Az oldalon keresztül kereshető irodalmi adatbázisba - amelyet több, már meglévő állomány fáradságos megnyitásával és összecsiszolásával hoztak létre - tetszőleges paramétereket lehet majd felvenni.
Így a rendszer akár a bajuszos, kék szemű magyar írók kilistázására is alkalmas, a kereső felülete pedig a felhasználó igényeinek megfelelően rugalmasan testre szabható úgy, hogy az egyes elemeket az ember az egérrel teheti odébb. Csak egy látványos példa: ha egy szerző születési helyét megfogjuk, és beledobjuk az oldalon lévő Google térképablakba, akkor az megmutatja a települést. A GPL-licenc alatt álló rendszert elvileg bármilyen adatbázis kezelésére fel lehet majd használni, és alkotói sem zárkóznak el attól, hogy akinek kell, az vigye - csak működjön jól. Az új webszájt nyilvános próbaüzeme pár hónap múlva indul majd el.