Harmincezer magyar írást, zömmel diplomamunkákat tartalmaz a szótáráról ismert SZTAKI plágiumkereső rendszere. Az elmúlt nyolc évben feltöltött diplomamunkák mellé 2011-ben hozzáadták a magyar és az angol nyelvű Wikipédiát is, azóta az internetes enciklopédiáról ollózó hallgatókat is le tudja buktatni az algoritmus. A program sosem mond ítéletet a vizsgált dokumentumokra, csupán azt közli, az írásmű hány százalékban egyezik más dolgozatokkal, illetve hány Wikipédia oldalról tartalmaz szöveget.
A Kopi a tanároknak és a diákoknak is segít. A bármilyen szövegformátumban (pdf, doc, rtf) feltöltött dolgozatokat az adatbázisban található korábbi írásokkal vagy a Wikipédiával veti össze egyezéseket keresve. A rendszer nem figyeli, idézet-e, hivatkozás-e a megtalált szövegrészlet, csak az érdekli, hogy betűre azonos szövegeket találjon az összevetett dolgozatokban. A Kopi célja nem az egy-két százalékban hasonló diplomamunkák megtalálása, hiszen ilyen hasonlóságot eredményezhet pár népszerűbb szakirodalmi passzus idézése is. Pataki Máté, a a SZTAKI Elosztott Rendszerek Osztályának tudományos főmunkatársa, a Kopi plágiumkereső atyja szerint a szolgáltatás erőssége a hosszú egyezések megtalálása.
Hiába veszélyes a rendszer a lusta hallgatókra, többnyire pozitív visszajelzéseket kapnak a fejlesztők. "Sokan mondták, hogy engem meg fognak verni a hallgatók, de a többségük értelmes, és tudja, hogy semmit sem ér az a diploma, amit meg lehet szerezni három év csalással. Azért ér többet a műegyetemi diploma, mert többet tanítanak, nehezebb megszerezni, mint néhány fizetős műszaki főiskola papírját" - véli a Kopi kifejlesztője.
Minden mondatot keres
A Kopi világelső volt a többnyelvű plágiumkereső szolgáltatásával, mostanra azonban már külföldi versenytársa is van. Míg az egy automata fordítóprogramon futtatja keresztül a szöveget, és úgy próbál idegen nyelvű forrásokat találni, a Kopi furfangosabb megoldással dolgozik. Többnyelvű ellenőrzésnél a Kopi először mondatokra bontja a dolgozatot, majd az egyes mondatoknak elkészíti az összes létező helyes és helytelen fordítását. Erre a szinonimákkal feldúsított, több szórenddel elkészített mondathalmazt próbálja megtalálni a szoftver. Akárhogy is fordította magyarra az idézetet a diák, a Kopi nagy valószínűséggel meg fogja találni.
Azért volt szükség az eltérő megoldásra, mert az automata fordítóprogramok nem tudnak túl jól magyarul. Míg egy angol-német nyelvpárral jól működnek az algoritmusok, a magyar szöveg gyakran válik teljesen használhatatlanná a feldolgozás során. Akkor pedig még olyan esetben sem mutatna ki egyezést, ha valaki kizárólag ollózva és fordítva készítette dolgozatát..
A végső döntés a tanáré
Bármennyire jól tudja megtalálni az idézeteket, máshonnan átvett, lefordított szövegrészleteket a Kopi, a végső döntést meghagyja a felhasználónak. "Plágiumkeresőnek hívjuk, hogy mindenki tudja, mire való, de a valóságban hasonlóságokat keres. Nem tudja megállapítani, hogy a megtalált egyezés plágium vagy idézet: meg van-e jelölve a forrás, idézőjelben van-e, beljebb van-e húzva, amit épp az egyetem előír" - magyarázta el az [origo]-nak Pataki Máté.
A Kopi üzemeltetői nem is tudnak arról, hogy a rendszerük hány valódi plágiumot buktat le. Valószínűleg ki lehetne listázni, hány dolgozat tartalmaz ötven százaléknál több egyezést, de még ez sem jelenti azt, hogy a munka feltétlenül másolt lenne. Egy diák feltölthette a saját dolgozatát a SZTAKI rendszerébe, így egy dokumentum több példányban is fent lehet a Kopiban. Az üzemeltetők szándékosan nem akarják összesíteni az adataikat, mert azt tartják fontosnak, hogy a tanárok használják az automata keresést, és ők döntsenek a kilistázott szövegrészek, hasonlónak tartott dolgozatok alapján.
Egyszerűbb szőnyeg alá söpörni
A SZTAKI plágiumkereső alapfunkcióinak a használata a hazai egyetemeknek egy fillérbe sem kerül, Patakinak mégis csak néhány azt aktívan alkalmazó intézményről van tudomása. A Pécsi Egyetem közgazdasági kara a rendszer egyik nagy felhasználója, ők a korábbi évek összes szakdolgozatát feltöltötték a rendszerbe. Többnyire azonban nem tanszékek vagy intézetek kötelezik el magukat a szolgáltatás mellett, hanem egyes tanárok.
"Sajnos az egyetemek még néha úgy állnak hozzá, jobb a szőnyeg alá söpörni, mint bevallani, hogy ez egy létező probléma" - mondta Pataki Máté. A fejlesztő szerint messze vagyunk még attól, hogy az egyetemek maguk publikálják, hány plágiumügy volt egy évben, és hány hallgatónak kellett új diplomamunkát írnia. Volt arra példa hazai intézetnél, hogy egy nemzetközi akkreditációs próba végén azt kapta visszajelzésként, nem kezeli megfelelően a plágium problémáját. Pataki szerint elképzelhető, hogy a jövőben több tanszék használjon plágiumkeresőt, és beszédtéma legyen a másolgatás. Nemzetközi tapasztalatok alapján a plagizálást a felvilágosítás és a plágiumkereső együttes használatával lehet a legjobban visszaszorítani.
Legközelebb internetezni tanul a Kopi
"Ha sokan szótáraznak, kevesebb plágiumot" keresünk - mondja a lassan kúszó oldalszámokra mutatva Pataki Máté. Az intézet újbudai központjában megtudtuk, hogy bár az ország egyetlen ilyen jellegű szolgáltatása, a SZTAKI plágiumkeresője mégsem érdemelte ki, hogy saját szervert kapjon, jelenleg az intézet népszerű online szótárával osztozik.
A Kopi algoritmusa már tökéletesen használható, ám még van mit tanítani a rendszernek. A hét végén a francia nyelvi frissítés is bekerül a szoftverbe, ezt követően már Schmitt Pál plágiumgyanúba keveredett doktori dolgozatát is tudná elemezni a rendszer. Az adatbázis szakkönyvekkel, tanulmányokkal és internetes forrásokkal való növelésével azonban tovább lehetne okosítani a Kopit. A rendszer annál jobb hatásfokkal üzemel, minél több forrásszöveghez fér hozzá.
Az angol, francia és német Wikipédia anyagainak integrálása például nagy ugrást jelentett. Ezek feldolgozásához nem is a SZTAKI szótárral közös szervert, hanem az intézet asztali gépekből összeállított számítási hálóját, a SZTAKI Desktop Gridet veszik igénybe. Aki szeretne részt venni a Kopi további munkájában, maga is felajánlhatja a gépének számítási kapacitását erre a munkára. A következő lépés, az internetes források beemelése tovább fogja okosítani a Kopit. Már csak tanárokat kell rábeszélni, hogy használják a keresőt.