Három nagy helyesírás-ellenőrző programot vettünk szemügyre - a feladat nagysága és szerteágazó volta miatt a teszt szót kerüljük, bár születtek összesítő eredmények. Az OpenOffice nevű ingyenes irodai programcsomag és a Firefox által is használt Hunspell nevű helyesírás-ellenőrzőt, a Microsoft Office használta, a hazai Morphologic által fejlesztett Helyesek nevű programot, valamint a Google Dokumentumok szolgáltatás webes helyesírás-ellenőrzőjét nézegettük. Mit nem néztünk? Nem néztük a programok elválasztás-ellenőrző, valamint a szinonima- és nyelvhelyesség-ellenőrző moduljait (ez utóbbi csak a microsoftos Office-ban található).
Van azért, amire jó
Összegzésünk a cikk elején: többnyire alkalmasak a helyesírás-ellenőrzők az elgépelések, elütések javítására (pontosabban az erre való figyelmeztetésre), zömmel alkalmasak a durva helyesírási hibák, mint a j és ly összekeverésének, a hosszú-rövid ékezetek hibáinak kiküszöbölésére, feltéve, ha a hibás változat nem értelmes más szövegkörnyezetben. Például az egyenlőre és az egyelőre összekeverése súlyos hibának számít, de mivel mindkettő értelmes szó, ha egy elütés kapcsán kerül elő a szövegben, az ellenőrző nem fog figyelmeztetni. Épp az egyelőre-egyenlőre közti különbségre az Office nyelvhelyesség-ellenőrző modulja (a zöld aláhúzásos) figyelmeztet ugyan, de a had (hadsereg), illetve hadd (hadd menjen) közti különbségre nem, tehát a megállapítás - miszerint ha értelmes a rosszul írt szó, nem lehet építeni a szoftverekre - igaz.
Ám az ellenőrző programok nem értelmezik a szöveget, nem tudják kitalálni, hogy a szerző mit akart írni. Nem alkalmasak tehát a zsinórdíszítés (sujtás) és az ütés (sújtás) közül kiválasztani a megfelelőt, hiszen mindkettő helyes lehet a maga mondatában, de az ellenőrző nem tudja, hogy épp melyik mondatról van szó. Épp ezért a különírás-egybeírás kérdésében sincs okunk sok reményre. Az összetett kifejezéseket alkotó szavak ugyanis külön-külön is lehetnek értelmesek pl.: fa, kanál és fakanál, vagy tucat, számra és tucatszámra, a program pedig nem tudja, hogy mit gondolt a szerző: két szóra vagy csak egyre. A programok ilyen esetekben a legritkábban tesznek javítási ajánlatot, tehát a hibásan különírt szavak kérdésében nemigen érdemes rájuk hagyatkozni. Ez még akkor is igaz, ha az Office nyelvhelyesség-ellenőrzője néhány esetben képes legalábbis figyelmeztetni; az általunk kipróbált 24 külön-, illetve egybeírási hibát tartalmazó tesztmondtatból 23 esetben elsiklott a baki felett a szoftver (az OpenOffice-nak nincs nyelvhelyességi modulja ugyan, de pont ugyanennyi hibát vett észre, azaz: egyet).
Az új Office helyesírás-ellenőrzője munka közben
A hibásan egybeírt szavak vonatkozásában már valamivel jobb a helyzet, hiszen itt egyetlen szóról kell eldönteniük a programoknak, hogy az jó-e úgy leírva. Mindenesetre érdemes figyelembe venni, hogy az ellenőrzők megengedőek az összetett szavak kezelését illetően, így például a cipőasztal és a cserépvezető szavakat egyaránt elfogadják, bár ezeknek semmi értelmük nincs. A hibásan egybeírt szavak közül az ismert, gyakran használt kifejezések tekintetében gyakrabban találtunk helyesen felkínált javítási lehetőséget, míg a ritkábban használt vagy teljesen értelmetlen kifejezésekre a programok nem reagáltak.
Eltérő filozófia
Érdekes a két, megkeresésünkre válaszoló szakember véleménye a szoftverről. Az Org/Firefox Hunspelljét fejlesztő Németh László azt emelte ki, hogy nagyon odafigyelnek arra: egy hiba javításának égisze alatt ne kövessenek el még nagyobb hibát. Dr. Prószéky Gábor, a Microsoft Office által használt ellenőrzőt fejlesztő Morphologic vezetője pedig arra hivatkozik: a szoftvereknek a feladata inkább az, hogy megállítsák és elgondolkoztassák a szerzőt, hogy valóban helyes-e, amit írt.
A különféle megközelítést magyarázza a háttérben húzódó filozófia. A hunspelles Németh szerint egy olyan ember, aki nem olvasott, nem művelt - vagy egyszerűen csak nagyon fiatal -, szociális hátrányba keveredhet, ha a helyesírása alapján ez kiderül róla. A szoftver nekik segíthet a legtöbbet azzal, hogy a leggyakoribb hibákra ráirányítja a figyelmet. Így egy elektronikus formában szerkesztett önéletrajz vagy dolgozat alapján nem alakulhatnak ki előítéletek.
A Helyeseket fejlesztő Prószéky arra hívja fel a figyelmet, hogy a magyar nyelv szabályai nagyon sok elvi lehetőséget biztosítanak különféle írásmódra. A helyesírás-ellenőrzők szerepét abban látja, hogy megállítsák és elgondolkodtassák a szerzőt, hogy bár elméletben lehetséges az, amit leírt, gondolja át, hogy a gyakorlatban is működik-e. A helyesírás-ellenőrző számos esetben az utolsó állomás, hogy egy szöveget a véglegesítés előtt javítsanak. Ezért szerinte nem baj, ha több a figyelmeztetés, mint amennyi a valódi hiba; nagyobb baj, ha hibásan kerül ki a szöveg a szerző keze alól.
Szabad szoftver vagy fizetett fejlesztők
Míg a Hunspell egy szabad szoftver, amit bárki fejleszthet, a szólistát pedig - ellenőrzötten - bővítheti, a Morphologic szoftverét zárt fejlesztői csapat készíti. Persze az újdonságok a szabad szoftverben is tervezetten jelennek meg, például az OpenOffice újabb kiadásával. Az általunk mindkét fejlesztőnek megküldött, az ellenőrző szoftver által hibásan hagyott szavakat tartalmazó jegyzék sorsa is érdekes volt. A Hunspell fejlesztője tételes visszajelzést küldött arról, hogy mely kifejezéseket vette fel a szoftver következő kiadásába vagy milyen új szabályt alkotott, hogy ezeket legközelebb már javítsa a program. A Morphologicnak megküldött jegyzékkel kapcsolatban ilyen visszajelzést nem kaptunk - igaz, ott bonyolultabb a helyzet, mert a Microsoft a megrendelő, a fejlesztésekért a szoftveróriás fizet - ha fizet.
A Google szerint majdnem minden hiba
A Morphologic szoftverét nem csak az Office-hoz adják, ugyanez működik a kiadványszerkesztő QuarkXPress, a EuroOffice, a MagyarOffice, az Adobe és néhány Corel program mellett is. A fejlesztéseket a vásárlók, azaz a nagyobb szoftverkiadók határozzák meg, hiszen azt az összeget tudják a fejlesztésekre fordítani, amit a piacon kapnak a szoftverekért. A ma elvégzett javítgatások, fejlesztések például a Microsoft programok esetén már csak az Office 2011-es változatában jelennek meg - legközelebb akkor adják ki a az irodai szoftvercsomagot.
A Google helyesírás-ellenőrzője teljesen használhatatlan, egyáltalán bekapcsolni is értelmetlen. A kifejezetten a magyar nyelv ellenőrzéséhez kínált szolgáltatás nem ismeri fel a magyar ékezetes karaktereket, az ellenőrzés megakad ezeknél a betűknél, az ellenőrző csak egy szócsonkot vizsgál, ami nyilvánvalóan helytelen lesz (a kedélytelen szónál megvizsgálja a ked és a lytelen szavakat, melyeket hibásnak talál).
Az OpenOffice ellenőriz
Kapcsolatot kerestünk a Google helyesírás-ellenőrzőjének fejlesztőivel, hiszen nyilvánvalóan valamilyen súlyos hiba áll fenn, ám csak a sajtószóvivő útján üzentek, hogy valóban van egy hiba a rendszerben, de folyamatosan dolgoznak azon, hogy jobb legyen a helyesírás-ellenőrző és hogy várják a visszajelzéseket. Konkrét kérdéseinkre nem kaptunk választ. Így a Google szolgáltatását e pillanatban nem ajánljuk, és nem is értékelhetjük.
Abban a kérdéseinkre választ adó szakemberek egyetértettek: a magyar nyelv sajátosságai miatt lehetetlen véglegesnek tekintett és teljes körűen használható ellenőrzőt készíteni. Például a magyar nyelvben rendszeresen jelennek meg új összetett szavak (gondoljunk csak az elmúlt tíz évnek a számítástechnika és az internet okozta szókincsbővülésére), nincs lezárható "szószedet", csak a variációk színesednek.
A "tesztről"
Egy olyan táblázatban szereplő szavakon futtattuk át a három ellenőrzőt, melyet lapunk olvasószerkesztője gyűjtött sok éven át - számos tipikus és atipikus hiba szerepelt a jegyzékben. Egy oszlopban szerepeltek a helytelen, egy másikban a helyes kifejezések. Cirka 4-500 szavas gyűjteményről van szó, melyben a kifejezések a legváltozatosabb területekhez köthetők. A helyesírás-ellenőrzők (a Google kivételével, mely szinte valamennyi szót hibásnak találta) a rosszul leírt szavak mintegy felét látták hibásnak, és közel 50 esetben voltak eltérő véleménnyel arról, hogy az adott szó valóban hibás-e, vagy egyöntetűen jónak tartották a rossz verziót. A használt szoftverek az OpenOffice.org 2.4.1-es és a Microsoft Office 2007-es változatai voltak - mindkét esetben a szövegszerkesztőt próbálgattuk -, valamint a használhatatlan ellenőrzőjű Google Dokumentumok.
Mint fentebb kiderült, számos esetben nem használható az ellenőrző program, ezért csak azt az ellentmondásos félszáz esetet vettük figyelembe, amikor eltért a két szoftver véleménye (azaz ha már az egyik felismerte, hogy valami nem stimmel, a másik is megtehette volna), vagy mindkét szoftver átsiklott a hiba felett. Nem számoltuk bele az eredménybe azokat a hibákat, amelyek több értelemben használható szavak miatt mutatkoztak (például a had, hadd szavakat egyik sem jelezte hibának, és önmagában nem is azok, csak ha nem a megfelelő helyen használja valaki). Szintén nem számoltuk bele az összesítésbe a több szóból álló kifejezések hibáit fel nem ismerő eseteket, különös tekintettel a földrajzi nevekre - no nem mintha nem lenne elvárható, hogy a New York-i kifejezést leírva valaki meggyőződhessen annak helyes voltáról, de erre egyelőre még várni kell.
Pontoztuk az ellenőrzők munkáját: ha valamelyik felismerte és javította az adott szót, egy pontot kapott, ha egy jó szót akart egy hibás változatra javítani, akkor mínusz egyet. Ha felismerte, hogy rossz a szó, de nem adott tippet, fél, ha csupa rossz tippet adott, mínusz fél ponttal honoráltuk a reakciót. Ha valamelyik nem ismert fel egy hibát, egyszerűen nem adtunk pontot.
Vita alakult ki azonban a pontszámítás módszerével kapcsolatban: Prószéky szerint ha egy program kihagy egy hibát, az nem nulla pontot, hanem mínuszt ér. Mi azért döntöttünk végül a nulla pont mellett, mivel egy hibákat fel nem ismerő program semmivel nem viszi sem előrébb, sem hátrább a felhasználót (tehát mintha nem is lenne helyesírás-ellenőrzője), mint ahogy a nulla is se pozitív, se negatív minősítést nem jelent.
Az eredeti koncepció szerint összeadogatott pontok alapján meglepően elhúzott az OpenOffice.org ellenőrzője: 18,5 pontot kapott, míg a Microsoft Office mínusz egyet (Egyébként kiszámoltuk a Prószéky-féle módszerrel is: ha mínusz fél pontot adtunk volna a kihagyott ziccerekért, plusz 8, illetve mínusz 14,5 pont lett volna a végeredmény az OpenOffice javára.).
Érdemes szem előtt tartani, hogy a magyar nyelv szókincse - és ezzel együtt a szavak helytelenül való leírásának a lehetősége is - természetesen jóval nagyobb, mint az általunk vizsgált négyszáz szó. Ezért nem tekintjük reprezentatívnak a vizsgálódást, de érdemes felfigyelni a kigyűjtött szavak változatosságára és a relatíve nagy mintára is. A szógyűjtemény innen (OpenOffice formátum) vagy innen (Microsoft Office) letölthető, vagy az alábbi táblázat segít az eligazodásban (a letölthető és a táblázatban látható összegzés ugyanaz).
rossz | jó | OOO | MSOW | OOO | MSOW |
120-szobás | 120 szobás | nem ajánl | felismeri, de nincs ötlete | 0,00 | 0,50 |
13-részes | 13 részes | nem ajánl | felismeri, de nincs ötlete | 0,00 | 0,50 |
áfá-val | áfával | jót ajánl | felismeri, de rossz tippet ad | 1,00 | -0,50 |
áfa-kulcs | áfakulcs | nem ajánl | jó helyett rosszat ajánl | 0,00 | -1,00 |
alsórakpart | alsó rakpart | jót ajánl | nem ajánl | 1,00 | 0,00 |
amatőrizmus | amatörizmus | jót ajánl | nem ajánl | 1,00 | 0,00 |
Anyák Napja | anyák napja | nem ajánl | nem ajánl | 0,00 | 0,00 |
bármie | bármije | jót ajánl | felismeri, de rossz tippet ad | 1,00 | -0,50 |
bármilye | bármije | nem ajánl | jót ajánl | 0,00 | 1,00 |
Buckingham Palota | Buckingham-palota | jót ajánl | nem ajánl | 1,00 | 0,00 |
euro (pénznem) | euró (pénznem) | jót ajánl | nem ajánl | 1,00 | 0,00 |
gargalizál | gargarizál | nem ajánl | nem ajánl | 0,00 | 0,00 |
feljelentés-kiegészítés | feljelentéskiegészítés | nem ajánl | jó helyett rosszat ajánl | 0,00 | -1,00 |
Fideszes | fideszes | nem ajánl | jó helyett rosszat ajánl | 0,00 | -1,00 |
foci Eb | foci-Eb | nem ajánl | jó helyett rosszat ajánl | 0,00 | -1,00 |
foci-EB | foci-Eb | nem ajánl | jó helyett rosszat ajánl | 0,00 | -1,00 |
Guantanamo | Guantánamo | felismeri, de rossz tippet ad | jót ajánl | -0,50 | 1,00 |
Guiness | Guinness | felismeri, de rossz tippet ad | jót ajánl | -0,50 | 1,00 |
gr | g | jót ajánl, de bizonytalanul | nem ajánl | 0,50 | 0,00 |
Hong-Kong | Hongkong | jót ajánl | nem ajánl | 1,00 | 0,00 |
Hong Kong | Hongkong | jót ajánl | nem ajánl | 1,00 | 0,00 |
jelentősség | jelentőség | csak automatikusan javít | jót ajánl | 0,50 | 1,00 |
Karácsony | karácsony | nem ajánl | nem ajánl | 0,00 | 0,00 |
Húsvét | húsvét | nem ajánl | nem ajánl | 0,00 | 0,00 |
kerthelység | kerthelyiség | nem ajánl | nem ajánl | 0,00 | 0,00 |
kollega | kolléga | jót ajánl | nem ajánl | 1,00 | 0,00 |
Kormány | kormány | nem ajánl | nem ajánl | 0,00 | 0,00 |
könyörgöm | könyörgök | nem ajánl | nem ajánl | 0,00 | 0,00 |
mennyasszony | menyasszony | jót ajánl | nem ajánl | 1,00 | 0,00 |
nagysikerű | nagy sikerű | jót ajánl | nem ajánl | 1,00 | 0,00 |
nemutolsósorban | nem utolsósorban | nem ajánl | jót ajánl | 0,00 | 1,00 |
Nők Napja | nők napja | nem ajánl | nem ajánl | 0,00 | 0,00 |
orvosszakértő | orvos szakértő | nem ajánl | jót ajánl | 0,00 | 1,00 |
paparazzik | paparazzók | jót ajánl | nem ajánl | 1,00 | 0,00 |
papírzsebkendő | papír zsebkendő | nem ajánl | jót ajánl | 0,00 | 1,00 |
példanélküli | példa nélküli | jót ajánl | nem ajánl | 1,00 | 0,00 |
pozícionál | pozicionál | jót ajánl | nem ajánl | 1,00 | 0,00 |
reggeliző tál | reggelizőtál | nem ajánl | jó helyett rosszat ajánl | -1,00 | -1,00 |
robosztus | robusztus | jót ajánl | nem ajánl | 1,00 | 0,00 |
Sao Paolo | Sao Paulo | jót ajánl | nem ajánl | 1,00 | 0,00 |
szabaddemokrata | szabad demokrata | jót ajánl | nem ajánl | 1,00 | 0,00 |
szűntet | szüntet | jót ajánl | nem ajánl | 1,00 | 0,00 |
teltház | telt ház | jót ajánl | nem ajánl | 1,00 | 0,00 |
teltházas | telt házas | jót ajánl | nem ajánl | 1,00 | 0,00 |
törlesztő részlet | törlesztőrészlet | nem ajánl | jó helyett rosszat ajánl | 0,00 | -1,00 |
tucat számra | tucatszámra | nem ajánl | jó helyett rosszat ajánl | 0,00 | -1,00 |
videójáték | videojáték | jó helyett rosszat ajánl | jót ajánl | -0,50 | 0,00 |
18,50 | -1,00 |