A szövegfelismerés, azaz a képként digitalizált szöveges dokumentumok szerkeszthető karaktersorozatokká alakítása (OCR, azaz Optical Character Recognition, optikai karakterfelismerés) régóta létező funkció, néhány éve magyar sztárja - a Recognita - is volt a területnek, ám a köztudatban még mindig úgy él ez a feladat, mint amit csak drága szoftverekkel lehet megoldani, mégis igen bizonytalan eredményekre számíthatunk. A Google friss bejelentése szerint immár a Dokumentumok nevű online irodai csomag is tartalmaz ilyen funkciót. A szövegek szkennelt (vagy fotózott) képként, vagy akár olyan PDF formátumban is feltölthetők, amelyben a szerzők letiltották a nyomtathatóságot, illetve a szöveg kijelölését és másolását.
Egyébként ritkán fordul szövegfelismerőhöz az átlagember, de akkor jellemzően nagyon gyorsan szeretne eredményt. Akkor jön jól a funkció, ha egy régi dolgozat, egy e-mailben kapott PDF-es jegyzet egyik oldala kellene a határidő előtti utolsó pillanatban. Ha egy rövid törvényi szakaszt kellene idézni, de a másolásvédelem miatt nem lehet egyszerűen kimásolni. Vagy ha úgy döntünk, hogy az írógépen írt lapokon, kézírásos jegyzetekben, beszkennelt képekben létező családi szakácskönyvből végre csinálunk egy jól kinéző kiadást karácsonyra.
Hiába van ilyenkor digitális adatunk, nem tudjuk szerkeszteni a szöveget. Nincs más választásunk, mint hogy "újradigitalizáljuk", azaz begépeljük újra. A probléma megoldására vannak profi, betűtípusokra, szövegekre betanítható drága OCR szoftverek is, amelyek elvégzik helyettünk a munka dandárját. Az ingyenes megoldások azonban eddig elvéreztek a magyar szövegeken az ékezetek miatt, nem tudtak mit kezdeni a más nyelvekből hiányzó ő-vel és ű-vel. A Google ingyenes megoldása már boldogul ezekkel a betűkkel, ám a nyelvet még így is tanulnia kell.
Képként szúrja be még a PDF-et a dokumentumba a Google szövegfelismerője
A Google Dokumentumok szövegfelismerője egyelőre közel sem működik tökéletesen. A magyar nyelvű PDF-fájlokból igen rossz hatásfokkal dolgozik, az eredmény igencsak zagyva, széttördelt lesz, míg az angol nyelvű anyagokból nem csak a szöveget képes helyesen kinyerni, de még a formázást is átveszi.
Képfájlból viszonylag jó eredménnyel nyeri ki a szöveget a Dokumentumok
Képfájlokból (tehát például PDF-be szkennelt dokumentumokból) már viszonylag jól dolgozik a szövegfelismertő. Arra kell ügyelnünk, hogy minél nagyobb méretű és felbontású nyersanyagot töltsünk fel a Google Dokumentumokba. Minél nagyobb a képünk, annál kevesebb elemet kell javítani majd a felismerő által generált szövegben. A megoldással csak egy gond van, a szoftver külön dokumentumokat készít az egymás után feltöltött képekből, amit még nekünk kell összevágni egy fájlba - hacsak nem tettük ezt meg korábban magukkal a képfájlokkal. Egyoldalas - receptnyi, jegyzetlap méretű - szövegekre azonban már tökéletes ez a megoldás is.
Jobb munkát végez a Microsoft Office
Kevéssé ismert, de a Microsoft Office is rendelkezik szövegfelismerő komponenssel. A szoftvert Microsoft Office Document Imagingnek hívják, és a Start menü Office mappája alatt bújik meg, az Office eszközök között. A programnak hátránya, hogy csak TIF formátumú képekkel boldogul (ez jellemzően a szkennerek kedvelt kimeneti formátuma), se a JPG-t, se a PDF-et nem ismeri. Ha használni szeretnénk, akkor képlopóval, képszerkesztővel először át kell alakítanunk a fájljainkat.
A Document Imaging végigszalad a képen, a szöveget pedig a Wordbe írja
Ha az átalakítással kész vagyunk, a Document Imaging bámulatosan a kezünk alá dolgozik. A képeket importálás után sorba rendezhetjük, kijelölhetjük, hogy melyik szövegrészre van szükségünk, és utána egy ikon lenyomásával ráengedhetjük a szövegfelismerőt. A nyers szöveget érdemes átküldeni a Wordnek - ez egy újabb kattintást igényel -, és így a Document Imaging saját formátuma helyett DOC-ként menthetjük el.
Tökéletes munkát a Office segédprogramja sem végez, mentés előtt érdemes átfutni a szöveget, hogy a hibákat javítsuk. Összességében azonban jóval magasabb minőségben dolgozik a Document Imaging, mint a Google szövegfelismerője: a bekezdések egységét tiszteletben tartja, a nyomtatott szöveg kényszerű elválasztásait pedig rendre felismeri és megszünteti.
Lassan tanulnak a Google-szolgáltatások
Nem a szövegfelismerő az első olyan Google-termék, ami csak alapszintű magyar nyelvi támogatással jelenik meg. A Dokumentumok helyesírás-ellenőrzője korábban hajlamos volt minden szót hibásnak jelölni, mára azonban jelentősen javult a használhatósága, a gépelési hibák megkeresésére már tökéletesen alkalmas. Kezdetben a Google Fordító is csak nevetséges eredményekre volt képes, ám mára a nagy nyelvek közti fordítást elég jól oldja meg, egy német vagy svéd szöveg angolul már elolvasható általa. A Fordító magyartudása is fejlődött, igaz még mindig töri a nyelvet, ám a vicces mondatoknak már van értelmük, és egyre ritkábbak a félrefordítások.
A Google várhatóan a szövegfelismerést is erőből fogja megoldani. Megjegyzi, hogy mit javítanak a felhasználók a beolvasott szövegben, megtanulja a gyakran egymás mellé kerülő karakterek (például fi) felismerését, felismeri és megszünteti az elválasztásokat, és lassan javulni fog. Ha pedig így lesz, hamarosan nagyon hatékony, ám ingyenes OCR eszközhöz jutunk.