Darabra pontosan megszámoltattuk számítógépekkel, hogy ki írt le több egyedi szót: Arany János vagy Petőfi, esetleg Ady, Kölcsey, Vörösmarty vagy éppen József Attila? Avagy felhasználtuk az elérhető big datát, a nagy mennyiségű adatok feldolgozását lehetővé tevő technológiát, hogy kiderítsünk egy legendát.
De mi is az a big data?
A big data a hatalmas adatrobbanás következtében keletkező információk kiaknázása. A rengeteg hordható okoskütyü, okostelefon, tablet, laptop, PC, a honlapok és közösségi oldalak által naponta rengeteg adat keletkezik. Nem elég tárolni, gyűjteni az óriási mennyiségű információt, azt rendszerezni kell, értelmezhetővé és elemezhetővé kell tenni. Éppen ebben segít a big data. A fejlett számítógépes elemzés szerepet játszik a vállalati stratégia kidolgozásában, társadalmi folyamatok modellezésében, trendekmegjóslásában is.A számítástechnika, az internet és a közösségi média terjedésével egyre több és több adat keletkezik. Adatok arról, hogy egy felhasználó mikor jelentkezik be a Facebookra, hogy hol nyitotta meg a Google Térkép alkalmazását, hogy hogyan értékelte a paradicsomos pizza ízét a budapesti étteremben.
Rengeteg információ, amelyeket bár nehéz feldolgozni, de ha sikerül, akkor sokat tanulhatunk belőle. Általánosságban big datáról akkor beszélünk, ha több mint 1 milliárd sornyi adatunk van. Bár költőink igen termékenyek voltak, ennyit együtt sem tudtak összehozni. Maga a technológia és az adatvezérelt gondolkodásmód azonban segít megérteni azt, amit eddig csak sejtettünk munkásságuk mögött.
No de hány szót is írt le Arany János élete során? 287 425-öt – ha csak a költeményeit számoljuk. Összesen 59 697 egyedi szót használt, ha pedig a ragozott formákat nem tekintjük külön szónak, akkor valamivel több, mint 16 ezret. Ezzel pedig hivatalosan is megnyerte a magyar költők szókincsversenyét.
Összehasonlításképp a magyar nyelvben összesen 60–100 ezer egyedi szó van, egy átlagos értelmiségi egyévnyi beszédét rögzítve körülbelül 25-30 ezer szó fordulna elő.
József Attilát is megilleti egy kategóriagyőzelem, hiszen az összes leírt szavához képest arányaiban ő használja a legtöbb egyedi szót (31,26%), ugyanez az arány Arany Jánosnál "csak" 20,77 százalék.
Költő | Leírt szavak | Egyedi szavak | Egyedi szótövek | Egyedi/leírt szavak | |
1 | Arany János | 287 425 | 59 697 | ~16 000 | 20,77% |
2 | Vörösmarty Mihály | 214 104 | 43 938 | ~12 000 | 20,52% |
3 | Petőfi Sándor | 154 721 | 32 855 | ~9 600 | 21,23% |
4 | Ady Endre | 124 574 | 30 243 | ~10 400 | 24,28% |
5 | Babits Mihály | 398 003 | 27 116 | ~11 000 | 6,81% |
6 | József Attila | 62 811 | 19 635 | ~8 200 | 31,26% |
A legtöbbször használt szavak közt a "szép" jelző minden költőnél előkelő helyen szerepelt, Arany János ezek után legtöbbször a "király", "ember", "nap" és "Toldi" kifejezéseket használta. A többi költőnél gyakran előfordult még a "magyar", a "bús" és az "Isten".
A különböző szövegelemzési algoritmusokkal fényt deríthetnénk arra is, hogy ki használja például a legegyszerűbb szavakat, ki dolgozik többszörösen összetett mondatokkal. Sőt, fejlettebb technológiák azt is meg tudják mondani, hogy ki a legpozitívabb vagy legnegatívabb hangulatú szerzőnk.
Az adatelemzés üzletileg is értelmezhető. Ugyan még a legtöbb vállalat tart a közösségi médiától és a big data technológiától, a cégvezetők egyre pontosabban látják, mire is lehet felhasználni őket. A SAP-nak már az elmúlt két évben millióeurós bevételeket hozott a big data, ráadásul nemcsak profitot termel, de új állásokat is hoz létre: becslések szerint az Egyesült Államokban 2015 elejéig 3 millió munkahelyet teremtett.
Az Országos Meteorológiai Szolgálat is egyik nagy felhasználója a technológiának. A tömérdek mennyiségű adattal dolgozó klímaszimulációkkal azt szeretnék megbecsülni, milyen hatásai lesznek az éghajlatváltozásnak Magyarországon, különös tekintettel a városokra és a hosszú hőhullámokra. Ezeket az eredményeket aztán a várostervezésben is figyelembe vehetik a döntéshozók.
(A szerző adatelemző, az Adatlabor alapítója.)