Egy petabájt egymillió gigabájtból épül fel. Ez nagyjából 13,3 év hosszúságú HD-videót jelent. 1,5 petabájtra 10 milliárd olyan fotó fér, amelyet a Facebookra optimizáltak. 20 petabájt 1995-ös viszonylatokban a világ összes merevlemezének a méretét adja, összeadva. 50 petabájtra pedig ráfér az emberiség összes írott könyve, a történelem kezdetétől számítva, a világ minden nyelvén.
Ehhez képest a Nagy Hadronütköztető (LHC) egyetlen detektora, az ATLAS (A Toroidal LHC ApparatuS, Egy Toroidális LHC Apparátus) másodpercenként egy petabájt összadatot produkál. Persze a CERN kutatói nem tartják meg az összes adatot - van, ami haszontalannak bizonyul, és nem érdemes időt és tárhelyet fecsérelni arra, hogy megőrizzék. Így
nagyjából 50 petabájt adat marad évente, aminek helyet kell keresni
- és ez csak az egyik detektor a sok közül.
Dirk Düllmann, a CERN big datával foglalkozó szekciójának vezetője a CRUNCH konferencián tartott előadásában foglalta össze, hogyan képes a CERN ilyen elképesztő mennyiségű adatot kezelni. A szervezet működésének kezdete óta (1954) készít a mai napig visszakereshető adatbázist arról, hogy milyen folyamatok mennek végbe az ütköztetőkben. Eleinte gyakorlatilag noteszokban tartották a mérési eredményeket, ezek digitalizálásával együtt már több mint 140 perabájtnyi kísérleti eredményt tudhatnak maguk mögött.
Bármilyen furcsa, mindezt még mindig főként szalagokon őrzik.
"Furcsának tűnhet, de a szalagos adattárolás még mindig az egyik leghatékonyabb és legolcsóbb megoldás" - mondta el Düllmann a Millenárison megtartott előadásában. "Ezt nem úgy kell elképzelni, hogy hatalmas kazettákat őrzünk a pincében -
mindent folyamatosan újraírunk, mert a szalagos technológia is folyamatosan fejlődik,
egyre kevesebb helyen egyre több adat fér el." Egy-egy szalag 500-700 GB adatot tud tárolni, tehát a tárolókapacitása akkora, mint egy modernebb otthoni gépben a merevlemezé.
A CERN két nagy adatközponttal rendelkezik: az egyik Genfben, a másik pedig éppen Budapesten, a Wigner Fizikai Kutatóközpont csillebérci telephelyén. A budapesti központ a CERN genfi adatparkjával azonos, legfelsőbb szintű adatfeldolgozó központ, ahol a véglegesen feldolgozott adatokat el is tárolják. Annak, hogy a szervezetnek két adatközpontja is van, nem csak a helyhiány volt az oka: a genfi centerben ennél is több számítógép már túlhevülne, és elvesznének az adatok.
Hogyan lehet adatokat lekérni?
Ha például egy fizikusnak szüksége van egy adatállományra (és van hozzáférése a CERN GRID-hez), akkor lekéri az adatokat, a robot ezt megkeresi neki, beteszi a szalagot az olvasóba, az adatok merevlemezre másolódnak, és a user onnan fogja direktben olvasni - írja a CERN blog. Ez nagyon fontos, mert nincs annyi olvasófej, hogy mindenkit egyszerre kiszolgáljon.Az adattárolás egyébként eléggé speciális módszerrel történik: azon túl, hogy a két adatközpontban szalagokon tartják az összes eddig mért adatot (a szalagok, mint említettük, hatékonyabbak, nem igényel áramot a használatuk, tartósabbak és olcsóbbak is, mint a merevlemezek), a világ minden táján tárolnak külön-külön adatcsoportokat, rendszerint különböző egyetemek kutatóintézeteiben. Ez azért is célszerű, mert így könnyebb finanszírozást szerezni a különböző adatcsoportokat felhasználó kutatásokra.
"Az, hogy több helyen tároljuk a különböző adatokat, azt is szolgálja, hogy bebiztosítsuk magunkat: így sokkal nagyobb biztonságban vannak az eredményeink, mintha csak egy vagy két nagy szalagkönyvtárban tartanánk őket" - mondta az Origónak Düllmann. "Persze mindig megvan az esélye annak, hogy valahol elvesznek az adatok, de így egy másik helyen is megvannak, ahonnan újra be tudjuk őket kérni."
A CERN korábbi adatait ugyanis újra és újra előveszik, hogy mindig átvizsgálják őket, és összevessék a régi méréseket az újabb eredményekkel. Összesen 16 ezer szerveren találhatóak meg a különböző adatok. Annak érdekében, hogy biztosak lehessenek benne, hogy nem mentenek el fals eredményeket,
az aktuális kísérletek előtt mindent kipróbálnak olyan részecskékkel, amelyeknek már ismerik pontos viselkedését
- így kizárhatják, hogy a környezeti hatások miatt rossz kísérleteket végezzenek, és nem hoznak létre felesleges adatokat sem.
Nem mindent mentenek el a központi szerverekre sem - van egy bizonyos előszűrés, amely során a felesleges adatokat törlik. "Ez egy nagyon óvatos dolog, kevés az, ami nem megy át a szűrőn. Általában azokról az eredményekről van szó, amelyeket már ismerünk, és nincs szükségünk arra, hogy még egyszer elmentsük őket" - magyarázta Düllmann. Azt is megfigyelik, hogy az elvetésre ítélt adatoknak van-e bármi hatásuk a már meglévő adatokra - ez pedig hatalmas munka, hiszen több mint ötvenévnyi eredményt kell átfésülni.
Persze az is előfordul, hogy a folyamatos modernizálás és újraírás közben elveszik némi adat. "Ez a mennyiség azonban elenyésző ahhoz képest, amennyi hibaszázaléka a kísérleteknek egyébként is van" - mondta el az Origo kérdésére Düllmann. "Az újraírások során
általában tudjuk, hogy mely területekről veszett el az adat,
ki tudjuk következtetni, mi volt ott, de ha mégsem, a hibahatáron még mindig bőven belül vagyunk."
Düllmann arra is kitért: még mindig egyáltalán nem biztos, hogy minden egyes CERN-mérést sikerült felvinniük a központi szalagkönyvtárakba. Előfordult már ugyanis, hogy egy véletlenszerű egyetem egyik poros fiókjában papírra írva találtak olyan adatokat, amik nem voltak rajta a szalagokon - és ez még ugyanúgy előfordulhat a jövőben is.