Még mindig szalagokon tárolja adatait a CERN

Vágólapra másolva!

Petabájt. Még elképzelni is nehéz, mennyi adatot jelent ez - a CERN ATLAS részecskedetektora mégis másodpercenként ennyi információt szolgáltat a Nagy Hadronütköztetőnek, és ez még csak a detektorok egyike. A CRUNCH big datával foglalkozó konferencián Dirk Düllmann, a CERN elemzésért és dizájnért felelős szekciójának vezetője tartott előadást arról, hogyan birkózik meg a szervezet ekkora mennyiségű információval.

Nagy Nikoletta

Vágólapra másolva!

LHC CERN adattárolás big data szalagok Big Data Science

Egy petabájt egymillió gigabájtból épül fel. Ez nagyjából 13,3 év hosszúságú HD-videót jelent. 1,5 petabájtra 10 milliárd olyan fotó fér, amelyet a Facebookra optimizáltak. 20 petabájt 1995-ös viszonylatokban a világ összes merevlemezének a méretét adja, összeadva. 50 petabájtra pedig ráfér az emberiség összes írott könyve, a történelem kezdetétől számítva, a világ minden nyelvén.

Az LHCb kísérletben használt berendezés egyik hatalmas mágnese a CERN-ben Forrás: CERN/LHC/Peter Ginter

Elképesztően sok adat kevés idő alatt

Ehhez képest a Nagy Hadronütköztető (LHC) egyetlen detektora, az ATLAS (A Toroidal LHC ApparatuS, Egy Toroidális LHC Apparátus) másodpercenként egy petabájt összadatot produkál. Persze a CERN kutatói nem tartják meg az összes adatot - van, ami haszontalannak bizonyul, és nem érdemes időt és tárhelyet fecsérelni arra, hogy megőrizzék. Így

nagyjából 50 petabájt adat marad évente, aminek helyet kell keresni

- és ez csak az egyik detektor a sok közül.

Dirk Düllmann, a CERN big datával foglalkozó szekciójának vezetője a CRUNCH konferencián tartott előadásában foglalta össze, hogyan képes a CERN ilyen elképesztő mennyiségű adatot kezelni. A szervezet működésének kezdete óta (1954) készít a mai napig visszakereshető adatbázist arról, hogy milyen folyamatok mennek végbe az ütköztetőkben. Eleinte gyakorlatilag noteszokban tartották a mérési eredményeket, ezek digitalizálásával együtt már több mint 140 perabájtnyi kísérleti eredményt tudhatnak maguk mögött.

Bármilyen furcsa, mindezt még mindig főként szalagokon őrzik.

Dirk Düllmann a CRUNCH konferencián tartott előadásán Forrás: Nagy Nikoletta

Szalagokon, nem merevlemezeken

"Furcsának tűnhet, de a szalagos adattárolás még mindig az egyik leghatékonyabb és legolcsóbb megoldás" - mondta el Düllmann a Millenárison megtartott előadásában. "Ezt nem úgy kell elképzelni, hogy hatalmas kazettákat őrzünk a pincében -

mindent folyamatosan újraírunk, mert a szalagos technológia is folyamatosan fejlődik,

egyre kevesebb helyen egyre több adat fér el." Egy-egy szalag 500-700 GB adatot tud tárolni, tehát a tárolókapacitása akkora, mint egy modernebb otthoni gépben a merevlemezé.

A CERN két nagy adatközponttal rendelkezik: az egyik Genfben, a másik pedig éppen Budapesten, a Wigner Fizikai Kutatóközpont csillebérci telephelyén. A budapesti központ a CERN genfi adatparkjával azonos, legfelsőbb szintű adatfeldolgozó központ, ahol a véglegesen feldolgozott adatokat el is tárolják. Annak, hogy a szervezetnek két adatközpontja is van, nem csak a helyhiány volt az oka: a genfi centerben ennél is több számítógép már túlhevülne, és elvesznének az adatok.

Hogyan lehet adatokat lekérni?

Ha például egy fizikusnak szüksége van egy adatállományra (és van hozzáférése a CERN GRID-hez), akkor lekéri az adatokat, a robot ezt megkeresi neki, beteszi a szalagot az olvasóba, az adatok merevlemezre másolódnak, és a user onnan fogja direktben olvasni - írja a CERN blog. Ez nagyon fontos, mert nincs annyi olvasófej, hogy mindenkit egyszerre kiszolgáljon.

Több helyen, nagyobb biztonságban

Az adattárolás egyébként eléggé speciális módszerrel történik: azon túl, hogy a két adatközpontban szalagokon tartják az összes eddig mért adatot (a szalagok, mint említettük, hatékonyabbak, nem igényel áramot a használatuk, tartósabbak és olcsóbbak is, mint a merevlemezek), a világ minden táján tárolnak külön-külön adatcsoportokat, rendszerint különböző egyetemek kutatóintézeteiben. Ez azért is célszerű, mert így könnyebb finanszírozást szerezni a különböző adatcsoportokat felhasználó kutatásokra.

A hengeres alakú CMS detektor középpontjában ütköznek az LHC nagyenergiájú részecskenyalábjai. A kölcsönhatásban születő részecskék útjuk során elektronikus jeleket hoznak létre a detektor különböző rétegeiben. Ezekből rekonstruálják a fizikusok a lejátszódó elemi folyamatokat Forrás: ELTE

"Az, hogy több helyen tároljuk a különböző adatokat, azt is szolgálja, hogy bebiztosítsuk magunkat: így sokkal nagyobb biztonságban vannak az eredményeink, mintha csak egy vagy két nagy szalagkönyvtárban tartanánk őket" - mondta az Origónak Düllmann. "Persze mindig megvan az esélye annak, hogy valahol elvesznek az adatok, de így egy másik helyen is megvannak, ahonnan újra be tudjuk őket kérni."

Nagyon minimális a szűrés

A CERN korábbi adatait ugyanis újra és újra előveszik, hogy mindig átvizsgálják őket, és összevessék a régi méréseket az újabb eredményekkel. Összesen 16 ezer szerveren találhatóak meg a különböző adatok. Annak érdekében, hogy biztosak lehessenek benne, hogy nem mentenek el fals eredményeket,

az aktuális kísérletek előtt mindent kipróbálnak olyan részecskékkel, amelyeknek már ismerik pontos viselkedését

- így kizárhatják, hogy a környezeti hatások miatt rossz kísérleteket végezzenek, és nem hoznak létre felesleges adatokat sem.

Nem mindent mentenek el a központi szerverekre sem - van egy bizonyos előszűrés, amely során a felesleges adatokat törlik. "Ez egy nagyon óvatos dolog, kevés az, ami nem megy át a szűrőn. Általában azokról az eredményekről van szó, amelyeket már ismerünk, és nincs szükségünk arra, hogy még egyszer elmentsük őket" - magyarázta Düllmann. Azt is megfigyelik, hogy az elvetésre ítélt adatoknak van-e bármi hatásuk a már meglévő adatokra - ez pedig hatalmas munka, hiszen több mint ötvenévnyi eredményt kell átfésülni.

Az LHC, a Nagy Hadron Ütköztető a világ legnagyobb méretű és legmagasabb energiájú részecskegyorsítója Forrás: ELTE

Egy poros fiók mélyén is lehet elveszett adat

Persze az is előfordul, hogy a folyamatos modernizálás és újraírás közben elveszik némi adat. "Ez a mennyiség azonban elenyésző ahhoz képest, amennyi hibaszázaléka a kísérleteknek egyébként is van" - mondta el az Origo kérdésére Düllmann. "Az újraírások során

általában tudjuk, hogy mely területekről veszett el az adat,

ki tudjuk következtetni, mi volt ott, de ha mégsem, a hibahatáron még mindig bőven belül vagyunk."

Düllmann arra is kitért: még mindig egyáltalán nem biztos, hogy minden egyes CERN-mérést sikerült felvinniük a központi szalagkönyvtárakba. Előfordult már ugyanis, hogy egy véletlenszerű egyetem egyik poros fiókjában papírra írva találtak olyan adatokat, amik nem voltak rajta a szalagokon - és ez még ugyanúgy előfordulhat a jövőben is.

A legfrissebb hírekért kövess minket az Origo Google News oldalán is!

origo.hu

Elindult a "temugyilkos" piactér, hihetetlen árakkal nyitott

origo.hu

Miami helyszínelők: felismerhetetlen David Caruso

borsonline.hu

Így reagált Curtis a Magyar Péterről kiszivárgott, botrányos hangfelvételre

hirtv.hu

Az LMP korább vezetője velős véleményt osztott meg a Tisza Párttal kapcsolatban

ripost.hu

„Felébresztettem apánkat” – Michael Schumacher sorsfordító balesetéről beszélt az öccse

hirtv.hu

Kommunista ügynöknek, Lenin-fiúnak nevezte és megfenyegette a közmédia riporterét Magyar Péter + videó

origo.hu

Levetkőzött a bombázó teniszezőnő, fotókon a vadító teste

origo.hu

Megkérdeztük Rost Andreát: kétgyermekes édesanyaként mit szól ahhoz, hogy Magyar Péter szerint vegyen újat magának, akinek külföldön él a gyermeke?

origo.hu

Magyarországra is eljutott a kulacs, amiért máshol egymást taposták a vásárlók

origo.hu

Balhé a holland válogatottnál a magyarok elleni meccs előtt

origo.hu

Séfek séfe - kiesett egy esélyes a döntő előtt

origo.hu

Csodás melleivel és bombasztikus fenekével hódít a YouTube-sztár bokszoló szexi barátnője

Címoldalról ajánljuk

Videó

emberkereskedelem

Éhbérért kényszerített munkára embereket egy román banda Budapesten, a TEK is kivonult

Embertelen körülmények között szállásolták el a munkásokat.

szmog

Szüneteltetik a tanítást Indiában, akkora a szmog, hogy már a Tádzs Mahal sem látszik

Rengetegen halnak meg a rossz minőségű levegő miatt.

Meghalt Nemere István

Még mindig szalagokon tárolja adatait a CERN

Elképesztően sok adat kevés idő alatt

Szalagokon, nem merevlemezeken

Több helyen, nagyobb biztonságban

Nagyon minimális a szűrés

Egy poros fiók mélyén is lehet elveszett adat

Elindult a "temugyilkos" piactér, hihetetlen árakkal nyitott

Miami helyszínelők: felismerhetetlen David Caruso

Így reagált Curtis a Magyar Péterről kiszivárgott, botrányos hangfelvételre

Az LMP korább vezetője velős véleményt osztott meg a Tisza Párttal kapcsolatban

„Felébresztettem apánkat” – Michael Schumacher sorsfordító balesetéről beszélt az öccse

Kommunista ügynöknek, Lenin-fiúnak nevezte és megfenyegette a közmédia riporterét Magyar Péter + videó

Levetkőzött a bombázó teniszezőnő, fotókon a vadító teste

Megkérdeztük Rost Andreát: kétgyermekes édesanyaként mit szól ahhoz, hogy Magyar Péter szerint vegyen újat magának, akinek külföldön él a gyermeke?

Magyarországra is eljutott a kulacs, amiért máshol egymást taposták a vásárlók

Balhé a holland válogatottnál a magyarok elleni meccs előtt

Séfek séfe - kiesett egy esélyes a döntő előtt

Csodás melleivel és bombasztikus fenekével hódít a YouTube-sztár bokszoló szexi barátnője

Címoldalról ajánljuk

Éhbérért kényszerített munkára embereket egy román banda Budapesten, a TEK is kivonult

Szüneteltetik a tanítást Indiában, akkora a szmog, hogy már a Tádzs Mahal sem látszik

Hatalmas rekordot dönt a budapesti világbajnokság

Még mindig szalagokon tárolja adatait a CERN

Elképesztően sok adat kevés idő alatt

Szalagokon, nem merevlemezeken

Több helyen, nagyobb biztonságban

Nagyon minimális a szűrés

Egy poros fiók mélyén is lehet elveszett adat

Emberáldozással szórakoztak a CERN-ben

Vadonatúj részecske nyomaira bukkanhattak a CERN-ben

Bájos kvark is része a CERN-ben megfigyelt új részecskének

Elindult a "temugyilkos" piactér, hihetetlen árakkal nyitott

Miami helyszínelők: felismerhetetlen David Caruso

Így reagált Curtis a Magyar Péterről kiszivárgott, botrányos hangfelvételre

Az LMP korább vezetője velős véleményt osztott meg a Tisza Párttal kapcsolatban

„Felébresztettem apánkat” – Michael Schumacher sorsfordító balesetéről beszélt az öccse

Kommunista ügynöknek, Lenin-fiúnak nevezte és megfenyegette a közmédia riporterét Magyar Péter + videó

Levetkőzött a bombázó teniszezőnő, fotókon a vadító teste

Megkérdeztük Rost Andreát: kétgyermekes édesanyaként mit szól ahhoz, hogy Magyar Péter szerint vegyen újat magának, akinek külföldön él a gyermeke?

Magyarországra is eljutott a kulacs, amiért máshol egymást taposták a vásárlók

Balhé a holland válogatottnál a magyarok elleni meccs előtt

Séfek séfe - kiesett egy esélyes a döntő előtt

Csodás melleivel és bombasztikus fenekével hódít a YouTube-sztár bokszoló szexi barátnője

Címoldalról ajánljuk

Éhbérért kényszerített munkára embereket egy román banda Budapesten, a TEK is kivonult

Szüneteltetik a tanítást Indiában, akkora a szmog, hogy már a Tádzs Mahal sem látszik

Legolvasottabb

Hatalmas rekordot dönt a budapesti világbajnokság