Mint arról szeptember 10-én beszámoltunk, "bekapcsolták" a nagy hadronütköztetőt, a világ legnagyobb részecskegyorsítóját a Genf melletti nemzetközi kutatóközpontban, a CERN-ben. Szeptember 19-én héliumszivárgást jeleztek a műszerek a gyorsító alagútjában. A vizsgálatok azóta feltárták a szivárgáshoz vezető folyamatokat, és megkezdték a hibaelhárítást, de csak 2009-ben indulhat újra az LHC. Egy ennyire összetett, részben vadonatúj csúcstechnológiai megoldásokat alkalmazó hatalmas rendszer beüzemelésénél törvényszerűen számolni kell kisebb-nagyobb problémákkal, hibákkal. A mostani hiba kijavítása a szupravezetés miatt időigényes. A fizikusok azonban közben is tudnak tovább dolgozni a detektorrendszerek kipróbálásán, beszabályozásán, a számítástechnika beüzemelésén.
Az LHC adatözöne
A tudományos kutatásban rendkívül fontos az információ megbízható tárolása és feldolgozása, főleg egy annyira komplex tudományterületen, mint a részecskefizika. Nem véletlen, hogy az európai részecskefizikai kutatóközpont, a CERN vált a számítástechnika és a hálózati infrastruktúra egyik éllovasává a megalakulása óta eltelt évtizedekben. Itt született meg a world wide web az 1990-es évek elején, és ennek szerves folytatásaként innen indul most globális hódító útjára a grid, a számítógépek egyfajta magasabb szintű hálózata.
A nagy hadronütközető (Large Hadron Collider, LHC) kísérletei várhatóan 10-15 millió gigabyte adatot termelnek majd évente. A detektorokban keletkező információk legnagyobb részét eleve "eldobják", hiszen másodpercenként csak 100 ütközés adatait tárolják el a bekövetkező 40 millióból. (Annak eldöntése, hogy melyik az a 100, ami tárolásra érdemes, az elsődleges szelektáló rendszer, az úgynevezett trigger feladata lesz.) Mivel egy-egy ütközés adatainak elmentése 3-4 megabyte-nyi helyet igényel, kis számolással gyorsan megállapítható, hogy a keletkező információk rögzítése nem kevesebb mint 1 gigabyte/sec írási sebességet feltételez folyamatosan, a nap 24 órájában, hónapokon, éveken át. Ha ehhez még azt is hozzávesszük, hogy a kísérleti eredmények és az elméletek összevetéséhez óriási számítási kapacitást igénylő ún. Monte Carlo szimulációk sora szükséges, akkor megérthetjük, miért igényelt különleges számítástechnikai fejlesztést az LHC.
A CERN számítóközpontja
A CERN 1953-as alapításakor a számítástechnika még gyerekcipőben járt. A kezdetekről szólva még mindig sokan emlegetik tréfásan, hogy a CERN első számítógépe valójában egy Wim Klein nevű úriember volt, aki egy 133 jegyből álló szám 19-dik gyökét néhány perc alatt tudta fejben meghatározni, és még az egyszerű matematikai műveletekben is jóval gyorsabb volt kora számítógépeinél. Az első valódi komputer, a Mercury 1958 nyarán érkezett a CERN-be, és két 40 bites számot 180 mikroszekundum alatt tudott összeadni (a mai asztali gépek ennél körülbelül egymilliószor gyorsabbak), és lyukszalaggal programozták. A következő nagyobb előrelépést IBM709-es hozta az 1960-as évek elején, amely elsősorban nem az előzőhöz képesti négyszeres gyorsasága és mágnesszalagos egysége miatt vált számítástechnikai mérföldkővé a CERN-ben, hanem mert támogatta a FORTRAN programozási nyelvet. Bár idővel lassacskán áttértek a C-re, a FORTRAN a mai napig is a fizikusok egyik "anyanyelve" maradt.
Az évtizedeken át tartó lassú és statikus növekedést hirtelen paradigmaváltás követte a kilencvenes évek elején, amikor megérkezett az internet. Tulajdonképpen ekkor járt le a CERN-ben az egyedi szuperszámítógépek kora.
Ha ma bemegy valaki a CERN számítóközpontjába, akkor hosszan sorakozó polcrendszereken sűrűn egymás mellé helyezett számítógépek és robotkaros szalagos egységek végtelen sorát látja. Ezek élvonalbeli gépek ugyan, de alapvetően hétköznapi, kipróbált technológiák, amelyek nem igényelnek speciális felügyeletet vagy tudást. Mindig az ár/teljesítmény alapján aktuálisan legtöbbet nyújtó gépeket szerzik be a kereskedelmi forgalomból. A számítóközpontban jelenleg 5000 PC található, körülbelül 20 000 processzorral. Az adatok tárolására 8 petabyte-nyi merevlemez és 18 petabyte-nyi mágnes szalagos egység szolgál, amelyet ez év végére 16, illetve 30 petabyte-ra szeretnének felfejleszteni. (Ha a CERN jelenlegi adattároló egységein összeszámolnánk azokat a töredék szabad lemezterületeket, amelyek a file-ok elhelyezésekor óhatatlanul keletkeznek, akkor több tárhely jönne ki, mint ami a KFKI-nak összességében van.) Ezek a számítógépek hálózatba vannak kötve (Ethernet), és közöttük 10 gigabit/sec az adatátviteli sebesség. A rendszert Linux operációs rendszerrel üzemeltetik.
A grid
Az a hatalmas számítási kapacitás, amelyet a CERN számítóközpontjában összezsúfoltak, még mindig csak a 20%-a annak, amely az LHC adatözönének rögzítéséhez, illetve feldolgozásához szükséges. Ennél többet egy helyre zsúfolni egyfelől szinte lehetetlen, másfelől értelmetlen volna. Sokkal jobb megoldást kínált egy úgynevezett gridrendszer kiépítése. A grid fogalma nem újdonság, 1995-ben találták ki az USA-ban. Alapítóatyái az Argonne Nemzeti Laboratórium három munkatársa: Foster, Kesselman és Tuecke voltak, akik a grid elnevezést az elektromos hálózat (angolul:electrical power grid) analógiájára találták ki. A grid lehetővé teszi a felhasználó számára, hogy számítógépes erőforrásokat érjen el az interneten keresztül legalább olyan könnyen és egyszerűen, ahogy az elektromos hálózatot elérjük egy fali konnektorból. Az elmúlt bő évtizedben számos kisebb-nagyobb grid-et építettek már ki a világon különböző kutatási-oktatási intézményekben, a bankszektorban, iparvállalatoknál. A CERN fejlesztése annyiban lép túl ezeken, hogy itt nem egy-egy cégen, intézményen vagy országon belül valósul meg a számítógépek összekapcsolása, hanem globálisan. Az LHC Computing Gridben 30 ország számítógépközpontjai, sőt helyi gridjei vesznek részt.
A köznyelvben még mindig gyakran keverednek egymással számítástechnikai kifejezések, leggyakrabban az internet és a web fogalmát mossák össze. Az internet (amely Amerikából indult) az összekapcsolt számítógépek millióinak rendszere, ám az összekapcsolás lényegét nem a fizikai eszközök, kábel vagy rádiókapcsolat jelenti, hanem a közös nyelv, az ún. protokoll, ami nem más, mint a kapcsolattartás és az információcsere szabályainak összessége. Az interneten egymással kommunikáló számítógépek (legyenek bárhol a világon) egyetlen nyelven, a TCP/IP protokollon beszélgetnek egymással. A web (amely a CERN-ből indult) pedig "csak" egy az internetet használó, arra épülő szolgáltatás. Segítségével információkat, képeket, dokumentumokat tehetünk nyilvánossá, illetve oszthatunk meg másokkal. Ez tette lehetővé a többirányú információ-megosztást, a böngészők, a portálok, az egyszerre sok ember által meglátogatható oldalak, a blogok, az interaktív felületek létrejöttét és elterjedését.
A grid hasonló a webhez, mégpedig annyiban, hogy ez is egy az internetet használó, arra épülő szolgáltatás. A webnél azonban lényegesen összetettebb, hiszen az így összekapcsolt számítógépek nem csak információt osztanak meg egymás között, hanem tárterületet (memória, merevlemez, mágnesszalag, CD/DVD stb.), számítási kapacitást, adatbázis-információt, alkalmazásokat, sőt hálózati forgalmat is. Ezáltal lehetővé válik, hogy olyan óriási számítási kapacitást igénylő feladatokat is végre lehessen hajtani, amelyekhez máskülönben beláthatatlan idő lenne szükséges. Az egymástól akár több ezer kilométer távolságban lévő számítógépeket úgy lehet használni, mintha egyetlen szuperszámítógép alkotórészei lennének. És ehhez az összekapcsolt gépek operációs rendszereinek elvben nem kell azonosnak lenniük. Ám a web kiforrott technológiájával szemben a grid még egy képlékeny, folyton változó, nem véglegesített dolog. Ahány gridrendszer létezik a világon, annyi különböző megoldást alkalmaztak a számítógépek összehangolására az adott cél érdekében. Sokan azt állítják, hogy a grid most ott tart, ahol a web 10 évvel ezelőtt.
A pókháló közepén
A grid tehát az internet infrastruktúráját használja, és egy speciális szoftver, ún. middleware kell az alkalmazásához. A middleware automatikusan megtalálja azt az adatcsomagot, amelyet a felhasználó elemezni akar, és megkeresi az ennek feldolgozásához szükséges megfelelő erőforrást is. Az alkalmazás feladata továbbá a számítási terhelések egyenlő elosztása, a hálózati biztonság megteremtése, az erőforrások monitorozása is.
Hogy néz ez ki a gyakorlatban? A pókháló közepén található az erőforrás- és infobróker, ahová minden adat befut, ahol a kereslet és a kínálat egymással találkozik. Ez fizikailag egy gép, amin fut egy szoftwer, aminek az a feladata, hogy koordinálja, elossza a feladatokat, felmérje a hálózatban lévő igényeket és lehetséges kapacitásokat. (Ez valóban valamiféle központ, a grid decentralizáltsága nem ezzel magyarázható. Az internet is decentralizált, mégis van hierarchia a különböző szerverek között.) A pókháló más csomópontjain olyan számítógépközpontok vannak, amelyek fölös számítási kapacitással bírnak. Ezek folyamatosan küldik az adataikat az erőforrás- és infobrókernek: hány processzoruk van, ezekből éppen mennyi szabad, milyen típusú programokat tudnak rajtuk futtatni stb. Más csomópontokban pedig olyan felhasználók, akik elemezni szeretnék az adataikat, ám nincs elég kapacitásuk, ezért az adataikat a programmal együtt beküldik a gridbe, és várnak.
Ekkor lép akcióba a bróker, és megállapítja, hogy a rendszer mely pontja ideális éppen a feldolgozáshoz, szétosztja a feladatokat, majd a lefuttatott eredményeket begyűjti és visszaküldi a felhasználónak. Természetesen ez csak egy vázlatos magyarázat, és mint az előbb említettük, a gridnek még nincs szabványos működési módszere.