Adathalmok, genomok

Vágólapra másolva!

Az informatika térhódítása, csakúgy, mint a tudomány számos más területén, a biológiai gondolkodásban is alapvető változásokat hozott. Nemcsak az adatok mennyiségét növelte meg hihetetlen mértékben, de az elektronikus tárolási forma és az internet jóvoltából lehetővé tette, hogy azok gyakorlatilag bárki számára hozzáférhetők legyenek. Az adatkezelés és az ismeretábrázolás új eszközei pedig sosem látott távlatokat nyitottak az élő szervezetek egységes rendszerként való vizsgálata, a rendszerbiológia előtt. Az Élet és tudomány Pongor Sándor bioinformatikust kérdezte.

Vágólapra másolva!

genom Pongor Sándor térhódítás rendszerbiológia

A modellalkotás, a mintázatfelismerés olyan funkciók, amelyekben az emberi agy különösen "versenyképes". Mit tud a számítógép, amire az emberi agy nem képes, és fordítva?
- Agyunk teljesítménye elsősorban a számunkra fontos és megszokott hasonlóságok felismerésében kiemelkedő. Például arcokat ragyogóan meg tudunk különböztetni egymástól, akkor is, ha az idő "vasfoga" a számítógép számára felismerhetetlenül megváltoztatta őket, de egy európainak már rendszerint problémát jelent mondjuk az afrikai arcok megkülönböztetése.
A molekuláris biológiában alapvető fontosságú például a szekvenciák - a néhány száz tagú betűsorozatok - csoportosítása, osztályozása. Ezeket az adatokat szabad szemmel nem tudjuk jól megkülönböztetni egymástól, a számítógépes módszerek viszont nagyon jól elboldogulnak velük. Ha viszont fel szeretnénk gyorsítani a számítógépes összehasonlítást, emberi tudást is be kell építenünk a programba, például azt, hogy bizonyos típusú hasonlóságokat nem kell megvizsgálni. Vagyis a gép a módszeres összehasonlításban gyors, de ahhoz már emberi intuíció is kell, hogy ne vesszen el a felesleges részletekben. Ráadásul az ember sokszor nemcsak az alaki hasonlóságok alapján dönt, hanem fogalmakba és kijelentésekbe önthető, tételes tudását is hasznosítja az egyszerű összehasonlításoknál. Például két autó összevetésekor ismernünk kell a motorok, az erőátvitel alapelveit - így aztán természetesen más egy autószerelő képe a gépkocsiról, mint egy laikusé, vagy éppen egy tervezőé.
Amikor egy ismeretlen genomot kell értelmeznünk, a bioinformatika ugyancsak különböző forrásból származó ismereteket kombinál. Régebben külön adatbázisban tárolták a gének szekvenciáit, külön az általuk kódolt fehérjék szekvenciáját, és ismét máshol a fehérjék háromdimenziós szerkezetét. Az első nagy lépést a világháló jelentette, amellyel össze lehetett kötni az egymáshoz tartozó adatokat. Egy adatbázison belül például összeköthetjük az egymáshoz valamilyen kritérium szerint hasonló adatokat. Több adatbázis felhasználásával pedig összeköthetjük a gént a termékével, annak háromdimenziós szerkezetével, funkciós adataival, a rájuk vonatkozó cikkekkel. Mindezek révén integrált adatrendszerek jönnek létre. Ezeket alkalmazva egy gyakorló kutató percek alatt ellenőrizheti, hogy van-e új eredmény az őt érdeklő génnel kapcsolatban, egy praktizáló orvos pedig könnyűszerrel kiderítheti, hogy van-e új hatóanyag, terápia a szakirodalomban az éppen vizsgált betegségre. Az első ilyen integrált rendszert, a PubMed-et az Egyesült Államokban fejlesztették ki, és az élettudományokban mára nélkülözhetetlen munkaeszközzé vált.

Az élesztőgomba génszabályozási mechanizmusainak vázlata. A pontok géneket, a nyilak serkentő (zöld), illetve gátló (piros) hatásokat jelölnek.

Milyen korlátai vannak a bioinformatika jelenlegi információs rendszereinek?
- Az egyik probléma az, hogy bár nagyon sok az adat, az adatbázisokban viszonylag kevés a tételes tudás. Adatbázisoknál a tételes tudást úgynevezett ontológiák formájában szokták megfogalmazni, ezek tartalmazzák az objektumok szabatos leírását és használatuk szabályait. Ha mindezt például a fehérjékre kívánnánk vonatkoztatni, akkor a funkciók leírásánál lennénk a legnagyobb bajban: kodifikálni, rögzíteni kellene a molekuláris biológia és biokémia napról napra bővülő és változó ismeretanyagát. Erre a munkára nem akad vállalkozó. Így a bioinformatika adatbázisai az integráció ellenére is őrzik hagyományos tulajdonságaikat. Például a fehérjékre vonatkozó legteljesebb tudásanyag nem önálló ontológia formájában, hanem egy adatbázis - a SwissProt - részeként férhető hozzá.
Azt hiszem, hogy a jelenlegi integrált adatbázisok a kutatók igényeit igen jól kielégítik, de a felhasználónak némi "helyismeretre" és jó adag intuícióra és gyakorlatra van szüksége ahhoz, hogy gyors és megbizható válaszokat kapjon. A kérdések nagy többségére számítógépes programokkal, automatikusan is választ kaphatunk, de a többihez bizony ma is emberi munka szükséges. Nem véletlen, hogy a kereken öt éve elkészült emberi genom génjeinek egyelőre mintegy kétharmadát tudták csak értelmezni működése szerint.
A funkciós leírások, molekuláris kölcsönhatások területén még nagyon kevés a megbízható adat. Ezen kívül nehézséget jelent a kölcsönhatások bonyolultsága is: már egy néhány szereplős kölcsönhatási hálózatban is nehéz néha megmondani, hogy egyes változások mire vezethetők vissza.

A Mindentudás Egyeteme mostani szemeszterében többféle megközelítésben is hallhattunk kölcsönhatási hálózatokról, a hálózatkutatásról mint új tudományterületről. Mit várhatunk a sokat emlegetett hálózati modellektől?
- A hálózati modellek többek között vizsgált rendszereink komplexitására világítottak rá. Egyik legnagyobb erényük, hogy rá tudtak mutatni az eltérő kutatási területek közötti váratlan analógiákra, felcsillantva a reményt, hogy az egyes speciálisnak hitt hipotézisek, kérdésfeltevések más területeken is bevethetők. Ez sokszor így is van, bár természetesen nem garantálható, hogy a válaszok is ugyanazok, vagy akárcsak hasonlók lesznek. Mégis úgy érzem, bevezetésük nagyon megtermékenyítően hatott a tudomány sok területének fejlődésére. A bioinformatikában igen gyakoriak az emberi értelem számára szokatlan, nehezen kezelhető adatstruktúrák, így a kérdések megfogalmazásánál különösen jól jönnek a máshonnan "kölcsönözhető" fogalmak.