A modellalkotás, a mintázatfelismerés olyan funkciók, amelyekben az emberi agy különösen "versenyképes". Mit tud a számítógép, amire az emberi agy nem képes, és fordítva?
- Agyunk teljesítménye elsősorban a számunkra fontos és megszokott hasonlóságok felismerésében kiemelkedő. Például arcokat ragyogóan meg tudunk különböztetni egymástól, akkor is, ha az idő "vasfoga" a számítógép számára felismerhetetlenül megváltoztatta őket, de egy európainak már rendszerint problémát jelent mondjuk az afrikai arcok megkülönböztetése.
A molekuláris biológiában alapvető fontosságú például a szekvenciák - a néhány száz tagú betűsorozatok - csoportosítása, osztályozása. Ezeket az adatokat szabad szemmel nem tudjuk jól megkülönböztetni egymástól, a számítógépes módszerek viszont nagyon jól elboldogulnak velük. Ha viszont fel szeretnénk gyorsítani a számítógépes összehasonlítást, emberi tudást is be kell építenünk a programba, például azt, hogy bizonyos típusú hasonlóságokat nem kell megvizsgálni. Vagyis a gép a módszeres összehasonlításban gyors, de ahhoz már emberi intuíció is kell, hogy ne vesszen el a felesleges részletekben. Ráadásul az ember sokszor nemcsak az alaki hasonlóságok alapján dönt, hanem fogalmakba és kijelentésekbe önthető, tételes tudását is hasznosítja az egyszerű összehasonlításoknál. Például két autó összevetésekor ismernünk kell a motorok, az erőátvitel alapelveit - így aztán természetesen más egy autószerelő képe a gépkocsiról, mint egy laikusé, vagy éppen egy tervezőé.
Amikor egy ismeretlen genomot kell értelmeznünk, a bioinformatika ugyancsak különböző forrásból származó ismereteket kombinál. Régebben külön adatbázisban tárolták a gének szekvenciáit, külön az általuk kódolt fehérjék szekvenciáját, és ismét máshol a fehérjék háromdimenziós szerkezetét. Az első nagy lépést a világháló jelentette, amellyel össze lehetett kötni az egymáshoz tartozó adatokat. Egy adatbázison belül például összeköthetjük az egymáshoz valamilyen kritérium szerint hasonló adatokat. Több adatbázis felhasználásával pedig összeköthetjük a gént a termékével, annak háromdimenziós szerkezetével, funkciós adataival, a rájuk vonatkozó cikkekkel. Mindezek révén integrált adatrendszerek jönnek létre. Ezeket alkalmazva egy gyakorló kutató percek alatt ellenőrizheti, hogy van-e új eredmény az őt érdeklő génnel kapcsolatban, egy praktizáló orvos pedig könnyűszerrel kiderítheti, hogy van-e új hatóanyag, terápia a szakirodalomban az éppen vizsgált betegségre. Az első ilyen integrált rendszert, a PubMed-et az Egyesült Államokban fejlesztették ki, és az élettudományokban mára nélkülözhetetlen munkaeszközzé vált.
![]() |
Az élesztőgomba génszabályozási mechanizmusainak vázlata. A pontok géneket, a nyilak serkentő (zöld), illetve gátló (piros) hatásokat jelölnek. |
Milyen korlátai vannak a bioinformatika jelenlegi információs rendszereinek?
- Az egyik probléma az, hogy bár nagyon sok az adat, az adatbázisokban viszonylag kevés a tételes tudás. Adatbázisoknál a tételes tudást úgynevezett ontológiák formájában szokták megfogalmazni, ezek tartalmazzák az objektumok szabatos leírását és használatuk szabályait. Ha mindezt például a fehérjékre kívánnánk vonatkoztatni, akkor a funkciók leírásánál lennénk a legnagyobb bajban: kodifikálni, rögzíteni kellene a molekuláris biológia és biokémia napról napra bővülő és változó ismeretanyagát. Erre a munkára nem akad vállalkozó. Így a bioinformatika adatbázisai az integráció ellenére is őrzik hagyományos tulajdonságaikat. Például a fehérjékre vonatkozó legteljesebb tudásanyag nem önálló ontológia formájában, hanem egy adatbázis - a SwissProt - részeként férhető hozzá.
Azt hiszem, hogy a jelenlegi integrált adatbázisok a kutatók igényeit igen jól kielégítik, de a felhasználónak némi "helyismeretre" és jó adag intuícióra és gyakorlatra van szüksége ahhoz, hogy gyors és megbizható válaszokat kapjon. A kérdések nagy többségére számítógépes programokkal, automatikusan is választ kaphatunk, de a többihez bizony ma is emberi munka szükséges. Nem véletlen, hogy a kereken öt éve elkészült emberi genom génjeinek egyelőre mintegy kétharmadát tudták csak értelmezni működése szerint.
A funkciós leírások, molekuláris kölcsönhatások területén még nagyon kevés a megbízható adat. Ezen kívül nehézséget jelent a kölcsönhatások bonyolultsága is: már egy néhány szereplős kölcsönhatási hálózatban is nehéz néha megmondani, hogy egyes változások mire vezethetők vissza.
A Mindentudás Egyeteme mostani szemeszterében többféle megközelítésben is hallhattunk kölcsönhatási hálózatokról, a hálózatkutatásról mint új tudományterületről. Mit várhatunk a sokat emlegetett hálózati modellektől?
- A hálózati modellek többek között vizsgált rendszereink komplexitására világítottak rá. Egyik legnagyobb erényük, hogy rá tudtak mutatni az eltérő kutatási területek közötti váratlan analógiákra, felcsillantva a reményt, hogy az egyes speciálisnak hitt hipotézisek, kérdésfeltevések más területeken is bevethetők. Ez sokszor így is van, bár természetesen nem garantálható, hogy a válaszok is ugyanazok, vagy akárcsak hasonlók lesznek. Mégis úgy érzem, bevezetésük nagyon megtermékenyítően hatott a tudomány sok területének fejlődésére. A bioinformatikában igen gyakoriak az emberi értelem számára szokatlan, nehezen kezelhető adatstruktúrák, így a kérdések megfogalmazásánál különösen jól jönnek a máshonnan "kölcsönözhető" fogalmak.