Vágólapra másolva!
Az adathalmoktól a rendezett információs hálózatokig - Bioinformatika és rendszerbiológia
Vágólapra másolva!

IV. Hasonlóság a molekulák világában

A következő lépés a hasonló szavak - esetünkben a hasonló fehérjék - csoportosítása, majd megkeresése a genom szövegében. A fehérjeszekvenciákat csoportosítani csak számítógépes módszerekkel tudjuk, az emberi szem ugyanis nem könnyen észleli a hosszú karaktersorozatok hasonlóságát. A közelítő illesztés (approximate string matching) algoritmusai viszont igen hatékonyak és segítségükkel a csoportosítás könnyen megoldható.

Képzeljünk most magunk elé egy nagy halom szekvenciát, amelyekről nem tudunk semmit. Ezeket a számítógép elkezdi páronként összehasonlítani, és felírja, ha kettő hasonlít egymáshoz.

Animáció: Szekvenciák csoportosítása számítógéppel- Genom elolvasása

Két dolgot vehetünk észre. Egyrészt, hogy rengeteg hasonlóság jelenik meg, egymás hegyén hátán. Ugyanakkor egyes csoportoknál sűrűsödéseket látunk, ezek tagjai jobban hasonlítanak egymásra, mint a többire. Most tehát úgy ahogy megtaláltuk a hasonló szavakat, de kérdés, tudjuk-e mit jelentenek.

Itt meg kell állnunk egy pillanatra. Ugyanis ahhoz, hogy a hasonlóságok hálózatából kiválogassuk az értelmes csoportokat, már jelentős emberi munka kell. Szakembereknek kell megmondani, hogy az egyik csoport, teszem azt, az emésztőenzimeket, egy másik pedig a vérben lévő hemoglobinmolekulákat alkotja. Itt a csoporttagok egymáshoz sokkal hasonlóbbak, mint másokhoz, van tehát egy értelmes hasonlósági mérőszámunk. Szerencsére ez az osztályozás már jó harminc-negyven éve folyik, és ma már körülbelül 10 ezer olyan csoportot ismerünk, amely többször előfordul a természetben. Vagyis mintegy tízezer gyakoribb szavunk van. De ennek többszörösét teszik ki az olyan fehérjék, amelyek csak egyetlen egyszer szerepelnek. Mindezek az adatok számítógépes adatbázisokban találhatók, s ezek fenntartása komoly emberi és számítógépes munkát igényel.

Rendezett adatbázisunkkal mindjárt el is kezdhetjük egy genom olvasását. Feltételezett fehérjeszakaszainkat összehasonlítjuk a rendezett adatbázis csoportjaival, és sok esetben a hasonlóság olyan erős, hogy nem kétséges, az ismert fehérjék egy új példányát fedeztük fel. Néhány esetben viszont csak gyenge és szétszórt hasonlóságokat találunk, és nem tudjuk, ez a véletlen műve, vagy pedig valami újszerű fehérjét fedeztünk-e fel.

Itt tehát megakadnánk, de szerencsére van még olyan információnk, amit eddig nem használtunk fel.

Google News
A legfrissebb hírekért kövess minket az Origo Google News oldalán is!

Mindent egy helyen az Eb-ről