A genomevolúciótól adatrendszerek építéséig: tudományos publikációim és az azokból szerzett tapasztalataim
A minap váratlan alkalom adódott, hogy visszatekintsek szakmai pályafutásomra. Néhány napja felvette velem a kapcsolatot egykori főnököm, Mauno Vihinen professzor, akinek a Tamperei Egyetemen töltött kutatói éveim alatt dolgoztam. Ő és csoportja jelenleg a svédországi Lund Egyetemen kutat. Annak idején több közös tudományos publikációt is írtunk, ezek közül kereste az egyiket. Ez egy könyvfejezet volt még 2010-ből, amely a rovargenomokban található karbonikus anhidrázok molekuláris evolúcióját tárgyalja. Ez az írásunk nem érhető el letölthető PDF-fájlként, mert csak nyomtatott, könyv formátumban jelent meg. Szerencsére megtaláltam a könyvet a padláson, ahol a költözésünk óta még mindig bedobozolva pihent. Nosza, elő a szkennert, beolvastam az írásunkat és elküldtem a volt professzoromnak, és így most már elérhetővé vált az anyag az örökkévalóságnak is.
De az ügy folyományaként támadt egy gondolatom, és úgy döntöttem, hogy összegyűjtöm az összes tudományos publikációmat a Dropboxomba, mert nem is tudom pontosan, hány ilyen cikkben jelent meg a nevem mindenféle tudományos írásokban. Végül is összesen 37 ilyen írást találtam, ami egy kisebb csoda, mivel karrieremnek ez a része már majd másfél évtizede véget ért. Ezek közül végül csak 35 teljes szöveget tudtam előállítani, hála a kutatási publikációs iparnak, ahol a kutatók nem saját munkájuk eredményéhez sem férhetnek hozzá szabadon, csak ha fizetnek érte.
Íme hát egy rövid összefoglaló kutatói munkálkodásomról: az első cikkem 1999-ben jelent meg (akkor még egyetemi hallgató voltam az ELTE-n), az utolsó pedig 2020-ban (pedig ekkor már 7 éve nem kutatóként dolgoztam). A legérdekesebb cikkeim a NAR Nucleic Acids Research folyóiratban jelentek meg, ezek közül az egyik az, amit a legtöbbször idéztek más kutatók (a Web of Science adatai szerint 73 idézet). Ezzel szemben a legbüszkébb a feleségemmel közösen írt könyvre vagyok, amely arról szól, hogyan lehet az R programot használni molekuláris biológiai kísérletek adatainak elemzésére (Ortutay & Ortutay: Molecular data analysis using R, Wiley 2017).
Összességében publikációimat több mint 700 alkalommal idézték. Nem rossz, de nem is eget rengető eredmény, de mégis ennyiszer történt, hogy valaki más az én munkámra építve új ötleteket vagy saját kutatást hozott létre. Így működik a tudomány a valóságban.
Ekkor bevillant egy érdekesnek tűnő ötlet. Feltöltöttem a ChatGPT-nek az összes publikációmat és absztraktomat, és megkértem, hogy segítsen nekem felvázolni a teljes kutatói pályafutásomat.
Az ott kapott leírásból kitűnik, hogy korai munkáimban a genomok evolúciójára és a horizontális génátvitel témakörrel foglalkoztam. Az egyik tanulmányunkban a Chlamydia fajok teljes genomjainak filogenetikai elemzését végeztük el, szisztematikusan azonosítva ezeket a bizonyos horizontális génátviteli eseményeket. Abban az időben a teljes genomra kiterjedő nagyszabású filogenetikai rekonstrukció számításigényes feladat volt, emlékszem, ez egyik évben Magyarország akkori legnagyobb szuperszámítógépét használtuk, és ez a projekt használta föl a legtöbb számítási időt. A kolléga, aki segített nekem, külön előadást tartott nekik, ahol elmesélte, mire is jó ez a sok számítás meg analízis.
Ez a munka megalapozta gondolkodásmódomat: többféle módszert használata, az alapfeltételezések folyamatos ellenőrzése, az egyetlen mérőszámra épülő döntésekkel kapcsolatos gyanú, miegymás. A mai adatokkal történő munkám sarokkövei.
Később érdeklődésem kiterjedt fehérjeszerkezetekre, génevolúcióra és a génszabályozásra is. Kis inhibitor csoportokon is dolgoztam, azonosítva a stabilitást és a specifitást szabályozó konzervált szerkezeti motívumokat és aminosav-hálózatokat. Még később hozzájárultam a molekuláris biológia különböző területeire specializálódott adatbázisok építéséhez.
Ezekben a különféle projektekben egy közös vonás található: munkám mindig a biológia, a számítástechnika és a rendszergondolkodás határterületein zajlott.
Akár filogenetikai fák rekonstruálásáról, mutációk felismeréséről, génortológok csoportosításáról, vagy biológiai adatbázisok tervezéséről volt szó, a legfőbb kihívás mindig ugyanaz volt: zajos, hiányos biológiai adatok értelmezése és alkalmazása komplex kérdések megválaszolására.
Publikációs listám baktériumgenomok evolúcióját, fehérjék szerkezeti elemzését, adatbázisokat és a bioinformatikai módszertant öleli fel. Az igazat megvallva egyik cikkemben sem volt címlapos tudományos felfedezés. Summa summárum: talán egy gyenge közepes teljesítmény egy kutatótól.
Aztán eszembe jutott egy másik gondolat: mivel már 12 évvel ezelőtt lezártam kutatói pályafutásom fejezetét, jelenleg főként szabadúszóként kis- és középvállalkozások számára dolgozok tanácsadóként. Ezen cégek adatinfrastruktúráját segítek megtervezni, felépíteni. (Igen, még mindig tanítok bioinformatikusokat is, de ezt inkább szerelem, mint kenyérkeresés. Sans fizetőképes kereslet…)
A kutatóként megszerzett képességek, mint az analitikai szigor, a számítógépes modellezés, a reprodukálhatóság, a rendszerszintű gondolkodás és az intellektuális függetlenség, továbbra is központi szerepet játszik mindabban, amit ma munkaként csinálok.
Először is, már akkor "adat tudománnyal" (angolul data science) foglalkoztam, amikor ilyen munkakör nem létezett. A genomi szintű filogenetika, az összehasonlító genomika és a nagyléptékű szekvenciaelemzés nem más, mint modern adatmérnöki munka és alkalmazott gépi tanulási módszerek (AI, valaki?) biológiai kontextusban.
Másodsorban, nem csupán elemzéseket végeztem, hanem infrastruktúrát is építettem. Adatbázisépítői munkáim során újra és újra különböző módszereket alkalmaztam az adatforrások és az adatfeldolgozási folyamatok kialakítására és integrálására. Ezek közvetlenül segítenek nekem a jelenlegi projektjeimben, ahol adatplatform-tervezéssel, ETL-architektúrákkal, folyamatok automatizálásával vagy metaadatok modellezésével foglalkozom.
Továbbá, kutatási projektjeim során konkrét statisztikai alapon működő módszertant kellett használnom különféle szituációkban. Össze kellett hasonlítanom különféle statisztikai modelleket, értékelnem kellett a módszertani torzításokat. Az eredményeimmel folyamatosan össze kellett hasonlítanom a különféle a módszereket, és kezelnem kellett a hiányzó adatokat is. Ez ismerősen hangzik bárkinek, aki való világból érkező adatokkal dolgozik.
Végül pedig kutatóként meg kellett tanulnom elfogadni az eredmények kétértelműségét, hiszen az evolúciós biológia tele van bizonytalansággal, akárcsak a jelenlegi munkáim adatforrásai. (Nem is beszélve az LLM-alapú AI rendszerekről.)
Összességében a tudományban eltöltött több mint egy évtizedemből egy csomó mindent megtanultam:
- A komplex rendszereket részeire kell bontani, hogy kezelhetővé váljanak
- Az alpfeltételezéseket alapos kritikával meg kell vizsgálni
- Ha nincsenek eszközöket egy munkához, akkor neki kell állni programozni
- A hosszú távú tervezés nagyon megtérül minden projektben
- De ami a legfontosabb: kíváncsinak maradni
Mindezek alapján visszatekintve már nem csak 37 publikációt látok a Dropbox mappámban. Inkább egy olyan kutatói munkásságot látok, amely kitartást, a interdiszciplináris gondolkodást és a számszerű bizonyítékok tiszteletét tükrözi.
És ezeket a mai munkáimban is vállalhatónak tartom, sőt, erre az attitűdre büszke vagyok.

Megjegyzések