A makákók a legelterjedtebb főemlős állatok, több mint 20 fajból állnak, amelyek 5-6 millió évvel ezelőtt váltak el egymástól2. A makákó nemzetség szoros rokonságban áll az emberrel, utolsó közös ősük ∼25 millió évvel ezelőtt3. Az ember és a makákók közötti szoros kapcsolat számos fajt vonzóvá tett, mint állatmodelleket különböző orvosbiológiai elemzésekhez. Bár eredetileg a rhesus makákó indiai alfaja (Macaca mulatta mulatta) volt a választott kutatási modell, a makákó exportjának tilalma jelentősen csökkentette ezen állatok hozzáférhetőségét, ami más makákófajok és/vagy alfajok, különösen a kínai rhesus (CR) makákó (Macaca mulatta lasiota) és a cinomolgus vagy rákevő (CE) makákó (Macaca fascicularis) fokozott használatához vezetett.
Egy nőstény CR makákó és egy nőstény CE makákó genomját szekvenáltuk egy újgenerációs szekvenáló platformon, teljes genomi shotgun stratégiát alkalmazva. Röviden a mitokondriális genom szekvenciaelemzése mindkét egyed előre jelzett származását igazolta (Kiegészítő 1. szakasz). Ezután 19 és 18 többszörös párosított végű genomi DNS-könyvtárat állítottunk elő fokozatosan növekvő insertmérettel a CR makákó és a CE makákó esetében. Az összerakott CR makákó és CE makákó genom teljes mérete ∼2,84 Gb, illetve 2,85 Gb volt, ami átlagosan 47-szeres, illetve 54-szeres lefedettséget biztosított (1. táblázat és 1. kiegészítő szakasz). Az állványzatokat az indiai rhesus makákó4 és az ember genomszekvenciáival4 mutatott szintenia alapján rendeltük a kromoszómákhoz. A CR makákó állványok mintegy 97%-át és a CE makákó állványok 92%-át sikerült kromoszómákra helyezni. RNS-seq-et is alkalmaztunk egy IR makákó és két CE makákó különböző szöveteiben található transzkriptek profiljának meghatározására (Online módszerek). Ezt követően a genomi és transzkriptomi adatokat kombináló integrált elemzést használtunk a transzkriptumok szerkezetének meghatározására és az egyes gének expressziós profiljának megállapítására (2. kiegészítő szakasz).
A makákók genetikai diverzitását a teljes genom összehasonlításával és rövid olvasatok összehangolásával értékeltük, az IR makákó genomot használva referenciaként. Összesen >20 millió egynukleotidos különbséget és 740 827 indel-eseményt detektáltunk a három makákófajban vagy alfajban (3. kiegészítő szakasz), ami bőséges genetikai heterogenitást biztosít a jövőbeli orvosbiológiai alkalmazások és elemzések számára. Az összes egynukleotid-változó helyet három osztályba soroltuk (közös, rögzített és egyedi variánsok) a három egyedben való jelenlétük vagy hiányuk alapján (1a. ábra). Az egyedi variánsok az összes variáns >71,7%-át tették ki, ami nem meglepő, mivel még egy pánmiktikus populáción belül is az allélek 44%-a várhatóan szingleton lesz egy három egyedből álló mintában. Figyelemre méltó, hogy a genetikai különbségek nagy része legalább két makákó között közös volt. Csak a rögzített és egyedi variációkat használva úgy becsültük, hogy a legnagyobb eltérési arány, 0,40%, a CE makákó és az IR makákó között volt (1b. ábra). Ugyanakkor a CE makákó és a CR makákó közötti szekvencia-divergencia (0,34%), bár névlegesen különböző fajok, közel volt az alfajok, a CR makákó és az IR makákó között megfigyelthez (0,31%).
Korábbi, korlátozott szekvenciaadatokon alapuló kutatások azt sugallták, hogy egy ősi introgresszió történhetett a CR makákóból az Indokínai-félszigeten egy átfedő földrajzi elterjedési zónában élő CE makákóba5,6,7 . A két szekvenált genom lehetővé tette számszerűsíteni ennek az introgressziónak a hatását a teljes genom szintjén. Konkrétabban azt vizsgáltuk, hogy a CR makákó és a CE makákó genomjában megfigyelhető-e a fajok közötti hibridizációnak megfelelő DNS-jel. Kiszámítottuk a CE makákó és a CR makákó közötti divergenciaarányt, és összehasonlítottuk a CR makákó és az IR makákó közötti divergenciaaránnyal az összehangolt genomok 50 kb-os ablakaiban (4. kiegészítő szakasz). Ezeknél a számításoknál figyelmen kívül hagytuk a CpG-helyek variációit, mivel ezekről ismert, hogy különösen gyorsan fejlődnek. Az ablakok több mint 27%-a mutatott nullánál kisebb eltérési arányt, ami arra utal, hogy a CE és CR makákók szorosabb rokonságban állnak egymással, mint a CR és IR makákó alfajok ezekben a régiókban (4. kiegészítő szakasz). Ezenkívül az 50 kb-os genomiablakok >93%-a alacsonyabb divergenciaarányt mutatott a CE és CR makákók között a CE és IR makákókhoz képest. Ezért a rendezetlen ősi polimorfizmusok nem magyarázhatták meg teljes mértékben a CE- és CR-majom között megfigyelt inkonzisztens régiók magas arányát. Továbbá, az IR és CR makákópopulációkból származó korábbi egynukleotid-polimorfizmus (SNP) adatokat kombinálva a saját szekvenált CR és CE makákó egyedek8 adataival, megállapítottuk, hogy a CE makákó egyedünk a CR makákópopuláción belül klasztereződött (4. kiegészítő szakasz). Ez alátámasztja az erős génáramlás előfordulását a CR és a CE makákó genomja között. A CE és a CR makákó, valamint a CE és az IR makákó közötti aszimmetria mértékének szűrésével úgy becsültük, hogy a CE makákó genom ∼30%-a CR makákó eredetű (Kiegészítő 4. szakasz).
Ezután a CE makákó genomban olyan feltételezett introgressziós régiók (PIR) azonosítására törekedtünk, amelyekhez a génáramlás hozzájárulhatott. Kontrollként szimulált adatokat használtunk (egy semleges, migráció nélküli modell alapján) (Online módszerek és a 4. kiegészítő szakasz), és azonosítottunk 8942 PIR-t 778 Mb-on keresztül, amelyek a vártnál lényegesen alacsonyabb eltérési arányt mutattak a CE és a CR makákó között (2a,b ábra). Az átfedő PIR-ek összevonása után azt találtuk, hogy a legtöbb PIR (>98%) 500 kb-nál rövidebb volt. Mivel a PIR-ek hosszeloszlása a génáramlás óta eltelt idő függvénye9 , a rövid PIR-ek túlsúlya arra utal, hogy a génáramlás hosszabb evolúciós időszak alatt történt, és nem valószínű, hogy egyszerűen az ember által közvetített, nagyon közelmúltbeli génáramlás következménye lett volna. Az X és az autoszomális kromoszómák közötti jelentős eltérést is megfigyeltünk a variabilitásban (4. kiegészítő szakasz), ami a férfiak által irányított génáramlás eredménye lehetett. A CR makákó nőstényekből a CE makákó hímekbe történő korlátozott génáramlás egyik valószínű tényezője az, hogy a CR makákó nőstények kifejezett peteérési szezonalitást mutatnak, és csak az ovuláció idején párzanak, míg a CE makákó nőstények nem mutatnak kifejezett szaporodási szezonalitást, és egész évben szexuálisan fogékonyak maradnak10. Továbbá, mivel a nőstény filopatriának köszönhetően a makákóknál a szétszóródás elsősorban a hímek által vezérelt, ez magyarázhatja a CR makákó hímekből a CE makákó nőstényekbe történő génáramlást és ennek hiányát is. Ezek a populációk ezért érdekesek lehetnek a különböző fajok közötti szaporodás fiziológiai és viselkedési aspektusainak tanulmányozására.
Az új előnyös allélok javára történő erős szelekció “szelektív söprést” eredményez, amely csökkenti a genetikai diverzitást a nem szelektált régiókhoz képest. Algoritmust fejlesztettünk ki a három makákófaj/alfaj között csökkent variációt tartalmazó feltételezett sweep-régiók azonosítására, és semleges modell feltételezése mellett szimulált adatokat hoztunk létre annak statisztikai szignifikanciájának értékeléséhez (Online módszerek és 5. kiegészítő szakasz). 217 olyan erős szelektív sweep-régiót azonosítottunk, amelyek csökkent variációs szintet mutattak a makákók között, és amelyek jelentősen eltértek a semleges várakozástól (2c. ábra, 5. kiegészítő szakasz és 17. kiegészítő táblázat). Figyelemre méltó, hogy a tíz legnagyobb szelektív sweep régió egyike, amely a makákó 14. kromoszómáján található, csak egyetlen gént tartalmaz, a SET kötőfaktor 2-t (SBF2) (2c. ábra). Így valószínű, hogy ez a gén, amely egy perifériás membránfehérjét kódol a fehérje-tirozin-foszfatáz családból, a makákók korai evolúciója során a pozitív szelekció célpontja volt. Potenciális orvosbiológiai érdekesség, hogy a humán SBF2 ortológjának hibái a Charcot-Marie-Tooth-kór autoszomális recesszív demyelinizáló formáját (CMT4B2) okozzák.
A pozitív szelekció potenciális célpontjainak feltárásához az egyes makákó-ágakban 14 978 1:1 gén ortológját rendeltük az ember, a csimpánz és a három makákófaj/alfaj számára genom-illesztéssel (Kiegészítő 6. szakasz). A makákó ortológ triók összehasonlítása azt mutatta, hogy a génterületeken belül rendkívül nagyfokú nukleotidszekvencia-hasonlóságot mutatnak. Figyelemre méltó, hogy az ortológok 20,7%-a nagyobb mértékű hasonlóságot mutat a CR makákó és a CE makákó között, mint a CR makákó és az IR makákó között, ami introgresszió hatására utalhat. A génontológia-alapú génkategória-összehasonlítás a makákó, a hominidák és a muridák vonalai között azt mutatta, hogy a mikrotubulus-alapú folyamatok és az inzulinreceptor-szignálútvonal különösen gyorsan fejlődött a makákó vonalában (6. kiegészítő szakasz). Az elágazási helyek modelljén alapuló valószínűségi aránytesztek 16 pozitívan szelektált gént mutattak ki kifejezetten az IR makákó ágban, 7-et a CR makákó ágban és 13-at a CE makákó ágban (6. kiegészítő szakasz). Érdekes, hogy a makákók 36 pozitívan kiválasztott génjéből 31 olyan kötőfehérjéket kódol, amelyek jelentős szerepet játszanak a génexpresszió szabályozásában. Érdemes megjegyezni azt is, hogy két dendritfehérjét kódoló gén, a CLCN2 az IR makákó ágban és az aktivitás-szabályozott, citoszkeleton-asszociált fehérje (ARC) a CE makákó ágban pozitív szelekciót tapasztalt. Ez a két gén, további öt pozitívan szelektált génnel együtt, már ismert, hogy a humán genetikai betegségek szempontjából releváns, ami biológiai funkcióik valószínűsíthető fontosságára utal.
A CR- és CE-macák genomszekvenciáinak rendelkezésre állása lehetővé tette számunkra, hogy értékeljük genetikai változatosságukat, valamint a makákók és az emberek közötti genetikai különbségeket, ami fontos, mivel a makákókat kiemelten használják az orvosbiológiai kutatásokban. A makákógenomok összehasonlítása során kiderült, hogy 25 emberi egykopiás gén hiányzik (Online módszerek és a 6. kiegészítő szakasz), köztük egy kemokinreceptor gén, az IL32, amely szerepet játszhat mind a veleszületett, mind az adaptív immunválaszban, és ezért fontos figyelembe venni, amikor ezeket a makákókat fertőző betegségekkel kapcsolatos vizsgálatokban használják. Ezenkívül összesen 170 gén, amely valamelyik makákófaj betegségével vagy immunitásával kapcsolatos, vagy frameshift-mutációkat vagy korai stopkódonokat tartalmaz, ami azt jelzi, hogy ezek a gének pszeudogenizálódtak (6. kiegészítő szakasz). E csonka mutációk hitelességét mind a transzkriptom adatok, mind a nagy mélységű szekvenálási leolvasások, mind pedig a független PCR-vizsgálat validálása alátámasztja. E gének közül harminckettő az immunitás útvonalaiban működik, és úgy tűnik, hogy a makákókban elveszett. Például egy fontos veleszületett immunitás gén, a DEFA4, amely a neutrofilek által termelt mikrobicid és citotoxikus peptidek egyikét kódolja11 , mindhárom makákóban pszeudogenizálódott az első exon elvesztése miatt. Továbbá a Toll-like receptor 4 (TLR4) génje 1 bp deléciót tartalmazott, amely mindhárom makákónál egy korai stop kodont generál a harmadik exonjában (6. kiegészítő szakasz). A TLR4-ről beszámoltak, hogy az óvilági főemlősökben pozitív szelekciónak volt kitéve12. Figyelemre méltó, hogy néhány emberi betegséggel kapcsolatos gén is tartalmaz frameshiftset makákó homológjaiban. Például azt találtuk, hogy mindhárom makákó gén második exonjában korai stop kodon található az opioid receptor mu1 (OPRM1) génben, amely egy olyan fehérjét kódol, amely az egész neuratengelyben és a perifériás idegrendszerben elterjedt, és amely az opioidok elsődleges célpontja13 (Kiegészítő 6. szakasz).
Az ortológok genetikai különbségeit is megvizsgáltuk, amelyek kifejezetten fontosak az orvosbiológiai vizsgálatokban. A citoplazmatikus tripartit-motív fehérje 5α (amelyet a TRIM5 gén kódol), amely számos retrovírus replikációját képes korlátozni, kulcsfontosságú biomarker, amelyet a HIV-fertőzés állatmodelljeinek kiválasztására használnak14. A TRIM5 populáción belüli genetikai diverzitásának felmérése érdekében PCR-amplifikáltuk és szekvenáltuk a TRIM5-öt 33 nem rokon vietnami származású CE makákó egyedből és 28 CR makákó egyedből (Online módszerek). Egyetlen egyedben sem mutattunk ki korábban bejelentett15 Trim5-cyclophilin A kimérát (TRIM-CypA2), ami arra utal, hogy ez a genotípus ritka ezekben a populációkban. Ugyanakkor 19 nem szinonim polimorfizmust és egy mikrodeléciót azonosítottak a TRIM5 génben az IR makákó referenciához képest; majdnem mindegyik polimorfizmus eltérő gyakoriságot mutatott a két populáció között (3. ábra és 7. kiegészítő szakasz). Azonosítottunk egy 6 bp hosszúságú deléciót is a TRIM5 génben a CE makákóban, amely két aminosav (Thr339 és Phe340) elvesztését eredményezi. A legújabb kutatások szerint e maradékok deléciója fokozott HIV- vagy SIV-patogenitást eredményezhet16. E mutáció nagy gyakoriságát (97,5%) mutatták ki a CE makákópopulációban, ami azt jelzi, hogy ez a deléció gyakorlatilag rögzült a CE makákóban. Ezzel szemben a CR makákópopulációban ennek a mutációnak a gyakorisága körülbelül 50%, ami csak kis mértékben magasabb, mint az IR makákópopulációban (36%)17 . E 6 bp deléció és más polimorfizmusok különböző földrajzi eredetű makákók közötti gyakorisági eltérései felelősek lehetnek az e makákófajok/alfajok között megfigyelt HIV-rezisztenciabeli különbségekért16. Más, a betegséggel kapcsolatos gének genetikai variációját is megvizsgáltuk ugyanabban a CE vagy CR makákópopulációban, megfigyelve, hogy a mutációk gyakran eltérő gyakorisággal fordulnak elő a két fajban (7. kiegészítő szakasz).
Az emberi gyógyszerelhető fehérjedomének makákókban található ortológjainak tanulmányozására és a “gyógyszerelhető genom” terápiás hasznosítására szolgáló erőforrás létrehozására a makákók ortológjait vizsgáltuk a jelenleg ismert gyógyszeres doménekre. A három makákófajban/alfajban szinte az összes gyógyszerelhető ortológ kimutatható, ami azt jelzi, hogy ezek az állatmodellek valószínűleg funkcionálisan egyenértékűek. Nagyon kevés esetben azonban a makákóban talált ortológ eltér az emberi megfelelőjétől. Például egy mitokondriális aciltranszferáz (GLYATL2), amely egy acilcsoportot visz át a glicinre, mindhárom makákóban teljesen elveszett. Ezenkívül 19 olyan emberi gént azonosítottunk, amelyek gyógyszerelhető doménnel rendelkeznek, és amelyek pszeudogénekké váltak a makákókban (7. kiegészítő szakasz). Például a parathormon 1 receptor (PTH1R) gén, amely a csontritkulás elleni teriparatid (Forteo)18,19 célpontja, a makákókban egy korai stop kodont tartalmaz. A rekombináns humán keratinocita növekedési faktor (Palifermin20) egyik célpontja, a fibroblaszt növekedési faktor receptor 3, amelyet az FGFR3 kódol, szintén pszeudogenizálódott makákókban egy korai stop kodon jelenléte miatt.
A további orvosbiológiai érdeklődésre számot tartó kompenzált patogén eltérések. Ezek olyan humán feltételezett patológiás miszenz allélokat jelentenek, amelyekben a helyettesítő aminosavak azonosak a vad típusú aminosavmaradványokkal más organizmusok ortológ pozícióiban. Négy közeli rokon főemlősfajban (csimpánz és a három makákó) 931 kompenzált patogén eltérést azonosítottunk, amelyek közül 220 különbözött a főemlősök között, köztük 65 a három makákófaj között (8. kiegészítő szakasz és 26. kiegészítő táblázat). Például egy mutáció (R40→H40) az ornitin-transzkarbamiláz (OTC) génben a két rhesusmajom alfajban kimutatható volt, de a CE-majomban nem. Az azonosított genetikai különbségek fent vázolt példái alapján egyértelmű, hogy az ilyen fajok közötti különbségek lehetséges meglétét figyelembe kell venni, amikor a makákókat kiválasztják betegségmodellként való felhasználásra.
A CE makákó és az IR makákó közötti génexpressziós profilok összehasonlítása (9. kiegészítő szakasz) kimutatta, hogy ortológjaik konzervált expressziós profilokat mutatnak ugyanabban a szövetben. Megállapítottuk azonban, hogy a herében az alacsonyabb Pearson korrelációs együtthatóval rendelkező ortológok között nagyobb eltérést mutattak az expressziós szintek (Kiegészítő 9. szakasz). Az a megfigyelés, hogy a többi szövethez képest több gén mutat ellentmondásos expressziós szintet a herében, összefüggésben állhat a főemlősök spermiumban kifejeződő génjeinek gyors evolúciós sebességével21. A transzkriptom adatok arra is szolgáltak, hogy számos új gént azonosítsunk a CE makákókban a rhesus makákókhoz képest.
Összefoglalva, a két makákó genomjának szekvenálása és elemzése megerősítette, hogy az introgresszív hibridizáció valószínűleg fontos szerepet játszott a ma élő szárazföldi eredetű CE makákó genomjának kialakulásában. Így a CE makákó hasznos modell lehet a főemlősfajok közötti géncserék, és ennek a folyamatnak a főemlősök evolúciójában és fajfejlődésében betöltött szerepének feltárására. Az itt bemutatott két új makákógenom rávilágít az e széles körben használt főemlős állatmodellek közötti eltérések mértékére is. A különböző földrajzi populációkból származó makákók egyedeinek bőséges genetikai változatossága közvetlen érdeklődésre tarthat számot a primatológia, a preklinikai orvostudomány, a populációgenetika és a filogeográfiai vizsgálatok szempontjából.