Makakové jsou nejrozšířenější z nehumánních primátů, zahrnují více než 20 druhů, které se od sebe oddělily až před 5-6 miliony let2. Rod makaků je blízce příbuzný s člověkem a sdílí s ním posledního společného předka před ∼25 miliony let3. Blízký vztah mezi lidmi a makaky učinil několik druhů atraktivními jako zvířecí modely pro různé biomedicínské analýzy. Ačkoli byl původně preferovaným výzkumným modelem indický poddruh makaka rhesus (Macaca mulatta mulatta), zákaz vývozu tohoto makaka značně snížil dostupnost těchto zvířat, což vedlo ke zvýšenému využívání jiných druhů a/nebo poddruhů makaků, zejména makaka čínského (CR) (Macaca mulatta lasiota) a makaka kynomolgus nebo makaka krabožravého (CE) (Macaca fascicularis).
Sekvenovali jsme genomy samice makaka CR a samice makaka CE pomocí celogenomové shotgun strategie na platformě pro sekvenování nové generace. Stručně řečeno, analýza sekvencí mitochondriálního genomu ověřila předpokládaný původ obou jedinců (doplňková část 1). Poté jsme zkonstruovali 19 a 18 vícenásobných párových knihoven genomové DNA s postupně se zvětšující velikostí insertů pro makaka CR a makaka CE. Celková velikost sestavených genomů makaků CR a makaků CE byla ∼2,84 Gb, resp. 2,85 Gb, což poskytlo v průměru 47násobné, resp. 54násobné pokrytí (tabulka 1 a doplňková část 1). Scaffoldy byly přiřazeny k chromozomům podle zobrazené syntézy se sekvencemi genomu makaka indického (IR)4 a lidského genomu. Přibližně 97 % scaffoldů makaků CR a 92 % scaffoldů makaků CE bylo možné umístit na chromozomy. Použili jsme také RNA-seq k profilování transkriptů v různých tkáních jednoho makaka IR a dvou makaků CE (Online Methods). Integrovaná analýza kombinující genomická a transkriptomová data pak byla použita k definování struktury transkriptů a zjištění expresního profilu každého genu (Doplňková část 2).
Genetická diverzita makaků byla vyhodnocena porovnáním celého genomu a zarovnáním krátkých čtení s použitím genomu makaka IR jako reference. Celkem jsme zjistili >20 milionů jednonukleotidových rozdílů a 740 827 indelových událostí u tří druhů nebo poddruhů makaků (doplňková část 3), což poskytne bohatou genetickou heterogenitu pro využití v budoucích biomedicínských aplikacích a analýzách. Všechna jednonukleotidová variabilní místa jsme rozdělili do tří tříd (sdílené, fixní a unikátní varianty) na základě jejich přítomnosti či nepřítomnosti u tří jedinců (obr. 1a). Unikátní varianty tvořily >71,7 % všech variant, což není překvapivé vzhledem k tomu, že i v rámci panmiktické populace se očekává, že 44 % alel ve vzorku tří jedinců budou tvořit singletony. Je pozoruhodné, že velké množství genetických rozdílů bylo sdíleno alespoň mezi dvěma makaky. Při použití pouze fixních a unikátních variací jsme odhadli, že nejvyšší míra divergence, 0,40 %, byla mezi makakem CE a makakem IR (obr. 1b). Nicméně sekvenční divergence mezi makakem CE a makakem CR (0,34 %), ačkoli se nominálně jedná o různé druhy, byla blízká divergenci pozorované mezi poddruhy, makakem CR a makakem IR (0,31 %).
Nedávný výzkum založený na omezených sekvenčních datech naznačil, že mohlo dojít k dávné introgresi z makaků CR na makaky CE žijící v překrývající se geografické zóně rozšíření na Indočínském poloostrově5,6,7. Dva sekvenované genomy nám umožnily kvantifikovat vliv této introgrese na úrovni celého genomu. Konkrétně jsme zkoumali, zda je v genomech makaků CR a makaků CE patrný signál DNA odpovídající mezidruhové hybridizaci. Vypočítali jsme poměr divergence mezi makakem CE a makakem CR a porovnali jej s poměrem divergence mezi makakem CR a makakem IR pro 50kb okna napříč zarovnanými genomy (doplňková část 4). Při těchto výpočtech jsme ignorovali variace v místech CpG, protože je známo, že se vyvíjejí obzvláště rychle. Více než 27 % oken vykazovalo poměr divergence menší než nula, což naznačuje, že makakové CE a CR jsou si v těchto oblastech příbuznější než poddruhy makaků CR a IR (Doplňková část 4). Kromě toho >93 % 50-kb genomických oken vykazovalo nižší míru divergence mezi makaky CE a CR ve srovnání s makaky CE a IR. Netříděné ancestrální polymorfismy tedy nemohly zcela vysvětlit vysoký podíl nekonzistentních oblastí pozorovaných mezi makakem CE a makakem CR. Kromě toho jsme kombinací předchozích údajů o jednonukleotidových polymorfismech (SNP) z populací makaků IR a CR s údaji z našich vlastních sekvenovaných jedinců makaků CR a CE8 zaznamenali, že náš jedinec makaka CE se shlukoval v rámci populace makaků CR (doplňková část 4). To podporuje výskyt silného toku genů z CR do genomu makaků CE. Prověřením míry asymetrie v divergenci mezi makakem CE a CR a mezi makakem CE a makakem IR jsme odhadli, že ∼30 % genomu makaka CE je původu z makaka CR (Doplňková část 4).
Dále jsme se snažili identifikovat domnělé introgresní oblasti (PIR) v genomu makaka CE, které mohly být přispěny genovým tokem. Jako kontrolu jsme použili simulovaná data (podle neutrálního modelu bez migrace) (Online Methods a Supplementary Section 4) a identifikovali jsme 8 942 PIRs o rozloze 778 Mb s výrazně nižší než očekávanou mírou divergence mezi makakem CE a makakem CR (obr. 2a,b). Po sloučení překrývajících se PIR jsme zjistili, že většina PIR (>98 %) byla kratší než 500 kb. Protože rozložení délky PIRs je funkcí doby, která uplynula od doby, kdy došlo ke genovému toku9 , převaha krátkých PIRs naznačuje, že ke genovému toku docházelo po delší dobu evoluce a že pravděpodobně nebyl pouze důsledkem velmi nedávného genového toku zprostředkovaného člověkem. Pozorovali jsme také výrazný rozdíl ve variabilitě mezi chromozomy X a autozomálními chromozomy (doplňková část 4), který mohl být důsledkem genového toku řízeného muži. Jedním z pravděpodobných faktorů, které přispívají k omezenému toku genů od samic makaků CR k samcům makaků CE, je skutečnost, že samice makaků CR vykazují výraznou ovariální sezónnost a kopulují pouze během ovulace, zatímco samice makaků CE nevykazují výraznou reprodukční sezónnost a zůstávají sexuálně vnímavé po celý rok10. Kromě toho, vzhledem k tomu, že u makaků je disperze primárně řízena samci kvůli filopatrii samic, mohlo by to také vysvětlovat tok genů od samců makaků CR k samicím makaků CE a absenci opačného toku. Tyto populace proto mohou být zajímavé pro studium fyziologických a behaviorálních aspektů rozmnožování mezi různými druhy.
Silná selekce ve prospěch nových výhodných alel vede k „selekčnímu zametání“, které snižuje genetickou rozmanitost ve srovnání s neselektovanými oblastmi. Vyvinuli jsme algoritmus pro identifikaci domnělých sweep oblastí obsahujících sníženou variabilitu mezi třemi druhy/poddruhy makaků a vytvořili jsme simulovaná data za předpokladu neutrálního modelu, abychom vyhodnotili jeho statistickou významnost (Online metody a doplňková část 5). Identifikovali jsme 217 silně selektivních sweep oblastí, které vykazovaly sníženou úroveň variability mezi makaky a které se výrazně odchylovaly od neutrálního očekávání (obr. 2c, Doplňková část 5 a Doplňková tabulka 17). Pozoruhodné je, že jedna z deseti největších selekčních oblastí, která se nachází na 14. chromozomu makaků, obsahuje pouze jeden gen, vazebný faktor SET 2 (SBF2) (obr. 2c). Je tedy pravděpodobné, že tento gen, který kóduje periferní membránový protein z rodiny protein-tyrozinfosfatázy, byl během rané evoluce makaků cílem pozitivní selekce. Potenciálně biomedicínsky zajímavé je, že defekty v lidském ortologu SBF2 způsobují autozomálně recesivní demyelinizační formu nemoci Charcot-Marie-Tooth (CMT4B2).
Pro odhalení potenciálních cílů pozitivní selekce v každé větvi makaků jsme přiřadili 14 978 ortologů genů 1:1 pro člověka, šimpanze a tři druhy/poddruhy makaků pomocí zarovnání genomů (Doplňková část 6). Porovnání trojice ortologů makaků ukázalo, že sdílejí extrémně vysokou úroveň podobnosti nukleotidových sekvencí v genových oblastech. Je pozoruhodné, že 20,7 % ortologů vykazuje vyšší stupeň podobnosti mezi makakem CR a makakem CE než mezi makakem CR a makakem IR, což může znamenat vliv introgrese. Srovnání genových kategorií na základě genové ontologie mezi liniemi makaků, hominidů a muridů ukázalo, že procesy založené na mikrotubulech a signální dráha inzulínového receptoru se vyvíjely obzvláště rychle v linii makaků (doplňková část 6). Testy poměru pravděpodobnosti založené na modelu místa větvení odhalily 16 pozitivně vybraných genů specificky ve větvi makaků IR, 7 ve větvi makaků CR a 13 ve větvi makaků CE (Doplňková část 6). Je zajímavé, že 31 z 36 pozitivně vybraných genů u makaků kóduje vazebné proteiny, které hrají hlavní roli v regulaci genové exprese. Za zmínku také stojí, že pozitivní selekci zažily dva geny kódující dendritické proteiny, CLCN2 v IR větvi makaků a aktivitou regulovaný, s cytoskeletem asociovaný protein (ARC) v CE větvi makaků. Tyto dva geny, spolu s dalšími pěti pozitivně selektovanými geny, jsou již známy jako významné pro lidská genetická onemocnění, což naznačuje pravděpodobný význam jejich biologických funkcí.
Dostupnost sekvencí genomů makaků CR a makaků CE nám umožnila vyhodnotit jejich genetickou rozmanitost a také genetické rozdíly mezi makaky a lidmi, což je důležité vzhledem k významnému využití makaků v biomedicínském výzkumu. Porovnání genomů makaků odhalilo nepřítomnost 25 lidských genů s jednou kopií (online metody a doplňkový oddíl 6), včetně genu pro chemokinový receptor IL32, který může hrát roli jak ve vrozených, tak v adaptivních imunitních reakcích, a proto je důležité ho vzít v úvahu, pokud jsou tito makakové využíváni při studiích infekčních onemocnění. Kromě toho celkem 170 genů souvisejících s nemocemi nebo imunitou u jednoho nebo druhého druhu makaků obsahuje buď frameshift mutace, nebo předčasné stop kodony, u nichž by se dala předpokládat pseudogenizace těchto genů (Doplňková část 6). Pravost těchto zkracujících mutací je podpořena jak daty z transkriptomu a vysoce hloubkovými sekvenačními čteními, tak i nezávislým ověřením pomocí PCR. Třicet dva z těchto genů funguje v imunitních drahách a zdá se, že byly u makaků ztraceny. Například důležitý gen vrozené imunity DEFA4, který kóduje jeden z mikrobicidních a cytotoxických peptidů vytvářených neutrofily11 , byl u všech tří makaků pseudogenizován v důsledku ztráty svého prvního exonu. Kromě toho gen pro Toll-like receptor 4 (TLR4) obsahoval deleci 1 pb, která vytváří předčasný stop kodon v jeho třetím exonu u všech tří makaků (doplňkový oddíl 6). Uvádí se, že TLR4 byl u primátů Starého světa pod pozitivní selekcí12. Je pozoruhodné, že některé geny související s lidskými chorobami také obsahují posuny rámců ve svých makačích homolozích. Například jsme zjistili, že všichni tři makakové mají předčasný stop kodon ve druhém exonu genu pro opioidní receptor mu1 (OPRM1), který kóduje protein distribuovaný v celé neuraxi a periferním nervovém systému a který je primárním cílem opioidů13 (Doplňková část 6).
Zkoumali jsme také genetické rozdíly v ortologických genech, které jsou specificky důležité pro biomedicínské studie. Cytoplazmatický trojmocný protein 5α (kódovaný genem TRIM5), který může omezovat replikaci široké škály retrovirů, je klíčovým biomarkerem používaným při výběru zvířecích modelů infekce HIV14. Abychom prozkoumali genetickou diverzitu genu TRIM5 v celé populaci, amplifikovali jsme PCR a sekvenovali TRIM5 u 33 nepříbuzných jedinců makaků CE vietnamského původu a 28 jedinců makaků CR (online metody). U žádného jedince jsme nezjistili dříve popsanou15 chiméru TRIM5-cyklofilin A (TRIM-CypA2), což naznačuje, že tento genotyp je v těchto populacích vzácný. V genu TRIM5 však bylo identifikováno 19 nesynonymních polymorfismů a jedna mikrodelece v porovnání s referenční populací makaků IR; téměř všechny tyto polymorfismy vykazovaly rozdílné frekvence mezi oběma populacemi (obr. 3 a doplňková část 7). V genu TRIM5 u makaků CE jsme také identifikovali deleci o délce 6 pb, která vede ke ztrátě dvou aminokyselin (Thr339 a Phe340). Nedávný výzkum naznačil, že delece těchto zbytků by mohla vést ke zvýšené patogenitě HIV nebo SIV16. V populaci makaků CE byla zjištěna vysoká frekvence (97,5 %) této mutace, což naznačuje, že tato delece se u makaků CE prakticky ustálila. Naproti tomu v populaci makaků CR je frekvence této mutace přibližně 50 %, což je jen nepatrně více než v populaci makaků IR (36 %)17. Rozdíly ve frekvenci této 6bp delece a dalších polymorfismů mezi makaky různého geografického původu mohou být příčinou pozorovaných rozdílů v odolnosti vůči HIV mezi těmito druhy/poddruhy makaků16. Zkoumali jsme také genetickou variabilitu dalších genů souvisejících s onemocněním ve stejné populaci makaků CE nebo CR a zjistili jsme, že mutace se u obou druhů často vyskytují s různou frekvencí (doplňkový oddíl 7).
Pro studium ortologů lidských lékových proteinových domén u makaků a vytvoření zdroje pro terapeutické využití „lékového genomu“ jsme provedli screening ortologů makaků pro v současnosti známé lékové domény. Téměř všechny lékové ortology lze detekovat u tří druhů/poddruhů makaků, což naznačuje, že tyto zvířecí modely jsou pravděpodobně funkčně ekvivalentní. Ve velmi málo případech se však ortolog nalezený u makaka liší od svého lidského protějšku. Například mitochondriální acyltransferáza (GLYATL2), která přenáší acylovou skupinu na glycin, byla u všech tří makaků zcela ztracena. Kromě toho jsme identifikovali 19 lidských genů s lékovými doménami, které se u makaků staly pseudogeny (doplňkový oddíl 7). Například gen pro receptor parathormonu 1 (PTH1R), který je cílem léku proti osteoporóze teriparatidu (Forteo)18,19 , obsahuje u makaků předčasný stop kodon. Jeden z cílů rekombinantního lidského keratinocytárního růstového faktoru (Palifermin20), receptor fibroblastového růstového faktoru 3, kódovaný FGFR3, byl u makaků rovněž pseudogenizován kvůli přítomnosti předčasného stop kodonu.
Další biomedicínsky zajímavé jsou kompenzované patogenní odchylky. Ty představují lidské domněle patologické missense alely, u nichž jsou substituční aminokyseliny identické se zbytky aminokyselin divokého typu na ortologických pozicích v jiných organismech. Identifikovali jsme 931 kompenzovaných patogenních odchylek u čtyř blízce příbuzných druhů primátů (šimpanz a tři makakové), z nichž 220 se lišilo mezi nehumánními primáty, včetně 65, které se lišily mezi třemi druhy makaků (doplňková část 8 a doplňková tabulka 26). Například jedna mutace (R40→H40) v genu pro ornitin transkarbamylázu (OTC) byla patrná u dvou poddruhů makaků rhesus, ale ne u makaka CE. Na základě výše uvedených příkladů zjištěných genetických rozdílů je zřejmé, že potenciální existence takových mezidruhových rozdílů by měla být zvážena při výběru makaků pro použití jako modelů onemocnění.
Srovnání profilů genové exprese (Doplňková část 9) mezi makakem CE a makakem IR ukázalo, že jejich ortologové vykazují konzervativní profily exprese ve stejné tkáni. Zaznamenali jsme však, že varlata vykazovala úrovně exprese, které se více lišily mezi těmi ortology, které měly nižší Pearsonovy korelační koeficienty (Doplňková část 9). Pozorování, že více genů vykazuje nekonzistentní úrovně exprese ve varleti ve srovnání s ostatními tkáněmi, může souviset s rychlou evoluční rychlostí, která se projevuje u genů exprimovaných spermiemi primátů21. Data transkriptomu také posloužila k identifikaci několika nových genů u makaků CE vzhledem k makakům rhesus.
Závěrem lze říci, že naše sekvenování a analýzy genomů dvou makaků potvrdily, že introgresivní hybridizace pravděpodobně hrála důležitou roli při formování genomu současných makaků CE pevninského původu. Makak CE by tak mohl být užitečným modelem pro zkoumání výměny genů mezi druhy primátů a následné role tohoto procesu v evoluci a speciaci primátů. Dva nové genomy makaků, které jsou zde prezentovány, také poukazují na míru variability existující mezi těmito široce používanými zvířecími modely primátů. Bohatá genetická rozmanitost patrná u jednotlivých makaků z odlišných geografických populací je přímo zajímavá pro primatologii, preklinickou medicínu, populační genetiku a fylogeografické studie.
.