De makaken zijn de meest verspreide van de niet-menselijke primaten, en omvatten meer dan 20 soorten die tot 5-6 miljoen jaar geleden van elkaar zijn gescheiden2. Het geslacht Macaca is nauw verwant met de mens, met een laatste gemeenschappelijke voorouder ∼25 miljoen jaar geleden3. De nauwe verwantschap tussen mens en makaak heeft verschillende soorten aantrekkelijk gemaakt als diermodel voor verschillende biomedische analyses. Hoewel de Indische ondersoort van de resusmakaak (Macaca mulatta mulatta) oorspronkelijk het onderzoeksmodel bij uitstek was, heeft een verbod op de uitvoer van deze makaak de beschikbaarheid van deze dieren sterk verminderd, hetgeen heeft geleid tot een toenemend gebruik van andere makakensoorten en/of ondersoorten, met name de Chinese resusmakaak (CR) (Macaca mulatta lasiota) en de cynomolgus- of krabetende makaak (CE) (Macaca fascicularis).
We sequenceerden de genomen van een vrouwelijke CR makaak en een vrouwelijke CE makaak met behulp van een whole-genome shotgun strategie op een next-generation sequencing platform. Een korte sequentieanalyse van het mitochondriale genoom verifieerde de voorspelde herkomst van beide individuen (Supplementary Section 1). Vervolgens construeerden we 19 en 18 multiple paired-end genomische DNA-bibliotheken met geleidelijk toenemende insert-groottes voor respectievelijk de CR makaak en de CE makaak. De totale omvang van de geassembleerde CR makaak en CE makaak genomen was respectievelijk ∼2.84 Gb en 2.85 Gb, met een 47-voudige en 54-voudige dekking, respectievelijk, gemiddeld (tabel 1 en supplementair deel 1). De steigers werden toegewezen aan de chromosomen volgens de synteny weergegeven met de Indiase rhesus (IR) makaak4 en menselijk genoom sequenties. Ongeveer 97% van de CR makaak scaffolds en 92% van de CE makaak scaffolds kon worden geplaatst op chromosomen. We pasten ook RNA-seq toe om transcripten in verschillende weefsels van één IR makaak en twee CE makaken te profileren (Online Methodes). Een geïntegreerde analyse waarbij genomische en transcriptoomgegevens werden gecombineerd, werd vervolgens gebruikt om de transcriptstructuur te bepalen en het expressieprofiel van elk gen vast te stellen (aanvullend deel 2).
De genetische diversiteit van makaken werd geëvalueerd door vergelijking van het volledige genoom en uitlijning met korte lezingen, waarbij het genoom van de IR-makaak als referentie werd gebruikt. In totaal detecteerden we >20 miljoen single-nucleotide verschillen en 740.827 indel events in de drie makakensoorten of ondersoorten (Supplementary Section 3), wat een overvloed aan genetische heterogeniteit zal opleveren voor gebruik in toekomstige biomedische toepassingen en analyses. We classificeerden alle single-nucleotide variabele sites in drie klassen (gedeelde, vaste en unieke varianten) op basis van hun aan- of afwezigheid in de drie individuen (Fig. 1a). Unieke varianten maakten >71,7% uit van het totaal, wat niet verwonderlijk is gezien het feit dat zelfs binnen een panmictische populatie, 44% van de allelen naar verwachting singletons zullen zijn in een steekproef van drie individuen. Het is opmerkelijk dat een groot aantal genetische verschillen werd gedeeld tussen ten minste twee makaken. Als we alleen gebruik maken van de vaste en unieke variaties, schatten we dat het hoogste divergentiepercentage, 0.40%, tussen de CE makaak en de IR makaak was (Fig. 1b). De sequentie-divergentie tussen de CE makaak en de CR makaak (0,34%), hoewel nominaal verschillende soorten, lag echter dicht bij die waargenomen tussen de ondersoorten, de CR makaak en de IR makaak (0,31%).
Recent onderzoek op basis van beperkte sequentiegegevens heeft gesuggereerd dat een oude introgressie kan hebben plaatsgevonden van CR-apen naar CE-apen die in een overlappend geografisch verspreidingsgebied op het Indo-Chinese schiereiland leven5,6,7. De twee geresequenteerde genomen stelden ons in staat de invloed van deze introgressie op genoomniveau te kwantificeren. Specifiek onderzochten we of een DNA-signaal consistent met interspecies hybridisatie duidelijk was binnen de genomen van de CR makaak en CE makaak. We berekenden de divergentie ratio tussen de CE makaak en de CR makaak en vergeleken deze met de divergentie ratio tussen de CR makaak en de IR makaak voor 50-kb vensters over de uitgelijnde genomen (Supplementary Section 4). Voor deze berekeningen hebben we variaties op CpG plaatsen genegeerd omdat bekend is dat deze bijzonder snel evolueren. Meer dan 27% van de vensters vertoonde een divergentie ratio kleiner dan nul, wat suggereert dat CE en CR makaken in deze regio’s nauwer verwant zijn dan de ondersoorten CR en IR makaken (Supplementary Section 4). Bovendien vertoonden >93% van de 50-kb genomische vensters een lager divergentiepercentage tussen de CE- en CR-apen in vergelijking met de CE- en IR-apen. Daarom konden ongesorteerde voorouderlijke polymorfismen niet volledig het hoge percentage inconsistente regio’s verklaren dat werd waargenomen tussen de CE- en de CR- makaak. Door eerdere single nucleotide polymorphism (SNP) gegevens van IR en CR makakenpopulaties te combineren met gegevens van onze eigen gesequenteerde CR en CE makakenpopulaties8, stelden we bovendien vast dat onze CE makakenpopulatie geclusterd was binnen de CR makakenpopulatie (aanvullend Sectie 4). Dit ondersteunt het optreden van een sterke genenstroom van het CR naar het CE makakengenoom. Door de mate van asymmetrie in de divergentie tussen de CE en CR makaak en tussen de CE en IR makaak te onderzoeken, schatten we dat ∼30% van het CE makaakgenoom van CR makaakafkomst is (Supplementary Section 4).
We hebben vervolgens gezocht naar mogelijke introgressiegebieden (PIRs) in het CE makaakgenoom die door genenstroom zouden kunnen zijn bijgedragen. We gebruikten gesimuleerde data (onder een neutraal geen-migratie model) als controle (Online Methods and Supplementary Section 4), en identificeerden 8.942 PIRs die 778 Mb omspannen met een aanzienlijk lager dan verwachte divergentie tussen de CE en CR makaak (Fig. 2a,b). Na samenvoeging van overlappende PIRs, vonden we dat de meeste PIRs (>98%) korter waren dan 500 kb. Omdat de lengteverdeling van PIRs een functie is van de tijd sinds genoverdracht heeft plaatsgevonden9, suggereert de prevalentie van korte PIRs dat genoverdracht over een langere periode van evolutionaire tijd heeft plaatsgevonden en waarschijnlijk niet alleen het gevolg is geweest van zeer recente door de mens gemedieerde genoverdracht. We hebben ook een duidelijk verschil in variabiliteit tussen de X- en autosomale chromosomen waargenomen (supplementaire paragraaf 4), wat het gevolg zou kunnen zijn van door mannen aangedreven genenstroom. Een factor die waarschijnlijk bijdraagt aan de beperkte genenstroom van CR makaakvrouwtjes naar CE makaakmannetjes is dat CR makaakvrouwtjes een duidelijke seizoensgebondenheid van de eierstokken vertonen en alleen copuleren tijdens de ovulatie, terwijl CE makaakvrouwtjes geen duidelijke seizoensgebondenheid van de voortplanting vertonen en het hele jaar door seksueel ontvankelijk blijven10. Aangezien bij makaken de verspreiding voornamelijk door de mannetjes wordt gestuurd als gevolg van de filopatrie van de vrouwtjes, zou dit ook de genenstroom kunnen verklaren van CR makaakmannetjes naar CE makaakvrouwtjes en de afwezigheid van het omgekeerde. Deze populaties kunnen derhalve van belang zijn voor het bestuderen van fysiologische en gedragsaspecten van voortplanting tussen verschillende soorten.
Een sterke selectie ten gunste van nieuwe voordelige allelen resulteert in een “selectieve veeg” die de genetische diversiteit ten opzichte van niet-geselecteerde gebieden vermindert. We hebben een algoritme ontwikkeld om vermoedelijke “sweep”-regio’s te identificeren die minder variatie tussen de drie makakensoorten/ondersoorten bevatten, en we hebben gesimuleerde gegevens gegenereerd onder de aanname van een neutraal model om de statistische significantie ervan te evalueren (Online Methods and Supplementary Section 5). Wij identificeerden 217 sterk selectieve veeggebieden die een verminderd niveau van variatie tussen makaken vertoonden en die aanzienlijk afweken van de neutrale verwachting (Fig. 2c, supplementaire sectie 5 en supplementaire tabel 17). Opmerkelijk is dat één van de tien grootste selectieve veeggebieden, gelegen op makaakchromosoom 14, slechts één gen bevat, de SET-bindingsfactor 2 (SBF2) (Fig. 2c). Het is dus waarschijnlijk dat dit gen, dat codeert voor een perifeer membraaneiwit van de familie van proteïne-tyrosinefosfatasen, het doelwit was van positieve selectie tijdens de vroege evolutie van makaken. Van potentieel biomedisch belang zijn defecten in het menselijke SBF2-ortholoog die een autosomaal recessieve demyeliniserende vorm van de ziekte van Charcot-Marie-Tooth (CMT4B2) veroorzaken.
Om de potentiële doelwitten van positieve selectie in elke makakentak te onthullen, hebben we 14.978 1:1 gen-orthologs voor mens, chimpansee en de drie makakensoorten/subsoorten toegewezen door genoomuitlijning (Supplementary Section 6). Vergelijking van de makaak orthologe trio’s toonde aan dat zij een extreem hoog niveau van nucleotide sequentie gelijkenis delen binnen gengebieden. Het is opmerkelijk dat 20,7% van de orthologe genen een hogere mate van overeenkomst vertonen tussen CR makaak en CE makaak dan die tussen CR makaak en IR makaak, wat de invloed van introgressie kan impliceren. Vergelijking van gencategorieën op basis van Gene Ontology tussen Macaca, Hominide en Murid lineages gaf aan dat microtubule-gebaseerde processen en de insuline receptor-signaalroute bijzonder snel evolueerden in de Macaca lineage (Supplementary Section 6). Likelihood ratio tests gebaseerd op een branch site model onthulden 16 positief geselecteerde genen specifiek in de IR makakentak, 7 in de CR makakentak en 13 in de CE makakentak (Supplementary Section 6). Het is intrigerend dat 31 van de 36 positief geselecteerde genen bij makaken coderen voor bindingseiwitten die een belangrijke rol spelen bij de regulering van genexpressie. Het is ook vermeldenswaard dat twee genen die coderen voor dendriet-eiwitten, CLCN2 in de IR makakenlijn, en activiteitsgereguleerde, cytoskelet-geassocieerde proteïne (ARC) in de CE makakenlijn, positieve selectie ondergingen. Van deze twee genen, samen met nog eens vijf positief geselecteerde genen, is al bekend dat ze relevant zijn voor genetische ziekten bij de mens, wat wijst op het waarschijnlijke belang van hun biologische functies.
De beschikbaarheid van de genoomsequenties van de CR makaak en CE makaak stelde ons in staat hun genetische diversiteit te evalueren, evenals de genetische verschillen tussen makaken en mensen, wat belangrijk is gezien het prominente gebruik van makaken in biomedisch onderzoek. Vergelijkingen tussen de genomen van makaken toonden de afwezigheid aan van 25 menselijke genen met één kopie (Online Methods and Supplementary Section 6), waaronder een chemokine-receptorgen, IL32, dat een rol kan spelen in zowel aangeboren als adaptieve immuunreacties, en dat bijgevolg belangrijk is om in overweging te nemen wanneer deze makaken worden gebruikt in infectieziektestudies. Bovendien bevatten in totaal 170 genen die verband houden met ziekte of immuniteit bij een of andere makakensoort ofwel frameshift-mutaties ofwel voortijdige stopcodons, waarvan wordt voorspeld dat ze deze genen hebben gepseudogeniseerd (aanvullend deel 6). De authenticiteit van deze truncerende mutaties wordt ondersteund door zowel transcriptoom data en high-depth sequencing reads, als door onafhankelijke PCR validatie. Tweeëndertig van deze genen functioneren in immuniteitspaden en lijken bij makaken verloren te zijn gegaan. Zo is een belangrijk aangeboren-immuniteitsgen, DEFA4, dat codeert voor een van de microbicide en cytotoxische peptiden die door neutrofielen worden gemaakt11, bij alle drie makaken gepseudogeeniseerd door verlies van het eerste exon. Bovendien bevatte het gen voor de Toll-like receptor 4 (TLR4) een deletie van 1 bp, die bij alle drie makaken een voortijdig stopcodon in zijn derde exon genereert (aanvullend deel 6). Van TLR4 is bekend dat het onderhevig is geweest aan positieve selectie bij primaten uit de Oude Wereld12. Opmerkelijk is dat sommige menselijke ziekte-gerelateerde genen ook frameshifts bevatten in hun makaak homologs. We vonden bijvoorbeeld dat alle drie makaken een voortijdig stopcodon hadden in het tweede exon van het opioïde receptor mu1 (OPRM1)-gen, dat codeert voor een eiwit dat verspreid is over de neuraxis en het perifere zenuwstelsel, en dat het primaire doelwit is van opioïden13 (Supplementary Section 6).
We onderzochten ook genetische verschillen in orthologs die specifiek belangrijk zijn in biomedische studies. Het cytoplasmatische tripartite-motif proteïne 5α (gecodeerd door het TRIM5-gen), dat de replicatie van een breed scala van retrovirussen kan beperken, is een belangrijke biomarker die wordt gebruikt om diermodellen van HIV-infectie te selecteren14. Om de genetische diversiteit van TRIM5 in de hele populatie te onderzoeken, hebben we TRIM5 van 33 niet-verwante CE makaken van Vietnamese afkomst en 28 CR makaken geamplificeerd en gesequeneerd (Online Methoden). We hebben bij geen enkel individu een eerder gemelde15 Trim5-cyclophiline A chimera (TRIM-CypA2) gevonden, wat suggereert dat dit genotype zeldzaam is in deze populaties. Er werden echter 19 niet-synonieme polymorfismen en één microdeletie in het TRIM5-gen geïdentificeerd ten opzichte van de IR- makaakreferentie; bijna al deze polymorfismen vertoonden verschillende frequenties tussen de twee populaties (Fig. 3 en aanvullend deel 7). We identificeerden ook een 6-bp deletie in het TRIM5 gen in de CE makaak die resulteert in het verlies van twee aminozuren (Thr339 en Phe340). Recent onderzoek heeft aangetoond dat deletie van deze residuen kan leiden tot verhoogde HIV- of SIV-pathogeniciteit16. Een hoge frequentie (97,5%) van deze mutatie werd aangetroffen in de CE-makaakpopulatie, wat erop wijst dat deze deletie vrijwel vast is komen te liggen in de CE-makaak. Bij de CR-makaakpopulatie daarentegen bedraagt de frequentie van deze mutatie ongeveer 50%, slechts marginaal hoger dan bij de IR-makaakpopulatie (36%)17. De variatie in frequentie van deze 6-bp deletie en van andere polymorfismen tussen makaken van verschillende geografische herkomst zou wel eens verantwoordelijk kunnen zijn voor de waargenomen verschillen in HIV-resistentie tussen deze makakensoorten/ondersoorten16. We hebben ook de genetische variatie in andere ziekte-gerelateerde genen onderzocht in dezelfde populatie CE- of CR-apen, waarbij we hebben vastgesteld dat mutaties vaak met verschillende frequenties voorkomen in de twee soorten (aanvullend deel 7).
Om de orthologs van humane druggable eiwitdomeinen in makaken te bestuderen en een bron te creëren voor de therapeutische exploitatie van het ‘druggable genoom’, hebben we de makaakorthologs gescreend op momenteel bekende drugdomeinen. Bijna alle “druggable” orthologs kunnen worden opgespoord in de drie makakensoorten/-subsoorten, wat erop wijst dat deze diermodellen waarschijnlijk functioneel equivalent zijn. In een zeer klein aantal gevallen verschilt het in makaak gevonden ortholoog echter van zijn menselijke tegenhanger. Zo is bijvoorbeeld een mitochondriaal acyltransferase (GLYATL2), dat een acylgroep aan glycine overdraagt, bij alle drie makaken volledig verdwenen. Bovendien hebben we 19 menselijke genen geïdentificeerd met domeinen die voor geneesmiddelen geschikt zijn, die bij makaken pseudogeen zijn geworden (supplementair hoofdstuk 7). Zo bevat het gen voor de parathyroïdhormoon-1-receptor (PTH1R), het doelwit van het anti-osteoporosemiddel teriparatide (Forteo)18,19, bij makaken een voortijdig stopcodon. Een van de doelwitten van recombinant menselijke keratinocyte groeifactor (Palifermin20), fibroblast groeifactor receptor 3, gecodeerd door FGFR3, is bij makaken ook gepseudogeniseerd door de aanwezigheid van een voortijdig stopcodon.
Van bijkomend biomedisch belang zijn gecompenseerde pathogene afwijkingen. Dit zijn menselijke vermeende pathologische missense allelen waarbij de vervangende aminozuren identiek zijn aan de wild-type aminozuurresiduen op orthologe posities in andere organismen. Wij identificeerden 931 gecompenseerde pathogene afwijkingen in vier nauw verwante primatensoorten (chimpansee en de drie makaken), waarvan er 220 verschilden tussen de niet-menselijke primaten, waaronder 65 die verschilden tussen de drie makakensoorten (supplementaire sectie 8 en supplementaire tabel 26). Eén mutatie (R40→H40) in het gen voor ornithine transcarbamylase (OTC) kwam bijvoorbeeld wel voor bij de twee resusmakaken-ondersoorten, maar niet bij de CE-makaak. Op basis van de hierboven geschetste voorbeelden van geïdentificeerde genetische verschillen is het duidelijk dat met het mogelijke bestaan van dergelijke interspeciesverschillen rekening moet worden gehouden bij de selectie van makaken voor gebruik als ziektemodel.
Vergelijking van genexpressieprofielen (Supplementary Section 9) tussen de CE-makaak en de IR-makaak toonde aan dat hun orthologe genen in hetzelfde weefsel geconserveerde expressieprofielen vertoonden. We stelden echter vast dat de expressieniveaus in de testis meer uiteenliepen tussen de orthologs die lagere Pearson correlatiecoëfficiënten hadden (Supplementary Section 9). De observatie dat meer genen inconsistente expressieniveaus vertonen in testis in vergelijking met de andere weefsels kan in verband worden gebracht met de snelle evolutionaire snelheid die zich manifesteert bij primaat sperma-geëxpresseerde genen21. Transcriptoomgegevens dienden ook om verschillende nieuwe genen in CE-apen te identificeren in vergelijking met resusmakaken.
Concluderend, onze sequentiebepaling en analyses van twee makaken-genomen bevestigden dat introgressieve hybridisatie waarschijnlijk een belangrijke rol heeft gespeeld in de vorming van het genoom van de bestaande uit het vasteland afkomstige CE-makaak. De CE-makaak zou dus een nuttig model kunnen zijn voor het onderzoeken van genenuitwisseling tussen primatensoorten, en de daaruit voortvloeiende rol van dit proces in primatenevolutie en -soortvorming. De twee nieuwe makaakgenomen die hier worden gepresenteerd, benadrukken ook de mate van variatie die bestaat tussen deze veelgebruikte diermodellen van niet-menselijke primaten. De overvloedige genetische diversiteit in individuele makaken van verschillende geografische populaties is van direct belang voor primatologie, preklinische geneeskunde, populatiegenetica en fylogeografische studies.