Makakerna är de mest utbredda av de icke-mänskliga primaterna, och består av mer än 20 arter som skilde sig åt från varandra för upp till 5-6 miljoner år sedan2. Macaca-släktet är nära besläktat med människan och delar en sista gemensam förfader ∼25 miljoner år sedan3. Den nära relationen mellan människor och makaker har gjort flera arter attraktiva som djurmodeller för olika biomedicinska analyser. Även om den indiska underarten av rhesusmakaken (Macaca mulatta mulatta) ursprungligen var den föredragna forskningsmodellen, har ett förbud mot export av denna makak kraftigt minskat tillgången på dessa djur, vilket har lett till ökad användning av andra makakarter och/eller underarter, särskilt den kinesiska rhesusmakaken (CR) (Macaca mulatta lasiota) och den cynomolgus- eller krabbätande makaken (CE) (Macaca fascicularis).
Vi sekvenserade genomet hos en kvinnlig CR-makak och en kvinnlig CE-makak med hjälp av en whole-genome shotgun-strategi på en nästa generations sekvenseringsplattform. Kortfattat mitokondriell genomsekvensanalys verifierade det förutspådda ursprunget hos båda individerna (kompletterande avsnitt 1). Vi konstruerade sedan 19 och 18 genomiska DNA-bibliotek med flera parade ändar med gradvis ökande insättningsstorlekar för CR-makaken respektive CE-makaken. Den totala storleken på de sammansatta genomen för CR-makaken och CE-makaken var ∼2,84 Gb respektive 2,85 Gb, vilket ger en 47-faldig respektive 54-faldig täckning i genomsnitt (tabell 1 och kompletterande avsnitt 1). Ställningarna tilldelades till kromosomerna i enlighet med den syntes som visades med den indiska rhesusmakaken (IR)4 och den mänskliga genomsekvensen. Ungefär 97 % av CR-makakernas ställningar och 92 % av CE-makakernas ställningar kunde placeras på kromosomerna. Vi tillämpade också RNA-seq för att profilera transkript i olika vävnader från en IR-makak och två CE-makaker (Online Methods). En integrerad analys som kombinerade genom- och transkriptomdata användes sedan för att definiera transkriptstrukturen och fastställa uttrycksprofilen för varje gen (kompletterande avsnitt 2).
Makakernas genetiska diversitet utvärderades genom jämförelse av hela arvsmassan och kortläsningsanpassning med IR-makakens arvsmassa som referens. Totalt upptäckte vi >20 miljoner skillnader i enskilda nukleotider och 740 827 indel-händelser i de tre makakarterna eller -underarterna (kompletterande avsnitt 3), vilket kommer att ge riklig genetisk heterogenitet för användning i framtida biomedicinska tillämpningar och analyser. Vi klassificerade alla variabla platser för enskilda nukleotider i tre klasser (delade, fasta och unika varianter) baserat på deras närvaro eller frånvaro hos de tre individerna (fig. 1a). Unika varianter utgjorde >71,7 % av de totala varianterna, vilket inte är förvånande med tanke på att även inom en panmiktisk population förväntas 44 % av allelerna vara singletoner i ett prov av tre individer. Det är anmärkningsvärt att ett stort antal genetiska skillnader delades mellan minst två makaker. Genom att endast använda de fasta och unika variationerna uppskattade vi att den högsta divergensgraden, 0,40 %, fanns mellan CE-makaken och IR-makaken (fig. 1b). Sekvensdivergensen mellan CE-makaken och CR-makaken (0,34 %), även om de nominellt sett är olika arter, låg dock nära den som observerades mellan underarterna CR-makaken och IR-makaken (0,31 %).
Nyligen genomförd forskning baserad på begränsade sekvensdata har föreslagit att en gammal introgression kan ha inträffat från CR-makaker till CE-makaker som lever i ett överlappande geografiskt utbredningsområde på den indokinesiska halvön5,6,7. De två sekvenserade genomerna gjorde det möjligt för oss att kvantifiera påverkan av denna introgression på helgenomnivå. Specifikt undersökte vi om en DNA-signal som är förenlig med hybridisering mellan arter var tydlig inom CR-makakens och CE-makakens genomer. Vi beräknade divergensförhållandet mellan CE-makaken och CR-makaken och jämförde det med divergensförhållandet mellan CR-makaken och IR-makaken för 50-kb-fönster över de anpassade genomerna (kompletterande avsnitt 4). Vid dessa beräkningar bortsåg vi från variationer på CpG-platser eftersom de är kända för att utvecklas särskilt snabbt. Över 27 % av fönstren uppvisade en divergenskvot som var mindre än noll, vilket tyder på att CE- och CR-makaker är närmare besläktade än underarterna CR- och IR-makaker i dessa regioner (kompletterande avsnitt 4). Dessutom uppvisade >93 % av de genomiska fönstren på 50 kb en lägre divergenskvot mellan CE- och CR-makaker i jämförelse med CE- och IR-makaker. Därför kunde osorterade polymorfismer från förfäderna inte helt och hållet förklara den höga andelen inkonsekventa regioner som observerades mellan CE-makaken och CR-makaken. Genom att kombinera tidigare data om polymorfism av enskilda nukleotider (SNP) från IR- och CR-makakpopulationer med data från våra egna sekvenserade CR- och CE-makakindivider8 noterade vi dessutom att vår CE-makakindivid klustrade inom CR-makakpopulationen (kompletterande avsnitt 4). Detta stöder förekomsten av ett starkt genflöde från CR- till CE-makakgenom. Genom att screena graden av asymmetri i divergensen mellan CE- och CR-makaken och mellan CE- och IR-makaken uppskattade vi att ∼30 % av CE-makakens genom är av CR-makakens ursprung (kompletterande avsnitt 4).
Nästan försökte vi identifiera putativa introgressionsregioner (PIR) i CE-makakens genom som kan ha bidragit till genflödet. Vi använde simulerade data (enligt en neutral modell utan migration) som kontroll (Online Methods och Supplementary Section 4) och identifierade 8 942 PIRs som sträcker sig över 778 Mb med en väsentligt lägre divergensgrad än förväntat mellan CE- och CR-makaken (Fig. 2a,b). Efter sammanslagning av överlappande PIR:er fann vi att de flesta PIR:er (>98 %) var kortare än 500 kb. Eftersom längdfördelningen av PIRs är en funktion av den tid som förflutit sedan genflödet inträffade9 , tyder förekomsten av korta PIRs på att genflödet inträffade under en längre tidsperiod av evolutionär tid och att det är osannolikt att det bara var en följd av mycket nyligen inträffat mänskligt förmedlat genflöde. Vi observerade också en markant skillnad i variabilitet mellan X- och autosomala kromosomer (kompletterande avsnitt 4), vilket kan ha varit ett resultat av manligt drivet genflöde. En trolig bidragande faktor till det begränsade genflödet från CR-makakhonor till CE-makakhanar är att CR-makakhonor uppvisar en tydlig säsongsbundenhet i äggstockarna och endast kopulerar under ägglossningen, medan CE-makakhonor inte uppvisar någon distinkt säsongsbundenhet i reproduktionen och förblir sexuellt mottagliga under hela året10. Med tanke på att spridningen i första hand är manligt driven hos makaker på grund av att honorna är filopatriska kan detta också förklara genflödet från CR-makakhanar till CE-makakhonor och frånvaron av det omvända. Dessa populationer kan därför vara av intresse för att studera fysiologiska och beteendemässiga aspekter av reproduktion mellan olika arter.
Stark selektion till förmån för nya fördelaktiga alleler resulterar i en ”selektiv svepning” som minskar den genetiska mångfalden i förhållande till icke-selekterade regioner. Vi utvecklade en algoritm för att identifiera förmodade svepregioner som innehåller minskad variation mellan de tre makakarterna/underarterna och genererade simulerade data under antagandet av en neutral modell för att utvärdera dess statistiska signifikans (Online Methods och Supplementary Section 5). Vi identifierade 217 starkt selektiva svepregioner som uppvisade en minskad variationsnivå mellan makaker och som väsentligt avvek från den neutrala förväntan (fig. 2c, kompletterande avsnitt 5 och kompletterande tabell 17). Det är anmärkningsvärt att en av de tio största selektiva svepregionerna, som ligger på makakens kromosom 14, innehåller endast en gen, SET-bindningsfaktor 2 (SBF2) (fig. 2c). Det är därför troligt att denna gen, som kodar för ett perifert membranprotein från protein-tyrosinfosfatas-familjen, var måltavla för positivt urval under den tidiga evolutionen av makaker. Av potentiellt biomedicinskt intresse orsakar defekter i den mänskliga SBF2-ortologen en autosomalt recessiv demyeliniserande form av Charcot-Marie-Tooth-sjukdomen (CMT4B2).
För att avslöja de potentiella målen för positivt urval i varje makakgren tilldelade vi 14 978 1:1 genortologer för människa, schimpans och de tre makakarterna/underarterna genom genomgångsjustering (kompletterande avsnitt 6). En jämförelse av makakens ortologtrion visade att de delar en extremt hög nivå av nukleotidsekvenslikhet inom genregioner. Det är anmärkningsvärt att 20,7 % av ortologerna uppvisar en högre grad av likhet mellan CR-makaken och CE-makaken än mellan CR-makaken och IR-makaken, vilket kan tyda på introgression. En Gene Ontology-baserad jämförelse av genkategorier mellan Macaca-, Hominid- och Murid-linjerna visade att mikrotubuli-baserade processer och insulinreceptor-signalvägen utvecklades särskilt snabbt i Macaca-linjen (kompletterande avsnitt 6). Likelihood ratio-tester baserade på en grenplatsmodell avslöjade 16 positivt valda gener specifikt i IR-makakgrenen, 7 i CR-makakgrenen och 13 i CE-makakgrenen (kompletterande avsnitt 6). Det är fascinerande att 31 av de 36 positivt valda generna hos makaker kodar för bindande proteiner som spelar viktiga roller i regleringen av genuttryck. Det är också värt att notera att två gener som kodar för dendritproteiner, CLCN2 i IR-makakgrenen och aktivitetsreglerat, cytoskelettassocierat protein (ARC) i CE-makakgrenen, upplevde positivt urval. Dessa två gener, tillsammans med ytterligare fem positivt selekterade gener, är redan kända för att vara relevanta för genetiska sjukdomar hos människor, vilket tyder på den sannolika betydelsen av deras biologiska funktioner.
Föreliggandet av CR-makakens och CE-makakens genomsekvenser gjorde det möjligt för oss att utvärdera deras genetiska mångfald, liksom de genetiska skillnaderna mellan makaker och människor, vilket är viktigt med tanke på den framträdande användningen av makaker inom biomedicinsk forskning. Jämförelser mellan makakgenomerna avslöjade avsaknaden av 25 mänskliga enkelkopierade gener (Online Methods och Supplementary Section 6), inklusive en kemokinreceptorgen, IL32, som kan spela en roll i både medfödda och adaptiva immunsvar, och som därför är viktig att beakta när dessa makaker används i studier av infektionssjukdomar. Dessutom innehåller totalt 170 gener som är relaterade till sjukdom eller immunitet hos en eller annan makakartyp antingen ramförskjutningsmutationer eller för tidiga stoppkodoner, vilket skulle förutsägas ha pseudogeniserat dessa gener (kompletterande avsnitt 6). Äktheten hos dessa trunkerande mutationer stöds både av transkriptomdata och högdjupade sekvenseringsläsningar samt oberoende PCR-validering. Trettiotvå av dessa gener fungerar i immunitetsvägar och verkar ha gått förlorade hos makaker. Till exempel har en viktig gen för det medfödda immunförsvaret, DEFA4, som kodar för en av de mikrobicida och cytotoxiska peptider som tillverkas av neutrofiler11 , pseudogeniserats i alla tre makakerna på grund av förlusten av dess första exon. Dessutom innehöll genen för Toll-like receptor 4 (TLR4) en deletion på 1 bp, vilket genererar en för tidig stoppkodon i dess tredje exon i alla tre makakerna (kompletterande avsnitt 6). TLR4 har rapporterats ha varit föremål för positivt urval hos primater från den gamla världen12. Det är anmärkningsvärt att vissa mänskliga sjukdomsrelaterade gener också innehåller ramförskjutningar i sina makakhomologer. Vi fann till exempel att alla tre makakerna hade en för tidig stoppkodon i det andra exonet av genen opioidreceptor mu1 (OPRM1), som kodar för ett protein som distribueras i hela neuraxeln och det perifera nervsystemet och som är den primära måltavlan för opioider13 (Kompletterande avsnitt 6).
Vi undersökte också genetiska skillnader i ortologer som är särskilt viktiga i biomedicinska studier. Det cytoplasmatiska tripartite-motifproteinet 5α (kodat av TRIM5-genen), som kan begränsa replikationen av ett brett spektrum av retrovirus, är en viktig biomarkör som används för att välja ut djurmodeller av hiv-infektion14. För att kartlägga TRIM5:s genetiska mångfald i hela populationen PCR-amplifierade och sekvenserade vi TRIM5 från 33 obesläktade CE-makaker av vietnamesiskt ursprung och 28 CR-makaker (Online Methods). Vi upptäckte inte en tidigare rapporterad15 Trim5-cyclophilin A chimär (TRIM-CypA2) hos någon individ, vilket tyder på att denna genotyp är sällsynt i dessa populationer. 19 nonsynonyma polymorfismer och en mikrodeletion identifierades dock i TRIM5-genen i förhållande till IR-makakreferensen; nästan alla dessa polymorfismer uppvisade olika frekvenser mellan de två populationerna (fig. 3 och kompletterande avsnitt 7). Vi identifierade också en 6-bp-deletion i TRIM5-genen i CE-makaken som resulterar i förlust av två aminosyror (Thr339 och Phe340). Ny forskning har visat att deletion av dessa rester kan leda till ökad patogenicitet hos hiv eller SIV16. En hög frekvens (97,5 %) av denna mutation upptäcktes i CE-makakpopulationen, vilket tyder på att denna deletion har blivit praktiskt taget fixerad i CE-makaken. I CR-makakpopulationen är däremot frekvensen av denna mutation cirka 50 %, vilket bara är marginellt högre än i IR-makakpopulationen (36 %)17. Variationen i frekvensen av denna 6-bp-deletion och andra polymorfismer mellan makaker av olika geografiskt ursprung kan mycket väl vara orsaken till de observerade skillnaderna i hiv-resistens mellan dessa arter/underarter av makaker16. Vi undersökte också den genetiska variationen i andra sjukdomsrelaterade gener i samma population av CE- eller CR-makaker och konstaterade att mutationer ofta förekommer med olika frekvens hos de två arterna (kompletterande avsnitt 7).
För att studera ortologerna av humana läkemedelsbara proteindomäner i makaker och för att skapa en resurs för det terapeutiska utnyttjandet av det ”läkemedelsbara genomet” har vi undersökt makakernas ortologer för för närvarande kända läkemedelsdomäner. Nästan alla de ortologer som kan användas för att behandla läkemedel kan upptäckas i de tre makakarterna/underarterna, vilket tyder på att dessa djurmodeller sannolikt är funktionellt likvärdiga. I ett mycket litet antal fall skiljer sig dock den ortolog som hittats i makaken från dess motsvarighet hos människan. Till exempel har ett mitokondriellt acyltransferas (GLYATL2), som överför en acylgrupp till glycin, helt försvunnit i alla tre makakerna. Dessutom identifierade vi 19 mänskliga gener med läkemedelsdomäner som har blivit pseudogener hos makaker (kompletterande avsnitt 7). Till exempel innehåller genen för receptorn för parathormon 1 (PTH1R), som är måltavla för läkemedlet mot osteoporos teriparatid (Forteo)18,19, ett för tidigt stoppkodon i makaker. Ett av målen för rekombinant human keratinocyttillväxtfaktor (Palifermin20), fibroblasttillväxtfaktorreceptor 3, som kodas av FGFR3, har också pseudogeniserats hos makaker på grund av förekomsten av ett för tidigt stoppkodon.
Av ytterligare biomedicinskt intresse är kompenserade patogena avvikelser. Dessa representerar mänskliga förmodat patologiska missense-alleler där de substituerande aminosyrorna är identiska med aminosyraresterna av vildtyp vid ortologa positioner i andra organismer. Vi identifierade 931 kompenserade patogena avvikelser hos fyra närbesläktade primatarter (schimpans och de tre makakerna), varav 220 varierade mellan de icke-mänskliga primaterna, inklusive 65 som varierade mellan de tre makakerna (kompletterande avsnitt 8 och kompletterande tabell 26). En mutation (R40→H40) i genen för ornitintranskarbamylas (OTC) förekom till exempel hos de två underarterna av rhesusmakaker men inte hos CE-makaken. Baserat på de exempel på identifierade genetiska skillnader som beskrivs ovan är det uppenbart att den potentiella förekomsten av sådana skillnader mellan arter bör beaktas när man väljer makaker för användning som sjukdomsmodeller.
Vid jämförelse av genuttrycksprofiler (kompletterande avsnitt 9) mellan CE-makaken och IR-makaken visade det sig att deras ortologer uppvisade konserverade uttrycksprofiler i samma vävnad. Vi noterade dock att testikeln uppvisade uttrycksnivåer som var mer divergerande mellan de ortologer som hade lägre Pearsonkorrelationskoefficienter (kompletterande avsnitt 9). Observationen att fler gener uppvisar inkonsekventa uttrycksnivåer i testiklarna jämfört med de andra vävnaderna kan vara relaterad till den snabba evolutionstakten hos de gener som uttrycks i spermier hos primater21. Transkriptomdata tjänade också till att identifiera flera nya gener i CE-makaker med avseende på rhesusmakaker.
Sammanfattningsvis bekräftade vår sekvensering och analys av två makakgenom att introgressiv hybridisering troligen spelade en viktig roll i bildandet av genomet hos den existerande CE-makaken med ursprung på fastlandet. CE-makaken skulle således kunna vara en användbar modell för att utforska genutbyte mellan primatarter och den roll som denna process följaktligen spelar för primaternas evolution och artbildning. De två nya makakgenomerna som presenteras här belyser också den grad av variation som finns mellan dessa allmänt använda djurmodeller för icke-mänskliga primater. Den rikliga genetiska mångfalden hos enskilda makaker från olika geografiska populationer är av direkt intresse för primatologi, preklinisk medicin, populationsgenetik och fylogeografiska studier.