Os macacos são os primatas não humanos mais difundidos, compreendendo mais de 20 espécies que divergiram umas das outras até 5-6 milhões de anos atrás2. O gênero Macaca está intimamente relacionado aos humanos, compartilhando um último ancestral comum ∼25 milhões de anos atrás3. A estreita relação entre humanos e macacos tornou várias espécies atraentes como modelos animais para diferentes análises biomédicas. Embora a subespécie indiana do rhesus macaque (Macaca mulatta mulatta) tenha sido originalmente o modelo de pesquisa de escolha, a proibição da exportação deste macaco reduziu muito a disponibilidade destes animais, levando a um aumento do uso de outras espécies e/ou subespécies de macacos, em particular o rhesus (CR) macaco chinês (Macaca mulatta lasiota) e o cynomolgus ou caranguejo (CE) macaque (Macaca fascicularis).
Sequenciamos os genomas de uma macaca CR fêmea e de uma macaca CE fêmea usando uma estratégia de caçadeira de genoma inteiro numa plataforma de sequenciamento de próxima geração. Breve análise da sequência genómica mitocondrial verificou a origem prevista de ambos os indivíduos (Secção Complementar 1). Em seguida, construímos 19 e 18 bibliotecas de DNA genômico de múltiplas pontas com tamanhos de inserção gradualmente crescentes para o macaco CR e para o macaco CE, respectivamente. O tamanho total dos genomas montado CR macaco e CE macaco foi, respectivamente, ∼2.84 Gb e 2.85 Gb, fornecendo 47 e 54 vezes a cobertura, respectivamente, em média (Tabela 1 e Seção Suplementar 1). Os andaimes foram atribuídos aos cromossomos de acordo com a síntese exibida com o rhesus (IR) macaque4 indiano e sequências do genoma humano. Cerca de 97% dos andaimes macacos CR e 92% dos andaimes macacos CE puderam ser colocados nos cromossomas. Também aplicamos o RNA-seq para a transcrição do perfil em vários tecidos de um macaco IR e dois macacos CE (Métodos Online). Uma análise integrada combinando dados genômicos e transcriptômicos foi então utilizada para definir a estrutura de transcrição e verificar o perfil de expressão de cada gene (Seção Complementar 2).
A diversidade genética macacaque foi avaliada por comparação de genoma inteiro e alinhamento de leitura curta usando o genoma macaco de IR como referência. No total, detectamos >20 milhões de diferenças de nucleotídeos simples e 740.827 eventos de indel nas três espécies ou subespécies de macacos (Seção Suplementar 3), o que proporcionará heterogeneidade genética abundante para uso em futuras aplicações e análises biomédicas. Classificamos todos os sítios variáveis de um único nucleotídeo em três classes (variantes compartilhadas, fixas e únicas) com base na sua presença ou ausência nos três indivíduos (Fig. 1a). As variantes únicas compreendem >71,7% do total de variantes, o que não é surpreendente dado que, mesmo dentro de uma população de pânico, espera-se que 44% dos alelos sejam unilaterais em uma amostra de três indivíduos. É digno de nota que um grande número de diferenças genéticas foi compartilhado entre pelo menos dois macacos. Utilizando apenas as variações fixas e únicas, estimamos que a maior taxa de divergência, 0,40%, foi entre o macaco CE e o macaco IR (Fig. 1b). Entretanto, a divergência de seqüência entre o macaco CE e o macaco CR (0,34%), embora nominalmente diferente, foi próxima à observada entre a subespécie, o macaco CR e o macaco IR (0,31%).
Pesquisas recentes baseadas em dados de seqüência limitada sugeriram que uma antiga introgressão pode ter ocorrido dos macacos CR para os macacos CE que vivem em uma zona de distribuição geográfica sobreposta na península Indo-Chinesa5,6,7. Os dois genomas sequenciados nos permitiram quantificar a influência desta introgressão a nível do genoma inteiro. Especificamente, exploramos se um sinal de DNA consistente com hibridização interespécies era aparente dentro dos genomas macaco CR e macaco CE. Calculamos a razão de divergência entre o macaco CE e o macaco CR e comparamos com a razão de divergência entre o macaco CR e o macaco IR para janelas de 50-kb nos genomas alinhados (Secção suplementar 4). Para estes cálculos, ignoramos as variações nos locais de CpG porque se sabe que elas evoluem particularmente rapidamente. Mais de 27% das janelas exibiram uma razão de divergência inferior a zero, sugerindo que os macacos CE e CR estão mais intimamente relacionados do que os macacos CR e IR da subespécie nessas regiões (Seção Suplementar 4). Além disso, >93% das janelas genômicas de 50-kb exibiram uma menor taxa de divergência entre os macacos CE e CR em comparação com os macacos CE e IR. Portanto, polimorfismos ancestrais não selecionados não puderam explicar inteiramente a alta proporção de regiões inconsistentes observadas entre os macacos EC e CR. Além disso, ao combinarmos dados anteriores de polimorfismos de nucleotídeos únicos (SNP) de populações de macacos RI e RC com dados de nossos próprios indivíduos sequenciados de RC e CE macacos8 , notamos que nossos indivíduos de CE macacos se agruparam dentro da população de macacos RC (Seção Suplementar 4). Isto suporta a ocorrência de um forte fluxo de genes do CR para o genoma do macaco CE. Através do rastreamento do grau de assimetria na divergência entre a EC e o macaco CR e entre a EC e o macaco IR, estimamos que ∼30% do genoma da EC macaca é de origem macaca do CR (Seção Suplementar 4).
A seguir procuramos identificar regiões de hipotética introgressão (PIRs) no genoma da EC macaca que poderiam ter sido contribuídas pelo fluxo gênico. Utilizamos dados simulados (sob um modelo neutro sem migração) como controle (Métodos Online e Seção Suplementar 4), e identificamos 8.942 PIRs abrangendo 778 Mb com uma taxa de divergência substancial menor do que a esperada entre a EC e o macaco CR (Fig. 2a,b). Após a fusão das PIRs sobrepostas, descobrimos que a maioria das PIRs (>98%) eram menores do que 500 kb. Como a distribuição longitudinal das PIRs é uma função do tempo desde que o fluxo gênico ocorreu9, a prevalência de PIRs curtas sugere que o fluxo gênico ocorreu durante um período prolongado de tempo evolutivo e foi improvável que tenha sido simplesmente uma consequência do fluxo gênico mediado por humanos muito recentes. Também observamos uma diferença acentuada na variabilidade entre o X e os cromossomos autossômicos (seção suplementar 4), que poderia ter resultado do fluxo gênico masculino. Um fator que provavelmente contribui para o fluxo gênico restrito de fêmeas macacas CR a machos CE macacos é que as fêmeas macacas CR exibem marcada sazonalidade ovariana e só copulam durante a ovulação, enquanto as fêmeas macacas CE não exibem sazonalidade reprodutiva distinta e permanecem sexualmente receptivas durante todo o ano10. Além disso, dado que a dispersão é principalmente masculina nos macacos devido à filopatia feminina, isto também poderia explicar o fluxo gênico dos machos da macaca CR para as fêmeas da macaca CE e a ausência do inverso. Estas populações podem, portanto, ser de interesse para o estudo dos aspectos fisiológicos e comportamentais da reprodução entre diferentes espécies.
Seleção forte em favor de novos alelos vantajosos resulta em uma ‘varredura seletiva’ que reduz a diversidade genética em relação às regiões não selecionadas. Desenvolvemos um algoritmo para identificar regiões de varredura putativa contendo variação reduzida entre as três espécies/subespécies macacas, e geramos dados simulados sob a hipótese de um modelo neutro para avaliar sua significância estatística (Métodos Online e Seção Complementar 5). Identificamos 217 regiões de varreduras seletivas fortes que apresentaram um nível reduzido de variação entre os macacos e que se desviaram substancialmente da expectativa neutra (Fig. 2c, Seção Complementar 5 e Tabela Complementar 17). Notavelmente, uma das dez maiores regiões de varredura seletiva, localizada no cromossomo macaco 14, contém apenas um gene, o SET binding factor 2 (SBF2) (Fig. 2c). Assim, é provável que este gene, que codifica uma proteína da membrana periférica da família proteína-tirosina fosfátase, tenha sido alvo de seleção positiva durante a evolução precoce dos macacos. De potencial interesse biomédico, defeitos no ortolog humano SBF2 causam uma forma autossômica recessiva desmielinizante da doença de Charcot-Marie-Tooth (CMT4B2).
Para revelar os potenciais alvos da seleção positiva em cada ramo macaco, designamos 14.978 ortologs 1:1 gênicos para humanos, chimpanzés e as três espécies/subespécies de macacos por alinhamento genômico (Seção Complementar 6). A comparação dos trios de ortologs de macacos revelou que eles compartilham um nível extremamente alto de similaridade de sequência de nucleotídeos dentro das regiões gênicas. É notável que 20,7% dos ortologs apresentam um maior grau de similaridade entre o macaco CR e o macaco CE do que entre o macaco CR e o macaco IR, o que pode implicar a influência da introgressão. A comparação da categoria gênica baseada na ontologia entre as linhagens Macaca, Hominid e Murid indicou que os processos baseados em microtubos e o caminho de sinalização do receptor de insulina evoluíram particularmente rapidamente na linhagem Macaca (Seção Complementar 6). Testes de razão de probabilidade baseados em um modelo de sítio de ramo revelaram 16 genes selecionados positivamente especificamente no ramo Macaca IR, 7 no ramo Macaca CR e 13 no ramo Macaca CE (Seção Suplementar 6). É intrigante que 31 dos 36 genes selecionados positivamente em macacos codificam proteínas de ligação que desempenham papéis importantes na regulação da expressão gênica. Vale ressaltar também que dois genes codificadores de proteínas dendríticas, CLCN2 na linhagem macaca IR, e a proteína associada ao citoesqueleto (ARC), regulada por atividade, na linhagem macaca da EC, experimentaram seleção positiva. Estes dois genes, juntamente com outros cinco genes positivamente selecionados, já são conhecidos por serem relevantes para a doença genética humana, indicando a provável importância de suas funções biológicas.
A disponibilidade das seqüências genômicas do macaco CR e do macaco CE nos permitiu avaliar sua diversidade genética, assim como as diferenças genéticas entre macacos e humanos, o que é importante dado o uso proeminente dos macacos na pesquisa biomédica. Comparações entre os genomas dos macacos revelaram a ausência de 25 genes humanos de cópia única (Online Methods e Supplementary Section 6), incluindo um gene receptor de quimiocina, IL32, que pode desempenhar um papel tanto em respostas imunes inatas como adaptativas, sendo consequentemente importante considerar quando estes macacos são utilizados em estudos de doenças infecciosas. Além disso, um total de 170 genes relacionados à doença ou imunidade em uma ou outra espécie macaca contém mutações frameshift ou códons de parada prematura, que seriam previstos para ter pseudo-genificado esses genes (Seção Complementar 6). A autenticidade destas mutações truncantes é suportada tanto por dados transcriptométricos como por leituras em sequência de alta profundidade, assim como pela validação independente por PCR. Trinta e dois desses genes funcionam em vias imunológicas e parecem ter sido perdidos em macacos. Por exemplo, um importante gene de imunidade inata, o DEFA4, que codifica um dos peptídeos microbicidas e citotóxicos feitos pelos neutrófilos11, foi pseudogenificado nos três macacos devido à perda do seu primeiro exão. Além disso, o gene Toll-like receptor 4 (TLR4) continha uma deleção de 1-bp, que gera um códon de parada prematura em seu terceiro exon nos três macacos (seção suplementar 6). O TLR4 foi reportado como estando sob seleção positiva nos primatas do Velho Mundo12. Notavelmente, alguns genes relacionados a doenças humanas também contêm frameshifts em seus homólogos macacos. Por exemplo, descobrimos que todos os três macacos tinham um códon de parada prematura no segundo exon do gene receptor opióide mu1 (OPRM1), que codifica uma proteína distribuída por todo o neuraxis e sistema nervoso periférico, e que é o alvo primário dos opióides13 (Seção Complementar 6).
Nós também investigamos diferenças genéticas em ortologs que são especificamente importantes em estudos biomédicos. A proteína tripartit-motif citoplasmática 5α (codificada pelo gene TRIM5), que pode restringir a replicação de uma ampla gama de retrovírus, é um biomarcador chave usado para selecionar modelos animais de infecção pelo HIV14. Para pesquisar a diversidade genética da TRIM5 em toda a população, amplificamos e sequenciamos a TRIM5 a partir de 33 indivíduos CE macacos não relacionados de origem vietnamita e 28 indivíduos CR macacos (Métodos Online). Não detectamos uma quimera Trim5-cyclophilin A (TRIM-CypA2) previamente descrita15 em nenhum indivíduo, sugerindo que este genótipo é raro nestas populações. Entretanto, 19 polimorfismos não-sinônimos e uma microdeleção foram identificados no gene TRIM5 em relação à referência macaque IR; quase todos esses polimorfismos apresentaram frequências diferentes entre as duas populações (Fig. 3 e Seção Complementar 7). Também identificamos uma deleção de 6-bp no gene TRIM5 no macaco da EC que resulta na perda de dois aminoácidos (Thr339 e Phe340). Pesquisas recentes indicaram que a deleção desses resíduos poderia levar a um aumento da patogenicidade do HIV ou SIV16. Uma alta freqüência (97,5%) desta mutação foi detectada na população da CE macaque, indicando que esta deleção se tornou praticamente fixa na CE macaque. Em contraste, na população macaca CR, a frequência desta mutação é cerca de 50%, apenas marginalmente maior que na população macaca IR (36%)17. A variação na freqüência dessa deleção de 6-bp e de outros polimorfismos entre macacos de diferentes origens geográficas pode ser responsável pelas diferenças observadas na resistência ao HIV entre essas espécies/subespécies de macacos16. Também pesquisamos a variação genética de outros genes relacionados à doença na mesma população de macacos EC ou CR, observando que as mutações freqüentemente ocorrem em frequências diferentes nas duas espécies (Seção Complementar 7).
Para estudar os ortologs dos domínios das proteínas drogáveis humanas em macacos e para criar um recurso para a exploração terapêutica do ‘genoma drogável’, fizemos uma triagem dos ortologs macacos para os domínios das drogas actualmente conhecidos. Quase todos os ortologs drogáveis podem ser detectados nas três espécies/subespécies de macacos, indicando que estes modelos animais são provavelmente equivalentes em termos funcionais. No entanto, em muito poucos casos, o ortolog encontrado no macaque é diferente do seu homólogo humano. Por exemplo, uma acilotransferase mitocondrial (GLYATL2), que transfere um grupo de acilo para glicina, foi completamente perdida em todos os três macacos. Além disso, identificamos 19 genes humanos com domínios drogáveis, que se tornaram pseudogenes em macacos (Secção Complementar 7). Por exemplo, o gene do receptor da hormona paratiróide 1 (PTH1R), alvo do medicamento anti-osteoporose teriparatide (Forteo)18,19, contém um códão de paragem prematura nos macacos. Um dos alvos do fator de crescimento de queratinócitos humanos recombinantes (Palifermin20), receptor do fator de crescimento do fibroblasto 3, codificado por FGFR3, também foi pseudogenificado em macacos devido à presença de um códão de parada prematura.
De interesse biomédico adicional são os desvios patogênicos compensados. Estes representam alelos putativamente patológicos patológicos onde os aminoácidos substitutos são idênticos aos resíduos de aminoácidos do tipo selvagem em posições ortológicas em outros organismos. Identificamos 931 desvios patogênicos compensados em quatro espécies de primatas estreitamente relacionados (chimpanzé e os três macacos), dos quais 220 variaram entre os primatas não humanos, incluindo 65 que variaram entre as três espécies macacas (Seção 8 e Tabela Suplementar 26). Por exemplo, uma mutação (R40→H40) no gene ornithine transcarbamylase (OTC) foi evidente nas duas subespécies de rhesus macaque mas não no macaque CE. Com base nos exemplos de diferenças genéticas identificadas acima, fica claro que a existência potencial dessas diferenças interespécies deve ser considerada ao selecionar macacos para uso como modelos de doença.
Comparação dos perfis de expressão gênica (Seção Suplementar 9) entre o macaco da EC e o macaco da IR revelou que seus ortologs apresentavam perfis de expressão conservados no mesmo tecido. Entretanto, notamos que os testículos exibiam níveis de expressão mais divergentes entre os ortologs que apresentavam menores coeficientes de correlação de Pearson (Seção Suplementar 9). A observação de que mais genes apresentam níveis de expressão inconsistentes nos testículos em comparação com os outros tecidos pode estar relacionada com a rápida taxa evolutiva manifestada pelos genes primatas espermatozóides21. Dados transcritores também serviram para identificar vários genes novos em macacos da EC em relação aos macacos rhesus.
Em conclusão, nosso sequenciamento e análise de dois genomas macacos confirmou que a hibridação introgressiva provavelmente desempenhou um papel importante na formação do genoma do macaco da EC de origem principal existente. Assim, o macaco CE poderia ser um modelo útil para a exploração do intercâmbio genético entre espécies de primatas, e o conseqüente papel deste processo na evolução e especiação dos primatas. Os dois novos genomas macacos aqui apresentados também destacam o grau de variação existente entre estes modelos animais primatas não humanos amplamente utilizados. A abundante diversidade genética evidente em macacos individuais de populações geográficas distintas é de interesse direto para a primatologia, medicina pré-clínica, genética populacional e estudos filogeográficos.