マカクは霊長類の中で最も普及しており、20種以上からなり最大500~600万年前に互いに分岐した2.The macaques is the most widespread from nonhuman primates. マカク属はヒトと近縁で、最後の共通祖先を∼2500万年前に共有している3。 ヒトとマカクの密接な関係から、いくつかの種は様々な生物医学的解析のための動物モデルとして魅力的な存在となっている。 当初はアカゲザルのインド亜種(Macaca mulatta mulatta)が研究モデルとして選ばれていましたが、アカゲザルの輸出が禁止されたことにより、これらの動物の入手性が大幅に低下し、他のマカクの種や亜種、特にシナアカゲザル(Macaca mulatta lasiota)およびカニクイザル(Macaca fascicularis)の使用が増えてきています。

我々は、次世代シーケンサーを用いた全ゲノムショットガン戦略により、CRマカク雌とCEマカク雌のゲノムを配列決定した。 簡単に言うとミトコンドリアゲノムの配列解析により、両個体の予測される起源を検証した(補章1)。 次に、CRマカクとCEマカクについて、挿入サイズが徐々に増加する19個体と18個体のマルチプルペアエンドゲノムDNAライブラリーを構築した。 その結果、CRマカクとCEマカクのゲノムサイズはそれぞれ約2.84 Gbと2.85 Gbとなり、平均してそれぞれ47倍と54倍をカバーすることができた(表1および補遺1)。 この足場は、インドアカゲザル(IR)4およびヒトのゲノム配列とのシンテニーに従って染色体上に配置されました。 CRマカクの約97%、CEマカクの約92%のスカフォールドを染色体上に配置することができた。 また、RNA-seqを応用して、IRマカク1匹とCEマカク2匹の様々な組織における転写産物をプロファイリングした(Online Methods)。 その後、ゲノムとトランスクリプトームデータを組み合わせた統合解析により、転写物の構造を定義し、各遺伝子の発現プロファイルを確認した(補足セクション2)。

Table 1 Genome sequencing and assembly statistics

マカの遺伝子多様性は、IR マカのゲノムを参照として全ゲノム比較およびショートリード配列により評価を行った。 その結果、3つのマカク種または亜種において、合計で>2000万個の一塩基の差と740,827個のインデルイベントを検出し(補足セクション3)、将来の生物医学的応用や分析に利用できる豊富な遺伝的異質性を提供することができる。 我々は、3個体における一塩基変異部位の有無に基づいて、すべての一塩基変異部位を3つのクラス(共有変異、固定変異、固有変異)に分類した(図1a)。 ユニークバリアントは全バリアントの>71.7%を占め、汎民族集団であっても、3個体のサンプルでは対立遺伝子の44%が一重であると予想されることを考えると、これは当然のことである。 注目すべきは、多数の遺伝的差異が少なくとも2頭のマカク間で共有されていたことである。 固定変異と固有変異のみを用いて、最も高い分岐率である0.40%はCEマカクとIRマカクの間であると推定された(図1b)。 しかし、CEマカクとCRマカクの間の配列分岐率(0.34%)は、名目上異なる種でありながら、亜種であるCRマカクとIRマカクの間で観察される配列分岐率(0.31%)に近いものであることがわかった。

図1:マカク種/亜種間の一塩基分岐度

(a)マカク種間の一塩基分岐度を分類したもの。 マカク種間の∼2,000万個の一塩基の違いを3つのサブクラスに分類した。 重複する領域は、2個体間あるいは全個体間で共有されるヘテロ接合型変異を表している。 Uは、それぞれの種で明らかなユニークなヘテロ接合型変異、Fは、それぞれの種で固定されたホモ接合型変異の数。 (b)マカク種間の一塩基分岐を、ゲノム全体で100kbのウィンドウで示した。 ヘテロ接合型変異はこの計算では無視された。 アカゲザルの2亜種間のX染色体の分岐は有意な外れ値であった(P < 0.05, Grubbsの検定)。 CE, カニクイザル; CR, 中国アカゲザル; IR, インドアカゲザル.

限られた配列データに基づく最近の研究により、インドシナ半島の地理的分布域に重複して住むCRマカクからCEマカクへ古代導入が起こった可能性が示唆されている5,6,7. この2つのゲノムの配列決定により、この導入の影響を全ゲノムレベルで定量化することができた。 具体的には、CRマカクとCEマカクのゲノム内に種間交雑と一致するDNAシグナルが明らかであるかどうかを調べた。 我々は、CEマカクとCRマカク間の乖離率を計算し、整列したゲノムの50kbウィンドウについてCRマカクとIRマカク間の乖離率と比較した(補遺4項)。 これらの計算では、CpG部位は特に急速に進化することが知られているため、その変異を無視した。 27%以上のウインドウで分岐比が0未満となり、これらの領域ではCEマカクとCRマカクは亜種CRマカクやIRマカクよりも近縁であることが示唆された(Supplementary Section 4)。 また、50kbのゲノムウィンドウの>93%はCEマカクとCRマカクの間でCEマカクとIRマカクに比べ低い乖離率を示していた。 したがって、CEマカクとCRマカクの間で観察される矛盾した領域の高い割合を、選別されていない祖先の多型では完全に説明できないことがわかった。 さらに、IRマカクとCRマカクの集団から得られた過去の一塩基多型(SNP)データと、私たち自身がシークエンスしたCRマカクとCEマカクの個体のデータ8を組み合わせることによって、私たちのCEマカク個体がCRマカク集団内でクラスター化していることに気づいた(補遺4)。 このことは、CRマカクからCEマカクへの強い遺伝子流の発生を支持するものである。 CEマカクとCRマカク、CEマカクとIRマカクの分岐の非対称性の程度をスクリーニングすることにより、CEマカクゲノムの約30%がCRマカク由来であると推定された(Supplementary Section 4)。 その結果、CEマカクとCRマカクの間で予想よりも大幅に低い分岐率を示す778 Mbに及ぶ8,942のPIRを同定した(図2a,b)。 重複するPIRをマージした結果、ほとんどのPIR(>98%)は500kbより短いことがわかった。 PIRの長さ分布は遺伝子流動が起こってからの時間の関数であるため9、短いPIRが多いことは、遺伝子流動が進化の長い期間にわたって起こったことを示唆しており、ごく最近のヒトを介した遺伝子流動の単なる結果である可能性は低いと思われる。 また、X染色体と常染色体の間で顕著な変異の差が観察されたが(補遺4)、これは男性主導の遺伝子フローに起因する可能性がある。 CRマカクの雌からCEマカクの雄への遺伝子フローが制限された要因として、CRマカクの雌は顕著な卵巣季節性を示し、排卵期のみ交尾するのに対し、CEマカクの雌は明確な生殖季節性を示さず、一年を通して性的に受容されたままであることが考えられる10. また、マカクの分散は雌の俗物性によって主に雄が主導することから、CRマカクの雄からCEマカクの雌への遺伝子の流れがあり、その逆がないことも説明できるかもしれない。

図2: 発散率と選択的掃引領域(Divergence rate and selective sweep regions)。

(a) 14番染色体を挟んだマカク間の遺伝的距離(青曲線)、ヒトとマカク間の距離(赤曲線)、マカク種/亜種間の距離(IRとCRは緑曲線、CRとCEは黄曲線)である。 赤の破線は、ヒトとマカクの平均的な遺伝的距離を表している。 青の点線はマカク間の平均的な遺伝的距離を表している。 下部の赤い棒は選択的掃射の候補領域、青い棒は推定的導入領域を示している。 すべての種で変異がゼロである連続した領域(約 20 Mb の領域など)は、配列決定ギャップまたはアラインメントギャップ領域である。 (b) 2頭のアカゲザル(IRマカクとCRマカク)間よりもCEマカクとCRマカク間で変異が少ない導入候補領域(青斜線)。 (c)400kbの選択的掃引領域で、1つの遺伝子のみを含む。 赤色のバーはSBF2遺伝子のコード領域を示し、赤色の斜線枠は推定されるselective sweepの範囲に対応する。

新しい有利な対立遺伝子を好む強い選択により、「選択的スイープ」は、選択されていない領域に比べ遺伝的多様性を減少させる。 我々は、3つのマカク種/亜種間で変動が減少している推定掃引領域を特定するアルゴリズムを開発し、その統計的有意性を評価するために中立モデルを仮定したシミュレーションデータを作成した(オンラインメソッドおよび補足セクション5)。 その結果、マカク間の変異レベルの減少を示し、中立の期待値から大きく乖離した217の強い選択的掃引領域を同定した(図2c、補章5、補章表17)。 注目すべきは、10大選択的スイープ領域の1つであるマカク14番染色体上にあるSET結合因子2(SBF2)という1つの遺伝子のみを含む点である(図2c)。 この遺伝子は、タンパク質チロシンホスファターゼファミリーに属する末梢膜タンパク質をコードしており、マカクの初期進化において正の選択のターゲットとなった可能性がある。 ヒトのSBF2オルソログの欠損は、常染色体劣性遺伝の脱髄型シャルコー・マリー・トゥース病(CMT4B2)を引き起こす。

各マカクの枝における正の選択の標的の可能性を明らかにするために、ヒト、チンパンジー、3種のマカクの1:1遺伝子オルソログ14,978をゲノムアライメントによって割り当てた(補足セクション6)。 マカクスのオルソログ3種を比較した結果、遺伝子領域内の塩基配列の類似性が極めて高いことがわかった。 特に、CRマカクとCEマカクの間では、20.7%のオルソログがCRマカクとIRマカクの間よりも高い類似度を示しており、内殖の影響を示唆しているものと思われる。 Gene Ontologyに基づくマカカ、ヒト科、ムリッド科の遺伝子カテゴリー比較では、微小管形成過程とインスリン受容体シグナル伝達経路がマカカ系統で特に急速に進化したことが示された(補章6)。 分岐部位モデルに基づく尤度比検定では、IRマカク分枝で16個、CRマカク分枝で7個、CEマカク分枝で13個の正選択遺伝子が特異的に見つかった(Supplemental Section 6)。 マカクでは36個の正選択遺伝子のうち31個が遺伝子発現の制御に大きな役割を果たす結合タンパク質をコードしていることは興味深いといえる。 また、樹状突起タンパク質をコードする2つの遺伝子、IRマカク系統のCLCN2とCEマカク系統の活性制御型、細胞骨格関連タンパク質(ARC)が正の選択を経験したことは注目に値する。 CRマカクとCEマカクのゲノム配列が入手できたことで、その遺伝的多様性、およびマカクとヒトの遺伝的差異を評価することができたが、これは生物医学研究においてマカクを用いることが多いことから重要である。 この遺伝子は自然免疫反応と適応免疫反応の両方に関与している可能性があり、感染症研究にマカクを使用する際に考慮すべき重要な遺伝子である。 さらに、ある種または別の種のマカクの病気や免疫に関連する合計170の遺伝子は、フレームシフト変異または早発ストップコドンのいずれかを含んでおり、これらの遺伝子は偽遺伝子化されていると予測される(補足セクション6)。 これらの切断変異の信憑性は、トランスクリプトームデータと高密度シーケンシングリード、および独立したPCRによる検証の両方によって裏付けられている。 これらの遺伝子のうち32個は免疫経路で機能し、マカクでは失われているようである。 例えば、重要な自然免疫遺伝子であるDEFA4は、好中球が作る殺微生物・殺細胞性ペプチドの一つをコードしているが11、その最初のエキソンが失われたため、3頭のマカクすべてで偽遺伝子化されている。 さらに、Toll様受容体4(TLR4)遺伝子には1bpの欠失があり、3頭のマカクともその第3エキソンに早発停止コドンが生成されていた(補遺6)。 TLR4は、旧世界の霊長類において正の淘汰を受けてきたと報告されている12。 注目すべきは、ヒトの疾患関連遺伝子の中にも、マカクのホモログにフレームシフトを含むものがあることである。 例えば、神経軸と末梢神経系に分布し、オピオイドの主要な標的であるタンパク質をコードするオピオイド受容体mu1(OPRM1)遺伝子の第2エキソンに、3匹のマカクすべてで早発停止コドンがあることが分かった13(補足セクション6)

生物医学研究において特に重要なオルソログの遺伝子差も調査した。 広範なレトロウイルスの複製を制限できる細胞質トリパーテイトモチーフ蛋白質5α(TRIM5遺伝子にコードされる)は、HIV感染動物モデルの選定に用いられる重要なバイオマーカーである14。 TRIM5の集団全体の遺伝的多様性を調査するため、ベトナム出身の無関係なCEマカク33個体およびCRマカク28個体からTRIM5をPCR増幅し、塩基配列を決定した(Online Methods)。 その結果、いずれの個体からも既報15 のTrim5-cyclophilin A chimera (TRIM-CypA2) は検出されず、この遺伝子型はこれらの集団では稀であることが示唆された。 しかし、TRIM5遺伝子にはIRマカクを基準として19個の非同義多型と1個の微小欠失が同定され、これらの多型のほぼすべてが2つの集団間で異なる頻度を示した(図3および補遺7項)。 また、CEマカクのTRIM5遺伝子には、2つのアミノ酸(Thr339とPhe340)を欠失した6bpの欠失が確認された。 最近の研究では、これらの残基の欠失はHIVまたはSIVの病原性を増大させる可能性が指摘されている16。 この変異はCEマカク集団で高い頻度(97.5%)で検出され、この欠失がCEマカクで事実上固定化されていることが示された。 一方、CRマカク集団では、この変異の頻度は約50%であり、IRマカク集団(36%)よりもわずかに高いだけである17。 この6bp欠失や他の多型の頻度が、地理的起源の異なるマカク間で異なることが、これらのマカク種/亜種間で観察されるHIV耐性の違いに関与している可能性が十分にある16。 また、CEまたはCRマカクの同一集団における他の疾患関連遺伝子の遺伝的変異を調査したところ、両種ではしばしば異なる頻度で変異が生じることが観察された(補遺7)。

図3:CRマカクとCEマカクの集団におけるTRIM5遺伝子の集団調査

(a) マカのTRIM5がコードするタンパク質の模式図。 注釈のついた機能ドメインは色のついたボックスの中のドメイン名で示されている。 (b)CRマカクとCEマカクの集団における非同義多型と2アミノ酸欠失の頻度。 頻度はIRマカク参照に現れる遺伝子型を数える。

ヒトの薬剤性タンパク質ドメインのマカクにおけるオルソログを研究し、「薬剤性ゲノム」の治療利用のための資源を作るために、現在知られている薬剤ドメインについてマカクオルソログのスクリーニングを行った。 3 種のマカクでほぼ全ての薬剤性オルソログが検出され、これらの動物モデルが機能的に同等である可能性が高いことが示された。 しかし、ごく少数のケースでは、マカクで見つかったオルソログはヒトのそれと異なっている。 例えば、グリシンにアシル基を転移するミトコンドリアアシルトランスフェラーゼ(GLYATL2)は、3頭のマカクすべてで完全に失われている。 さらに、我々は、マカクにおいて偽遺伝子となった、薬剤投与可能なドメインを持つ19のヒト遺伝子を同定した(補足セクション7)。 例えば、抗骨粗鬆症薬テリパラチド(フォルテオ)の標的である副甲状腺ホルモン1受容体(PTH1R)遺伝子18,19は、マカクでは早発停止コドンを含んでいる。 また、リコンビナントヒトケラチノサイト成長因子(Palifermin20)の標的の一つである線維芽細胞成長因子受容体3(FGFR3によってコードされている)も、マカクでは早発停止コドンの存在により偽性遺伝子化されている

生物医学的にさらに興味深いのは、代償性病因逸脱(compensated pathogenic deviations)だ。 これは、ヒトの病的と思われるミスセンスアレルで、置換されるアミノ酸が他の生物のオルソログの位置の野生型アミノ酸残基と同一であることを表している。 我々は、近縁の霊長類4種(チンパンジーおよび3頭のマカク)において931個の代償性病原性逸脱を同定し、そのうち220個はヒト以外の霊長類の間で変化し、3頭のマカクの間で変化した65個を含んでいた(補章8および補章表26)。 例えば、オルニチントランスカルバミラーゼ(OTC)遺伝子のある変異(R40→H40)は、アカゲザル亜種2種では明らかであったが、CEマカクでは認められなかった。 また、CEマカクとIRマカクの遺伝子発現プロファイル(補遺9)を比較したところ、両者のオルソログは同じ組織で保存された発現プロファイルを示すことが明らかとなった。 しかし、精巣ではピアソン相関係数の低いオルソログ間でより乖離した発現量を示していることに注目した(Supplemental Section 9)。 精巣では他の組織と比較して、より多くの遺伝子が一貫性のない発現レベルを示すという観察は、霊長類の精子発現遺伝子が示す急速な進化速度に関係しているのかもしれない21。 また、トランスクリプトームデータから、CEマカクではアカゲザルに対していくつかの新規遺伝子が同定された。

結論として、2つのマカクのゲノムの配列決定と解析から、現存する本土起源のCEマカクのゲノムの形成に、おそらく内向交雑が重要な役割を果たしたことが確認された。 このように、CEマカクは霊長類の種間における遺伝子の交換、およびこの過程が霊長類の進化や種分化に果たす役割を探る上で有用なモデルとなり得る。 また、今回発表された2つの新しいマカクゲノムは、これらの広く用いられている非ヒト霊長類動物モデルの間に存在する変異の程度を強調するものである。 地理的に異なる個体群のマカクに見られる豊富な遺伝的多様性は、霊長類学、前臨床医学、集団遺伝学、系統地理学研究にとって直接的な関心事である

コメントを残す

メールアドレスが公開されることはありません。