ゲノムワイド関連研究

GWAS

Genome Wide Association Study (GWAS) は、ゲノム全体を対象にした解析の総称である。基本的に、ゲノム上に存在する系統ごとに、あるいは個体ごとに異なっている変異箇所を同定し、その変異が形質・表現型にどのような影響を及ぼすのかを調べることである。農学分野では、例えば稲の様々な品種のゲノムを調べ、品種ごとに異なっている箇所に着目し、変異と収量の関係を調べたり、変異を利用して進化のルートを推測したすることが行われている。また、医学の分野などでは、腫瘍細胞のゲノムが正常細胞のゲノムに比べて、どのように変異しているのかを調べる研究も行われている。

GWAS 解析の流れとして、DNA を断片化してからシーケンサーで読み取る。その後、シーケンサーから出力されるリードに対して QC を行い、BWA などのマッピングツールでリファレンス配列にマッピングする。その後、GATK などのツールでリファレンス配列とリードの間で異なる箇所を検出する。変異箇所を得るまでの解析の流れを variant calling などと呼ぶ。変異箇所を検出できると、それを使用して系統樹を描いたり、あるいは変異箇所を説明変数とし、形質を応答変数をしてモデリングに用いたりすることができるようになる。

GWAS データの解析の流れ

Genomic variants

genomic variants の種類

バリアントのうち、着目点によって germline variants と somatic variants に分けられる。germline variants は生殖細胞系列のバリアントであり、2 倍体であれば、母親および父親から直接引き継いだ 2 種類のゲノム上のバリアントである。germline variants は、その個体の DNA をどの組織細胞からシーケンシングしても、同様なバリアントが得られる。個体ごとに特有なバリアントがあるため、個体が異なると、異なるバリアントが得られる場合がある。

germline variants は、そのバリアントの長さによって呼び方がことなる。比較的に約 50 bp 以下の短いバリアントは short variant と呼ぶ。short variants のうち、リファレンス配列と比較して 1 塩基だけがミスマッチしている箇所を single nucleotide polymorphism (SNP) とよぶ。また、リファレンス配列と比較して、解析対象の個体のゲノムの方が 1 つ以上の塩基が欠損している箇所を deletion、その逆を insertion と呼ぶ。insertion と deletion を合わせて、indel と呼ぶ場合も多い。一方で、50 bp を超えるような長いバリアントは、conpy number variation (CNV) とよぶ。

somatic variants は、体細胞系列のバリアントで、同一個体内で生じたバリアントである。同じ個体の正常細胞と腫瘍細胞を比べたとき、正常細胞の塩基配列に対する腫瘍細胞の塩基配列の変異部分を somatic variants という。1 塩基だけの違いを single nucleotide variant (SNV) といい、比較的に長いバリアントのことを copy number alternations (CNA) という。

用語

多型 / polymorphism
DNA 配列の中で、個体ごとに異なっている塩基のこと。一塩基多型(single nucleotidde polymorphism; SNP)や insertion、deletion、コピー数変化(copy number variation; CNV)などが知られている。
ジェノタイプ / genotype
生物の細胞にある多型の組み合わせである。例えば、ある位置で A と C が SNP として存在しているとき、2 倍体生物ならば、その SNP の組み合わせが AA、AC、または CC である。ジェノタイプと書いたときに、A および C のどちらが父親由来で、どちらが母親由来なのかは不明である。
ハプロタイプ / halplotype
2 倍体生物は通常父親由来と母親由来の 2 本の染色体を持つ。GWAS 解析により、父親由来の染色体上にある多型の組み合わせをハプロタイプという。同様に、母親由来の染色体上の多型の組み合わせもハプロタイプという。一般的な GWAS 解析では、父親由来と母親由来の染色体を分離して解析することがほとんどないため、ハプロタイプを正確に同定することができない。その代わりに、最尤推定などによりハプロタイプの推定が行われている。
ハプロタイプブロック / haplotype block / linkage disequilibrium block
染色体上でほとんど組換えが起きていなく、SNPs の並びが保存されている領域。組み替えが起きていない状態を連鎖不平衡というため、ハプロタイプブロックは LD ブロックとよぶこともある。複数の SNPs が 1 つのブロックにまとめられるので、ハプロタイプブロックを解析した方が変数を減らすことができる。ハプロタイプブロックの推定は Haploview などのプログラムで行える。
連鎖不平衡 / linkage disequilibrium
染色体上にある 2 つ以上の座位がランダムでない相関が見られること。一般的に、それらの座位が連鎖している場合が多い。
ハーディ・ワインベルグ平衡 / Hardy-Weinberg equilibrium
片方の染色体上にある特定のアリル(あるいは多型)が、他方の染色体上にそのアリルとは独立で、両者を影響し合わないことをいう。メジャーアリル A の相対頻度が p で、マイナーアリル a の相対頻度が 1-p であるとき、ジェノタイプの相対頻度が AA:Aa:aa = p2:2p(1-p):(1-p)2 であるときのことをハーディ・ワインベルグ平衡という。集団サイズが十分に大きく、他集団への出入りがなく、集団内で任意交配、突然へにがなく、自然選択が働かないという条件下でハーディ・ワインベルグ平衡が成り立つ。
マイナーアリル相対頻度 / minor allele relative frequency / MAF