遺伝子発現量解析

RNA-Seq

高速シーケンサー (High-throughput sequencing) は、細胞内で発現する全転写物の定量を可能にしている(RNA-seq)。全転写物の発現量を定量するには、まずサンプルから転写物である RNA を抽出する。次に、これらの RNA を短かく切断する。続いて、このようにできた断片 RNA から cDNA ライブラリーを作成する。最後に、高速シーケンサーを利用して、cDNA の両端から 1 塩基ずつ読み取る。このように両端から読み込まれた塩基配列はリード(read)とよび、一方を forward read とよび、他方を reversed read とよぶ。

リードは転写物の一部であるが、どの転写物の一部なのかはこの時点で不明である。転写物の発現量を定量するには、各リードがどの転写物に由来するのかを決定して行かなければならない。その方法として、各リードの塩基配列を、転写物の塩基配列と照合し、リードがどの転写物にアラインメントされるのかを調べる。この作業をマッピングとよぶ。

最後に、各転写物にマッピングされたリードの数(一般に forward と reversed を足して 1 とする)を数える。上の例であれば、

transcript 113
transcript 211
transcript 314

このように得られたリードの数を、一般にリードカウントデータなどとよぶ。転写物の発現量が多いほど、リード数も多い。また、転写物が長いと、RNA 断片も多くなるので、この場合もリードの数が多い。このため、リード数をそのまま転写物の発現量と見做すことはできない。転写物の発現量を見積もるには、さらにリード数を、転写物の長さで補正したりする正規化とよばれる作業が必要である。もっともよく用いられる正規化として PFKM を計算する手法が挙げられる。FPKM は、ライブラリー中の総リード数を 100 万リードに揃えたのちに、さらにすべての転写物が長さ 1000 bp となるように補正したあとのリードカウントである。現在では、一般に、FPKM を遺伝子の発現量とみなす場合が多い。

References

  • Anders S, McCarthy DJ, Chen Y, Okoniewski M, Smyth GK, Huber W, Robinson MD. Count-based differential expression analysis of RNA sequencing data using R and Bioconductor. Nat Protoc. 2013, 8(9):1765-86. PubMed Abstract
  • Knut R, Ben L, David W, Dirk JE. Alignment of Next-Generation Sequencing Reads. Annu. Rev. Genomics Hum. Genet. 2015, 16:6.1-6.19. ANNUAL REVIEWS
  • Liu Y, Zhou J, White KP. RNA-seq differential expression studies: more sequence or more replication? Bioinformatics. 2014, 30(3):301-4. PubMed Abstract

解析の流れ

1. RNA-Seq 実験

RNA-Seq 実験にあたって、replicate をいくつにするのか、また 1 サンプルにつき総リード数 (sequencing depth) をどのぐらいにするのかを予め決めておく必要がある。シーケンサーが普及している現在では、コストが低下したのもあり、3 biological replicates にする場合が多い。また、sequencing depth は、実験目的や生物種に応じて、決めていく必要がある。

2. リードデータの取得

シーケンサーから出力される結果は、FASTQ 形式のテキストファイルに記述される。FASTQ ファイルには、シーケンシングされたリードの塩基配列とシーケンシングクオリティなどのデータが含まれている。FASTQ ファイルは、論文発表時に、DDBJ、NCBI SRA、ENA のいずれかの公共データベースで公開されるのが一般的である。また、これら公共データベースから、他の研究グループが公開したデータを入手することができ、二次解析や方法開発に再利用できる。

3. FASTQ のクオリティコントロール

シーケンサーから得られたデータには、アダプター配列がリードに含まれていたり、間違ってシーケンシングされた(クオリティの低い)塩基がリードに含まれていたりする。このようなリードをそのまま利用して解析を行うと、後の解析の精度に悪影響を及ぼしてしまう。そのため、解析にとりかかる前に、オリジナルデータから、アダプター配列やクオリティの低い塩基を除去したりする必要がある。

4. アセンブリー

クリーニング後のリードがどの遺伝子(転写物)に由来するのかを決定するためにマッッピングを行う。マッピングを行うためには、研究対象生物のすべて転写物の塩基配列あるいはその生物の全ゲノム配列(リファレンス配列)を必要とする。ヒト、マウス、ショウジョウバエなどのモデル生物の場合は、Ensembl や RefSeq などのデータベースからリファレンス配列を入手することができる。しかし、非モデル生物を研究対象としている場合に、研究者自身が RNA-Seq のデータからリファレンス配列を作る必要がある。この作業をアセンブリーという。

5. マッピング

クリーニング後のリードを、データベースからダウンロードしたリファレンス配列、あるいはアセンブリーしたリファレンス配列にマッピングし、各リードがどの遺伝子に由来するのかを決定しいく。

6. 発現量取得

マッピング結果から、それぞれの遺伝子領域に何本のリードがマッピングされたかを計数する。こうして得られたリードカウントデータを利用して、遺伝子の発現量を見積もる。

7. 発現量解析

遺伝子発現量を見積もってから、発現量解析を行う。例えば、処理群と対象群のサンプルから得られた発現量を比較して、処理群で発現量が有意に増加または減少した遺伝子(発現変動遺伝子)を検出する。