RNA-Seq を利用した発現変動遺伝子の検出

発現量解析

RNA-Seq は、サンプル中の RNA をシーケンシングすることを通して、サンプル中の転写物の発現量を定量する方法である。正常群と処理群のサンプルに対して RNA-Seq を行うことで、正常群と処理群の比較において発現量の異なる転写物(遺伝子)を検出できる。時系列サンプルに対して、RNA-Seq を行うことで、各サンプルの時系列的な遷移傾向を明らかにできる。このように、RNA-Seq を利用した発現量解析は実に様々なである。

RNA-Seq のデータは、数十万〜数百万のリードとよばれる短い配列からなる。これらのリードに対して、マッピングなどの処理を行うことで、どのリードがどの転写物(遺伝子)に由来するのかを決定できる。あるサンプル中の全リードに対してマッピング処理を行うことで、そのサンプルにおいて、各転写物にどれぐらいのリードがマッピングされたかを数値化できる。このマッピングできたリード数は、統計的な補正(正規化)を必要はあるものの、基本的に発現量とみなせる。

複数のサンプルに対して RNA-Seq を行うと、複数組みのカウントデータが得られる。これらを表にまとめたものを発現量行列などを読んでいる。発現量行列の各行は遺伝子を表し、各列はサンプルを表す。RNA-Seq を利用した発現量解析というのは、この行列型のカウントデータ(発現量行列)に対して、様々な解析を行い、全サンプル全転写物における全体的な傾向を明らかにしたり、興味のある候補遺伝子群のスクリーニングなどをしたりしていくことである。RNA-Seq 実験を行う目的は人によりけりだが、発現量行列を得てから、まず階層クラスタリングあるいは PCA を行い、全体の傾向を掴んでおくことを推奨する。

RNA-Seq 実験を行う目的は様々である。中でも、正常群と処理群のサンプル比較を行い、2 つの群で発現量の異なる発現変動遺伝子を検出するのに、よく RNA-Seq が用いられる。発現量行列から発現変動遺伝子を検出するには、一般に、正規化、確率分布推定および検定の 3 ステップで行う(確率分布推定と検定を 1 つのステップにまとめられる場合もある)(Anders et al, 2013)。発現量行列から発現変動遺伝子を検出する方法は多く開発されてきている。比較的によく使われている(論文引用数の多い)手法としては、edgeR、Cufflinks (Cuffdiff)、DESeq、DESeq2 などがある(Lamarre et al, 2018, McDermaid et al, 2018)。

References

  1. Anders S, McCarthy DJ, Chen Y, Okoniewski M, Smyth GK, Huber W, Robinson MD. Count-based differential expression analysis of RNA sequencing data using R and Bioconductor. Nat Protoc. 2013, 8(9):1765-86. DOI: 10.1038/nprot.2013.099
  2. Lamarre S, Frasse P, Zouine M, Labourdette D, Sainderichin E, Hu G, Le Berre-Anton V, Bouzayen M, Maza E. Optimization of an RNA-Seq differential gene expression analysis depending on biological replicate number and library size. Front Plant Sci. 2018, 9:108. DOI: 10.3389/fpls.2018.00108
  3. McDermaid A, Monier B, Zhao J, Liu B, Ma Q. Interpretation of differential gene expression results of RNA-seq data: review and integration. Brief Bioinform. 2018. bby067. DOI: 10.1093/bib/bby067
  4. Soneson C, Delorenzi M. A comparison of methods for differential expression analysis of RNA-seq data. BMC Bioinformatics. 2013, 14:91. DOI: 10.1186/1471-2105-14-91
  5. Trapnell C, Roberts A, Goff L, Pertea G, Kim D, Kelley DR, Pimentel H, Salzberg SL, Rinn JL, Pachter L. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks. Nat Protoc. 2012, 7(3):562-78. DOI: 10.1038/nprot.2012.016
  6. Soneson C, Love MI, Robinson MD. Differential analyses for RNA-seq: transcript-level estimates improve gene-level inferences. F1000Research. 2015, 7(3):562-78. DOI: 10.12688/f1000research.7563.1

正規化

マッピング等によって得られたカウントデータは、そのままでは遺伝子発現量を表すわけではない。各サンプルに含まれているリード数の総数をサンプル間で揃えたり、転写物(遺伝子)の長さで補正したりする必要がある。このような補正作業を正規化(normalization)という。カウントデータを補正する方法として、RPKM/FPKM (Cufflinks)、TMM (edgeR)、RLE (DESeq, DESeq2) や DEGES (TCC) などが開発された。

クラスタリング

RNA-Seq 実験は、一般に、複数のサンプルに対して行う。本来の解析を行う前に、これらのサンプル間の関係を大まかに確認する目的として、正規化された発現量行列に対してクラスタリングする場合がある。RNA 抽出実験に失敗したり、あるいは RNA-Seq データの処理に失敗したりすると、サンプル間のクラスタリング結果から見つかることができる。

確率分布の推定と発現変動遺伝子の検出

発現量行列から発現変動遺伝子を検出するには、(1)正規化されたカウントデータに基づいて、そのカウントデータが従う確率分布を推定し、(2)推定された確率分布を用いて比較するサンプル間の各遺伝子の発現量に有意差があるかどうかを検定する。発現変動遺伝子を検出する方法は、30 種類以上開発されている。しかしながらこの中には完璧な検定法というのは存在しない。比較的によく使われている(論文引用数の多い)手法としては、edgeR(全引用数の 22-32%)、Cuffdiff (Cufflinks) (21-28%)、DESeq/DESeq2 (20-29%) などがある(Lamarre et al, 2018, McDermaid et al, 2018)。edgeR / DESeq / DESeq2 は、入力データとして発現量行列(カウントデータ)を必要とする count-based 法である。これら count-based の 3 方法は似た検出結果を出力することが報告されている(Soneson et al, 2013, Lamarre et al, 2018)。Cuffdiff は、入力データとして FPKM (BAM ファイルと GTF ファイル)を必要とする FPKM-based 法である(Trapnell et al, 2012)。Cuffdiff 検定の性質は、count-based 法と異なる。

最近、マッピングをしないで転写産物の発現量を定量するソフトウェアも開発された。kallisto や Salmon などがこれに当たる。これらのソフトウェアはリードカウントを出力するのではなく、擬似的な発現量カウントを出力している。これらの擬似的な発現量カウントも edgeR や DESeq2 などで解析できる。その際、tximport パッケージ(Soneson et al, 2015)を利用すると、簡単に kallisto/Salmon の結果を edgeR/DESeq2 に渡せる。

検定法   解析例
edgeR フィッシャーの正確確率検定的な検定法(現在非推奨)と一般化線形モデルを利用した尤度比検定を行うことができる。一般化線形モデルを利用することで、二群間比較、対応あり二群間比較や多群間比較などの比較検定を行える。推奨されていないが、biological replicate なしのときにも"無理やり"解析できる。 二群間比較
二群間二因子比較
対応あり二群間子比較
多群間比較
多群間二因子比較
二群間時系列比較
DESeq 二項検定に似た検定法と一般化線形モデルを利用した尤度比検定を行うことができる。推奨されていないが、biological replicate なしのときにも"無理やり"解析できる。2012 年以降、DESeq2 への以降が推奨されている。ただし、検定法自体は現在も利用できる。
DESeq2 一般化線形モデルを利用した尤度比検定や Wald 検定を行うことができる。一般化線形モデルを利用することで、二群間比較、対応あり二群間比較や多群間比較などの比較検定を行える。biological replicate がないときは利用できない。 二群間比較
二群間二因子比較
対応あり二群間子比較
多群間比較
多群間二因子比較
Cuffdiff Cuffdiff は、Cufflinks の処理プロセスの一部として利用されるケースが多い。TopHat2 などによるマッピング結果を Cufflinks、Cuffmerge、Cuffdiff の一連の流れに従って処理させ、発現変動遺伝子(転写物)を検出する。