RNA-Seq を利用した発現変動遺伝子の検出

発現量解析

RNA-Seq は、サンプル中の RNA をシーケンシングすることを通して、サンプル中の転写物の発現量を定量する方法である。正常群と処理群のサンプルに対して RNA-Seq を行うことで、正常群と処理群の比較において発現量の異なる転写物(遺伝子)を検出できる。時系列サンプルに対して、RNA-Seq を行うことで、各サンプルの時系列的な遷移傾向を明らかにできる。このように、RNA-Seq を利用した発現量解析は実に様々なである。

RNA-Seq のデータは、数十万〜数百万のリードとよばれる短い配列からなる。これらのリードに対して、マッピングなどの処理を行うことで、どのリードがどの転写物(遺伝子)に由来するのかを決定できる。あるサンプル中の全リードに対してマッピング処理を行うことで、そのサンプルにおいて、各転写物にどれぐらいのリードがマッピングされたかを数値化できる。このマッピングできたリード数は、統計的な補正(正規化)を必要はあるものの、基本的に発現量とみなせる。

複数のサンプルに対して RNA-Seq を行うと、複数組みのカウントデータが得られる。これらを表にまとめたものを発現量行列などを読んでいる。発現量行列の各行は遺伝子を表し、各列はサンプルを表す。RNA-Seq を利用した発現量解析というのは、この行列型のカウントデータ(発現量行列)に対して、様々な解析を行い、全サンプル全転写物における全体的な傾向を明らかにしたり、興味のある候補遺伝子群のスクリーニングなどをしたりしていくことである。どの目的であっても、発現量行列を得てから、まずはクラスタリングあるいは PCA を行なって、サンプル全体の分布を把握しておくことが重要である。このステップで、サンプルの取り違えやシークエンシングの失敗などに気づくことができる。

References

  1. Anders S, McCarthy DJ, Chen Y, Okoniewski M, Smyth GK, Huber W, Robinson MD. Count-based differential expression analysis of RNA sequencing data using R and Bioconductor. Nat Protoc. 2013, 8(9):1765-86. DOI: 10.1038/nprot.2013.099
  2. Lamarre S, Frasse P, Zouine M, Labourdette D, Sainderichin E, Hu G, Le Berre-Anton V, Bouzayen M, Maza E. Optimization of an RNA-Seq differential gene expression analysis depending on biological replicate number and library size. Front Plant Sci. 2018, 9:108. DOI: 10.3389/fpls.2018.00108
  3. McDermaid A, Monier B, Zhao J, Liu B, Ma Q. Interpretation of differential gene expression results of RNA-seq data: review and integration. Brief Bioinform. 2018. bby067. DOI: 10.1093/bib/bby067
  4. Soneson C, Delorenzi M. A comparison of methods for differential expression analysis of RNA-seq data. BMC Bioinformatics. 2013, 14:91. DOI: 10.1186/1471-2105-14-91
  5. Trapnell C, Roberts A, Goff L, Pertea G, Kim D, Kelley DR, Pimentel H, Salzberg SL, Rinn JL, Pachter L. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks. Nat Protoc. 2012, 7(3):562-78. DOI: 10.1038/nprot.2012.016
  6. Soneson C, Love MI, Robinson MD. Differential analyses for RNA-seq: transcript-level estimates improve gene-level inferences. F1000Research. 2015, 7(3):562-78. DOI: 10.12688/f1000research.7563.1