RNA-Seq を利用した発現変動遺伝子の検出
発現量解析
RNA-Seq は、サンプル中の RNA をシーケンシングすることを通して、サンプル中の転写物の発現量を定量する方法である。正常群と処理群のサンプルに対して RNA-Seq を行うことで、正常群と処理群の比較において発現量の異なる転写物(遺伝子)を検出できる。時系列サンプルに対して、RNA-Seq を行うことで、各サンプルの時系列的な遷移傾向を明らかにできる。このように、RNA-Seq を利用した発現量解析は実に様々なである。
RNA-Seq のデータは、数十万〜数百万のリードとよばれる短い配列からなる。これらのリードに対して、マッピングなどの処理を行うことで、どのリードがどの転写物(遺伝子)に由来するのかを決定できる。あるサンプル中の全リードに対してマッピング処理を行うことで、そのサンプルにおいて、各転写物にどれぐらいのリードがマッピングされたかを数値化できる。このマッピングできたリード数は、統計的な補正(正規化)を必要はあるものの、基本的に発現量とみなせる。
複数のサンプルに対して RNA-Seq を行うと、複数組みのカウントデータが得られる。これらを表にまとめたものを発現量行列などを読んでいる。発現量行列の各行は遺伝子を表し、各列はサンプルを表す。RNA-Seq を利用した発現量解析というのは、この行列型のカウントデータ(発現量行列)に対して、様々な解析を行い、全サンプル全転写物における全体的な傾向を明らかにしたり、興味のある候補遺伝子群のスクリーニングなどをしたりしていくことである。どの目的であっても、発現量行列を得てから、まずはクラスタリングあるいは PCA を行なって、サンプル全体の分布を把握しておくことが重要である。このステップで、サンプルの取り違えやシークエンシングの失敗などに気づくことができる。
References
- Count-based differential expression analysis of RNA sequencing data using R and Bioconductor. Nat Protoc. 2013, 8(9):1765-86. DOI: 10.1038/nprot.2013.099
- Optimization of an RNA-Seq differential gene expression analysis depending on biological replicate number and library size. Front Plant Sci. 2018, 9:108. DOI: 10.3389/fpls.2018.00108
- Interpretation of differential gene expression results of RNA-seq data: review and integration. Brief Bioinform. 2018. bby067. DOI: 10.1093/bib/bby067
- A comparison of methods for differential expression analysis of RNA-seq data. BMC Bioinformatics. 2013, 14:91. DOI: 10.1186/1471-2105-14-91
- Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks. Nat Protoc. 2012, 7(3):562-78. DOI: 10.1038/nprot.2012.016
- Differential analyses for RNA-seq: transcript-level estimates improve gene-level inferences. F1000Research. 2015, 7(3):562-78. DOI: 10.12688/f1000research.7563.1
- 発現量取得
- 正規化
- クラスタリング
- 発現変動遺伝子の検出