発現量取得

 

発現量取得

Bowtie や TopHat などのマッピングプログラムを利用して、RNA-seq のリードをリファレンスゲノム上へマッピングしたとき、その結果は BAM または SAM とよばれる形式のファイルとして出力される。BAM と SAM は同一ものであるが、SAM は人が見てもわかるテキスト形式で記載されている。また、BAM は機械が速く読めるようにバイナリ形式(2 進数)で記載されている

トランスクリプトーム解析では、マッピングを行った後に、どの遺伝子にどれぐらいのリード数がマッピングされたかを数えることになる。このようなリードのカウントは遺伝子の発現量を測る指標として利用される。

例えば、右図のように G1 サンプルから得られたリードをリファレンス上の遺伝子 1、遺伝子 2、遺伝子 3、… にマップされたとする(マッピング)。次に、各遺伝子領域にマップされたリード数を数える。例えば、遺伝子 1 にマップされたリードの本数を数えてみると 14 本であることがわかる。このような作業をリファレンス上すべての遺伝子に対し行う。サンプルが複数ある場合この作業を各サンプルに対して繰り返す(発現量取得)。最後に、これらのデータは、各行が遺伝子名、各列がサンプル名からなる表にまとめることができる。

カウントデータ

BAM あるいは SAM からカウントデータを得るためには、HTSeq (htseq-count) と featureCounts というプログラムが便利である。

RPKM / FPKM