RNA-Seq リードのマッピング

TopHat

シーケンサーから出力されるリードの長さは 100bp 以上のものもある。これらのリードはエクソンの長さを超えているため、1 つのリードが複数のエクソンからなることがある。このため、従来のような短いギャップをしか許容できないマッピングプログラムを利用することで、複数のエクソンからなるリードを正確にマッピングできない。イントロンの長さが遥かに許容できるギャップの長さを超えてしまっているからである。

TopHat は長いリードを短く断片化してからマッピングすることで、リードが複数のエクソンからなっていても対応できる。

TopHat のインストール方法

TopHat は内部的に Bowtie2(または Bowtie) と samtools を利用している。そのため、予めこれらのプログラムをインストールした上で TopHat をインストールする。

Bowtie2 のインストール

Bowtie2 のインストールは、sourceforge から最新バージョンをダウンロードし、展開するだけでよい。

例えば、sourceforge ページにてバージョン 2.2.2 のリンクをクリックし、bowtie2-2.2.2-linux-x86_64.zip をダウンロードすればよい。

ダウンロードしたファイルを展開し、任意のディレクトリに移動する。

unzip bowtie2-2.2.2-linux-x86_64.zip   # 展開
mv bowtie2-2.2.2-linux-x86_64 ~/       # ホームディレクトリに移動

必要であれば以下のようにパスを通しておくと便利である。(この作業はログインする度に必要である。)

echo PATH=${PATH}:~/bowtie2-2.2.2-linux-x86_64

samtools のインストール

sourceforge から samtools のソースファイルをダウンロードする。これを展開してビルドする。

bzip2 -dc samtools-0.1.19.tar.bz2 | tar xvf -
cd samtools-0.1.19         # ディレクトリ移動
make                       # ビルド
chmod +x samtools          # samtools ファイルを実行ファイルに変更

必要であれば以下のようにパスを通しておくと便利である。(この作業はログインする度に必要である。)

echo PATH=${PATH}:~/samtools-0.1.19

TopHat のインストール

Linux 用または Mac OS X 用の TopHat はビルドされているものが配布されているので、それを利用する。

wget http://tophat.cbcb.umd.edu/downloads/tophat-2.0.11.Linux_x86_64.tar.gz
tar xzvf tophat-2.0.11.Linux_x86_64.tar.gz

展開後 tophat-2.0.11 のディレクトリ内に tophat ファイルが見られる。このファイルがプログラム本体である。このファイルに実行ファイルに変更し、パスを通す。

cd tophat-2.0.11
chmod +x tophat
echo PATH=${PATH}:~/tophat-2.0.11

以上のように Bowtie2、samtools、TopHat の 3 つのプログラムはともにパスを通した。また、これは PC にログインするたびにパスを通す必要がある。ログイン時に自動的にパスを通すためには、「/home/username/.bashrc」ファイルの最後の行の下に、以下の一行を追加する。

export PATH=${PATH}:~/~/bowtie2-2.2.2-linux-x86_64:~/samtools-0.1.19:~/tophat-2.0.11

※ username はログイン名のこと。また、ファイルがなければ新規作成する。

TopHat の基本的な使い方

TopHat の使い方として、tophat コマンドのあとにオプション、インデックスファイル、リードファイルの順で与える。インデックスファイルは Bowtie2 で作成したインデックスファイルを利用する。

# single-end reads
tophat -g 1 -p 8 <index> <reads.fastq>
# paired-end reads
tophat -g 1 -p 8 <index> <reads_1.fastq> <reads_2.fastq>

TopHat のオプション

TopHat 実行時に与えるオプションについては、TopHat のサイトに詳しい説明がある。以下にいくつかだけを取り上げる。

-N 許容するミスマッチ数。デフォルトは 2。
--read-gap-length 許容するギャップの長さ。デフォルトは 2。
--read-edit-dist 許容する挿入または欠損などの長さ。デフォルトは 2。
--read-realign-edit-dist
-o 出力ディレクトリを指定する。
-p 使用するスレッド数。
-g 1 つのリードがリファレンスにアライメントされる最大数。ユニークマッピングしたい場合は -g 1 のように指定する。

References

  1. Kim D, Pertea G, Trapnell C, Pimentel H, Kelley R, Salzberg SL. TopHat2: accurate alignment of transcriptomes in the presence of insertions, deletions and gene fusions. Genome Biol. 2013, 14(4):R36. PubMed Abstract
  2. Trapnell C, Pachter L, Salzberg SL. TopHat: discovering splice junctions with RNA-Seq. Bioinformatics. 2009, 25(9):1105-11. PubMed Abstract
  3. Langmead B, Trapnell C, Pop M, Salzberg SL. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biol. 2009, 10(3):R25. PubMed Abstract
  4. Langmead B, Salzberg SL. Fast gapped-read alignment with Bowtie 2. Nat Methods. 2012, 9(4):357-9. PubMed Abstract