シーケンサーから出力されるリードの長さは 100bp 以上のものもある。これらのリードはエクソンの長さを超えているため、1 つのリードが複数のエクソンからなることがある。このため、従来のような短いギャップをしか許容できないマッピングプログラムを利用することで、複数のエクソンからなるリードを正確にマッピングできない。イントロンの長さが遥かに許容できるギャップの長さを超えてしまっているからである。
TopHat は長いリードを短く断片化してからマッピングすることで、リードが複数のエクソンからなっていても対応できる。
TopHat のインストール方法
TopHat は内部的に Bowtie2(または Bowtie) と samtools を利用している。そのため、予めこれらのプログラムをインストールした上で TopHat をインストールする。
Bowtie2 のインストール
Bowtie2 のインストールは、sourceforge から最新バージョンをダウンロードし、展開するだけでよい。
例えば、sourceforge ページにてバージョン 2.2.2 のリンクをクリックし、bowtie2-2.2.2-linux-x86_64.zip をダウンロードすればよい。
ダウンロードしたファイルを展開し、任意のディレクトリに移動する。
unzip bowtie2-2.2.2-linux-x86_64.zip # 展開
mv bowtie2-2.2.2-linux-x86_64 ~/ # ホームディレクトリに移動
必要であれば以下のようにパスを通しておくと便利である。(この作業はログインする度に必要である。)
echo PATH=${PATH}:~/bowtie2-2.2.2-linux-x86_64
samtools のインストール
sourceforge から samtools のソースファイルをダウンロードする。これを展開してビルドする。
bzip2 -dc samtools-0.1.19.tar.bz2 | tar xvf -
cd samtools-0.1.19 # ディレクトリ移動
make # ビルド
chmod +x samtools # samtools ファイルを実行ファイルに変更
必要であれば以下のようにパスを通しておくと便利である。(この作業はログインする度に必要である。)
echo PATH=${PATH}:~/samtools-0.1.19
TopHat のインストール
Linux 用または Mac OS X 用の TopHat はビルドされているものが配布されているので、それを利用する。
wget http://tophat.cbcb.umd.edu/downloads/tophat-2.0.11.Linux_x86_64.tar.gz
tar xzvf tophat-2.0.11.Linux_x86_64.tar.gz
展開後 tophat-2.0.11 のディレクトリ内に tophat ファイルが見られる。このファイルがプログラム本体である。このファイルに実行ファイルに変更し、パスを通す。
cd tophat-2.0.11
chmod +x tophat
echo PATH=${PATH}:~/tophat-2.0.11
以上のように Bowtie2、samtools、TopHat の 3 つのプログラムはともにパスを通した。また、これは PC にログインするたびにパスを通す必要がある。ログイン時に自動的にパスを通すためには、「/home/username/.bashrc」ファイルの最後の行の下に、以下の一行を追加する。
export PATH=${PATH}:~/~/bowtie2-2.2.2-linux-x86_64:~/samtools-0.1.19:~/tophat-2.0.11
※ username はログイン名のこと。また、ファイルがなければ新規作成する。
TopHat の基本的な使い方
TopHat の使い方として、tophat コマンドのあとにオプション、インデックスファイル、リードファイルの順で与える。インデックスファイルは Bowtie2 で作成したインデックスファイルを利用する。
# single-end reads
tophat -g 1 -p 8 <index> <reads.fastq>
# paired-end reads
tophat -g 1 -p 8 <index> <reads_1.fastq> <reads_2.fastq>
TopHat のオプション
TopHat 実行時に与えるオプションについては、TopHat のサイトに詳しい説明がある。以下にいくつかだけを取り上げる。
-N | 許容するミスマッチ数。デフォルトは 2。 |
--read-gap-length | 許容するギャップの長さ。デフォルトは 2。 |
--read-edit-dist | 許容する挿入または欠損などの長さ。デフォルトは 2。 |
--read-realign-edit-dist | |
-o | 出力ディレクトリを指定する。 |
-p | 使用するスレッド数。 |
-g | 1 つのリードがリファレンスにアライメントされる最大数。ユニークマッピングしたい場合は -g 1 のように指定する。 |
References
- TopHat2: accurate alignment of transcriptomes in the presence of insertions, deletions and gene fusions. Genome Biol. 2013, 14(4):R36. PubMed Abstract
- TopHat: discovering splice junctions with RNA-Seq. Bioinformatics. 2009, 25(9):1105-11. PubMed Abstract
- Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biol. 2009, 10(3):R25. PubMed Abstract
- Fast gapped-read alignment with Bowtie 2. Nat Methods. 2012, 9(4):357-9. PubMed Abstract