RNA-Seq マッピング

TopHat2(シロイヌナズナ single-end)

ここではサンプルデータとして以下の 4 つを利用する。

SRR1976500L3_wt_1; Arabidopsis thaliana; RNA-Seq
SRR1976501 L3_wt_2; Arabidopsis thaliana; RNA-Seq
SRR1976498 L3_ivd_1; Arabidopsis thaliana; RNA-Seq
SRR1976499L3_ivd_2; Arabidopsis thaliana; RNA-Seq

解析は以下の順で行う。

  1. リードデータのダウンロード
  2. リファレンスの準備
  3. TopHat2 によるマッピング

リードデータのダウンロード

オリジナルデータは米国 NCBI SRA に登録されているが、ここでは wget コマンドを利用して日本の DDBJ SRA からダウンロードする。

wget ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/sralite/ByExp/litesra/SRX/SRX997/SRX997467/SRR1976498/SRR1976498.sra
wget ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/sralite/ByExp/litesra/SRX/SRX997/SRX997468/SRR1976499/SRR1976499.sra
wget ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/sralite/ByExp/litesra/SRX/SRX997/SRX997469/SRR1976500/SRR1976500.sra
wget ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/sralite/ByExp/litesra/SRX/SRX997/SRX997470/SRR1976501/SRR1976501.sra

ダウンロードしたファイルは SRA 形式であるから、NCBI sratoolkit を利用して SRA 形式から FASTQ ファイルを抽出する。

fastq-dump ./SRR1976498.sra
fastq-dump ./SRR1976499.sra
fastq-dump ./SRR1976500.sra
fastq-dump ./SRR1976501.sra

次に、ここで得られた FASTQ ファイルに対してクオリティをチェックし、必要ならばアダプターの除去や低クオリティ塩基のトリミングを利用する。このページではこの作業を省略しているが、必ず実行して下さい。

リファレンスの準備

A. thaliana のゲノムとアノテーションを Ensembl Plants からダウンロードする。ゲノム配列の FASTA ファイルおよびアノテーションの GFF ファイルは以下のリンクをクリックすることで見つけられる。

これらを wget コマンドでダウンロードする。また、ダウンロードしたファイルは gzip 形式で圧縮されているため、gunzip コマンドで解凍する。

wget ftp://ftp.ensemblgenomes.org/pub/plants/release-26/fasta/arabidopsis_thaliana/dna/Arabidopsis_thaliana.TAIR10.26.dna.toplevel.fa.gz
gunzip Arabidopsis_thaliana.TAIR10.26.dna.toplevel.fa.gz
wget ftp://ftp.ensemblgenomes.org/pub/plants/release-26/gff3/arabidopsis_thaliana/Arabidopsis_thaliana.TAIR10.26.gff3.gz
gunzip Arabidopsis_thaliana.TAIR10.26.gff3.gz

TopHat2 では Bowtie2 のインデックスファイルを利用してマッピングを行う。そこで、bowtie2-build コマンドを利用してインデックスを作成する。(Bowtie2 がインストールされていなければ、先にインストールしてからこの作業を行う。)

bowtie2-build -f Arabidopsis_thaliana.TAIR10.26.dna.toplevel.fa TAIRINDEX
ls
## Arabidopsis_thaliana.TAIR10.26.dna.toplevel.fa  SRR1976501.fastq
## Arabidopsis_thaliana.TAIR10.26.gff3             SRR1976501.sra
## nohup.out                                       TAIRINDEX.1.bt2
## SRR1976498.fastq                                TAIRINDEX.2.bt2
## SRR1976498.sra                                  TAIRINDEX.3.bt2
## SRR1976499.fastq                                TAIRINDEX.4.bt2
## SRR1976499.sra                                  TAIRINDEX.rev.1.bt2
## SRR1976500.fastq                                TAIRINDEX.rev.2.bt2
## SRR1976500.sra

ディレクトリ中に TARINDEX で開始するファイルが 6 つ生成される。これらがインデックスファイルである。

マッピング

次に、TopHat2 を利用してリードをリファレンス上にマッピングする。TopHat2 には様々なオプションが用意されているが、ここではデフォルトのオプションを利用する。ただし、複数のファイルに対してマッピングを行っているため、-o でマッピング結果の保存先を明示している。これを省略すると、最後のマッピング結果に上書きされてしまう。

tophat2 -p 4 -o SRR1976498 TAIRINDEX SRR1976498.fastq 
tophat2 -p 4 -o SRR1976498 TAIRINDEX SRR1976499.fastq 
tophat2 -p 4 -o SRR1976498 TAIRINDEX SRR1976500.fastq 
tophat2 -p 4 -o SRR1976498 TAIRINDEX SRR1976501.fastq 

マッピング結果は -o で指定したディレクトリ中に保存される。例えば、SRR1976498 ディレクトリとは以下のようになっている。ディレクトリ中の「accepted_hits.bam」がマッピング結果である。

ls SRR1976498
## accepted_hits.bam  deletions.bed   junctions.bed  prep_reads.info
## align_summary.txt  insertions.bed  logs           tmp

マッピングログを確認してみると、アダプターの除去やクオリティフィルタリングを行わなかったわりにはよくマッピングできたことが書くにできる。

cat SRR1976498/align_summary.txt
## Reads:
##           Input     :  41022614
##            Mapped   :  40262932 (98.1% of input)
##             of these:   2443727 ( 6.1%) have multiple alignments (3 have >20)
## 98.1% overall read mapping rate.

マッピングが終わると、次に発現量を取得する。TopHat を利用した場合、次のステップとして Cufflinks を利用することが多い。

References

  1. Kim D, Pertea G, Trapnell C, Pimentel H, Kelley R, Salzberg SL. TopHat2: accurate alignment of transcriptomes in the presence of insertions, deletions and gene fusions. Genome Biol. 2013, 14(4):R36. PubMed Abstract
  2. Trapnell C, Roberts A, Goff L, Pertea G, Kim D, Kelley DR, Pimentel H, Salzberg SL, Rinn JL, Pachter L. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks. Nat Protoc. 2012, 7(3):562-78. PubMed Abstract