フォーマット変換(SAM, BAM, BED)

リードをリファレンス上へマッピングした結果は SAM、BAM、または BED などフォーマットのファイルに保存される。これらのフォーマット間の交互変換は Samtools、BEDtools などのプログラムによって交互変換することができる。

以下に、フォーマット変換の例と各プログラムのインストール方法を示す。

フォーマット変換

SAM → BAM

SAM 形式から BAM 形式に変換するときは、samtools を利用する。

samtools view -Sb SRR115657.sam > SRR115657.bam

BAM → SAM

BAM 形式から SAM 形式に変換するときは、samtools を利用する。

samtools view -h SRR115657.bam > SRR115657.sam

BAM → BED

BAM 形式から BED 形式に変換するときは、bedtools を利用する。

bedtools bamtobed -i SRR115657.bam > SRR115657.bed

BAM → FASTQ

BAM 形式から FASTQ 形式に変換するときは、samtools を利用する。

samtools bam2fq SRR115657.bam > SRR115657.fq

bam2fastq と呼ばれているプログラムも利用できる。bam2fastq は samtools に比べてやや高機能である。

BAM 形式から FASTQ 形式への変換。

bam2fastq SRR115657.bam -o SRR115657.fq

# paired-end (「#」は 1 または 2 に置換される)
bam2fastq -o SRR115657_#.fq SRR115657.bam

アラインメントされたリードのみを FASTQ 形式に変換する。

bam2fastq --aligned --no-unaligned -o SRR115657.fq SRR115657.bam

アラインメントされていないリードのみを FASTQ 形式に変換する。

bam2fastq --no-aligned --unaligned -o SRR115657.fq SRR115657.bam 

BED → BAM

BED 形式から BAM 形式に変換するときは、bedtools を利用する。この際に、ゲノムサイズをオプションとして与える必要がある。ヒト(hg18、hg19)とマウス(mm8、mm9)の場合は、ダウンロードした bedtools ディレクトリの中の genomes ディレクトリに保存されている。それ以外の生物のゲノムや異なるバージョンのゲノムを利用する場合は、独自にゲノムサイズを一度計算してファイルに保存する必要がある。

bedtools bedtobam -i SRR115657.bed -g human.hg19.genome > SRR115657.bam

BED → IGV

BED 形式から IGV 形式に変換するときは、bedtools を利用する。

bedtools igv -i SRR115657.bed > SRR115657.igv

Samtools のインストール

Samtools のソースコードは SourceForge からダウンロードできる。

ダウンロードしたファイルを解凍し、コンパイルすれば利用できる。

bzip2 -dc samtools-1.0.tar.bz2 | tar xvf -
cd samtools-1.0
make

コンパイル後、プログラムはカレントディレクトリに生成される。

BEDtools のインストール

BEDtools のマニュアルは以下のウェブサイトで見ることができる。

http://bedtools.readthedocs.org/en/latest/index.html

インストールに関しては、Google code のウェブサイトでダウンロードすることができる。

https://code.google.com/p/bedtools/downloads/detail?name=BEDTools.v2.17.0.tar.gz&can=2&q=

ダウンロード後、ファイルを展開し、ディレクトリ内に移動しコンパイルする。インストール作業を、すべてコマンドで行う場合は、以下のようにする。

wget https://bedtools.googlecode.com/files/BEDTools.v2.17.0.tar.gz
tar xzvf BEDTools.v2.17.0.tar.gz
cd bedtools-2.17.0
make

コンパイル後、プログラムは bin ディレクトリに保存される。

bam2fastq のインストール

bam2fastq のソースコードは bam2fastq のウェブサイト からダウンロードできる。

ダウンロードしたファイルを解凍し、コンパイルすれば利用できる。

# ダウンロード
wget http://gsl.hudsonalpha.org/static/software/bam2fastq-1.1.0.tgz
tar xzvf bam2fastq-1.1.0.tgz
cd bam2fastq-1.1.0
make

コンパイル後、プログラムはカレントディレクトリに生成される。