FASTQクオリティコントロール

PRINSEQ

PRINSEQ は FASTQ のクオリティコントロール用のプログラムの一つで、極めて多くの機能が実装されている。PRINSEQ プログラム自体は Perl によって書かれている。ほんの少数の Perl のモジュールをインストールすれば、簡単に利用できる。

prinseq-lite.pl の使い方

prinseq-lite.pl には FASTQ クオリティのチェック機能やフィルタリング機能などが実装されている。

ポリテールの除去

3' 末端に連続した A または T が 5 塩基以上現れる場合、ポリテールとしてトリムする。

prinseq-lite.pl -trim_tail_right 5 -fastq SRR610713.fastq -out_good SRR610713.qual

3' 末端からクオリティが 20 未満の塩基を取り除く

3' 末端にクオリティが 20 未満の塩基を取り除く例。

prinseq-lite.pl -trim_qual_right 20 -fastq SRR610713.fastq -out_good SRR610713.qual

短いリードを取り除く

リードの長さが 30 bp 未満の場合、除去する。

prinseq-lite.pl -min_len 30 -fastq SRR610713.fastq -out_good SRR610713.qual

paired-end リードのフィルタリング

リードが paired-end の場合、フィルタリングのオプションの与え方は singled-end と同じである。入力ファイルの指定だけが異なる。 -fastq オプションとともに -fastq2 を利用する。

prinseq-lite.pl -min_len 30 -fastq SRR610777_1.fastq -fastq2 SRR610777_2.fastq -out_good SRR610777.qual

実行結果として、良質なリードは「SRR610777.qual_1.fastq」および「SRR610777.qual_2」の 2 つのファイルにそれぞれ保存される。2 つのファイル中の行数は同じである。

prinseq-lite.pl のオプション

オプション 機能
-fastq 入力 FASTQ ファイル。
-fastq2 paired-end リードの場合、二個目(*_2.fastq または *_R)の FASTQ ファイル。
-out_format 出力ファイルのフォーマットを数値で指定。1 ならば FASTA、2 ならば FASTA とクオリティデータ、3 ならば FASTQ、4 ならば FASTA と FASTQ、5 ならば FASTA、FASTQ とクオリティデータが出力される。
-graph_data FASTQ のクオリティの分析結果からグラフを作成するためのデータの保存先を指定する。
-min_len
-max_len
リードが指定数値より小さい / 大きい場合は除去される。
-min_gc
-max_gc
リードの GC 含量が指定値より小さい / 大きい場合は除去される。0-100 のパーセンテージで指定する。
-min_qual_mean
-max_qual_mean
リードのクオリティの平均値が指定値よりも小さい / 大きい場合は除去される。整数値で与える。
-ns_max_p リード中の N の割合が指定値よりも大きい場合は除去される。0-100 のパーセンテージで指定する。
-trim_to_len リードの 3' 末端から塩基を指定の長さまでに取り除く。
-trim_left リードの 5' 末端から指定した塩基長を取り除く。(位置の指定ではない)
-trim_right リードの 3' 末端から指定した塩基長を取り除く。(位置の指定ではない)
-trim_tail_left 整数値を指定する。5' 末端にあるポリ A/T が指定値よりも大きい場合はトリムされる。
-trim_tail_right 整数値を指定する。3' 末端にあるポリ A/T が指定値よりも大きい場合はトリムされる。
-trim_qual_left 5' 末端から指定したクオリティスコアに満たさない塩基をトリムする。
-trim_qual_right 3' 末端から指定したクオリティスコアに満たさない塩基をトリムする。

PRINSEQ のインストール

PRINSEQ のソースコードは SourceForge からダウンロードできる。ダウンロード後、展開されたディレクトリのなかにプログラム本体(Perl のソースコード)が置かれている。

# 解凍
tar xzvf printseq-lite-0.20.4.tar.gz

# プログラムの入っているディレクトリに移動
cd prinseq-lite-0.20.4

# プログラムを実行可能なファイルに変換
chmod +x *.pl

# プログラムの使用
./prinseq-lite.pl -h