PRINSEQ は FASTQ のクオリティコントロール用のプログラムの一つで、極めて多くの機能が実装されている。PRINSEQ プログラム自体は Perl によって書かれている。ほんの少数の Perl のモジュールをインストールすれば、簡単に利用できる。
prinseq-lite.pl の使い方
prinseq-lite.pl
には FASTQ クオリティのチェック機能やフィルタリング機能などが実装されている。
ポリテールの除去
3' 末端に連続した A または T が 5 塩基以上現れる場合、ポリテールとしてトリムする。
prinseq-lite.pl -trim_tail_right 5 -fastq SRR610713.fastq -out_good SRR610713.qual
3' 末端からクオリティが 20 未満の塩基を取り除く
3' 末端にクオリティが 20 未満の塩基を取り除く例。
prinseq-lite.pl -trim_qual_right 20 -fastq SRR610713.fastq -out_good SRR610713.qual
短いリードを取り除く
リードの長さが 30 bp 未満の場合、除去する。
prinseq-lite.pl -min_len 30 -fastq SRR610713.fastq -out_good SRR610713.qual
paired-end リードのフィルタリング
リードが paired-end の場合、フィルタリングのオプションの与え方は singled-end と同じである。入力ファイルの指定だけが異なる。 -fastq
オプションとともに -fastq2
を利用する。
prinseq-lite.pl -min_len 30 -fastq SRR610777_1.fastq -fastq2 SRR610777_2.fastq -out_good SRR610777.qual
実行結果として、良質なリードは「SRR610777.qual_1.fastq」および「SRR610777.qual_2」の 2 つのファイルにそれぞれ保存される。2 つのファイル中の行数は同じである。
prinseq-lite.pl のオプション
オプション | 機能 |
-fastq | 入力 FASTQ ファイル。 |
-fastq2 | paired-end リードの場合、二個目(*_2.fastq または *_R)の FASTQ ファイル。 |
-out_format | 出力ファイルのフォーマットを数値で指定。1 ならば FASTA、2 ならば FASTA とクオリティデータ、3 ならば FASTQ、4 ならば FASTA と FASTQ、5 ならば FASTA、FASTQ とクオリティデータが出力される。 |
-graph_data | FASTQ のクオリティの分析結果からグラフを作成するためのデータの保存先を指定する。 |
-min_len -max_len |
リードが指定数値より小さい / 大きい場合は除去される。 |
-min_gc -max_gc |
リードの GC 含量が指定値より小さい / 大きい場合は除去される。0-100 のパーセンテージで指定する。 |
-min_qual_mean -max_qual_mean |
リードのクオリティの平均値が指定値よりも小さい / 大きい場合は除去される。整数値で与える。 |
-ns_max_p | リード中の N の割合が指定値よりも大きい場合は除去される。0-100 のパーセンテージで指定する。 |
-trim_to_len | リードの 3' 末端から塩基を指定の長さまでに取り除く。 |
-trim_left | リードの 5' 末端から指定した塩基長を取り除く。(位置の指定ではない) |
-trim_right | リードの 3' 末端から指定した塩基長を取り除く。(位置の指定ではない) |
-trim_tail_left | 整数値を指定する。5' 末端にあるポリ A/T が指定値よりも大きい場合はトリムされる。 |
-trim_tail_right | 整数値を指定する。3' 末端にあるポリ A/T が指定値よりも大きい場合はトリムされる。 |
-trim_qual_left | 5' 末端から指定したクオリティスコアに満たさない塩基をトリムする。 |
-trim_qual_right | 3' 末端から指定したクオリティスコアに満たさない塩基をトリムする。 |
PRINSEQ のインストール
PRINSEQ のソースコードは SourceForge からダウンロードできる。ダウンロード後、展開されたディレクトリのなかにプログラム本体(Perl のソースコード)が置かれている。
# 解凍
tar xzvf printseq-lite-0.20.4.tar.gz
# プログラムの入っているディレクトリに移動
cd prinseq-lite-0.20.4
# プログラムを実行可能なファイルに変換
chmod +x *.pl
# プログラムの使用
./prinseq-lite.pl -h