FASTQ クオリティコントロール RNA-seq

FaQCs

FaQCs のインストール

FaQCs のソースコードは GitHub で公開されている。git コマンドを利用してソースコードをクローン(ダウンロード)する。次にクローンしたディレクトリに移動し、さらにその子ディレクトリである lib に移動する。lib ディレクトリにある INSTALL.sh を実行して FaQCs の依存ライブラリーをインストールする。

git clone https://github.com/chienchi/FaQCs.git
cd FaQCs
ls
cd lib
sh INSTALL.sh
cd ..
perl FaQCs.pl

FaQCs.pl ファイルがあるディレクトリにパスを通す。

シングルエンドリードのクオリティコントロール

FaQCs.pl ファイルを直接に実行させてクオリティコントロールを行う。シングルエンドリードの場合は -u オプションのあとにクオリティコントロールを行いたい対象ファイルを指定する。また、-d でクオリティコントロールの結果ファイルを保存するディレクトリを指定する。

perl FaQCs.pl -u SRR012345.fastq -d SRR012345_qc
## Bwa extension trimming algorithm is used.
## Processing SRR012345.fastq file
## Processed 1000000/1000000
## Post Trimming Length(Mean, Std, Median, Max, Min) of 999017 reads with Overall quality 36.06
## (106.83, 2.50, 107.0, 107, 50)

ls SRR012345_qc
## QC.stats.txt    QC.unpaired.trimmed.fastq     QC_qc_report.pdf     fastqCount.txt

SRR012345_qc ディレクトリ中の QC.unpaired.trimmed.fastq がフィルタリング後の FASTQ ファイルである。また、同じディレクトリ中の QC_qc_report.pdf はクオリティに関するレポートが書かれている。

上ではすべてデフォルトの値を利用したが、次に、オプションの値を少し変更してみる。

perl FaQCs.pl -u SRR012345.fastq -d SRR012345_qc \
          -min_L 30    # 30 bp よりも短いリードは削除する
          -avg_q 20    # 平均クオリティ値が 20 よりも小さいリードを削除する
          -5end  5     # 5' 末端から 5 bp トリムする
          -n     3     # リード中に連続した N が 3 よりも多いときリードを削除する

ペアエンドリードのクオリティコントロール

ペアエンドリードの場合はオプション -p のあとにペアとなる 2 つの FASTQ ファイルを与える。

perl FaQCs.pl -p SRR012345_1.fastq SRR012345_2.fastq -d SRR012345_qc 
## Bwa extension trimming algorithm is used.
## Processing ./SRR012345_1.fastq ./SRR012345_2.fastq file
## Processed 2000000/2000000
##  Post Trimming Length(Mean, Std, Median, Max, Min) of 1976760 reads with Overall quality 36.37
##  (99.33, 8.65, 107.0, 107, 50)

ls SRR012345_qc
## QC.1.trimmed.fastq            QC.2.trimmed.fastq    QC.stats.txt
## QC.unpaired.trimmed.fastq     QC_qc_report.pdf      fastqCount.txt

SRR012345_qc ディレクトリ中の QC.1.trimmed.fastq と QC.2.trimmed.fastq がフィルタリング後の FASTQ ファイルである。また、同じディレクトリ中の QC_qc_report.pdf はクオリティに関するレポートが書かれている。

アダプターの除去

FaQCs はアダプターの除去にも対応している。Illumina 系のアダプターは FaQCs.pl を実行するときに -adapter 1 をつければよい。その他に、自分で定義したアダプター配列も除去できる。この際に、アダプター配列を FASTA 形式でファイルに保存する必要がある。例えば、my_adapters.fa ファイルに以下のようにトリムしたいアダプター配列を書き入れる。

>my_adapter_1
AAGCGATTTTTTGCA
>my_adapter_2
AGGGATGCGATGCA
>my_adapter_3
AAGCGACGGATTTTTTGCGTTA

次に、-artifactFile オプションにアダプター配列を保存した FASTA ファイルを指定する。

perl FaQCs.pl -p SRR012345_1.fastq SRR012345_2.fastq -d SRR012345_qc\
     -adapter 1 \
     -artifactFile ./my_adapter.fa

References

  • Lo CC, Chain PS. Rapid evaluation and quality control of next generation sequencing data with FaQCs. BMC Bioinformatics. 2014, 15(1):366. PubMed Abstract