FASTQ のクオリティチェック

qrqc

qrqc は R 上で利用できる FASTQ クオリティチェック用のパッケージである。使い方は簡単で、FASTQ ファイルを読み込ませて、レポート作成の関数を実行するだけでクオリティレポートが作成される。

例えば、SRR032116.fastq ファイルに対してレポートを作成したいときは以下のようにする。ただし、makeReport 関数によって作成されるレポートの内容は少なく、より詳しいレポートを作成したい場合は、qrqc の関数を利用して、1 つずつ作成した方がよい。

library(qrqc)
fq <- readSeqFile("SRR032116.fastq")
makeReport(fq)

グラフを 1 つずつ作る場合は以下のようにする。様々な plot 関数を実行した後に dev.off を事項すると、プロットされた画像は Reports.pdf に保存される。

library(qrqc)
fq <- readSeqFile("SRR032116.fastq")

qualPlot(fq)
basePlot(fq)
basePlot(fq, bases = c("G", "C"), geom = "bar", type = "proportion")
gcPlot(fq)
seqlenPlot(fq)
kmerKLPlot(fq)

dev.off()

qrqc レポート

クオリティスコアの分布

リードの各位置におけるクオリティスコアの分布を確認するには qualPlot 関数を利用する。 横軸がリード上の位置、縦軸はクオリティスコアの画像が描かれる。 オレンジ色のボックスの上辺は上位四分位点、下辺は下位四分位点を表す。青い点は中央値、緑ダッシュ線は平均値を表す。紫色の線は全体の回帰線である。

qualPlot(fq)
qrqc レポート(qualPlot)

塩基の出現頻度

リードの各位置における塩基の出現頻度を確認するには basePlot 関数を利用する。

basePlot(fq)
qrqc レポート(basePlot)

GC 含量

リードの各位置における GC 含量を確認するには basePlot あるいは gcPlot 関数を利用する。

# basePlot に G と C だけを描くように指定する
basePlot(fq, bases = c("G", "C"), geom = "bar", type = "proportion")

gcPlot(fq)
qrqc レポート(basePlot)
qrqc レポート(gcPlot)

リード長の分布

リードの長さの分布を確認するには seqlenPlot 関数を利用する。このサンプルに含まれるリードはすべて同じ長さであるため、ヒストグラムは以下のようになる。

seqlenPlot(fq)
qrqc レポート(seqlenPlot)

K-mer 頻度

リードから観測される K-mer を確認するには kmerKLPlot 関数を利用してレポートを作成する。この際、全リードのうちランダムに 10% のリードを取り出して、K-mer の計算に用いる。

kmerKLPlot(fq)
qrqc レポート(kmerKLPlot)

qrqc パッケージのインストール

qrqc は R/Bioconductor パッケージの一つであるから、他のパッケージと同様に、R を立ち上げて、以下のコードを実行すればインストールできる。

source("http://bioconductor.org/biocLite.R")
biocLite("qrqc")