R / Bioconductor のパッケージ

ShortRead

R / Bioconductor のパッケージである ShortRead は FASTQ クオリティチェックに利用できる。チェックを行いたいファイル名を指定し、report 関数によりチェックを行う。

library(ShortRead)

# チェックの対象ファイルの読み込み
fq <- readFastq("DRR000034.fastq")

# チェック
qa <- qa(fq, lane = "DRR000034")

# レポート作成(dest に出力先を指定する)
report(qa, dest = "./report")

クオリティレポートは以下のように作成される。

Run Summary

リード数が表示される。複数の FASTQ を一括に解析したときに、それら総リード数が同時に表示される。

base call frequency over all reads

全リードにおける各塩基の出現頻度が表示される。

overall read quality

クオリティスコアの分布がグラフで示される。

read occurrences

リードの出現頻度を表している。試料を調整するときに、トランスクリプトームを無作為に断片化するため、重複するリードが存在しないと考えられる。そのため、横軸(対数スケール)が 1 のとき縦軸が 1 になることが期待される。しかし、ポリ A をうまく取り除けなかったり、コンタミが入ってたりすると、重複リードが多くなる。

実際に重複したリードは次のように報告される。

sequence	count	lane
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA	40314	1
TTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTT	 2290	1
GAAATACAACGATGGTTTTTCATATCATTGGTCGTG	 663	1
ATAAGATTATTAGTATAAAAGGGGAGATAGGTAGGA	 427	1
GCTACTCCTACCTATCTCCCCTTTTATACTAATAAT	 415	1
TAAGATTATTAGTATAAAAGGGGAGATAGGTAGGAG	 396	1
AAAAAAAAAAAAAAAAAAAAAANNNAAAAAAAAAAA	 395	1
TTTATAAGATTATTAGTATAAAAGGGGAGATAGGTA	 365	1
CATTATTCTCGCACGGACTACAACCACGACCAATGA	 332	1
GTAGAATCTTTTTTATTCAGAAAAAAAAAACCCCAA	 330	1
GATCGGAAGAGCTCGTATGCCGTCTTCTGCTTGAAA	 301	1
TTATAAGATTATTAGTATAAAAGGGGAGATAGGTAG	 292	1
CAGAAACAAAGCATACATCATTATTCTCGCACGGAC	 281	1
CTCAGACGCTCAGGAAATAGAAACCGTCTGAGATGT	 268	1
TTTTTTTATAAGATTATTAGTATAAAAGGGGAGATA	 264	1
GTTGAAATACAACGATGGTTTTTCATATCATTGGTC	 262	1
AAAAAAAAAAAAAAAAAAAAAAAAAAAAACACAAAA	 236	1
TTTTTTTTATAAGATTATTAGTATAAAAGGGGAGAT	 225	1
CAAATGTTTATTTTATATACAAAGAATTATCATGGT	 223	1
CATTTGGATACATAGGTATGGTCTGAGCTATGATAT	 210	1

per-cycle base calls

リードの各位置に出現する塩基の頻度を表している。試料調整する際に、トランスクリプトームを無作為に断片化しているため、各位置における塩基の出現頻度が同じであると期待される。

per-cycle quality score

リードの各位置におけるスコアの分布を表している。赤実線は中央値、赤点線は第 1 と第 3 四分位数である。緑線は平均値を表す。

ShortRead パッケージのインストール

ShortRead は R/Bioconductor パッケージの一つであるから、他のパッケージと同様に、R を立ち上げて、以下のコードを実行すればインストールできる。

source("http://bioconductor.org/biocLite.R")
biocLite("ShortRead")