GATK

GATK は、シーケンサーデータからバリアントを検出するためのプログラム群である。Java で実装されている。主に使うコマンドを以下に示した。

CreateSequenceDictionaryリファレンス配列の GATK 用のインデックスを作成するためのコマンド。
MarkDuplicatesBAM ファイル中の重複リードに識別情報を追加するためのコマンド。
CollectAlignmentSummaryMetricsBAM ファイルに記録されたマッピング結果の統計量を計算するためのコマンドである。
CollectInsertSizeMetricsBAM ファイルに記録された paired-end リードの insertion size の分布を調べるためのコマンドである。
BaseRecalibratorBAM ファイル中にあるリードのクオリティスコアを補正するためのデータを計算するコマンドである。
ApplyBQSRBAM ファイル中のリードのクオリティスコアを補正するためのコマンドである。
HaplotypeCallerハプロタイプを推定するためのコマンドである。
CombineGVCFs複数の gVCF ファイルを一つの gVCF ファイルにマージするためのコマンドである。
GenomicsDBImport複数の gVCF ファイルからジェノタイピング用のローカルデータベースを構築するためのコマンドである。
GenotypeGVCFsgVCF ファイルを利用してジェノタイピングを行うためのコマンドである。
SelectVariantsVCF ファイルから特定のバリアントを抽出するためのコマンドである。
VariantFiltration閾値を設けてバリアントをフィルタリングするためのコマンドである。
GATK を使用した GWAS 解析の流れ