2 倍体生物の場合は、一般に 1 つの遺伝子に対して父親由来と母親由来の 2 コピーを持つ。しかし、中には、1 コピーになったり、3 コピー以上になったりするような遺伝子も存在する。このように、個体によってコピー数が異なる遺伝子、正確には、個体によってコピー数が異なる DNA 領域のことを CNV (copy number variation; コピー数多型)と呼ぶ。CNV の長さは多様であり、300 bp と 6 kb 前後の CNV が最もよく見られる。
WES (whole-exome sequencing) データから CNV を検出するソフトウェアおよびその入出力データのフォーマットは以下のようになってる(Tan et al., 2014)。
ソフトウェア | 入力フォーマット | 出力フォーマット | アルゴリズム |
CODEX (Jiang et al., 2015) | BAM | TSV | HMM |
XHMM (Fromer et al., 2012) | GATK depth-of-coverage file | VCF, TSV | PCA, HMM |
CoNIFER (Krumm et al., 2012) | BAM, RPKM | TSV | SVD |
ExomeDepth (Plagnol et al., 2012) | BAM | CSV | HMM, beta-binomial model |
CONTRA (Li et al., 2012) | BAM | VCF, TSV | base-level log-ratio |
References
- An evaluation of copy number variation detection tools from whole-exome sequencing data. Hum Mutat. 2014, 35(7):899-907. DOI: 10.1002/humu.22537 PMID: 24599517
- Discovery and statistical genotyping of copy-number variation from whole-exome sequencing depth. Curr Protoc Hum Genet. 2012, 91(4):597-607. DOI: 10.1016/j.ajhg.2012.08.005 PMID: 23040492
- Copy number variation detection and genotyping from exome sequence data. Genome Res. 2012, 22(8):1525-32. DOI: 10.1101/gr.138115.112 PMID: 22585873
- A robust model for read count data in exome sequencing experiments and implications for copy number variant calling. Bioinformatics. 2012, 28(21):2747-54. DOI: 10.1093/bioinformatics/bts526 PMID: 22942019
- CONTRA: copy number analysis for targeted resequencing. Bioinformatics. 2012, 28(10):1307-13. DOI: 10.1093/bioinformatics/bts146 PMID: 22474122
- CODEX: a normalization and copy number variation detection method for whole exome sequencing. Nucleic Acids Res. 2015, 43(6):e39. DOI: 10.1093/nar/gku1363 PMID: 25618849