ゲノム配列の範囲と座標系

BAM, GTF, VCF などのファイルにはゲノム上における遺伝子座標が記述されている。遺伝子座標を記述するための座標系には、塩基配列の最初の塩基を 0 として数える 0-based 座標系と、最初の塩基を 1 として数える 1-based 座標系がある。よく使うフォーマットの座標系は次のようになっている(Chapter 9, Bioinformatics Data Skills)。

フォーマット座標系説明
BED0-based遺伝子アノテーションを記述したタブ区切りのファイル。最初の 3 列が必須で、染色体名、開始位置、および終了位置が記述されている。4 列目からは必要に応じて、遺伝子名、スコア、ストランドなどの情報を記述する。
GTF1-based遺伝子アノテーションを記述したタブ区切りのファイル。全体で 9 列からなり、順に染色体名、アノテーション由来、feature(gene, exon など)、開始位置、終了位置、スコア、ストランド、フレーム、その他メタ情報です。
GFF1-basedGFF とほぼ同じフォーマットで全体が 9 列からなる。1-8 列までは GTF と同じ規則で記述され、9 列目には GTF と同じくメタ情報が記述されるが、記述方法が少々異なる。
SAM1-basedリードをリファレンス配列のどの位置にマッピングできたのかを記述したタブ区切りのファイル。
BAM0-basedSAM をバイナリー形式に変換したフォーマット。人は読めないが、コンピューターで効率よく扱うことができる。
VCF1-basedSNPs の位置などを記述したタブ区切りのファイル。
BCF0-basedVCF をバイナリー形式に変換したフォーマット。
bigWig1-basedGC 含量、確率、転写産物などの連続値データを表示するために使われるフォーマット。
GenomicRanges1-basedBioconductor の GenomicRanges や Biostrings で使われている記述形式。
BLAST1-basedBLAST の検索結果。
GenBank/EMBL Feature1-basedGenBank や EMBL などの feature table に記述されている位置情報。

References

  • Vince Buffalo. Bioinformatics Data Skills: Reproducible and Robust Research with Open Source Tools. O'Reilly Media. 2015