詳細な注釈づけられている冗長性のない核酸データベース

RefSeq

RefSeq (reference sequence) は核酸データを登録しているデータベースである。RefSeq に登録されているデータに重複がなく(冗長性がなく)、データの 1 つ 1 つに詳細なアノテーションが付けられている。特に、accession 番号にアンダースコア(_)を含むデータに関しては、NCBI のスタッフまたは共同研究者などによって、その正確性がチェックされ、信頼性が高い。RefSeq に登録されれているデータは、変異解析や発現量解析などのリファレンスとして利用できる。

RefSeq 登録データの accession 番号

RefSeq データベースに登録されているデータは、NM や AC などのようにアルファベット 2 文字のプレフィックスが付いている。プレフィックスとその意味は次のように対応している。

プレフィックス分子注釈
AC_DNA複数個体のデータから集められた完全なゲノム配列
NC_DNA1 個体のデータから集められた完全なゲノム配列
NG_DNA不完全なゲノム
NT_DNAコンティグ、スキャフォールドなど
NW_DNAコンティグ、スキャフォールドなど
NS_DNA直接分子から単離したサンプルに由来する配列
NZ_DNA不完全なショットガン配列
NM_mRNAmRNA 配列
NR_RNARNA 配列
XM_mRNA予測された mRNA 配列
XR_RNA予測された RNA 配列
AP_タンパク質AC_ に登録されているデータを元に注釈付けられるデータ
NP_タンパク質NM_ または NC_ 関連したデータ
YP_タンパク質
XP_タンパク質XM_ に関連した予測モデル
ZP_タンパク質NZ_ に関連した予測モデル

RefSeq データのダウンロード

データファイルの分類

RefSeq に登録されているデータは、生物種に応じて菌類(fungi)、原生生物(protozoa)、や哺乳類(vertebrate_mammalian)などのカテゴリーに分けられている。RefSeq で使われているカテゴリーは以下のようなものがある。1 つのデータが複数のカテゴリーに含まれている場合がある。例えば、プラスミドの塩基配列は plasmid、microbial と complete に分類されている場合がある。

  • fungi 菌類
  • invertebrate 無脊椎動物
  • microbial 細菌
  • mitochondrion ミトコンドリア
  • plant 植物
  • plasmid プラスミド
  • protozoa 原生生物
  • vertebrate_mammalian 哺乳類
  • vertebrate_other 哺乳類以外の脊椎動物
  • viral ウィルス
  • complete 上記すべてのデータを含む

RefSeq に登録されているデータを重複なくすべてダウンロードする場合は、complete に分類されたデータをダウンロードすればよい。

データファイルの命名規則

RefSeq の FTP サイトでダウンロードしたデータは、「complete1.genomic.bna.gz」と名付けられる一般的なファイルと、「completeNZ_AAAU.bna.gz」と名付けられる WGS タイプとがある。

一般的なタイプは、カテゴリー名、ファイルの順番、フォーマット拡張子の順で記述される。カテゴリー名は fungi、microbial や complete などである。また、カテゴリーに含まれているデータが多い場合、複数のファイルで配布される。この場合、ファイルに 1、2、3 などのようにインデックスが付けられる。

complete1.gbff.gz
complete12.gbff.gz
complete13.gbff.gz
...

一方、WGS (Whole Genome Shotgun) によって得られたデータは次のように命名されている。カテゴリー名のあとに WGS プロジェクト名が付けられる。

「complete104.genomic.gbff」の次に「complete107.genomic.gbff」がくるような不連続な場合がある。これは「complete105.genomic.gbff」および「complete106.genomic.gbff」には、(アミノ酸配列のデータ .gpff が登録されているが) DNA 情報が含まれていないために、.gbff ファイルで終わるデータが欠番となった。

フォーマットは次のようなものがある。

フォーマット
bnaASN.1バイナリー形式のデータ。核酸およびタンパク質情報をすべて含む。
gbffGenBankフォーマット。核酸のデータ。
gpffGenBankフォーマット。タンパク質のデータ。
fnaFASTAフォーマット。核酸のデータ。
faaFASTAフォーマット。タンパク質のデータ。

gbff と gpff のファイル中のデータの一部に塩基配列が含まれていない場合がある。この場合、同じ名前のファイルで拡張子が fna と faa で終わるファイルで該当する配列情報が記載されている。