RefSeq (reference sequence) は核酸データを登録しているデータベースである。RefSeq に登録されているデータに重複がなく(冗長性がなく)、データの 1 つ 1 つに詳細なアノテーションが付けられている。特に、accession 番号にアンダースコア(_)を含むデータに関しては、NCBI のスタッフまたは共同研究者などによって、その正確性がチェックされ、信頼性が高い。RefSeq に登録されれているデータは、変異解析や発現量解析などのリファレンスとして利用できる。
RefSeq 登録データの accession 番号
RefSeq データベースに登録されているデータは、NM や AC などのようにアルファベット 2 文字のプレフィックスが付いている。プレフィックスとその意味は次のように対応している。
プレフィックス | 分子 | 注釈 |
AC_ | DNA | 複数個体のデータから集められた完全なゲノム配列 |
NC_ | DNA | 1 個体のデータから集められた完全なゲノム配列 |
NG_ | DNA | 不完全なゲノム |
NT_ | DNA | コンティグ、スキャフォールドなど |
NW_ | DNA | コンティグ、スキャフォールドなど |
NS_ | DNA | 直接分子から単離したサンプルに由来する配列 |
NZ_ | DNA | 不完全なショットガン配列 |
NM_ | mRNA | mRNA 配列 |
NR_ | RNA | RNA 配列 |
XM_ | mRNA | 予測された mRNA 配列 |
XR_ | RNA | 予測された RNA 配列 |
AP_ | タンパク質 | AC_ に登録されているデータを元に注釈付けられるデータ |
NP_ | タンパク質 | NM_ または NC_ 関連したデータ |
YP_ | タンパク質 | |
XP_ | タンパク質 | XM_ に関連した予測モデル |
ZP_ | タンパク質 | NZ_ に関連した予測モデル |
RefSeq データのダウンロード
データファイルの分類
RefSeq に登録されているデータは、生物種に応じて菌類(fungi)、原生生物(protozoa)、や哺乳類(vertebrate_mammalian)などのカテゴリーに分けられている。RefSeq で使われているカテゴリーは以下のようなものがある。1 つのデータが複数のカテゴリーに含まれている場合がある。例えば、プラスミドの塩基配列は plasmid、microbial と complete に分類されている場合がある。
- fungi 菌類
- invertebrate 無脊椎動物
- microbial 細菌
- mitochondrion ミトコンドリア
- plant 植物
- plasmid プラスミド
- protozoa 原生生物
- vertebrate_mammalian 哺乳類
- vertebrate_other 哺乳類以外の脊椎動物
- viral ウィルス
- complete 上記すべてのデータを含む
RefSeq に登録されているデータを重複なくすべてダウンロードする場合は、complete に分類されたデータをダウンロードすればよい。
データファイルの命名規則
RefSeq の FTP サイトでダウンロードしたデータは、「complete1.genomic.bna.gz」と名付けられる一般的なファイルと、「completeNZ_AAAU.bna.gz」と名付けられる WGS タイプとがある。
一般的なタイプは、カテゴリー名、ファイルの順番、フォーマット拡張子の順で記述される。カテゴリー名は fungi、microbial や complete などである。また、カテゴリーに含まれているデータが多い場合、複数のファイルで配布される。この場合、ファイルに 1、2、3 などのようにインデックスが付けられる。
complete1.gbff.gz
complete12.gbff.gz
complete13.gbff.gz
...
一方、WGS (Whole Genome Shotgun) によって得られたデータは次のように命名されている。カテゴリー名のあとに WGS プロジェクト名が付けられる。
「complete104.genomic.gbff」の次に「complete107.genomic.gbff」がくるような不連続な場合がある。これは「complete105.genomic.gbff」および「complete106.genomic.gbff」には、(アミノ酸配列のデータ .gpff が登録されているが) DNA 情報が含まれていないために、.gbff ファイルで終わるデータが欠番となった。
フォーマットは次のようなものがある。
フォーマット | |
bna | ASN.1バイナリー形式のデータ。核酸およびタンパク質情報をすべて含む。 |
gbff | GenBankフォーマット。核酸のデータ。 |
gpff | GenBankフォーマット。タンパク質のデータ。 |
fna | FASTAフォーマット。核酸のデータ。 |
faa | FASTAフォーマット。タンパク質のデータ。 |
gbff と gpff のファイル中のデータの一部に塩基配列が含まれていない場合がある。この場合、同じ名前のファイルで拡張子が fna と faa で終わるファイルで該当する配列情報が記載されている。