DDBJ/GenBank

日本の DDBJ、アメリカの GenBank/NCBI および欧州の EMBL-Bank/EBI は核酸配列データベースである。学術雑誌の中で、新種の塩基配列を報告したり、既存の塩基配列に新しいアノテーションをつけたりする場合、これらの塩基配列とそのアノテーションを DDBJ、GenBank または EMBL-Bank のいずれかのデータベースに登録する義務がある。DDBJ、GenBank または EMBL-Bank に登録されているデータは公開され、無償で再利用が可能である。

DDBJ、GenBank または EMBL-Bank に登録されているデータは冗長性がある。例えば、同じ生物種の同じ遺伝子について複数研究グループが研究している場合に、それぞれの研究グループが別々に塩基配列を登録するため、重複が生じる。また、ある研究グループがある遺伝子の第 101 番目~第 1902 番目の塩基をコーディング領域として登録しているのに対して、他の研究グループが第 302 番目~第 2010 番目として登録する可能性も十分にありうる。同じ遺伝子のデータが異なるアノテーションで複数登録されている場合、どれかが間違っているわけではなく、それぞれの実験目的に応じて解釈した結果、異なるアノテーションが得られたと考える方が正しい。DDBJ、GenBank または EMBL-Bank に登録されているデータを利用するとき、これら冗長性やアノテーションの曖昧性があることを十分に注意を支払う必要がある。

DDBJ/GenaBank フォーマット

DDBJ または GenBank に登録されている塩基配列データは GenBank フォーマットとよばれるルールで記述されている。GenBank フォーマットでは、各行の最初の 12 文字はレコード名と呼ばれている。レコード名を見て、13 文字以降にどのような内容が記述されているのかを予想がつく。また、レコード名は、GenBank フォーマットのファイルに対してプログラムで処理する際に、レコード名をチェックして分岐処理を行い、必要なデータだけを取り出すといった際に役立つ。

次は、Accession 番号が X64011 で登録されている配列データを GenBank フォーマットで表示した例である。このファイルの最初の行は LOCUS で開始し、最後の行は // で終わる。LOCUS から // が 1 つの塩基配列のデータ(1 エントリー)を表す。

LOCUS       X64011                    756 bp    DNA     linear   BCT 30-JUN-1993
DEFINITION  Listeria ivanovii sod gene for superoxide dismutase.
ACCESSION   X64011 S78972
VERSION     X64011.1  GI:44010
KEYWORDS    sod gene; superoxide dismutase.
SOURCE      Listeria ivanovii
  ORGANISM  Listeria ivanovii
            Bacteria; Firmicutes; Bacillales; Listeriaceae; Listeria.
REFERENCE   1  (bases 1 to 756)
  AUTHORS   Haas,A. and Goebel,W.
  TITLE     Cloning of a superoxide dismutase gene from Listeria ivanovii by
            functional complementation in Escherichia coli and characterization
            of the gene product
  JOURNAL   Mol. Gen. Genet. 231 (2), 313-322 (1992)
  MEDLINE   92140371
REFERENCE   2  (bases 1 to 756)
  AUTHORS   Kreft,J.
  TITLE     Direct Submission
  JOURNAL   Submitted (21-APR-1992) J. Kreft, Institut f. Mikrobiologie,
            Universitaet Wuerzburg, Biozentrum Am Hubland, 8700 Wuerzburg, FRG
FEATURES             Location/Qualifiers
     source          1..756
                     /organism="Listeria ivanovii"
                     /strain="ATCC 19119"
                     /db_xref="taxon:1638"
                     /mol_type="genomic DNA"
     RBS             95..100
                     /gene="sod"
     gene            95..746
                     /gene="sod"
     CDS             109..717
                     /gene="sod"
                     /EC_number="1.15.1.1"
                     /codon_start=1
                     /transl_table=11
                     /product="superoxide dismutase"
                     /db_xref="GI:44011"
                     /db_xref="GOA:P28763"
                     /db_xref="InterPro:IPR001189"
                     /db_xref="UniProtKB/Swiss-Prot:P28763"
                     /protein_id="CAA45406.1"
                     /translation="MTYELPKLPYTYDALEPNFDKETMEIHYTKHHNIYVTKLNEAVS
                     GHAELASKPGEELVANLDSVPEEIRGAVRNHGGGHANHTLFWSSLSPNGGGAPTGNLK
                     AAIESEFGTFDEFKEKFNAAAAARFGSGWAWLVVNNGKLEIVSTANQDSPLSEGKTPV
                     LGLDVWEHAYYLKFQNRRPEYIDTFWNVINWDERNKRFDAAK"
     terminator      723..746
                     /gene="sod"
ORIGIN
        1 cgttatttaa ggtgttacat agttctatgg aaatagggtc tatacctttc gccttacaat
       61 gtaatttctt ..........
//

DDBJ/GenBank フォーマットのレコード名

GenBank フォーマットファイルの各行最初の 12 文字は、特別な意味を持つレコード名と定義されている。レコード名は定義されているワードしか書けない。レコード名とその定義は DDBJ の解説サイト に詳しく書かれている。以下に、よく使うレコード名だけを示す。

LOCUS

LOCUS は各エントリーの 1 行目に現れるレコードである。LOCUS レコードには、エントリー名(accession 番号)、塩基の長さ、核酸タイプ、分子の形、データの分類(division)、公開日のデータが記述されている。

例えば、次の LOCUS レコードは、accession 番号が X64011 で、長さが 756 bp のバクテリア(BCT)の直鎖 DNA であり、2006 年 9 月に公開されたデータである。

LOCUS       X64011                   756 bp    DNA     linear   BCT 26-SEP-2006

核酸のタイプ、分子の形やデータの分類などは、定義されたキーワードしか記述できない。

核酸タイプDNA、RNA、mRNA、rRNA、tRNA、cRNA のいずれか
分子の形linear、circular のいずれか
データの分類
  • HUM - ヒト
  • PRI - 霊長類 (ヒトを除く)
  • POD - 齧歯類
  • MAM - 哺乳類 (ヒト,霊長類,齧歯類を除く)
  • VRT - 脊椎動物 (ヒト,霊長類,齧歯類,哺乳類を除く)
  • INV - 無脊椎動物
  • PLN - 植物・真菌類など
  • BCT - バクテリア
  • VRL - ウイルス
  • PHG - バクテリオファージ
  • HTC - EST 以外の cDNA 配列プロジェクトに由来するデータ
  • HTG - ゲノムプロジェクトに由来するデータ
  • CON - ゲノムプロジェクトによって登録された複数のデータを、データベース側で 1 つにまとめたデータ。データが非常に大きいため、ファイルには塩基配列がは記載されていない

ACCESSION

データベースに登録する際に付けられる登録番号(accession 番号)。通常アルファベット 1 文字と数字 5 桁の組み合わせか、アルファベット 2 文字と数字 6 桁の組み合わせからなる。データの更新などに伴って accession 番号が変化する場合がある。

SOURCE / ORGANISM

SOURCE レコードには生物の学名が記述される。また、生物に一般名が存在すると、学名と共に一般名も記述される。ORGANISM は、学名とその系統が記述される。ORGANISM の 1 行目には学名あるいは Unified Taxonomy Database 登録名が記述され、2 行目以降は Unified Taxonomy Database に基づく生物学的分類が記述される。

SOURCE      Homo sapiens (human)
  ORGANISM  Homo sapiens
            Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
            Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini;
            Catarrhini; Hominidae; Homo.

FEATURES

FEATURES レコードには塩基配列のアノテーションが記述される。登録されている全塩基配列のうち、どの部分がエキソンなのか、どの部分がイントロンなのかなどのアノテーションが記述されている。FEATURES レコードの場合、各行の最初の 20 文字は、feature key として定義されている。また、21 文字目が空白文字である。22 文字目から 80 文字目までが実際のアノテーションが記述されている。

例えば、以下に示した GenBank フォーマットのデータでは、source、gene、CDS の 3 種類の feature key が確認できる。source は 1..8959 となっているので、これはこのデータの塩基配列は 1 番目の塩基から始まり 8959 番目の塩基で終わっていることを表す。source に対応する塩基配列は SOURCE レコードに記載される。また、このデータは全部で 8959 個の塩基を含むが、実際の遺伝子領域(gene)は 212 番目から 8680 番目までの塩基の部分であり、そのうちタンパク質をコーディングする領域(CDS)は 212 番目から 8668 番目までの塩基の部分となる。

     source          1..8959
                     /organism="Homo sapiens"
                     /db_xref="taxon:9606"
                     /mol_type="genomic DNA"
     gene            212..8680
                     /gene="NF1"
     CDS             212..8668
                     /gene="NF1"
                     /note="putative"
                     /codon_start=1
                     /product="GAP-related protein"
                     /protein_id="AAA59924.1"
                     /translation="MAAHRPVEWVQAVVSRFDEQLPIKTGQQNTHTKVSTE.......
---------+---------+---------+---------+---------+---------+---------+---------
1       10        20        30        40        50        60        70       79

各アノテーションの領域は 1..8959 のように記述されるほか、<345..500 や join(12..78,134..202) などのように記述される場合もある。領域の記述に関しては、以下のようなルールが決められている。

表示形式意味
467単一塩基だけからなる配列の場合は、その位置の番号だけが記述される。
340..565連続した配列の範囲を示す。340 番目の塩基から 565 番目の塩基までの配列。
<345..500345 番目の塩基から 500 番目の塩基までの配列。ただし、正確な開始位置は345よりも前(5'方向)にあり、正確には分かっていない。
<1..8881 よりも前にある塩基から始まり、888 番目塩基までの配列を示す。1 よりも前にある塩基は、現在のエントリーに記述されてない。
1..888>1 番目の塩基から始まり 888 番目よりも後の塩基で終わる。ただし、正確な位置は分かっていない。
102.110塩基配列の正確な位置情報が分かっていない。ただし、102 番目から 110 番目の間にある。
123^1242 塩基だけからなる塩基配列の場合は「^」によて記述される。
join(12..78,134..202)12 番目~78 番目の配列の後に、134 番目~202 番目の配列を結合させた配列。
complement(34..126)34 番目~125 番目の塩基配列の相補鎖。プログラムで処理するときは、まず 34..125 として処理し、続いて、塩基配列を逆転 (125..34) させて、A を T、C を G、G を C、T を A に転換する必要がある。
complement(join(269..451,550..790))269..451 と 550..790 の結合配列の相補鎖。
join(complement(118..168),complement(35..89))35..89 の相補鎖と、118..168 の相補鎖を結合させた配列。順序は 168->118+89->35となっている。
J00194.1:100..202accession 番号が J00194 に記述されている塩基配列中の 100 番目~202 番目までの配列。J00194.1 の小数点以降はバージョンを示す。
join(1..100,J00194.1:100..202)現在エントリーの 1..100 配列と、J00194 エントリーに含まれる 100..202 配列を結合した配列。

ORIGIN

ORGIN レコードには塩基配列のデータが記載される。塩基配列は 10 塩基ごとに空白で区切られ、60 塩基ごとに改行される形で記載されている。

ORIGIN      
        1 aaccacgtac acaagatttc aacatttata tgtgtcaaca tgagactttt catcacctaa
       61 ttatatcaat ataataccta ttgagtatta gatattgacc cttacaacat ccgacatcta
      121 tttcattcct ctgaaatata agttgtatta tttttatccg agtggttagg ttggaaaata
      181 ataaaatgct taagaaataa acttaagagg aaaggaaaca taaaacaaat agaaaaagga
      241 actttatttg gcttggtcca tatgcttatc atcctagctt ctctgttact atcttctttt
      301 tcccttaact tttttttctt tttcatgtat aatcaaactt ctctcgacaa tattcttctt
      361 tataatcata ctttattata gcaattttat tttttgctat attatattat agtatatacc
      421 ctcttatgtg agacagcaaa aaatgtaaat gaataattaa acttgcagaa ttagatttga
      481 aagatatttt tcatgttttt ttgcgggtca aatcattcat taagagccta gatgtactac
      541 gtgcaacttc ttaacctttc taagactaaa tcaaggaatt gggaaagaac aaaaatacac
      601 gtaaaactgg gattttgtac agcccattaa attagtttta tcatttgaaa ttagacaaga
      661 ggaataatga attttagcta ttcttgttcc taaccctatc acacaaattt tctcagatcc
      721 ctttcaaatt aatatcttct taactaaaca tcatgtatga cttatataca ccacaatatg
      781 aattaagaag atactgaaaa attaaggaat tgttgactaa attttaagtc aaaggaccat
      841 atcttgagtg gaaatttcta agaaatatcg tattcagtac atatatgatt actttaagta
      901 aggtattgcc aaaacgcaac cgtgtctttt ctaacaacat aaaaacacgg cattttctac
      961 taatcaatcc gcttttgttt accaattcta caattcaaac cctacacata tagtatacac
     1021 attaaaccaa agactgaaac gacacctata tatattcaac tccacgtacc aaaggatact
     1081 catctctatt attattgcat cctatacata tactaaaagg gcaaagcaat ataatctgta
     1141 ctttattttt cttgagcc