日本の DDBJ、アメリカの GenBank/NCBI および欧州の EMBL-Bank/EBI は核酸配列データベースである。学術雑誌の中で、新種の塩基配列を報告したり、既存の塩基配列に新しいアノテーションをつけたりする場合、これらの塩基配列とそのアノテーションを DDBJ、GenBank または EMBL-Bank のいずれかのデータベースに登録する義務がある。DDBJ、GenBank または EMBL-Bank に登録されているデータは公開され、無償で再利用が可能である。
DDBJ、GenBank または EMBL-Bank に登録されているデータは冗長性がある。例えば、同じ生物種の同じ遺伝子について複数研究グループが研究している場合に、それぞれの研究グループが別々に塩基配列を登録するため、重複が生じる。また、ある研究グループがある遺伝子の第 101 番目~第 1902 番目の塩基をコーディング領域として登録しているのに対して、他の研究グループが第 302 番目~第 2010 番目として登録する可能性も十分にありうる。同じ遺伝子のデータが異なるアノテーションで複数登録されている場合、どれかが間違っているわけではなく、それぞれの実験目的に応じて解釈した結果、異なるアノテーションが得られたと考える方が正しい。DDBJ、GenBank または EMBL-Bank に登録されているデータを利用するとき、これら冗長性やアノテーションの曖昧性があることを十分に注意を支払う必要がある。
DDBJ/GenaBank フォーマット
DDBJ または GenBank に登録されている塩基配列データは GenBank フォーマットとよばれるルールで記述されている。GenBank フォーマットでは、各行の最初の 12 文字はレコード名と呼ばれている。レコード名を見て、13 文字以降にどのような内容が記述されているのかを予想がつく。また、レコード名は、GenBank フォーマットのファイルに対してプログラムで処理する際に、レコード名をチェックして分岐処理を行い、必要なデータだけを取り出すといった際に役立つ。
次は、Accession 番号が X64011 で登録されている配列データを GenBank フォーマットで表示した例である。このファイルの最初の行は LOCUS で開始し、最後の行は // で終わる。LOCUS から // が 1 つの塩基配列のデータ(1 エントリー)を表す。
LOCUS X64011 756 bp DNA linear BCT 30-JUN-1993
DEFINITION Listeria ivanovii sod gene for superoxide dismutase.
ACCESSION X64011 S78972
VERSION X64011.1 GI:44010
KEYWORDS sod gene; superoxide dismutase.
SOURCE Listeria ivanovii
ORGANISM Listeria ivanovii
Bacteria; Firmicutes; Bacillales; Listeriaceae; Listeria.
REFERENCE 1 (bases 1 to 756)
AUTHORS Haas,A. and Goebel,W.
TITLE Cloning of a superoxide dismutase gene from Listeria ivanovii by
functional complementation in Escherichia coli and characterization
of the gene product
JOURNAL Mol. Gen. Genet. 231 (2), 313-322 (1992)
MEDLINE 92140371
REFERENCE 2 (bases 1 to 756)
AUTHORS Kreft,J.
TITLE Direct Submission
JOURNAL Submitted (21-APR-1992) J. Kreft, Institut f. Mikrobiologie,
Universitaet Wuerzburg, Biozentrum Am Hubland, 8700 Wuerzburg, FRG
FEATURES Location/Qualifiers
source 1..756
/organism="Listeria ivanovii"
/strain="ATCC 19119"
/db_xref="taxon:1638"
/mol_type="genomic DNA"
RBS 95..100
/gene="sod"
gene 95..746
/gene="sod"
CDS 109..717
/gene="sod"
/EC_number="1.15.1.1"
/codon_start=1
/transl_table=11
/product="superoxide dismutase"
/db_xref="GI:44011"
/db_xref="GOA:P28763"
/db_xref="InterPro:IPR001189"
/db_xref="UniProtKB/Swiss-Prot:P28763"
/protein_id="CAA45406.1"
/translation="MTYELPKLPYTYDALEPNFDKETMEIHYTKHHNIYVTKLNEAVS
GHAELASKPGEELVANLDSVPEEIRGAVRNHGGGHANHTLFWSSLSPNGGGAPTGNLK
AAIESEFGTFDEFKEKFNAAAAARFGSGWAWLVVNNGKLEIVSTANQDSPLSEGKTPV
LGLDVWEHAYYLKFQNRRPEYIDTFWNVINWDERNKRFDAAK"
terminator 723..746
/gene="sod"
ORIGIN
1 cgttatttaa ggtgttacat agttctatgg aaatagggtc tatacctttc gccttacaat
61 gtaatttctt ..........
//
DDBJ/GenBank フォーマットのレコード名
GenBank フォーマットファイルの各行最初の 12 文字は、特別な意味を持つレコード名と定義されている。レコード名は定義されているワードしか書けない。レコード名とその定義は DDBJ の解説サイト に詳しく書かれている。以下に、よく使うレコード名だけを示す。
LOCUS
LOCUS は各エントリーの 1 行目に現れるレコードである。LOCUS レコードには、エントリー名(accession 番号)、塩基の長さ、核酸タイプ、分子の形、データの分類(division)、公開日のデータが記述されている。
例えば、次の LOCUS レコードは、accession 番号が X64011 で、長さが 756 bp のバクテリア(BCT)の直鎖 DNA であり、2006 年 9 月に公開されたデータである。
LOCUS X64011 756 bp DNA linear BCT 26-SEP-2006
核酸のタイプ、分子の形やデータの分類などは、定義されたキーワードしか記述できない。
核酸タイプ | DNA、RNA、mRNA、rRNA、tRNA、cRNA のいずれか |
分子の形 | linear、circular のいずれか |
データの分類 |
|
ACCESSION
データベースに登録する際に付けられる登録番号(accession 番号)。通常アルファベット 1 文字と数字 5 桁の組み合わせか、アルファベット 2 文字と数字 6 桁の組み合わせからなる。データの更新などに伴って accession 番号が変化する場合がある。
SOURCE / ORGANISM
SOURCE レコードには生物の学名が記述される。また、生物に一般名が存在すると、学名と共に一般名も記述される。ORGANISM は、学名とその系統が記述される。ORGANISM の 1 行目には学名あるいは Unified Taxonomy Database 登録名が記述され、2 行目以降は Unified Taxonomy Database に基づく生物学的分類が記述される。
SOURCE Homo sapiens (human)
ORGANISM Homo sapiens
Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini;
Catarrhini; Hominidae; Homo.
FEATURES
FEATURES レコードには塩基配列のアノテーションが記述される。登録されている全塩基配列のうち、どの部分がエキソンなのか、どの部分がイントロンなのかなどのアノテーションが記述されている。FEATURES レコードの場合、各行の最初の 20 文字は、feature key として定義されている。また、21 文字目が空白文字である。22 文字目から 80 文字目までが実際のアノテーションが記述されている。
例えば、以下に示した GenBank フォーマットのデータでは、source、gene、CDS の 3 種類の feature key が確認できる。source は 1..8959 となっているので、これはこのデータの塩基配列は 1 番目の塩基から始まり 8959 番目の塩基で終わっていることを表す。source に対応する塩基配列は SOURCE レコードに記載される。また、このデータは全部で 8959 個の塩基を含むが、実際の遺伝子領域(gene)は 212 番目から 8680 番目までの塩基の部分であり、そのうちタンパク質をコーディングする領域(CDS)は 212 番目から 8668 番目までの塩基の部分となる。
source 1..8959
/organism="Homo sapiens"
/db_xref="taxon:9606"
/mol_type="genomic DNA"
gene 212..8680
/gene="NF1"
CDS 212..8668
/gene="NF1"
/note="putative"
/codon_start=1
/product="GAP-related protein"
/protein_id="AAA59924.1"
/translation="MAAHRPVEWVQAVVSRFDEQLPIKTGQQNTHTKVSTE.......
---------+---------+---------+---------+---------+---------+---------+---------
1 10 20 30 40 50 60 70 79
各アノテーションの領域は 1..8959 のように記述されるほか、<345..500 や join(12..78,134..202) などのように記述される場合もある。領域の記述に関しては、以下のようなルールが決められている。
表示形式 | 意味 |
467 | 単一塩基だけからなる配列の場合は、その位置の番号だけが記述される。 |
340..565 | 連続した配列の範囲を示す。340 番目の塩基から 565 番目の塩基までの配列。 |
<345..500 | 345 番目の塩基から 500 番目の塩基までの配列。ただし、正確な開始位置は345よりも前(5'方向)にあり、正確には分かっていない。 |
<1..888 | 1 よりも前にある塩基から始まり、888 番目塩基までの配列を示す。1 よりも前にある塩基は、現在のエントリーに記述されてない。 |
1..888> | 1 番目の塩基から始まり 888 番目よりも後の塩基で終わる。ただし、正確な位置は分かっていない。 |
102.110 | 塩基配列の正確な位置情報が分かっていない。ただし、102 番目から 110 番目の間にある。 |
123^124 | 2 塩基だけからなる塩基配列の場合は「^」によて記述される。 |
join(12..78,134..202) | 12 番目~78 番目の配列の後に、134 番目~202 番目の配列を結合させた配列。 |
complement(34..126) | 34 番目~125 番目の塩基配列の相補鎖。プログラムで処理するときは、まず 34..125 として処理し、続いて、塩基配列を逆転 (125..34) させて、A を T、C を G、G を C、T を A に転換する必要がある。 |
complement(join(269..451,550..790)) | 269..451 と 550..790 の結合配列の相補鎖。 |
join(complement(118..168),complement(35..89)) | 35..89 の相補鎖と、118..168 の相補鎖を結合させた配列。順序は 168->118+89->35となっている。 |
J00194.1:100..202 | accession 番号が J00194 に記述されている塩基配列中の 100 番目~202 番目までの配列。J00194.1 の小数点以降はバージョンを示す。 |
join(1..100,J00194.1:100..202) | 現在エントリーの 1..100 配列と、J00194 エントリーに含まれる 100..202 配列を結合した配列。 |
ORIGIN
ORGIN レコードには塩基配列のデータが記載される。塩基配列は 10 塩基ごとに空白で区切られ、60 塩基ごとに改行される形で記載されている。
ORIGIN
1 aaccacgtac acaagatttc aacatttata tgtgtcaaca tgagactttt catcacctaa
61 ttatatcaat ataataccta ttgagtatta gatattgacc cttacaacat ccgacatcta
121 tttcattcct ctgaaatata agttgtatta tttttatccg agtggttagg ttggaaaata
181 ataaaatgct taagaaataa acttaagagg aaaggaaaca taaaacaaat agaaaaagga
241 actttatttg gcttggtcca tatgcttatc atcctagctt ctctgttact atcttctttt
301 tcccttaact tttttttctt tttcatgtat aatcaaactt ctctcgacaa tattcttctt
361 tataatcata ctttattata gcaattttat tttttgctat attatattat agtatatacc
421 ctcttatgtg agacagcaaa aaatgtaaat gaataattaa acttgcagaa ttagatttga
481 aagatatttt tcatgttttt ttgcgggtca aatcattcat taagagccta gatgtactac
541 gtgcaacttc ttaacctttc taagactaaa tcaaggaatt gggaaagaac aaaaatacac
601 gtaaaactgg gattttgtac agcccattaa attagtttta tcatttgaaa ttagacaaga
661 ggaataatga attttagcta ttcttgttcc taaccctatc acacaaattt tctcagatcc
721 ctttcaaatt aatatcttct taactaaaca tcatgtatga cttatataca ccacaatatg
781 aattaagaag atactgaaaa attaaggaat tgttgactaa attttaagtc aaaggaccat
841 atcttgagtg gaaatttcta agaaatatcg tattcagtac atatatgatt actttaagta
901 aggtattgcc aaaacgcaac cgtgtctttt ctaacaacat aaaaacacgg cattttctac
961 taatcaatcc gcttttgttt accaattcta caattcaaac cctacacata tagtatacac
1021 attaaaccaa agactgaaac gacacctata tatattcaac tccacgtacc aaaggatact
1081 catctctatt attattgcat cctatacata tactaaaagg gcaaagcaat ataatctgta
1141 ctttattttt cttgagcc