3.1. 核酸#
3.1.1. DDBJ / GenBank / EMBL-Bank#
日本国立遺伝学研究所(NIG)が運営する DDBJ、アメリカ国立生物工学情報センター(NCBI)が運営する GenBank、そして欧州分子生物学研究所(EMBL)に属する欧州バイオインフォマティクス研究所(EBI)が提供する ENA は、国際塩基配列データベース連携(International Nucleotide Sequence Database Collaboration; INSDC)を構成する主要な核酸配列データベースです。
これら 3 つのデータベースは相互にデータを交換しており、基本的には同一内容の配列データを共有しています。登録されたデータは公開され、無償で再利用することが可能です。学術論文において新規の塩基配列を報告する場合や、既存配列に新しいアノテーションを付与する場合には、原則としてこれらのいずれかのデータベースに配列を登録することが求められます。
DDBJ、GenBank、EMBL-Bank に登録されているデータには冗長性があります。たとえば、同一生物種の同一遺伝子について、複数の研究グループが独立に研究を行い、それぞれが塩基配列を登録した場合、同一または非常によく似た配列が複数存在することになります。また、同じ遺伝子であっても、コーディング領域(CDS)の開始位置や終了位置の解釈が研究グループごとに異なることがあり、その結果、アノテーションに差が生じる場合があります。このため、GenBank 系のデータを利用する際には、冗長性やアノテーションのばらつきを前提として解析を行う必要があります。
DDBJ や GenBank の塩基配列データは、GenBank フォーマット(genbank format)と呼ばれる形式で記述されています。このフォーマットでは、各行の先頭 12 文字がレコード名として定義されており、その後に続く情報の種類を示しています。GenBank フォーマットでは、1 つの配列情報は LOCUS 行から始まり、// 行で終わります。この単位を 1 エントリー(entry)と呼びます。1 つのファイルに複数のエントリーが含まれることもあります。各エントリーには、LOCUS のほかに、DEFINITION、ACCESSION、VERSION、SOURCE、REFERENCE、FEATURES、ORIGIN などのセクションが含まれており、それぞれが特定の情報を提供しています。例えば、ACCESSION セクションには配列のアクセッション番号が、FEATURES セクションには遺伝子や CDS などの注釈情報が記載されています。
3.1.2. RefSeq#
RefSeq(Reference Sequence)は、NCBI が提供する核酸配列およびタンパク質配列のデータベースです。RefSeq の最大の特徴は、冗長性を極力排除し、各遺伝子や転写産物について代表的な参照配列(reference sequence)を提供している点にあります。
RefSeq に登録されている配列は、自動解析による予測結果を基盤としつつ、NCBI のスタッフや専門家によるキュレーションを組み合わせて整備されています。そのため、アノテーションは比較的保守的で統一性が高く、長期的に安定した利用が可能です。特に、アクセッション番号にアンダースコア(_)を含む RefSeq 配列(例:NM_、NR_、NC_ など)は、一定の品質基準を満たした配列として管理されており、信頼性が高いとされています。
このような特徴から、RefSeq 配列は、変異解析、発現量解析、リードマッピングなどにおいて、基準となる配列やアノテーションとして広く利用されています。一方で、転写産物の数は必要最小限に抑えられているため、スプライスバリアントの網羅性という点では限定的な場合があります。
3.1.3. Ensembl#
Ensembl は、主に真核生物を対象としたゲノムデータベースであり、遺伝子構造やスプライスバリアントを可能な限り網羅的に記述することを目的として構築されています。Ensembl では、ゲノム配列上に存在しうる遺伝子や転写産物を体系的に注釈付けすることに重点が置かれています。
Ensembl のアノテーションは、UniProt や RefSeq などの既存データベースの情報に加え、RNA-seq などの実験データを活用し、自動解析パイプラインによって一貫して生成されています。そのため、スプライスバリアントや転写産物の種類が多く、遺伝子構造を詳細に把握できる点が大きな特徴です。一方で、リリースごとにアノテーションが更新・修正されることがあり、遺伝子 ID や転写産物の構成が変化する場合もあります。
Ensembl で提供されるゲノム配列およびアノテーションは、RNA-seq 解析や変異解析などにおいて、リファレンスゲノムや注釈情報として広く利用されています。特に、転写産物の多様性を考慮した解析を行う場合には、有用な情報源となります。
3.1.4. その他の核酸データベース#
RNA-seq 解析などにおいてリファレンスとして利用されるゲノム配列の多くは、RefSeq や Ensembl から提供されています。特に、バイオインフォマティクス分野において手法の開発や検証を行う場合には、これらのデータベースが用いられることが一般的です。
一方で、分子生物学を中心とした研究分野では、生物種ごとに特化したデータベースが利用されることも少なくありません。例えば、シロイヌナズナ(Arabidopsis thaliana)については TAIR(The Arabidopsis Information Resource)、トマト(Solanum lycopersicum)については SGN(Sol Genomics Network)、ダイズ(Glycine max)については SoyBase、小麦(Triticum aestivum)については IWGSC(International Wheat Genome Sequencing Consortium)などが広く利用されています。
これらのデータベースは、各生物種に特化した詳細なアノテーションや実験データを提供しており、専門的な研究において重要な役割を果たしています。