発現量解析などのリファレンスゲノムに利用されるデータを提供

Ensembl

Ensembl データベースは、ゲノム配列のスプライスバリアントやタンパク質レベルのアノテーションを付け、より詳細なゲノム情報を提供している。Ensembl データベースのデータは、主に UniProt や RefSeq のアノテーションを利用して自動的に集められている。Ensembl で公開されているデータは、変異解析や発現量解析などのリファレンスゲノムとして用いることができる。

各生物種の Ensembl データベース

Ensembl は主に脊椎動物のゲノムアノテーションを提供しているが、植物や原生生物などのアノテーションは Ensembl Plants、Ensembl Metazoa などで提供している。

Ensembl データのダウンロード

Ensembl FTP サイト

Ensembl データベースのデータは FTP サイトを通してすべてダウンロードすることができる。データは FTP サイト の /pub/release-xx/ ディレクトリの下に保存されている。GenBank 形式と FASTA 形式の 2 種類で提供されている。

GenBank 形式のデータ

GenBank 形式のデータは FTP サイトの「/pub/release-*/genbank/種名/」ディレクトリに置かれている。ゲノム配列とそのアノテーション情報などがファイル中に書かれている。ただし、アノテーションが付けられていない塩基配列は含まれない。

Ensembl が提供している GenBank 形式のファイルは、1 ファイルに 1000 件のエントリーが書かれている。

FASTA 形式のデータ

FASTA 形式のデータは FTP サイトの「/pub/release-*/fasta/種名/」ディレクトリに置かれている。全ゲノム配列が FASTA ファイルに書かれている。Ensemble の FTP で提供されいてる FASTA ファイルの名前は次のような規則で命名されている。

 Homo_sapiens.GRCh37.65.dna_rm.chromosome.HG995_PATCH.fa.gz	
 |-----------|------|--|------|----------|-----------|--|--|
       1        2    3    4        5           6       7  8
  1. 生物種
  2. ビルト名
  3. リリース番号
  4. シーケンスの分子タイプ。dna はアセンブリーした配列のこと。dna_rm は RepeatMasker ツールにより繰り返し配列が消去された配列であり、消去された塩基はかわりに N が挿入される。
  5. chromosome は染色体 DNA を表し、nonchromosomal はミトコンドリアや葉緑体などの非染色体DNAを表す。
  6. 染色体の名前あるいは染色体の番号
  7. fasta 形式
  8. 圧縮形式(拡張子)

遺伝子、転写物、エキソン

遺伝子(gene)領域に複数のエキソン(exon)と複数のイントロン(intron)が交互に並んでいる。また、遺伝子領域の上流と下流(flank)には、その遺伝子の転写を制御するエンハンサー領域やプロモーター領域が含まれている可能性がある。遺伝子の発現は、まず、遺伝子領域が転写されて pre-mRNA が作られる。次に、pre-mRNA から数個のエキソン領域が選択的に選ばれ、ほかの領域がすべて取り除かれて mRNA (転写物の 1 つ)が作られる。これを選択的スプライシングという。1 つの遺伝子に複数のエキソンが含まれている。そのため、エキソンの選び方が複数に存在し、1 つの遺伝子から多様な mRNA が作られることがある。実際には、多くの遺伝子から、複数種類の mRNA が作られることが確認されている。

Ensembl 遺伝子アノテーション

複数のエキソンが繋がった mRNA が作られると、そのすべての塩基配列がアミノ酸に翻訳されるわけではない。mRNA の 5' 末端には、翻訳されない領域がある。これを 5'UTR という。また、反対側にも翻訳されない 3'UTR 領域もある。5'UTR は 1 番目のエキソンの一部となる場合もあれば、1 番目のエキソンの最初から 2 番目エキソンの途中までとなる場合もある。このことは 3'UTR 領域にもいえる。

Ensembl データベースでは、遺伝子(Gene)、転写物(Transcript)、エキソン(exon)、イントロン(intron)および 5'UTR、3'UTR 領域の塩基配列データとアノテーションを提供している。1 つの遺伝子から何種類の転写物が作られるか、あるいは 1 つの転写物から何個のエキソンからなるのか、などを調べるのに、Ensembl データベースを利用すると便利である。

Ensembl では染色体ごとの塩基配列データも提供している。GWAS、RNA-Seq など全ゲノムを必要とする解析において、Ensembl のデータを利用すると便利である。また、遺伝子の上流領域から転写因子結合モチーフなどを調べたい時に、その上流領域の塩基配列データも Ensembl データベースで入手できる。