遺伝子オントロジー

ある遺伝子について考えたとき、その遺伝子の持つ機能や細胞中における局在場所などにおいて、様々な視点aから見ることができる。着目点が異なれば、その捉え方も異なってくる。つまり、場合によっては同じ遺伝子を取り扱っていながら、違う機能あるいは違う名前で呼ばれたりして、あたかも違う遺伝子であるかのように取り扱われる場合が多い。そこで、このようなことが起こらないように遺伝子オントロジーが考えられ、GO が定義されている。GO は常に最新の生物学的な知識を反映させるために、毎日更新を行っている。また、最新の知見で、先行研究が否定されたような場合は GO の変更や削除なども行われている。

現在までにおよそ 4 万個の GO が定義されている。例えば、新しい遺伝子について研究し、ある程度まとまれば、その遺伝子を記述するためには、この 4 万個の GO の中から最適なものを探し、その遺伝子を記述する。すべての GO は、次に挙げた 3 つのカテゴリーのうちどれか 1 つだけに分類される。

  • biological process(生物学的プロセス)
  • cellular component(細胞の構成要素)
  • molecular function(分子機能)

1 つの遺伝子に複数の GO が付けられたり、1 個の GO が複数の遺伝子を記述できたりする。このように 1 つの GO と 1 つの遺伝子の間に関係を結ぶことをアノテーションという。現在までには 4 万個の GO に対して、アノテーション数は 2 億に上る。この内、1% が manual annotations であり、それ以外は automatic annotations である。manual annotations は主にスタッフが論文を読んで、論文を裏付け情報として GO と遺伝子間のアノテーションを行っている。およそ 25 万個のタンパク質が manual annotations を持つ。一方、automatic annotations は主に、オーソログ、タンパク質ドメイン、配列類似度などを元に機械的にアノテーションを行っている。

GO は階層構造を持つために、その遺伝子に定義された GO に親階層が存在すると、その親階層もその遺伝子の GO と定義される。例えば、次の図で確認できるように、ある遺伝子に関して「chloroplast」が定義されていると、その親・祖先にあたる「cytoplasm」、「intracellular part」なども自動的に定義される。

GO は様々な方法で付けられる。例えば、in vitro 実験結果に基づいてつけたり、塩基配列相同性に基づいてつけたり、系統解析の結果を考慮して付けたりしている。GO がどのように付けられたのかを示すために、evidence code が用意されている。

以下に示す evidence code は experimental evidence code であり、主に実験結果を参考にして GO が付けられたことを意味する。Gene Ontology のサイトで実例とともに詳しい解説がなされている。

code定義と例
EXPInferred from Experiment
アノテーションが実験結果をもとに付けられていることを意味する。EXP は IDA、IPI、IMP、IGI および IEP の親コードにあたる。
IDAInferred from Direct Assay
酵素アッセイ、in vitro、免疫蛍光抗体法、細胞破砕法など。
IPIInferred from Pyhsical Interaction
ツーハイブリッド法、共免疫沈降法など。
IMPInferred from Mutant Phenotype
ノックアウト、遺伝子破壊、遺伝子導入、RNAi、anti-sense RNA など。野生型と比較して遺伝子の機能や局在などを決定した場合に付けられる。
IGIInferred from Genetic Interaction
遺伝子相互作用、ノックアウト、遺伝子破壊、遺伝子導入法など。複数のノックアウト型を比較したりして遺伝子機能を決定した場合は(IMP ではなく) IGI を利用する。
IEPInfrred From Expression Pattern
マイクロアレイによるトランスクリプトーム解析、ウェスタンブロッティングなど。

次の evidence code は computational analysis evidence code であり、バイオインフォマティクス知識によって付けられたことを意味する。

code定義と例
ISSInferred from Sequence or Structural Similarity
塩基(あるいはアミノ酸)配列の特徴に基いて決定した GO に付けられる。ISA、ISO および ISM の親コードにあたる。
ISOInferred from Sequence Orthology
配列アライメント。
ISAInferred from Sequence Alignment
他の生物種の遺伝子のオントロジーを参照して決定した場合に付けられる。
ISMInferred from Sequence Model
HMM なども配列モデリングツールによって決定した場合に付けられる。
IGCInferred from Genomic Context
パスウェイ解析、遺伝子網羅的解析など。
IBAInferred from Biological aspect of Ancestor
系統学的に祖先の機能を参照して決定された場合に付けられる。
IBDInferred from Biological aspect of Descendant
系統学的に子孫の機能を参照して決定された場合に付けられる。
IKRInferred from Key Residues
IRDInferred from Rapid Divergence
RCAinferred from Reviewed Computational Analysis

次のいくつかは author statement evidence code であり、論文著者らの提唱した内容に基いて付けられていることを意味する。

code定義と例
TASTraceable Author Statement
実験的に示されていないが、論文の中で取り上げられた。
NASNon-traceable Author Statement
論文中に取り上げられているが、その論文以外では参照・引用がなされていない。

その他の evidence code。

code定義と例
ICInferred by Curator
NDNo biological Data available
IEAInferred from Electronic Annotation
NRNot Recorded

References

  • Ashburner M, Ball CA, Blake JA, Botstein D, Butler H, Cherry JM, Davis AP, Dolinski K, Dwight SS, Eppig JT, Harris MA, Hill DP, Issel-Tarver L, Kasarskis A, Lewis S, Matese JC, Richardson JE, Ringwald M, Rubin GM, Sherlock G. Gene ontology: tool for the unification of biology. The Gene Ontology Consortium. Nat Genet. 2000, 25(1):25-9. PubMed Abstract
  • Huntley RP, Sawford T, Martin MJ, O'Donovan C. Understanding how and why the Gene Ontology and its annotations evolve: the GO within UniProt. Gigascience. 2014, 3(1):4. PubMed Abstract