遺伝子セットエンリッチメント解析

パスウェイ解析

発現変動遺伝子の機能や代謝経路などを調べる上で、パスウェイ解析が代表的な方法の 1 つである。特に、RNA-seq による比較トランスクリプトーム解析ができるようになってから、数百から数千にも及ぶ発現変動遺伝子を網羅的に解析するためには、パスウェイ解析がますます重要視されるようになった。

パスウェイ解析には代謝経路解析や遺伝子オントロジー(GO)解析以外に、タンパク質間相互作用、遺伝子発現制御、共発現などの解析も含まれている。特に、発現変動遺伝子のリストがあるとき、その発現変動遺伝子が、代謝経路や制御系などにどのような影響を与えているか解析することを指す場合が多い。

パスウェイ解析はその解析方法に応じて、大きく 4 つのグループに分けることができる。比較的に新しく開発された方法では PT-based approch や IF analytic approch が多い。(Khatri et al.)

over-representation analysis approaches
発現量比較を行い FDR などを用いて発現変動遺伝子を同定する。次に、遺伝子の数を「検定対象のパスウェイ」「検定対象のパスウェイ以外のすべて」と「発現変動遺伝子」、「非発現変動遺伝子」の 2×2 分割表にまとめて、幾何分布、カイ二乗分布などを用いて検定を行う。問題点としては、各遺伝子をそれぞれ独立に扱っている、各パスウェイをそれぞれ独立に扱っている、また、遺伝子の発現量にかかわらずすべて同等に扱っている、などの点が挙げられる。
functional class scoring approaches
発現量比較の結果として得られる統計量(p-value や fold-change など)をランク付けしてパスウェイ解析に利用する。基本的に over-representation approach と同じく分割表を作成するが、この際に「検定対象のパスウェイ」に発現変動遺伝子のランクを与えてウェイトを加えている。問題点としては、fold-change など強弱のある量を使用してるわけではなくランクを利用している。また、各パスウェイがそれぞれ独立に扱っているなども挙げられる。
pathway topology based approaches
基本的に functional class scoring approach と同じだが、パスウェイのトポロジーと各遺伝子から得られる統計量を直接に用いて解析を行っている。
impact factor analytic approaches
pathway topology based approach に加え、さらにパスウェイ全体の構造、重要な制御因子、遺伝子発現量や遺伝子局在などの情報を総合に利用してパスウェイ解析を行う。

GO 解析

ほとんどの遺伝子には遺伝子オントロジー(GO)と呼ばれるキーワード(GO term)が付けられている。GO term は、その遺伝子の生物的プロセス、細胞の構成要素、分子機能に着目して付けられる。発現変動遺伝子を同定したあとに GO エンリッチメント解析を行うことによって、発現変動遺伝子に特有な分子機能や細胞局在などの解明につながる。

代謝経路・シグナル伝達系解析

代謝経路やシグナル伝達系に関わる遺伝子にはその経路における役割がアノテーション付けられている。発現変動遺伝子に対して KEGG パスウェイ解析を行うことによって、発現変動遺伝子同士の相互作用でどのように系を制御しているかの解明につながる。

References

  • Khatri P, Sirota M, Butte AJ. Ten years of pathway analysis: current approaches and outstanding challenges. PLoS Comput Biol. 2012, 8(2):e1002375. PubMed Abstract
  • Huntley RP, Sawford T, Martin MJ, O'Donovan C. Understanding how and why the Gene Ontology and its annotations evolve: the GO within UniProt. Gigascience. 2014, 3(1):4. PubMed Abstract
  • 土井 淳 計算生命科学の基礎: 1.3 遺伝子ネットワーク解析. 2014. PDF