R を利用して遺伝子オントロジーをデータベースから調べたい場合

GO.db

Bioconductor の GO.db パッケージは、遺伝子オントロジーを R で利用しやすいようにパッケージしたものである。GO.db パッケージは毎日更新しているわけでなく、Gene Ontology のウェブサイトで直接に配布されているデータに比べやや古い。

library(GO.db)

GO.db パッケージで定義されているオブジェクトを確認するには次のようにする。

ls("package:GO.db")
##  [1] "GO"            "GO_dbconn"     "GO_dbfile"     "GO_dbInfo"    
##  [5] "GO_dbschema"   "GO.db"         "GOBPANCESTOR"  "GOBPCHILDREN" 
##  [9] "GOBPOFFSPRING" "GOBPPARENTS"   "GOCCANCESTOR"  "GOCCCHILDREN" 
## [13] "GOCCOFFSPRING" "GOCCPARENTS"   "GOMAPCOUNTS"   "GOMFANCESTOR" 
## [17] "GOMFCHILDREN"  "GOMFOFFSPRING" "GOMFPARENTS"   "GOOBSOLETE"   
## [21] "GOSYNONYM"     "GOTERM"    

これらのオブジェクトに加え、Term, Synonym, Definition, Ontology 関数が用意され、それぞれ GO term、類似語、定義およびオントロジーを取得するための関数である。

x <- c("GO:0031214", "GO:0031150")

Term(x)
##                      GO:0031214                      GO:0031150 
## "biomineral tissue development"    "sorocarp stalk development"

Synonym(x)
## $`GO:0031214`
## [1] "biomineral formation" "biomineralization"    "mineralization"      
## $`GO:0031150`
## [1] "sorophore development" "stalk development"     "stalk formation"  

Definition(x)
##                                                                                                                                                                                                                                                                                                                                                                                             GO:0031214 
##                                                                                                                                                                                                              "Formation of hard tissues that consist mainly of inorganic compounds, and also contain a small amounts of organic matrices that are believed to play important roles in their formation." 
##                                                                                                                                                                                                                                                                                                                                                                                              GO:0031150 
## "The process whose specific outcome is the progression of the sorocarp stalk over time, from its formation to the mature structure. The sorocarp stalk is a tubular structure that consists of cellulose-covered cells stacked on top of each other and surrounded by an acellular stalk tube composed of cellulose and glycoprotein. An example of this process is found in Dictyostelium discoideum." 

Ontology(x)
## GO:0031214 GO:0031150 
##       "BP"       "BP" 

GO.db 中のオブジェクト

上述のように ls 関数により GO.db にパッケージされているオブジェクトを確認できる。これらのオブジェクトは以下のようなデータが保存されている。

GOBPANCESTOR, GOCCANCESTOR, GOMFANCESTOR各オントロジーの祖先の情報
GOBPPARENTS, GOCCPARENTS, GOMFPARENTS各オントロジーの親の情報
GOBPCHILDREN, GOCCCHILDREN, GOMFCHILDREN各オントロジーの子の情報
GOBPOFFSPRING, GOCCOFFSPRING, GOMFOFFSPRING各オントロジーの子孫情報
GOMAPCOUNTSGO.db に保存されている GO の数
GOOBSOLETE昔の定義文(?)のデータセット
GOSYNONYM同義語のデータセット
GOTERMGO term のデータセット

GOBPANCESTOR

ある GO ID の祖先 ID を調べる際に利用する。このとき、もちろん親の GO ID も含まれる、

x <- as.list(GOBPANCESTOR)

x[["GO:0000001"]] 
## [1] "GO:0006996" "GO:0007005" "GO:0008150" "GO:0009987" "GO:0016043"
##  [6] "GO:0044699" "GO:0044763" "GO:0048308" "GO:0048311" "GO:0051179"
## [11] "GO:0051640" "GO:0051641" "GO:0051646" "GO:0071840" "GO:1902578"
## [16] "GO:1902580" "GO:1902589" "all"

GOBPPARENTS

ある GO ID の親の GO ID を調べる際に利用する。

x <- as.list(GOBPPARENTS)

x[["GO:0000001"]]
##         is_a         is_a 
## "GO:0048308" "GO:0048311"

GOBPCHILDREN

ある GO ID の子の GO ID を調べる場合に利用する。

x <- as.list(GOBPCHILDREN)

x[["GO:0031129"]]
##         is_a      part_of      part_of         is_a         is_a 
## "GO:0021916" "GO:0031130" "GO:0031131" "GO:0060494" "GO:0060522" 

GOBPOFFSPRING

ある GO の ID の子孫の GO ID をすべて調べたいときに用いる。

x <- as.list(GOBPOFFSPRING)

x[["GO:0031129"]]
## [1] "GO:0021916" "GO:0031130" "GO:0031131" "GO:0060493" "GO:0060494"
## [6] "GO:0060499" "GO:0060511" "GO:0060521" "GO:0060522"

GOMAPCOUNTS

GO.db にパッケージされているデータの統計データを確認できる。

GOMAPCOUNTS
##  GOBPANCESTOR  GOBPCHILDREN GOBPOFFSPRING   GOBPPARENTS  GOCCANCESTOR
##         27199         16020         16020         27199          3722
##  GOCCCHILDREN GOCCOFFSPRING   GOCCPARENTS  GOMFANCESTOR  GOMFCHILDREN
##          1237          1237          3722          9889          2012
## GOMFOFFSPRING   GOMFPARENTS    GOOBSOLETE        GOTERM
##          2012          9889          1950         40811

GOSYNONYM

GO term の同義語のデータを取得できる。

GOSYNONYM[["GO:0006736"]]
## GOID: GO:0009435
## Term: NAD biosynthetic process
## Ontology: BP
## Definition: The chemical reactions and pathways resulting in the
##     formation of nicotinamide adenine dinucleotide, a coenzyme present
##     in most living cells and derived from the B vitamin nicotinic acid;
##     biosynthesis may be of either the oxidized form, NAD, or the
##     reduced form, NADH.
## Synonym: NAD (oxidized) biosynthesis
## Synonym: NAD (oxidized) biosynthetic process
## Synonym: NAD (reduced) biosynthesis
## Synonym: NAD (reduced) biosynthetic process
## Synonym: NAD anabolism
## Synonym: NAD biosynthesis
## Synonym: NAD formation
## Synonym: NAD synthesis
## Synonym: NADH biosynthesis
## Synonym: NADH biosynthetic process
## Synonym: nicotinamide adenine dinucleotide biosynthesis
## Synonym: nicotinamide adenine dinucleotide biosynthetic process
## Synonym: oxidized NAD biosynthesis
## Synonym: oxidized NAD biosynthetic process
## Synonym: oxidized nicotinamide adenine dinucleotide biosynthesis
## Synonym: oxidized nicotinamide adenine dinucleotide biosynthetic process
## Synonym: reduced NAD biosynthesis
## Synonym: reduced NAD biosynthetic process
## Synonym: reduced nicotinamide adenine dinucleotide biosynthesis
## Synonym: reduced nicotinamide adenine dinucleotide biosynthetic process
## Synonym: GO:0006736
## Secondary: GO:0006736

GOTERM

GO term、オントロジー、定義などのデータを一括に取得することができる

x <- as.list(GOTERM)

x[["GO:0000006"]]
## GOID: GO:0000006
## Term: high-affinity zinc uptake transmembrane transporter activity
## Ontology: MF
## Definition: Catalysis of the transfer of a solute or solutes from one
##     side of a membrane to the other according to the reaction:
##     Zn2+(out) = Zn2+(in), probably powered by proton motive force. In
##     high-affinity transport the transporter is able to bind the solute
##     even if it is only present at very low concentrations.
## Synonym: high affinity zinc uptake transmembrane transporter activity