ヒトゲノムのアノテーション Bioconductor

org.Hs.eg.db

org.Hs.eg.db は Bioconductor AnnotationData Packages として登録されているヒトゲノムのアノテーションパッケージである。Ensembl ID から Entrez ID に変換したり、GO ID を取得したり、KEGG pathway ID を取得したりすることができる。

library(org.Hs.eg.db)

org.Hs.eg.db パッケージに保存されている利用可能なデータセットを確認するには ls 関数を利用する。

ls("package:org.Hs.eg.db")
##  [1] "org.Hs.eg"                "org.Hs.eg_dbconn"
##  [3] "org.Hs.eg_dbfile"         "org.Hs.eg_dbInfo"
##  [5] "org.Hs.eg_dbschema"       "org.Hs.eg.db"
##  [7] "org.Hs.egACCNUM"          "org.Hs.egACCNUM2EG"
##  [9] "org.Hs.egALIAS2EG"        "org.Hs.egCHR"
## [11] "org.Hs.egCHRLENGTHS"      "org.Hs.egCHRLOC"
## [13] "org.Hs.egCHRLOCEND"       "org.Hs.egENSEMBL"
## [15] "org.Hs.egENSEMBL2EG"      "org.Hs.egENSEMBLPROT"
## [17] "org.Hs.egENSEMBLPROT2EG"  "org.Hs.egENSEMBLTRANS"
## [19] "org.Hs.egENSEMBLTRANS2EG" "org.Hs.egENZYME"
## [21] "org.Hs.egENZYME2EG"       "org.Hs.egGENENAME"
## [23] "org.Hs.egGO"              "org.Hs.egGO2ALLEGS"
## [25] "org.Hs.egGO2EG"           "org.Hs.egMAP"
## [27] "org.Hs.egMAP2EG"          "org.Hs.egMAPCOUNTS"
## [29] "org.Hs.egOMIM"            "org.Hs.egOMIM2EG"
## [31] "org.Hs.egORGANISM"        "org.Hs.egPATH"
## [33] "org.Hs.egPATH2EG"         "org.Hs.egPFAM"
## [35] "org.Hs.egPMID"            "org.Hs.egPMID2EG"
## [37] "org.Hs.egPROSITE"         "org.Hs.egREFSEQ"
## [39] "org.Hs.egREFSEQ2EG"       "org.Hs.egSYMBOL"
## [41] "org.Hs.egSYMBOL2EG"       "org.Hs.egUCSCKG"
## [43] "org.Hs.egUNIGENE"         "org.Hs.egUNIGENE2EG"
## [45] "org.Hs.egUNIPROT"

これらのオブジェクトの使い方はほとんど同じである。詳しいことは vignette にまかせて、ここではよくいくつかの例だけを取り上げる。

org.Hs.egENSEMBL2EG

Ensembl gene accession 番号を Entrez Gene ID に変換したいときに利用する。

x <- c("ENSG00000004660", "ENSG00000007314")
ENSEMBL2EG <- as.list(org.Hs.egENSEMBL2EG)
ENSEMBL2EG[x]
## $ENSG00000004660
## [1] "84254"
## 
## $ENSG00000007314
## [1] "6329"     

org.Hs.egGO

Entrez gene ID をもとにその遺伝子に付けられた GO を取得したいときに利用する。

x <- c("84254", "6329")
GO <- as.list(org.Hs.egGO)
x.go <- GO[x]

names(x.go)
## [1] "84254" "6329"

names(x.go[["84254"]])
## [1] "GO:0006468" "GO:0007268" "GO:0005634" "GO:0005829" "GO:0004683"
## [6] "GO:0005516" "GO:0005524" "GO:0005515"

names(x.go[["6329"]])
## [1] "GO:0034765" "GO:0006936" "GO:0006814" "GO:0019228" "GO:0035725"
## [6] "GO:0086010" "GO:0001518" "GO:0005887" "GO:0005886" "GO:0005248"

x.go[["84254"]][["GO:0006468"]]
## $GOID
## [1] "GO:0006468"
## 
## $Evidence
## [1] "IEA"
## 
## $Ontology
## [1] "BP"

org.Hs.egPATH

Entrez gene ID をもとにその遺伝子に付けられた KEGG パスウェイを取得したいときに利用する。このデータのタイムスタンプは 2011 年 3 月である。(最新の KEGG パスウェイデータを使いたい場合は KEGGREST パッケージを利用する。)

x <- c("100137049", "729013")
PATH <- as.list(org.Hs.egPATH)
x.path <- PATH[x]
x.path
## $`100137049`
##  [1] "00564" "00565" "00590" "00591" "00592" "01100" "04010" "04270" "04370"
## [10] "04664" "04666" "04730" "04912" "04972" "04975" "05145"
## 
## $`729013`
## [1] NA