CATH

CATH (Greene et al., 2007, Sillitoe et al., 2015) はタンパク質を立体構造に基づいて分類しているデータベースである。同様な立体構造分類データベースには SCOP があるが、分類に関しては、CATH は立体構造にウェイトが置かれ、SCOP はタンパク質の進化にウェイトが置かれている。

CATH の分類は、階層構造になっている。最初の 4 つの階層は C (class)、A (architecture)、T (topology)、および H (homologous superfamily) であり、データベースの名前となっている。

階層
C Class クラスは二次構造に基づき、次の 4 クラスのうちどれかに分類される。
  • mostly-alpha
  • mostly-beta
  • alpha and beta
  • few secondary structures
A Architecture 構造類似度が非常に高いが、ホモロジーが認められないもの。(SCOP の fold 階層に相当)
T Topology 構造の一部が似ていることに基づく分類。
H Homologous superfamily 配列相同性、構造類似性を考慮し共通祖先の存在が認められるもの。(SCOP の superfamily に相当)

CATH データベースのデータは CATH code が付けられている。この CATH code は 4 グループの数字からなり、Class - Architecture - Topology - Homologous superfamily の 4 階層を表す。例えば、2EWA のタンパク質の CATH code は 3.30.200.20 となっている。これは Alpha beta class - 2-Layer sandwich - Phosphorylase kinase - Phosphorylase kinase を表している。

CATH code の定義

References

  • Greene LH, Lewis TE, Addou S, Cuff A, Dallman T, Dibley M, Redfern O, Pearl F, Nambudiry R, Reid A, Sillitoe I, Yeats C, Thornton JM, Orengo CA. The CATH domain structure database: new protocols and classification levels give a more comprehensive resource for exploring evolution. Nucleic Acids Res. 2007, 35(Database issue):D291-7. DOI: 10.1093/nar/gkl959 PMID: 17135200
  • Sillitoe I, Lewis TE, Cuff A, Das S, Ashford P, Dawson NL, Furnham N, Laskowski RA, Lee D, Lees JG, Lehtinen S, Studer RA, Thornton J, Orengo CA. CATH: comprehensive structural and functional annotations for genome sequences. Nucleic Acids Res. 2015, 43(Database issue):D376-81. DOI: 10.1093/nar/gku947 PMID: 25348408