CATH (Greene et al., 2007, Sillitoe et al., 2015) はタンパク質を立体構造に基づいて分類しているデータベースである。同様な立体構造分類データベースには SCOP があるが、分類に関しては、CATH は立体構造にウェイトが置かれ、SCOP はタンパク質の進化にウェイトが置かれている。
CATH の分類は、階層構造になっている。最初の 4 つの階層は C (class)、A (architecture)、T (topology)、および H (homologous superfamily) であり、データベースの名前となっている。
階層 | ||
C | Class |
クラスは二次構造に基づき、次の 4 クラスのうちどれかに分類される。
|
A | Architecture | 構造類似度が非常に高いが、ホモロジーが認められないもの。(SCOP の fold 階層に相当) |
T | Topology | 構造の一部が似ていることに基づく分類。 |
H | Homologous superfamily | 配列相同性、構造類似性を考慮し共通祖先の存在が認められるもの。(SCOP の superfamily に相当) |
CATH データベースのデータは CATH code が付けられている。この CATH code は 4 グループの数字からなり、Class - Architecture - Topology - Homologous superfamily の 4 階層を表す。例えば、2EWA のタンパク質の CATH code は 3.30.200.20 となっている。これは Alpha beta class - 2-Layer sandwich - Phosphorylase kinase - Phosphorylase kinase を表している。
References
- The CATH domain structure database: new protocols and classification levels give a more comprehensive resource for exploring evolution. Nucleic Acids Res. 2007, 35(Database issue):D291-7. DOI: 10.1093/nar/gkl959 PMID: 17135200
- CATH: comprehensive structural and functional annotations for genome sequences. Nucleic Acids Res. 2015, 43(Database issue):D376-81. DOI: 10.1093/nar/gku947 PMID: 25348408