CATH (Greene et al., 2007, Sillitoe et al., 2015) はタンパク質を立体構造に基づいて分類しているデータベースである。同様な立体構造分類データベースには SCOP があるが、分類に関しては、CATH は立体構造にウェイトが置かれ、SCOP はタンパク質の進化にウェイトが置かれている。

CATH の分類は、階層構造になっている。最初の 4 つの階層は C (class)、A (architecture)、T (topology)、および H (homologous superfamily) であり、データベースの名前となっている。

C Class クラスは二次構造に基づき、次の 4 クラスのうちどれかに分類される。
  • mostly-alpha
  • mostly-beta
  • alpha and beta
  • few secondary structures
A Architecture 構造類似度が非常に高いが、ホモロジーが認められないもの。(SCOP の fold 階層に相当)
T Topology 構造の一部が似ていることに基づく分類。
H Homologous superfamily 配列相同性、構造類似性を考慮し共通祖先の存在が認められるもの。(SCOP の superfamily に相当)

CATH データベースのデータは CATH code が付けられている。この CATH code は 4 グループの数字からなり、Class - Architecture - Topology - Homologous superfamily の 4 階層を表す。例えば、2EWA のタンパク質の CATH code は となっている。これは Alpha beta class - 2-Layer sandwich - Phosphorylase kinase - Phosphorylase kinase を表している。

CATH code の定義


