タンパク質は簡単な α-ヘリックスや β-シートなどの構造を始めとして、多種多様な構造をとる。これらの構造に着目した時、どんな複雑な構造でもいくつかのシンプルな構造の集まりで表すことができる。SCOP データベースは、タンパク質の立体構造を、構造アラインメントの結果や配列類似度に基づいて分類を行なっている。SCOP には、SCOP と SCOP2 の 2 つのバージョンが存在する。SCOP は 2009 年以降に更新されいなく、SCOP2 はよく更新されデータ量も多い。
同様なタンパク質構造データベースとして CATH がある。SCOP の分類は系統進化を織り込んでいるのに対して、CATH の分類は立体構造そのものにウェイトが置かれている。
SCOP
SCOP (Murzin et al., 1995, Andreeva et al., 2008) は、PDB から取得したタンパク質に対し構造アラインメントや配列類似度を求め、その結果を利用して、タンパク質の構造分類を行なっている。構造分類は人工で行われ、分類結果の信頼性は高い。しかし、2009 年以降、更新が行われていない。SCOP の分類は、Class > Fold > Superfamily > Family > Protein domain > Species > Domain のように階層構造を取っている。
分類 | |
Class | 二次構造の特徴による分類。例えば、以下の様な分類がある。
|
Fold | 二次構造が折りたたまれた時にできる構造による分類、二次構造が異なっていても、折りたたまれた三次構造が似ているならば同じ Fold に分類される。(CATH の Architecture に相当) |
Superfamily | そのドメインが遠い共通祖先に由来すると判断されたもの。(CATH の Homologous superfamily に相当) |
Family | そのドメインが最も近い共通祖先に由来すると判断されたもの。 |
Protein domain | |
Species | Protein domain のうち、生物種による分類。 |
Domain | タンパク質の一部に基づく分類。シンプルなタンパク質であれば、それ全体がドメインをなす。 |
SCOP2
SCOP2 (Andreeva et al., 2014)では、PDB に登録されている構造をもとに分類を行っている。SCOP の分類階層においては、1 つの子階層は親を 1 つだけしか持つことができなかったのに対して、SCOP2 では 1 つの子階層が複数の親を持つことができるようになり、非常に柔軟な分類を可能にしている。
SCOP2 では、タンパク質を大きく分けで 4 つのカテゴリーによって分類を行っている。
分類 | |
Protein types | Protein types において、タンパク質は配列および構造の特徴をもとに 4 タイプに分類される。
|
Evolutionary events | 構造の類似性が認められないが、互いに系統関係が認められる場合、同じ Evolutionary events に分類される。 |
Structural classes | 二次構造に基づく分類である。従って、構造が似てても二次構造が異なれば、異なるクラスに分類される。 |
Protein relationships | Protein relationships 分類には 3 種類のサブカテゴリーが存在する。
|
References
- SCOP: a structural classification of proteins database for the investigation of sequences and structures. J Mol Biol. 1995, 247(4):536-40. DOI: 10.1006/jmbi.1995.0159 PMID: 7723011
- Data growth and its impact on the SCOP database: new developments. Nucleic Acids Res. 2008, 36(Database issue):D419-25. DOI: 10.1093/nar/gkm993 PMID: 18000004
- SCOP2 prototype: a new approach to protein structure mining. Nucleic Acids Res. 2014, 42(Database issue):D310-4. DOI: 10.1093/nar/gkt1242 PMID: 24293656