タンパク質には 1 つないし複数のドメインと呼ばれる機能領域を持つ。このようなドメインはタンパク質の機能を考える上で重要な手掛かりとなる。Pfam データベースは、このようなドメイン情報が登録されている。
Pfam データベースで登録されているデータは、クオリティに応じて Pfam-A と Pfam-B の 2 タイプに分けられる。Pfam-A に分類されているドメインは、UniProtKB などに登録されているデータをもとに決定されたものである。ドメインに関するアノテーションが詳細で、信頼性が高い。これに対して、Pfam-B に分類されているドメインは主に ADDA に登録されているデータをもとに自動的に決定したものであり、アノテーションが不足し、信頼性も低い。
Pfam データベースのサイトでは、アミノ酸配列を入力すると、そのアミノ酸配列上にどのようなドメインが存在しているのかを出力する検索機能が実装されている。具体的に、入力されたアミノ酸配列は、HMMER と呼ばれるホモロジー検索アルゴリズムを用いて、Pfam に登録されているデータに対して検索を行い、入力アミノ酸配列にどのようなドメイン情報が存在しているのかを出力する。HMMER アルゴリズムは、profile hidden Markov models と呼ばれる確率モデルを実装している。スコアマトリックスに基づくホモロジー検索である BLAST などに比べ、遠縁ホモログをより正確に検索することができる。アミノ酸配列は決定されたが、機能がまだわからない場合、Pfam データベースに対して検索を行うことで、配列上に存在するドメインを見つけることができ、機能解析の手助けとなる。
References
- The Pfam protein families database: towards a more sustainable future. Nucleic Acids Res. 2016, 44(D1):D279-85. DOI: 10.1093/nar/gkv1344 PMID: 26673716