タンパク質

3.2. タンパク質#

タンパク質に関するデータベースは、立体構造、アミノ酸配列、進化的関係、機能部位など、さまざまな観点から情報を整理・提供しています。バイオインフォマティクスでは、配列、ドメイン、構造、機能といった複数の視点を組み合わせて解析を行うため、解析の目的に応じて適切なデータベースを使い分けることが重要です。本章では、現在でも広く利用されている代表的なタンパク質データベースについて、その役割と使いどころを概説します。

3.2.1. PDB#

PDB（protein data bank）は、タンパク質や核酸の立体構造データを登録・公開している国際的なデータベースです。PDB に登録されている構造は、主に X 線結晶構造解析、NMR（核磁気共鳴）、クライオ電子顕微鏡法（cryo-EM）などの実験手法によって決定されています。

PDB は、米国の RCSB-PDB、欧州の PDBe、日本の PDBj などによる国際的な共同運営体制（Worldwide Protein Data Bank; wwPDB）のもとで管理されています。日本の PDBj では、日本語による解説や、酵素の日本語名を用いた検索など、日本の研究者にとって利用しやすい機能が提供されています。

現在、PDB における公式な標準フォーマットは mmCIF であり、大規模な複合体構造や詳細な注釈情報にも対応しています。従来用いられてきた PDB フォーマットも、互換性維持のため引き続き配布されています。

PDB は、「タンパク質がどのような立体構造を取るのか」を調べる際の基盤となる、構造生物学における中核的データベースです。

3.2.2. UniProt#

UniProt（universal protein resource）は、タンパク質のアミノ酸配列と機能注釈を中心に提供する、最も基本的かつ重要なタンパク質データベースです。多くの場合、「ある遺伝子産物がどのようなタンパク質なのか」を調べる際の出発点となります。

UniProt は、手動で精査された高品質な注釈を持つ UniProtKB/Swiss-Prot と、自動アノテーションによって構築された網羅性の高い UniProtKB/TrEMBL という 2 つの主要なデータセットから構成されています。Swiss-Prot では、文献情報や実験的根拠が明示されており、信頼性の高い注釈が提供されています。一方、TrEMBL はゲノムスケール解析に対応するため、広範な配列情報をカバーしています。

UniProt には、タンパク質の機能、ドメイン構成、翻訳後修飾、相互作用、発現情報、関連文献などが体系的に整理されており、PDB、RefSeq、Ensembl、Pfam など他の主要データベースへのリンクも充実しています。そのため、UniProt はタンパク質情報の統合ハブとして機能しています。

3.2.3. ドメイン構成・分類#

タンパク質の立体構造やドメイン構成を理解するために、SCOP、CATH、Pfam といったデータベースは長年にわたって利用されてきました。これらは現在でも使われていますが、データ量の増加や AlphaFold の登場により、その役割はより明確に分化しています。

3.2.3.1. SCOP#

SCOP（Structural Classification of Proteins）は、タンパク質の立体構造を、構造的特徴と進化的関係の両方を考慮して分類するデータベースです。Class、Fold、Superfamily、Family などの階層構造を持ち、「構造と進化の関係」を理解するための枠組みを確立しました。

従来の SCOP（SCOP 1.x）は、専門家による手動キュレーションを特徴としていましたが、2009 年以降は更新が停止しています。そのため、現在の PDB に含まれる最新構造を網羅的に扱う用途には適していません。

後継として SCOP2 が開発されていますが、日常的な大規模解析で直接使われることは多くありません。現在では、SCOP は主に「構造分類の概念的基準」や「過去の研究との対応付け」のための参照データベースとして位置づけられています。

3.2.3.2. CATH#

CATH は、タンパク質構造をドメイン単位で分類するデータベースで、現在でも活発に更新・利用されています。C（Class）、A（Architecture）、T（Topology）、H（Homologous superfamily）の 4 階層から構成され、構造の類似性を定量的に評価しつつ、進化的関係も考慮した分類を行っています。

CATH は PDB に登録される新規構造を継続的に取り込んでおり、構造生物学および構造バイオインフォマティクスにおける実用的な構造分類データベースとして利用されています。構造に基づくドメイン定義やスーパーファミリー情報は、機能推定や進化解析の基盤としても重要です。

3.2.3.3. Pfam#

Pfam は、タンパク質ドメインを HMM（Hidden Markov Model）に基づいて定義した、配列ベースのドメインデータベースです。立体構造が未解明なタンパク質に対しても高感度にドメインを検出できる点が大きな特徴です。Pfam は現在でも非常に広く利用されており、UniProt、Ensembl、InterPro など多くの主要データベースや解析パイプラインに組み込まれています。未知タンパク質の配列に対するドメイン注釈において、事実上の標準の 1 つと位置づけられています。

3.2.3.4. PROSITE#

PROSITE は、タンパク質中の機能的に重要な配列モチーフや保存領域に特化したデータベースです。短く高度に保存された配列パターンやプロファイルを用いて、酵素活性部位、金属結合部位、翻訳後修飾部位などを記述しています。PROSITE の特徴は、注釈の解釈性が高い点にあります。各モチーフについて、生化学的背景や文献情報が明示されており、ヒット結果を直接的に機能解釈へ結びつけることができます。一方で網羅性は高くないため、現在では単独で用いられることは少なく、InterPro の構成要素として参照されることが一般的です。

3.2.3.5. InterPro#

InterPro は、タンパク質のドメイン、ファミリー、機能部位に関する注釈を統合的に提供するメタデータベースです。Pfam、PROSITE、SMART、CDD、SUPERFAMILY など、複数のデータベースを統合し、結果を一貫した枠組みで整理しています。

InterProScan は、大規模配列注釈パイプラインの標準ツールとして広く利用されており、UniProt や Ensembl における機能注釈の基盤にもなっています。現在のバイオインフォマティクスにおいて、InterPro は配列機能注釈の統合ハブとして不可欠な存在です。

3.2.4. AlphaFold DB#

深層学習を用いた立体構造予測手法の発展により、実験的に構造が決定されていないタンパク質についても、高精度な立体構造モデルが利用可能になりました。その代表例が AlphaFold です。

AlphaFold Protein Structure Database（AlphaFold DB）は、DeepMind と EMBL-EBI によって提供されている、タンパク質立体構造予測データベースです。UniProt エントリーと対応付けられた予測構造が大規模に公開されています。

AlphaFold DB では、各残基ごとに予測精度を示す指標として pLDDT が付与されており、構造モデルの信頼性を部分ごとに評価できます。予測構造は、特に保存性の高い領域や単一ドメインタンパク質において高い精度を示す一方、柔軟な領域や複合体形成に依存する構造では注意が必要です。

現在では、多くの生物種について、ほぼ全タンパク質を網羅する予測構造が AlphaFold DB に登録されており、PDB に実験構造が存在しないタンパク質の構造理解を大きく前進させています。PDB が「実験構造」を提供するのに対し、AlphaFold DB は「予測構造」を提供するデータベースとして、両者は相補的に利用されています。