PDB (protein data bank) は、タンパク質の立体構造データを登録しているデータベースである。PDB に登録されている立体構造データは、主に X 線結晶解析、NMR や電子顕微鏡などによって同定されている。PDB の日本語版として PDBj がある。日本語版 PDBj では、酵素の日本語名で検索できたりする機能が実装されている。
PDB ファイルのフォーマット
PDB で提供されているデータは、プログラムで処理しやすい mmCIF とよばれているフォーマットを採用している。また、昔に PDB が独自に定義した PDB フォーマットのファイルも配布されている。
PDB フォーマット
PDB 形式のファイルは規則に従って、タンパク質を構成するアミノ酸配列や原子座標が記載される。PDB 形式のファイルは 1 行に 80 文字であり、各行先頭の 10 文字はレコードタイプを示す文字列であり、その行にはどんな情報が書かれているかを表す(wwPDB のサイトに詳細な説明がある)。各レコードタイプの意味は次のようになっている。
レコード | 説明 |
HEADER | 分子の種類、登録名、PDB ID などが記載されている。 |
TITLE | PDB で公開される際のタイトル名。 |
COMPND | 分子についての情報。 |
SOURCE | タンパク質の宿主が記載されている。 |
REMARK 2 | 立体解析の際に使われたもっとも高い分解能が記載されている。 |
REMARK 200 | 実験に関する情報が記載されます。X 線結晶解析の場合は必ずここに記載される。 |
REMARK 205 | 繊維回折法の場合の実験情報。 |
REMARK 210 | NMR による立体解析の場合の情報。 |
REMARK 230 | 中性子回折法による解析の場合の情報。 |
REMARK 240 | 電子線結晶法に関する実験情報。 |
REMARK 245 | 電子顕微鏡の実験情報。 |
REMARK 300 | 生物学的に機能する生体分子についての注釈が記載される。 |
SEQRES | ポリマー鎖の配列情報が記載されている。 |
ATOM | タンパク質を構成する原子の座標情報が記載されている。ただし、1 番目のアミノ酸から始まるとは限らない。 |
HETATM | リガンドや溶媒などが立体情報に含まれる場合は、ここに記載される。 |
HELIX | αヘリックスを構成するアミノ酸の位置と残基盤号。 |
SSBOND | 分子内 S-S 加橋の位置。 |
END | PDBファイルの終端を表す。 |
PDB ファイルに関する疑問
- PDB の ATOM レコードではアミン酸を 3 文字の略記で記載している。しかし、一部の PDB ファイルでは AASP、BASP や AGLU、BGLU などのように 4 文字表記が見られる。結晶内で原子が振動している場合があり、複数の座標を取ることがある。それらの複数の座標を区別するために A、B などのような接頭語が付けられる。