PDB

PDB (protein data bank) は、タンパク質の立体構造データを登録しているデータベースである。PDB に登録されている立体構造データは、主に X 線結晶解析、NMR や電子顕微鏡などによって同定されている。PDB の日本語版として PDBj がある。日本語版 PDBj では、酵素の日本語名で検索できたりする機能が実装されている。

PDB ファイルのフォーマット

PDB で提供されているデータは、プログラムで処理しやすい mmCIF とよばれているフォーマットを採用している。また、昔に PDB が独自に定義した PDB フォーマットのファイルも配布されている。

PDB フォーマット

PDB 形式のファイルは規則に従って、タンパク質を構成するアミノ酸配列や原子座標が記載される。PDB 形式のファイルは 1 行に 80 文字であり、各行先頭の 10 文字はレコードタイプを示す文字列であり、その行にはどんな情報が書かれているかを表す(wwPDB のサイトに詳細な説明がある)。各レコードタイプの意味は次のようになっている。

レコード説明
HEADER分子の種類、登録名、PDB ID などが記載されている。
TITLEPDB で公開される際のタイトル名。
COMPND分子についての情報。
SOURCEタンパク質の宿主が記載されている。
REMARK 2立体解析の際に使われたもっとも高い分解能が記載されている。
REMARK 200実験に関する情報が記載されます。X 線結晶解析の場合は必ずここに記載される。
REMARK 205繊維回折法の場合の実験情報。
REMARK 210NMR による立体解析の場合の情報。
REMARK 230中性子回折法による解析の場合の情報。
REMARK 240電子線結晶法に関する実験情報。
REMARK 245電子顕微鏡の実験情報。
REMARK 300生物学的に機能する生体分子についての注釈が記載される。
SEQRESポリマー鎖の配列情報が記載されている。
ATOMタンパク質を構成する原子の座標情報が記載されている。ただし、1 番目のアミノ酸から始まるとは限らない。
HETATMリガンドや溶媒などが立体情報に含まれる場合は、ここに記載される。
HELIXαヘリックスを構成するアミノ酸の位置と残基盤号。
SSBOND分子内 S-S 加橋の位置。
ENDPDBファイルの終端を表す。

PDB ファイルに関する疑問

  • PDB の ATOM レコードではアミン酸を 3 文字の略記で記載している。しかし、一部の PDB ファイルでは AASP、BASP や AGLU、BGLU などのように 4 文字表記が見られる。結晶内で原子が振動している場合があり、複数の座標を取ることがある。それらの複数の座標を区別するために A、B などのような接頭語が付けられる。