アライメントファイル | MODELLER 用のアラインメント

MODELLER を利用したホモロジーモデリングは、予測対象（ターゲット）配列とテンプレート配列のアライメントを必要とする。アライメントは PIR 形式で保存する必要がある。各配列に関して、1 行目にタンパク質の ID を記入し、2 行目に注釈情報を記入し、3 行目以降に配列情報を記入する。配列の終わりに * をつける。例えば、予測対象配列（TARGET）とテンプレート配列（5FD1）のアライメントは記述する。

>P1;TARGET
sequence:TARGET:1    : :54   : :ferredoxin:Peptococcus aerogenes: 2.00:-1.00
AYVINDSC--IACGACKPECPVNIIQGS--IYAIDADSCIDCGSCASVCPVGAPNPED-------------------
-----------------------------*
>P1;5FD1
structureX:5FD1:1    :A:106  :A:ferredoxin:Azotobacter vinelandii: 1.90: 0.19
AFVVTDNCIKCKYTDCVEVCPVDCFYEGPNFLVIHPDECIDCALCEPECPAQAIFSEDEVPEDMQEFIQLNAELAEV
WPNITEKKDPLPDAEDWDGVKGKLQHLER*

2 行目の注釈の記載について

2 行目には MODELLER に入力するオプションを記載する。オプションは 10 個ある。上の例のように、半角のコロン : を利用して 10 個のオプションを区切る。

フィールド位置	説明
1	アミノ酸配列のタイプ。 structureX: X線; structureN: NMR; structure: モデル; sequence: 配列ターゲット配列は立体構造が不明なので sequence を書く。また、テンプレート配列の立体構造が仮に X 線結晶解析によって求められた場合は、 structureX などと書く。
2	配列の PDB ID。なければ、適当な ID をつける。
3	アライメントの最初のアミノ酸の番号を書く。この番号はアライメントの順番ではなく、PDB ファイルの ATOM 行に書かれているアミノ酸番号を利用する。ターゲット配列の場合は、PDB ファイルがないため 1 から始まることになる。
4	アライメント中の配列の、3 で入力したアミノ酸が属するチェーン名を記入する
5	アライメントの最後のアミノ酸の番号を書く。この番号はアライメントの順番ではなく、PDB ファイルの ATOM 行に書かれているアミノ酸番号を利用する。ターゲット配列の場合は、PDB ファイルがないため最後のアミン酸の番号を書く。
6	5 で入力したアミノ酸が属するチェーン名を記入する。
7	タンパク質の名前。省略可。
8	タンパク質の由来生物名など。省略可。
9	結晶構造解析。省略可。
10	結晶構造解析に使用した R 因子。省略可。

オプションを省略しても、区切り文字のコロンを省略しない。例えば、フィールド 7-10 を省略した場合は以下のようにする。わかりやすいようにスペースを入れたりすることも可能である。

structureX:5FD1:1:A:106:A::::
structureX:1ALK:1:A:106:A:  :  :  :

マルチプルアライメント

MODELLER を利用して 1 つのターゲットを複数のテンプレートで予測することも可能である。この際、マルチプルアライメントを PIR 形式で保存する。

>P1;5FD1
structureX:5FD1:1    :A:106  :A:ferredoxin:Azotobacter vinelandii: 1.90: 0.19
AFVVTDNCIKCKYTDCVEVCPVDCFYEGPNFLVIHPDECIDCALCEPECPAQAIFSEDEVPEDMQEFIQLNAELAEV
WPNITEKKDPLPDAEDWDGVKGKLQHLER*
>P1;4FD0
structureX:4FD0:2    :B:108  :B: : : : 
AFVVT---IKCKYTDCVEVCPVDCFYEGPNFLVIHPDECI----------AQAIFSEDEVPEDMQEFIQLN-----V
WPNITEKKDPLPDAEDWDGVKGKLQHLER*
>P1;1FDX
sequence:1FDX:1    : :54   : :ferredoxin:Peptococcus aerogenes: 2.00:-1.00
AYVINDSC--IACGACKPECPVNIIQGS--IYAIDADSCIDCGSCASVCPVGAPNPED-------------------
-----------------------------*