アライメントから位置特異的スコアマトリックス PSSM の求め方

プロファイル

マルチアラインメントの各位置 i に出現する各アミノ酸 j の出現頻度を I × J 行列にしたものがプロファイルである。プロファイルは、重み付き行列や位置特異的スコアマトリックス(position-specific scoring matrix, PSSM)などとも呼ばれている。プロファイルはマルチプルアライメントの確率モデルとランダムモデルの比として計算される。

次のマルチプルアラインメントを利用して、プロファイルについて考える。

1 2 3 4 5 6 7 8
A K M M C A S S
A K M C C A S S
A K K C C A G S
D K K C C K G Y
D K K C C M G Y

確率モデル

m をマルチプルアライメントの配列数とし、アラインメントの位置 i に出現するアミノ酸 j の出現回数を n(i, j) とすると、位置 i におけるアミノ酸 j の出現頻度 q(i, j) は次のように計算できる。

\[ q(i,j) = \frac{n(i,j)}{m}\]

例に挙げたアラインメントを用いて具体例を書くと、位置 6 では、アミノ酸 A の出現頻度は q(6,A) = 3/5 = 0.6、アミノ酸 T の出現頻度は q(6,T) = 2/5 = 0.4 と計算できる。また、同じく位置 6 のアミノ酸 D、K、C などの出現頻度は q(6,D) = q(6,K) = q(6,C) = 0/5 = 0 である。

位置アミノ酸の出現頻度
ACDGKMSY
10.60.4
2 1.0
30.60.4
40.80.2
51.0
60.60.20.2
70.60.4
80.60.4

ランダムモデル

ランダムモデルでは、文字とおりに既存のアラインメントを崩して、それらの塩基をランダムに再配置して新しいマルチプルアラインメントを作成する。このランダムに生成されたアラインメントに対して、各アミノ酸の出現頻度 p(j) を求める。例えば、上のマルチプルアラインメント全体では 40 文字があり、そのうちアミノ酸 A が 6 個ある。もし、ランダムにアラインメントを生成するならば、各位置にアミノ酸 A が出現する確率は同じで、 p(1, A) = p(2, A) = ... = 6 / 40 = 0.15 となる。各位置におけるアミノ酸 j の出現頻度は同じであるから、ここでは p(j) = p(1, j) = p(2, j) = ... として p(j) で表す。

アミノ酸ACDGKMSY
出現頻度0.150.2250.050.0750.2250.10.1250.05

プロファイルの計算

これまでに確率モデルとランダムモデルについて、各位置におけるアミノ酸の出現頻度を計算した。このとき、プロファイルは次のように計算される。

\[ PSSM(i,j) = log\frac{q(i,j)}{p(j)} \]

たとえば、位置 1 におけるアミノ酸 D のプロファイルは PSSM(1,D) = log2(0.4/0.05) = 2.408 である。このような計算を、すべての位置 i およびアミノ酸 j について計算すると、I 行 J 列の行列が完成する。この行列がプロファイルである。q(i,j) = 0 のとき、計算出来ないため空白とした。。

位置PSSM(i,j)
ACDGKMSY
11.202.41
2 1.34
30.801.20
41.070.60
51.34
61.200.270.60
72.410.96
81.442.41

q(i, j) = 0 のときプロファイルの値を計算することができない。そこで、q(i, j) の値が 0 にならないように、以下の方法で q(i, j) を計算する。

\[ q(i,j) = \frac{n(i,j) + 1}{m + 20} \]