核酸あるいはアミノ酸配列を複数並べ類縁度を可視化

アラインメント

核酸配列あるいはアミノ酸配列を、似ている部分を同じ位置になるように並べることをアラインメントという。例えば、次のような 2 つのアミノ酸配列があり、

配列A  RGSHMHGQVVSGYIEAEVIPAETGQETAYFLLKLVKTVHTDNGTTVKA
配列B  KGEAMHGQVVYIEAEVIPAETGQETAYFLLKLAWPVKTIHTDNGPNFTSATVKA

これをアラインメントすると、次のようになる。(次の例では、アラインメントの結果を見やすいように、配列 A と配列 B の文字が一致するとき「|」を付けている。)

配列A  RGSHMHGQVVSGYIEAEVIPAETGQETAYFLL---KLVKTVHTDNGTTV-----KA
      |  ||||||  ||||||||||||||||||||     ||| |||||        ||
配列B  KGEAMHGQVV--YIEAEVIPAETGQETAYFLLKLAWPVKTIHTDNGPNFTSATVKA

アライメント上、対応する 2 つの文字の関係に、一致、ミスマッチ(不一致)、ギャップ(-)がある。対応する 2 つの文字が同じならば一致といい、そうでなければ不一致という。また、2 つの文字のうち、片方が文字でもう片方が - ならば、- のことをギャップという。例えば、上の例では、1 文字目はミスマッチであり、2 文字目は一致である。アライメントを順に見ていくと、配列 A は SG を持つにもかかわらず、配列 B では -- となっている。すなわち配列 B にギャップが挿入されている。

ミスマッチの原因は、進化過程において配列上で起きた置換が主な原因である。また、ギャップは、進化過程において配列上で起きた挿入あるいは欠損などが主な原因と考えられる。

2 つのアライメントを求めるとき、そのアライメントの正確性を測る指標も計算する必要がある。例えば、2つの配列 TCCTCCAG と ATCCAG があるとき、様々なアライメントが求められる。アライメントのスコアを求めることで、どれを採用するかを決めることができる。

1)          2)
TCCTCCAG    -TCCTCCAG
A--TCCAG    A---TCCAG

例えば「一致:+1、ミスマッチ:-2、ギャップ:-3」ならば 1) のスコアは 5 × 1 + 1 × (-2) + 2 × (-3) = -3 であり、同様にして 2) のスコアは -7 である。従って、この場合は 1) のアライメントを採用する。

また、例えば「一致:+1、ミスマッチ:-3、ギャップ:-1」ならば 1) のスコアは 0 であり、2) のスコアは 1 である。この場合は 2) のアライメントを採用する。

このように、複数個のアライメントの中から最適なアライメントを選ぶためにはスコアを利用する必要がある。また、スコアの付け方が異なると求められる最適アライメントも異なる。従って、アライメントを行う際に、スコアの付け方も考慮する必要がある。