情報量

情報量は「場合の数」の比を対数化したものである(情報の分野で、対数底として 2 を用いる)。例えば、コドンを一つ想定したとき、単にコドンと言われると、その取りうる場合の数は 4×4×4 = 64 通りとなる。次に、「コドンの 1 番目の塩基は T です。」という情報が得られたとする。この情報を知った後、コドンの取りうる場合の数は 1×4×4 = 16 通りになる。「コドンの 1 番目の塩基は T です。」という情報を知る前は 64 通り、知った後は 16 通りになる。このとき、「コドンの 1 番目の塩基は T です。」という情報の情報量は log(64/16) = 2 のように計算される。このように、情報量はある情報を「知る前の場合の数」と「知った後の場合の数」の比を対数化したもので定義される。

\[ p = \log\frac{\text{事前の場合の数}}{\text{事後の場合の数}}=\log\frac{4\times 4\times 4}{1\times 4\times 4}=\log2^2 =2 \]

選択情報量(自己エントロピー)

単に情報量ともいう。事象 E が起こる確率を P(E) とするとき、事象 E が起こったと知らされた時の情報量 I(E) を次と定義する。

\[ I(E) = \log\frac{1}{P(E)} = -\log P(E) \]

つまり、事象 E が起こる前では、その事象が起こるのか起こらないのかが不明であり、両方の場合を想定する必要があり、確率は 1 である。一方、「事象 E は起こります」という情報を受け取った後、その事象が起こる確率 P(E) だけを想定すればよい。従って、事前の確率(≈ 場合の数)は 1 で、事後の確率は P(E) となり、「事象 E は起こります」の情報量は上の式によって計算できる。

平均情報量(エントロピー、シャノンエントロピー)

事象 E が起こる確率を P(E) とし、すべての事象 E ∈ Ω に対して、その情報量の期待値を平均情報量という。情報エントロピーやシャノンエントロピーなどともいう。

\[ H = -\sum_{E\in \Omega}P(E)\log P(E) \]

バイオインフォマティクスの分野おいて、エントロピーはマルチプルアライメントの乱雑度を測る指標として用いられる。一般的に、マルチプルアラインメントにおいて、ミスマッチなどの多い領域では情報エントロピーが高い。これに対して、例えばプロモーター領域などの保存されている領域においては、情報エントロピーが小さい。

次のようなマルチプルアライメントの情報エントロピーを求める例を示す。

1 2 3 4 5 6 7 8 9
A C A A A C A G T
A A A A T G A G T
A T C A A C A C C
A G C A T G C T T

位置 i に出現する塩基 X の出現確率を pi(X) とすると、位置 i の情報エントロピー Hi は次のように計算できる。

\[ H_{i}=\sum_{X=A,C,G,T}\frac{1}{p_{i}(X)}\log p_{i}(X) = - \sum_{X=A,C,G,T}p_{i}(X)\log p_{i}(X) \]

例えば、位置 1 と位置 2 の情報エントロピーH1、H2 は次のように求められる。

\[ \begin{eqnarray} H_{1}&=&-P_{1}(A)\log p_{1}(A) =- 1\log 1 = 0 \\ H_{2}&=&-(P_{2}(C)\log p_{2}(C) + P_{2}(A)\log p_{2}(A)\\ &+&P_{2}(T)\log p_{2}(T)+P_{2}(G)\log p_{2}(G)) \\ &=&-( \frac{1}{4}\log\frac{1}{4} + \frac{1}{4}\log\frac{1}{4} +\frac{1}{4}\log\frac{1}{4} +\frac{1}{4}\log\frac{1}{4} )\\ &=& 2 \\ \end{eqnarray} \]

H1 が小さいので、このアライメントの位置 1 の塩基がよく保存されています。一方、H2 = 2 となり、位置 2 はほとんど保存されていないと言える。

情報エントロピーの値域

情報エントロピーは取りうる範囲はゼロ以上で、塩基ならば log24 以下、アミノ酸ならば log220 以下である。以下は証明。

C を文字の集合とする。塩基ならば C = {A, C, G, T}、|C| = 4 である。また、アミノ酸ならば C = {A, C, ..., W}、|C| = 20 である。

x > 0 のとき、logex ≤ x - 1 であることを利用すると、

\[ \log_{e}\frac{1}{|C|p_{i}} \le \frac{1}{|C|p_{i}} - 1\]

これより、情報エントロピーは次の不等式を満す。

\[ \begin{eqnarray} - \sum_{i \in C}p_{i}\log_{e} p_{i} + \sum_{i \in C}p_{i}\log_{e}\frac{1}{|C|} &=& \sum_{i \in C}p_{i}\log_{e}\frac{1}{|C|p_{i}} \\ & \le & \sum_{i \in C}p_{i}\left ( \frac{1}{|C|p_{i}} -1 \right)\\ & = & \left( \frac{1}{|C|} - p_{A} \right) + \left( \frac{1}{|C|} - p_{C} \right)+ \cdots \\ & = & \frac{1}{|C|}\times |C| - \sum_{i \in C}p_{i} = 1 - 1 = 0 \end{eqnarray} \]

よって、

\[ - \sum_{i \in C}p_{i}\log_{e} p_{i} \le \log_{e}|C| \]

両辺を loge2 で割ると、

\[ - \sum_{i \in C}p_{i}\log_{2} p_{i} \le \log_{2}|C| \]

となる。pi ≤ 1 であるから、-pilog2pi ≥ 0 が成り立つ。

以上により、情報エントロピーの取り得る範囲は次のようになる。

\[ 0 \le H = \sum_{i \in C}-p_{i}\log_{2}p_{i} \le \log_{2}|C| \]