情報量は「場合の数」の比を対数化したものである(情報の分野で、対数底として 2 を用いる)。例えば、コドンを一つ想定したとき、単にコドンと言われると、その取りうる場合の数は 4×4×4 = 64 通りとなる。次に、「コドンの 1 番目の塩基は T です。」という情報が得られたとする。この情報を知った後、コドンの取りうる場合の数は 1×4×4 = 16 通りになる。「コドンの 1 番目の塩基は T です。」という情報を知る前は 64 通り、知った後は 16 通りになる。このとき、「コドンの 1 番目の塩基は T です。」という情報の情報量は log(64/16) = 2 のように計算される。このように、情報量はある情報を「知る前の場合の数」と「知った後の場合の数」の比を対数化したもので定義される。
選択情報量(自己エントロピー)
単に情報量ともいう。事象 E が起こる確率を P(E) とするとき、事象 E が起こったと知らされた時の情報量 I(E) を次と定義する。
つまり、事象 E が起こる前では、その事象が起こるのか起こらないのかが不明であり、両方の場合を想定する必要があり、確率は 1 である。一方、「事象 E は起こります」という情報を受け取った後、その事象が起こる確率 P(E) だけを想定すればよい。従って、事前の確率(≈ 場合の数)は 1 で、事後の確率は P(E) となり、「事象 E は起こります」の情報量は上の式によって計算できる。
平均情報量(エントロピー、シャノンエントロピー)
事象 E が起こる確率を P(E) とし、すべての事象 E ∈ Ω に対して、その情報量の期待値を平均情報量という。情報エントロピーやシャノンエントロピーなどともいう。
バイオインフォマティクスの分野おいて、エントロピーはマルチプルアライメントの乱雑度を測る指標として用いられる。一般的に、マルチプルアラインメントにおいて、ミスマッチなどの多い領域では情報エントロピーが高い。これに対して、例えばプロモーター領域などの保存されている領域においては、情報エントロピーが小さい。
次のようなマルチプルアライメントの情報エントロピーを求める例を示す。
1 2 3 4 5 6 7 8 9 A C A A A C A G T A A A A T G A G T A T C A A C A C C A G C A T G C T T
位置 i に出現する塩基 X の出現確率を pi(X) とすると、位置 i の情報エントロピー Hi は次のように計算できる。
例えば、位置 1 と位置 2 の情報エントロピーH1、H2 は次のように求められる。
H1 が小さいので、このアライメントの位置 1 の塩基がよく保存されています。一方、H2 = 2 となり、位置 2 はほとんど保存されていないと言える。
情報エントロピーの値域
情報エントロピーは取りうる範囲はゼロ以上で、塩基ならば log24 以下、アミノ酸ならば log220 以下である。以下は証明。
C を文字の集合とする。塩基ならば C = {A, C, G, T}、|C| = 4 である。また、アミノ酸ならば C = {A, C, ..., W}、|C| = 20 である。
x > 0 のとき、logex ≤ x - 1 であることを利用すると、
これより、情報エントロピーは次の不等式を満す。
よって、
両辺を loge2 で割ると、
となる。pi ≤ 1 であるから、-pilog2pi ≥ 0 が成り立つ。
以上により、情報エントロピーの取り得る範囲は次のようになる。