Quantile 正規化

quantile 正規化法は、発現量の相対的な大小関係を利用した正規化方法である。quantile 正規化法によって正規化された各群のデータは、各群のデータの統計量(平均値、中央値、分散など)を同じになる。この正規化は、次のような手順で行う。

  1. 各群のデータをそれぞれ独立に昇順に並べ替える。
  2. 並べ替えたデータに対して、平均値を求める。
  3. 平均値を、オリジナルデータと置換する。

次に示したデータに対して quatile 正規化を行う例。

A 群B 群
遺伝子 113.014.0
遺伝子 251.055.0
遺伝子 334.087.0
遺伝子 421.066.0
遺伝子 515.012.0
平均26.846.8

A 群と B 群をそれぞれ独立に昇順に並べ替えてから、各行の平均値を計算する。遺伝子発現量の順位とその順位に対応する平均値の対応表を作成する。

昇順A 群B 群平均
113.012.012.5
215.014.014.5
321.055.038.0
434.066.050.0
551.087.069.0

次に、データを正規化する。例えば、A 群遺伝子 1 の正規化前のデータは 13.0 であり、順位 1 である。順位平均値対応表を見ると、順位 1 に対応する平均値は 12.5 であるから、A 群遺伝子 1 の正規化後のデータは 12.5 とする。同様に、B 群遺伝子 1 の正規前のデータ 14.0 であり、順位 2 である。順位平均値対応表を見ると、順位 2 に対応する平均値は 14.5 であるから、B 群遺伝子 1 の正規化後のデータは 14.5 とする。すべての遺伝子に対して、この操作を行うと、正規化後のデータは次のようになる。

A 群B 群
遺伝子 112.514.5
遺伝子 269.038.0
遺伝子 350.069.0
遺伝子 438.050.0
遺伝子 514.512.5
平均26.826.8

このように、正規化後の A 群と B 群のデータの発現量の値の集合は一致する。そのため、正規化後の A 群と B 群の発現量は、分布も統計量もまったく同じになる。

References

  • Bolstad BM, Irizarry RA, Astrand M, Speed TP. A comparison of normalization methods for high density oligonucleotide array data based on variance and bias. Bioinformatics. 2003, 19(2):185-93. PubMed Abstract
  • Marioni JC, Mason CE, Mane SM, Stephens M, Gilad Y. RNA-seq: an assessment of technical reproducibility and comparison with gene expression arrays. Genome Res. 2008, 18(9):1509-17. PubMed Abstract
  • Eisenberg E, Levanon EY. Human housekeeping genes are compact. Trends Genet. 2003, 19(7):362-95. PubMed Abstract