RNA-Seq データから得られたリードカウントデータは、そのまま転写産物(遺伝子)発現量を表すわけではない。1 転写産物にマッピングされるリードの数は、サンプル中の総リード数(sequence depth)と転写産物の長さに影響される。サンプル中の総リード数が多いほど、1 転写産物あたりにマッピングされるリード数も多い。また、転写産物が長いほど、1 転写産物あたりにマッピングされるリード数も多い。そのため、RNA-Seq データから得られるリードカウントデータを転写産物発現量として利用するには、総リード数や転写産物長で補正する必要がある。
TPM の計算
TPM は transcripts per million の略である。その名前の通り、TPM は、サンプル中に全転写産物が 100 万個存在するときに、各転写産物に何個あたりの転写産物が存在するのかを表す値である。リードカウントデータからは、次の手順にしたがって TPM を計算することができる。
- 転写産物の種類によって長さが異なるので、まず転写産物の長さで補正を行う。各転写産物にマッピングされたリードカウントを、転写産物の長さが 1,000 bp あたりリード数を計算する。Yt を転写産物 t にマッピングされたリードカウントとし、Lt を転写産物 t の長さとすると、転写産物 t の 1,000 bp あたりのリード数は次のように計算できる。\[ T_{t} = \frac{Y_{t}}{L_{t}} 10^{3} \]
- 続いて、転写産物長による補正後の総リードカウントが 100 万となるように補正する。このとき、転写産物 t の TPMt は次のように計算できる。\[ TPM_{t} = T_{t}\frac{1}{\sum_{t} {T_{t}}}10^{6} \]
ここでは転写産物レベルで TPM を例に示したが、遺伝子レベルでも TPM を計算できる。遺伝子レベルで TPM を計算するとき、遺伝子の長さをコーティング領域(CDS)の和集合とする場合が多い(遺伝子長の定義と計算方法)。
TPM と FPKM/RPKM
リードカウントデータを総リード数と遺伝子長で補正する場合、2 通りの方法が考えられる。TPM のように遺伝子長で補正してからサンプル間の総リード数を揃える方法の他に、サンプル間の総リード数を揃えてから遺伝子長で補正する方法もある。後者によって補正されたデータを FPKM/RPKM とよぶ。
FPKM/RPKM | TPM |
|
|
RNA-Seq データ解析の初期のごろ、遺伝子間あるいはサンプル間の比較に FPKM/RPKM がよく用いられていた。しかし、FPKM/RPKM が転写産物の発現量を正確に表していないことが導かれる(詳細, Li et al, 2010, Wagner et al, 2012)。そのため、最近では、TPM の方がよく使われるようになった。
References
- RNA-Seq gene expression estimation with read mapping uncertainty. Bioinformatics. 2010, 26(4):493-500. DOI: 10.1093/bioinformatics/btp692
- Measurement of mRNA abundance using RNA-seq data: RPKM measure is inconsistent among samples. Theory Biosci. 2012, 131(4):281-5. DOI: 10.1007/s12064-012-0162-3