RNA-Seq リードからリファレンス配列を作成する

アセンブリー

生物のゲノムの配列を決定していくことをゲノムアセンブリーという。アセンブリーは、高速シーケンサーが出力したリードとよばれる短い DNA または RNA 塩基配列を、次々と繋げていくことによって、元の完全な塩基配列を復元する。RNA-Seq データのリードは転写物に由来するので、RNA-Seq データを利用してアセンブリーを行う場合は、転写領域の塩基配列を復元できるが、全ゲノムの塩基配列を復元することはできない。遺伝子(転写物)発現量解析において、転写物の塩基配列さえわかれば、全ゲノムの塩基配列を知らなくても差し支えないので、RNA-Seq データを利用してアセンブリーするのは十分である。

アルゴリズム

ゲノムをアセンブリーする方法はいくつか知られている。よく利用される方法として、de Bruijn グラフを利用した de novo アセンブリーと近縁種のゲノム配列を利用した reference-guided アセンブリーがある。de novo アセンブリーを行うには、ハイスペックなコンピューターを必要とする場合が多い。これに対して、後者はよりコンピューターのスペックをそれほど要求しないが、近縁種に存在しない固有の遺伝子がある場合はアセンブリーされない可能性がある。

ソフトウェア

ソフトウェア 対象 アルゴリズムや機能
Bridger RNA-Seq RNA-Seq リードをアセンブルするソフトウェア。
ABySS ゲノム ペアエンドリードからゲノム配列をアセンブルするソフトウェア。 300 M までのゲノムをアセンブルできるシングルプロセスとより大きいサイズのゲノムをアセンブルする並列プロセスがある。
Trans-ABySS RNA-Seq ABySS を RNA-Seq リードができるように拡張した、トランスクリプトをアセンブルするためのソフトウェアである。
Trinity RNA-Seq RNA-Seq リードをアセンブリし contig を作成する。続いて、contig をクラスタリングし、その結果を用いて転写物の isoform 配列を作成する。
SOAPdenovo2 ゲノム SOAPdenovo2 はゲノムをアセンブリするソフトウェアである。
SOAPdenovo-Trans RNA-Seq RNA-Seq リードからトランスクリプトの配列をアセンブリするソフトウェア。内部では、SOAPdenovo のアルゴリズムを利用している。
Velvet ゲノム Velvet は de Bruijn graph を利用してゲノムをアセンブリするソフトウェアである。
Oases RNA-Seq Oases は、Velvet を呼ぶ出してアセンブリを行い、その結果を整理してトランスクリプトの配列を作成している。
Rnnotator RNA-Seq Rnnotator では、リードのクオリティフィルタリングを行ってから、Velvet や Oases などを呼び出してアセンブリを行う。次に、これら複数のアセンブリ結果をマージして、重複していあるものを除いてくれる。