シークエンサーデータを使用したゲノムアセンブリー
ゲノムアセンブリー
ゲノム配列の断片をつなげて元のゲノム配列を復元していく作業をアセンブリーという。現在では、シークエンサーを利用してゲノムアセンブリーが一般的である。具体的には、DNA または mRNA の塩基配列を断片化し、シークエンサーで読み取る。次に、シークエンサーで読み取られたこれらの断片(リード)をつなげていき、元の DNA または mRNA の塩基配列を復元していく。DNA-Seq の場合は全ゲノムの塩基配列を復元できる可能性があるが、RNA-Seq の場合は転写領域の塩基配列をしか復元できない。
RNA-Seq のデータ解析用のリファレンス配列をアセンブリする方法として、リードデータからアセンブリーを行う de novo assembly と近縁種のリファレンス配列をガイドとして使用して reference-guided assembly などが知られている。de novo アセンブリーを行うには、ハイスペックなコンピューターを必要とする場合が多い。これに対して、後者はよりコンピューターのスペックをそれほど要求しないが、近縁種に存在しない固有の遺伝子がある場合はアセンブリーされない可能性がある。
ソフトウェア | 対象 | アルゴリズムや機能 |
ABySS | DNA-Seq | ペアエンドリードからゲノム配列をアセンブルするソフトウェア。 300 M までのゲノムをアセンブルできるシングルプロセスとより大きいサイズのゲノムをアセンブルする並列プロセスがある。 |
Trans-ABySS | RNA-Seq | ABySS を RNA-Seq リードができるように拡張した、トランスクリプトをアセンブルするためのソフトウェアである。 |
Trinity | RNA-Seq | RNA-Seq リードをアセンブリし contig を作成し、転写産物の isoform は配列をアセンブルするソフトウェア。 |
SOAPdenovo2 | DNA-Seq | DNA-Seq リードをアセンブリするソフトウェアである。 |
SOAPdenovo-Trans | RNA-Seq | RNA-Seq リードからトランスクリプトの配列をアセンブリするソフトウェア。内部では、SOAPdenovo のアルゴリズムを利用している。 |
Velvet | DNA-Seq | Velvet は de Bruijn graph を利用してゲノムをアセンブリするソフトウェアである。 |