シークエンサーデータを使用したゲノムアセンブリー

ゲノムアセンブリー

ゲノム配列の断片をつなげて元のゲノム配列を復元していく作業をアセンブリーという。現在では、シークエンサーを利用してゲノムアセンブリーが一般的である。具体的には、DNA または mRNA の塩基配列を断片化し、シークエンサーで読み取る。次に、シークエンサーで読み取られたこれらの断片(リード)をつなげていき、元の DNA または mRNA の塩基配列を復元していく。DNA-Seq の場合は全ゲノムの塩基配列を復元できる可能性があるが、RNA-Seq の場合は転写領域の塩基配列をしか復元できない。

RNA-Seq のデータ解析用のリファレンス配列をアセンブリする方法として、リードデータからアセンブリーを行う de novo assembly と近縁種のリファレンス配列をガイドとして使用して reference-guided assembly などが知られている。de novo アセンブリーを行うには、ハイスペックなコンピューターを必要とする場合が多い。これに対して、後者はよりコンピューターのスペックをそれほど要求しないが、近縁種に存在しない固有の遺伝子がある場合はアセンブリーされない可能性がある。

de novo による転写領域の配列のアセンブリ方法
ソフトウェア 対象 アルゴリズムや機能
ABySS DNA-Seq ペアエンドリードからゲノム配列をアセンブルするソフトウェア。 300 M までのゲノムをアセンブルできるシングルプロセスとより大きいサイズのゲノムをアセンブルする並列プロセスがある。
Trans-ABySS RNA-Seq ABySS を RNA-Seq リードができるように拡張した、トランスクリプトをアセンブルするためのソフトウェアである。
Trinity RNA-Seq RNA-Seq リードをアセンブリし contig を作成し、転写産物の isoform は配列をアセンブルするソフトウェア。
SOAPdenovo2 DNA-Seq DNA-Seq リードをアセンブリするソフトウェアである。
SOAPdenovo-Trans RNA-Seq RNA-Seq リードからトランスクリプトの配列をアセンブリするソフトウェア。内部では、SOAPdenovo のアルゴリズムを利用している。
Velvet DNA-Seq Velvet は de Bruijn graph を利用してゲノムをアセンブリするソフトウェアである。