近縁種のゲノム配列が存在するとき、そのゲノム配列をガイドとしてアセンブリすることができる。これは、近縁種のゲノム配列にリードをマッピングして、SNPs や indels を検出し、ゲノムのこの領域の塩基配列をリードの塩基に置換する方法である。このようなアセンブリ方法を reference-guided アセンブリーと呼ばれている。詳細に、以下のように行う。
- 近縁種のゲノム配列をリファレンス配列とする。
- リードをリファレンス配列にマッピングする。
- マッピング結果を利用して、リファレンス配列に対する SNPs や indels などを検出する。
- SNPs や indels の情報に基づいて、リファレンス配列を更新する。
- 更新したリファレンス配列を使用して、必要な回数だけ手順 2-4 を繰り返す。
reference-guided アセンブリーを行うプログラムはそれほど開発されていない。したがって、この方法でアセンブリーを行う場合、自分で様々なプログラムを組み合わせて行う必要がある。例えば、マッピングを STAR で行い、samtools あるいは GATK で SNPs/indels を検出し、最後にリファレンス配列を塩基置換する。SNPs/indels の情報を使ってリファレンス配列を更新するには GATK などのツールを使えば簡単にできるが、これらのツールは遺伝子アノテーションを編集できない。そのため、遺伝子アノテーションを更新するプログラムを自作する必要がある。