CD-HIT | 核酸およびアミノ酸配列のクラスタリング

CD-HIT (Cluster Database at High Identity with Tolerance, ウェブサイト) は FASTA ファイル中の配列を相同性などに基づいてクラスタリングを行うプログラムである。冗長性のないデータベースを作成するときなどに利用する。かつての blastclust の代わりに利用する場合もある。

インストール

リリース版のソースコードは GitHub/weizhongli/cdhit でダウンロードができ、コンパイルすればすぐに利用できる。

wget https://github.com/weizhongli/cdhit/releases/download/V4.6.4/cd-hit-v4.6.4-2015-0603.tar.gz
tar xzvf cd-hit-v4.6.4-2015-0603.tar.gz
cd cd-hit-v4.6.4-2015-0603
make openmp=no

コンパイルし終えるとディレクトリの中に cd-hit などの実行ファイルが生成される。クラスタリングなどは主にこの cd-hit ファイルで行う。必要であれば、 cd-hit が入っているディレクトリにパスを通す。

使い方

アミノ酸配列のクラスタリング

アミノ酸配列のクラスタリングは cd-hit を利用する。入力ファイル -i および出力ファイル -o の指定が必須である。

cd-hit -i prot.fa -o prot.nr.fa -c 0.9

-c 0.9 クラスタリングを行う際の identity の閾値である。この場合、配列一致度が 90% 以上で同じクラスタにまとめる、ということになる。出力結果は prot.nr.fa に代表な配列が FASTA 形式で保存され、prot.nr.fa.clstr に入力配列の ID とクラスタ番号などの情報が保存される。

cd-hit のオプション。

`-i`	入力ファイル名（FASTA フォーマット）
`-o`	出力ファイル名
`-c`	クラスタリングする際の配列一致度の閾値。
`-G`	デフォルは `1` であり、global sequence identity を利用してクラスタリングを行う。これはペアワイズアラインメントの中で一致するアミノ酸の数を、ペアワイズアラインメントの短い方の配列の配列長で割った値を配列一致度とする。一方で、`-G 0` を指定することで、local sequence identity を利用してクラスタリングを行う。これはペアワイズアラインメントの中で一致するアミノ酸の数を、アラインメントの長さで割った値を配列一致度とする。
`-d`	出力ファイルのうち配列名とクラスタ番号が記載されている clsr ファイルに配列名を保存する際に、配列名の長さを指定する。あまりにも小さい値を指定すると配列名が途中で途切れてしまう。
`-n`	ワードサイズ。`-c` で指定している閾値に関連する。閾値が 0.7-1.0 の場合は `-n 5`を指定する。閾値が 0.6-.7 の場合は `-n 4`を指定する。閾値が 0.5-0.6 の場合は `-n 3`を指定する。閾値が 0.4-0.5 の場合は `-n 2`を指定する。
`-l`	配列が指定されている長さよりも短い場合、クラスタリングする前に除去される。デフォルトは `10`
`-T`	使用するスレッド数
`-M`	使用するメモリ量

核酸配列のクラスタリング

核酸配列のクラスタリングは cd-hit-est を利用して行う。オプションなどは cd-hit のそれとほぼ同じ。

cd-hit-est -i nucl.fa -o nucl.nr.fa -c 0.9

References

Li W, Jaroszewski L, Godzik A. Clustering of highly homologous sequences to reduce the size of large protein databases. Bioinformatics. 2001, 17(3):282-3. PubMed Abstract
Li W, Jaroszewski L, Godzik A. Tolerating some redundancy significantly speeds up clustering of large protein databases. Genome Res. 2002, 18(1):77-82. PubMed Abstract
Li W, Godzik A. Cd-hit: a fast program for clustering and comparing large sets of protein or nucleotide sequences. Bioinformatics. 2006, 22(13):1658-9. PubMed Abstract