I-TASSER (Zhang, 2008, Roy et al., 2010) はアミノ酸配列から立体構造を予測するプログラムである。ウェブブラウザで利用できるオンライン版の他に、ダウンロードして個人の PC 上で使うこともできる。I-TASSER は I-TASSER Suite とよばれるソフトウェアにパッケージングされている。このソフトウェアをダウンロードしてこればよい。
I-TASSER の実行(コマンドライン)
I-TASSER は内部的で PSI-BLAST、PSSpred などのプログラムを走らせて、総合的にタンパク質の立体構造を予測している。コマンドラインで実行するには、予測対称のアミノ酸配列を seq.fasta に FASTA 形式で保存する必要がある。
例として、以下のアミノ酸配列から立体構造を予測してみる。この配列を seq.fasta の名前で保存し、seq.fasta を target ディレクトリに保存する。
>T0800 MNIKKLFSIFTLVILVFATACTNKSEKATVSDTNEKPKEEIKIVEPNGAEKTKLNLNFGV GKLNISGNEEKLMKGKFIYSENEWKPEIKYEVKDKDGELEISQPGLKSGNVSLNNKRNEW NINLNEKIPTEIKLSLGTGEFKADLSKINLKELNVGMGVGKVDLDISGNYKNNVKVNIEG GVGEATVYLPKSIGVKIKAEKGVGAVNANGFIVEGENIYKNSQYGKSKNSIEVNIEAGVG
次に、I-TASSER がインストールされているディレクトリのパスを調べる。ここでは「/work/tools/I-TASSER4.1」とする。次に JAVA_HOME を調べる、Linux であればほとんどの場合「/usr」である。準備が整えたところで、以下のようなコマンドで I-TASSER を実行させることができる。モデリングは非常に時間がかかる。nohup
で挟んで実行するとよい。
nohup runI-TASSER.pl \
-pkgdir /tools/I-TASSER4.1 \
-libdir /tools/I-TASSER4.1/lib \
-java_home /usr \
-seqname T0800 \
-datadir ./targets &
なお、-pkgdir
には I-TASSER のインストールディレクトリを、-libdir
には I-TASSER のライブラリーディレクトリへのパスを与える。
サーバーの性能にもよるが 4 日ほどでモデリングが終了する。モデリングが終了すると、同じディレクトリ内に大量なファイルが生成され、そのうち model1.pdb、model2.pdb、・・・、model5.pdb が予測構造となっている。
I-TASSER Suit インストール
I-TASSER Suit は Zhang Lab からダウンロードできる。ダウンロードしたソースコードを解凍しただけで使えるようになる。
tar -jxvf I-TASSER4.1.tar.bz2
解凍後、I-TASSER4.1 ディレクトリができる。プログラムはすべてこのディレクトリに入っている。
I-TASSER Suit の他にそれらに関連するライブラリーも合わせて導入した方がよい。そのために、展開した I-TASSER ディレクトリに移動し、ディレクトリ中の download_lib.pl を実行すればよい。
以下では、I-TASSER4.1 ディレクトリの中に lib ディレクトリを作成し、ライブラリーをそこにダウンロードするようにしている。また、ライブラリーが多数あるため、ここでは nohup
を利用してバックグラウンドでダウンロードするようにしている。
nohup perl download_lib.pl -libdir /tools/I-TASSER4.1/lib -P true -B true -N true&
References
- I-TASSER server for protein 3D structure prediction. BMC Bioinformatics 2008, 9:40. DOI: 10.1186/1471-2105-9-40 PMID: 18215316
- I-TASSER: a unified platform for automated protein structure and function prediction. Nat Protoc 2010, 5(4):725-38. DOI: 10.1038/nprot.2010.5 PMID: 20360767
- COFACTOR: an accurate comparative algorithm for structure-based protein function annotation. Nucleic Acids Res. 2012, 40(Web Server issue):W471-7. DOI: 10.1093/nar/gks372 PMID: 22570420