blastp

blastp は、アミノ酸配列からなる入力配列と相同性を持つアミノ酸配列をデータベースから検索するプログラムである。blastp は塩基配列には対応しておらず、塩基配列に対して相同性検索を行う場合は blastn を使う。このページでは blastp の使用方法を紹介する。

データベースを作成

マウスのタンパク質を例にする。マウスのタンパク質データは Ensembl (FTP) からダウンロードできる。この例では Mus_musculus.GRCm38.70.pep.all.fa.gz をダウンロードして、データベースの作成に用いる。ダウンロードしたファイルは gzip で圧縮されているので、まずこれを展開する。

gunzip Mus_musculus.GRCm38.70.pep.all.fa.gz

次に、ここで得た FASTA ファイルを makeblastdb コマンドに与えて、blast 用のデータベースを作成する。ここでは、データベースの名前を MusProtDB と命名している。データベースの名前は任意に付けることができる。また、データベース化する配列がアミノ酸配列であることを示すために、-dbtype prot を指定する。

makeblastdb -in Mus_musculus.GRCm38.70.pep.all.fa -dbtype prot -out MusProtDB -parse_seqids

makeblastdb の実行が終了すると、ディレクトリに「MusProtDB.phr」、「MusProtDB.pog」、「MusProtDB.psi」、「MusProtDB.pin」、「MusProtDB.psd」、「MusProtDB.psq」のファイルが生成される。これらすべて合わせてデータベースとなる。

blastp による相同性検索

データベースを作成したのちに、そのデータベースに対して検索を行うことができるようになる。検索キーワードとして、次のような入力配列(クエリー配列)を用意し、FASTA ファイル(query.prot.fa)に保存する。

>unknown
LDLRNVHHSFWNIWTDSEDSDYSAEILDEKKALQVRPRYGLRQRLKVTVDLCIRSCLDEA
QTWFLKWAQERKGSLYFCCTKMKIWTLPERALRQIFHVFDPEHIMELELNTEWTLIELTH
FAPYFGQMRNLRKVFLAPLHKIDFHLPNRTRVTEVKCINKFASQFSKFNCLQHLFMFCVH
FLRSQMNQVLGCLMTPLKTLSITYSLISQRDLDSFACCQSLF

b次に、blastp にデータベースのパス(-db)、クエリー配列のファイルのパス(-query)、そして出力結果を保存するファイルのパス(-out)を指定して、検索を行う。

blastp -db MusProtDB -query query.prot.fa -out result.txt

相同性検索の結果

検索が正しく行われると、検索結果は result.txt ファイルに書きだされる。その中身の一部は以下のようになっている。

BLASTP 2.2.28+

Reference: Stephen F. Altschul, Thomas L. Madden, Alejandro A.
Schaffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J.
Lipman (1997), Gapped BLAST and PSI-BLAST: a new generation of
protein database search programs, Nucleic Acids Res. 25:3389-3402.

Reference for composition-based statistics: Alejandro A. Schaffer,
L. Aravind, Thomas L. Madden, Sergei Shavirin, John L. Spouge, Yuri
I. Wolf, Eugene V. Koonin, and Stephen F. Altschul (2001),
Improving the accuracy of PSI-BLAST protein database searches with
composition-based statistics and other refinements, Nucleic Acids
Res. 29:2994-3005.

Database: Mus_musculus.GRCm38.70.pep.all.fa
           50,877 sequences; 22,940,597 total letters

Query= unknown

Length=222
                                                                      Score     E
Sequences producing significant alignments:                          (Bits)  Value
lcl|ENSMUSP00000129755  pep:known scaffold:GRCm38:JH584299.1:9048...   465    2e-163
lcl|ENSMUSP00000126247  pep:known chromosome:GRCm38:5:95106938:95...   464    5e-163
lcl|ENSMUSP00000126681  pep:known scaffold:GRCm38:JH584299.1:7162...   464    7e-163
lcl|ENSMUSP00000095086  pep:novel chromosome:GRCm38:5:94314469:94...   452    1e-159
lcl|ENSMUSP00000095887  pep:known chromosome:GRCm38:5:94624013:94...   452    2e-159
lcl|ENSMUSP00000106205  pep:novel scaffold:GRCm38:JH584297.1:1974...   451    2e-159
lcl|ENSMUSP00000083215  pep:known chromosome:GRCm38:5:95280462:95...   451    4e-159
lcl|ENSMUSP00000136930  pep:known scaffold:GRCm38:JH584298.1:1796...   451    6e-159
lcl|ENSMUSP00000095096  pep:known chromosome:GRCm38:5:94962962:94...   451    6e-159
lcl|ENSMUSP00000137276  pep:known scaffold:GRCm38:JH584299.1:9219...   450    1e-157
lcl|ENSMUSP00000098573  pep:known chromosome:GRCm38:5:95743822:95...   449    2e-157

blastp で利用できるオプション

オプション意味
-queryクエリー配列のファイル名(入力ファイル)を指定
-query_loc入力ファイルの何文字から何文字目までをクエリー配列とするのかを指定
-dbデータベース名を指定
-outblast 検索結果を保存するファイル名を指定(出力ファイル)
-outfmt出力ファイルのフォーマットを指定。
-evalueE-value の閾値
-word_sizeワードサイズ
-gapopen開始ギャップのペナルティ
-gapextend伸長ギャップのペナルティ
-matrixスコアマトリックスを指定(BLOSUM62やPAM32などを指定)
-thresholdワードスコアの閾値。指定したワードサイズでデータベースに照合するとき、そのスコアが閾値以上の場合にのみ、blast 検索を開始する