blastp は、アミノ酸配列からなる入力配列と相同性を持つアミノ酸配列をデータベースから検索するプログラムである。blastp は塩基配列には対応しておらず、塩基配列に対して相同性検索を行う場合は blastn を使う。このページでは blastp の使用方法を紹介する。
データベースを作成
マウスのタンパク質を例にする。マウスのタンパク質データは Ensembl (FTP) からダウンロードできる。この例では Mus_musculus.GRCm38.70.pep.all.fa.gz をダウンロードして、データベースの作成に用いる。ダウンロードしたファイルは gzip で圧縮されているので、まずこれを展開する。
gunzip Mus_musculus.GRCm38.70.pep.all.fa.gz
次に、ここで得た FASTA ファイルを makeblastdb
コマンドに与えて、blast 用のデータベースを作成する。ここでは、データベースの名前を MusProtDB と命名している。データベースの名前は任意に付けることができる。また、データベース化する配列がアミノ酸配列であることを示すために、-dbtype prot
を指定する。
makeblastdb -in Mus_musculus.GRCm38.70.pep.all.fa -dbtype prot -out MusProtDB -parse_seqids
makeblastdb
の実行が終了すると、ディレクトリに「MusProtDB.phr」、「MusProtDB.pog」、「MusProtDB.psi」、「MusProtDB.pin」、「MusProtDB.psd」、「MusProtDB.psq」のファイルが生成される。これらすべて合わせてデータベースとなる。
blastp による相同性検索
データベースを作成したのちに、そのデータベースに対して検索を行うことができるようになる。検索キーワードとして、次のような入力配列(クエリー配列)を用意し、FASTA ファイル(query.prot.fa)に保存する。
>unknown
LDLRNVHHSFWNIWTDSEDSDYSAEILDEKKALQVRPRYGLRQRLKVTVDLCIRSCLDEA
QTWFLKWAQERKGSLYFCCTKMKIWTLPERALRQIFHVFDPEHIMELELNTEWTLIELTH
FAPYFGQMRNLRKVFLAPLHKIDFHLPNRTRVTEVKCINKFASQFSKFNCLQHLFMFCVH
FLRSQMNQVLGCLMTPLKTLSITYSLISQRDLDSFACCQSLF
b次に、blastp
にデータベースのパス(-db
)、クエリー配列のファイルのパス(-query
)、そして出力結果を保存するファイルのパス(-out
)を指定して、検索を行う。
blastp -db MusProtDB -query query.prot.fa -out result.txt
相同性検索の結果
検索が正しく行われると、検索結果は result.txt ファイルに書きだされる。その中身の一部は以下のようになっている。
BLASTP 2.2.28+
Reference: Stephen F. Altschul, Thomas L. Madden, Alejandro A.
Schaffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J.
Lipman (1997), Gapped BLAST and PSI-BLAST: a new generation of
protein database search programs, Nucleic Acids Res. 25:3389-3402.
Reference for composition-based statistics: Alejandro A. Schaffer,
L. Aravind, Thomas L. Madden, Sergei Shavirin, John L. Spouge, Yuri
I. Wolf, Eugene V. Koonin, and Stephen F. Altschul (2001),
Improving the accuracy of PSI-BLAST protein database searches with
composition-based statistics and other refinements, Nucleic Acids
Res. 29:2994-3005.
Database: Mus_musculus.GRCm38.70.pep.all.fa
50,877 sequences; 22,940,597 total letters
Query= unknown
Length=222
Score E
Sequences producing significant alignments: (Bits) Value
lcl|ENSMUSP00000129755 pep:known scaffold:GRCm38:JH584299.1:9048... 465 2e-163
lcl|ENSMUSP00000126247 pep:known chromosome:GRCm38:5:95106938:95... 464 5e-163
lcl|ENSMUSP00000126681 pep:known scaffold:GRCm38:JH584299.1:7162... 464 7e-163
lcl|ENSMUSP00000095086 pep:novel chromosome:GRCm38:5:94314469:94... 452 1e-159
lcl|ENSMUSP00000095887 pep:known chromosome:GRCm38:5:94624013:94... 452 2e-159
lcl|ENSMUSP00000106205 pep:novel scaffold:GRCm38:JH584297.1:1974... 451 2e-159
lcl|ENSMUSP00000083215 pep:known chromosome:GRCm38:5:95280462:95... 451 4e-159
lcl|ENSMUSP00000136930 pep:known scaffold:GRCm38:JH584298.1:1796... 451 6e-159
lcl|ENSMUSP00000095096 pep:known chromosome:GRCm38:5:94962962:94... 451 6e-159
lcl|ENSMUSP00000137276 pep:known scaffold:GRCm38:JH584299.1:9219... 450 1e-157
lcl|ENSMUSP00000098573 pep:known chromosome:GRCm38:5:95743822:95... 449 2e-157
blastp で利用できるオプション
オプション | 意味 |
-query | クエリー配列のファイル名(入力ファイル)を指定 |
-query_loc | 入力ファイルの何文字から何文字目までをクエリー配列とするのかを指定 |
-db | データベース名を指定 |
-out | blast 検索結果を保存するファイル名を指定(出力ファイル) |
-outfmt | 出力ファイルのフォーマットを指定。 |
-evalue | E-value の閾値 |
-word_size | ワードサイズ |
-gapopen | 開始ギャップのペナルティ |
-gapextend | 伸長ギャップのペナルティ |
-matrix | スコアマトリックスを指定(BLOSUM62やPAM32などを指定) |
-threshold | ワードスコアの閾値。指定したワードサイズでデータベースに照合するとき、そのスコアが閾値以上の場合にのみ、blast 検索を開始する |