blast 検索をする際、先に blast 用のデータベースを作成しておく必要がある。blast 用のデータベースを作成するコマンドは makeblastdb
である。
blast 用データベースの作成方法
blast 検索時にデータベースとして利用したい塩基配列またはアミノ酸配列を用意し、makeblastdb でデータベースを作成する。例えば、シロイヌナズナの blast 検索用データベースを作成する際に、まず全ゲノムデータを arabidopsis.org のサイトから TAIR9_chr_all.fas をダウンロードしてくる。次に、ダウンロードしたデータのあるディレクトリに移動し、makeblastdb
コマンドを実行する。
makeblastdb -in TAIR9_chr_all.fas -out TAIR9DB -dbtype nucl -parse_seqids
コマンドが実行されると、ディレクトリには「TAIR9DB.nin」、「TAIR9DB.nsd」、「TAIR9DB.nsq」、「TAIR9DB.nhr」、「TAIR9DB.nog」、「TAIR9DB.nsi」などのファイルが生成される。(タンパク質の場合は「nin」などが「pin」となる。)
上記のコマンドの「-out」に指定した文字列がデータベース名となる。blast 検索するときは、次のようにデータベースを指定する。
blastn -db TAIR9DB -query query.fa
makeblastdb のオプション
makeblastdb
にはいくつかのオプションが用意されている。特に注意すべきオプションとしては-dbtype
、-in
、-out
である。-dbtype
はデータベースの種類を指定するオプションで、核酸ならば -dbtype nucl
と指定し、タンパク質ならば -dbtype prot
と指定する。また、-in
はデータベースを作成する元ファイルの名前、-out
は作成したデータベースの名前を指定する。その他のオプションは makeblastdb -help
を実行すれば、オプション名とともに説明が表示される。
makeblastdb -help
オプション | 説明 |
-dbtype | 核酸なら nucl を指定。タンパク質なら prot を指定。 |
-in | データベースを作る元となるファイル |
-input_type | データベースを作る元なるファイルのフォーマット(デフォルトは fasta )。他に asn1_bin、asn1_txt、blastdb が指定できる。 |
-title | データベースのタイトル(デフォルトは入力ファイル名) |
-parse_seqids | 入力ファイルが fasta ファイルの時、配列の ID のインデックスを作成 |
-hash_index | 配列のハッシュをインデックス化 |
-mask_data | |
-gi_mask | |
-gi_mask_name | |
-out | データベース名(デフォルトは入力ファイル名) |
-max_file_sz | blast データベースの上限サイズ |