tblastx はある核酸配列と相同性を持つ核酸配列を検索するためのプログラムである。クエリー配列となる核酸は一度タンパク質に翻訳され、さらにデータベース中の核酸配列も一度タンパク質に翻訳され、翻訳されたクエリー配列を翻訳されたデータベースに対して相同性検索を行う。
翻訳に関してはフレームシフトを考慮して 3 通り、これに加え塩基配列の左から読むのと右からの読むのと 2 通りで、合計で 6 通りの翻訳が行われる。
データベースを作成
まず、検索対象となるデータベースを作成する。ここではマウスのゲノムデータベースを作成する。その元ファイルは Ensembl (FTP) からダウンロードできる。この例では、Mus_musculus.GRCm38.70.dna.toplevel.fa.gz をダウンロードして利用する。ファイルは gzip で圧縮されているため、まずは展開する。
gunzip Mus_musculus.GRCm38.70.dna.toplevel.fa.gz
次に、ここで得た FASTA ファイルを makeblastdb
コマンドに与えて、blast 用のデータベースを作成する。ここでは、データベースの名前を MusNuclDB と命名している。データベースの名前は任意に付けることができる。また、データベース化する配列が塩基配列であることを示すために、-dbtype nucl
を指定する。
makeblastdb -in Mus_musculus.GRCm38.70.dna.toplevel.fa -dbtype nucl -out MusNuclDB -parse_seqids
実行が終了すると、ディレクトリに「MusNuclDB.nhr」、「MusNuclDB.nog」、「MusNuclDB.nsi」、「MusNuclDB.nin」、「MusNuclDB.nsd」、「MusNuclDB.nsq」のファイルが生成されます。これら全部合わせてデータベースとなります。
この例では、Ensembl でダウンロードした全ゲノム配列を使用したが、独自に定義した配列を FASTA ファイル(.fa)に保存して、同様な手順でその FASTA ファイル中の配列をデータベース化することもできる。
tblastx による相同性検索
データベースを作成したのちに、そのデータベースに対して検索を行うことができるようになる。検索キーワードとして、次のような入力配列(クエリー配列)を用意し、FASTA ファイル(query.nucl.fa)に保存する。
>unknown
TCTTATTGACAGTGTCTTTTGCCTTACAGAAGCTTTGCAATTTTATAAATTTGT
CAATTCTCGATCTTAGAGCATAAGTACTGTTCTATTCAGGAATTTTTCCCCTAC
CAATATCTTCAAGGCTTTCCCCCACTTCTCCTCGTTTCACTGTCTCTGGTTTTA
TGTGCAGTTCCTTAATCCACTTAGATTTGACCTTAGTACAAGGAGATAGATCAA
TTCACGTTCTTCTACATGATAACCACCAGTTGGGCCATCATCATTTGTTGAA
次に、tblastx
にデータベースのパス(-db
)、クエリー配列のファイルのパス(-query
)、そして出力結果を保存するファイルのパス(-out
)を指定して、検索を行う。
tblastx -db MusNuclDB -query query.nucl.fa -out result.txt
相同性検索の結果
検索が正しく行われると、ディレクトリに result.txt ファイルが生成され、検索結果が保存される。その中身は以下のようになっている。
TBLASTX 2.2.28+
Reference: Stephen F. Altschul, Thomas L. Madden, Alejandro A.
Schaffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J.
Lipman (1997), Gapped BLAST and PSI-BLAST: a new generation of
protein database search programs, Nucleic Acids Res. 25:3389-3402.
Database: Mus_musculus.GRCm38.70.dna.toplevel.fa
75 sequences; 3,783,309,620 total letters
Query= unknown
Length=268
Score E
Sequences producing significant alignments: (Bits) Value N
lcl|GL456221.1 dna:scaffold scaffold:GRCm38:GL456221.1:1:206961:... 58.3 3e-23 5
lcl|GL456367.1 dna:scaffold scaffold:GRCm38:GL456367.1:1:42057:1... 58.3 8e-23 5
lcl|GL456211.1 dna:scaffold scaffold:GRCm38:GL456211.1:1:241735:... 56.5 9e-23 5
lcl|GL456212.1 dna:scaffold scaffold:GRCm38:GL456212.1:1:153618:... 58.3 2e-22 5
lcl|GL456233.1 dna:scaffold scaffold:GRCm38:GL456233.1:1:336933:... 52.4 2e-22 6
lcl|GL456219.1 dna:scaffold scaffold:GRCm38:GL456219.1:1:175968:... 59.7 1e-21 5
lcl|JH584297.1 dna:scaffold scaffold:GRCm38:JH584297.1:1:205776:... 58.3 3e-21 5
tblastx で利用できるオプション
tblastx で利用できるオプションなど。
オプション | 意味 |
-query | クエリー配列のファイル名(入力ファイル)を指定 |
-query_loc | 入力ファイルの何文字から何文字目までをクエリー配列とするのかを指定 |
-db | データベース名を指定 |
-out | blast 検索結果を保存するファイル名を指定(出力ファイル) |
-outfmt | 出力ファイルのフォーマットを指定。 |
-evalue | E-value の閾値 |
-word_size | ワードサイズ |
-gapopen | 開始ギャップのペナルティ |
-gapextend | 伸長ギャップのペナルティ |
-matrix | スコアマトリックスを指定(BLOSUM62やPAM32などを指定) |
-threshold | ワードスコアの閾値。指定したワードサイズでデータベースに照合するとき、そのスコアが閾値以上の場合にのみ、blast 検索を開始する |