核酸配列に対するホモロジー検索

tblastx

tblastx はある核酸配列と相同性を持つ核酸配列を検索するためのプログラムである。クエリー配列となる核酸は一度タンパク質に翻訳され、さらにデータベース中の核酸配列も一度タンパク質に翻訳され、翻訳されたクエリー配列を翻訳されたデータベースに対して相同性検索を行う。

翻訳に関してはフレームシフトを考慮して 3 通り、これに加え塩基配列の左から読むのと右からの読むのと 2 通りで、合計で 6 通りの翻訳が行われる。

データベースを作成

マウスのゲノムをデータベース化する。その元ファイルは Ensembl (FTP) からダウンロードできる。今回は、Mus_musculus.GRCm38.70.dna.toplevel.fa.gz をダウンロードして展開する。展開してからデータベースを作成する。

gunzip Mus_musculus.GRCm38.70.dna.toplevel.fa.gz  #展開
makeblastdb -in Mus_musculus.GRCm38.70.dna.toplevel.fa -dbtype nucl -out MusNuclDB -parse_seqids

実行が終了すると、ディレクトリに「MusNuclDB.nhr」、「MusNuclDB.nog」、「MusNuclDB.nsi」、「MusNuclDB.nin」、「MusNuclDB.nsd」、「MusNuclDB.nsq」のファイルが生成されます。これら全部合わせてデータベースとなります。(makeblastdb の使い方

tblastx による相同性検索

データベースを作成した上で、次に tblastx 検索を行う。検索したい塩基配列を予め query.nucl.fa のファイルに保存する。

>unknown
TCTTATTGACAGTGTCTTTTGCCTTACAGAAGCTTTGCAATTTTATAAATTTGT
CAATTCTCGATCTTAGAGCATAAGTACTGTTCTATTCAGGAATTTTTCCCCTAC
CAATATCTTCAAGGCTTTCCCCCACTTCTCCTCGTTTCACTGTCTCTGGTTTTA
TGTGCAGTTCCTTAATCCACTTAGATTTGACCTTAGTACAAGGAGATAGATCAA
TTCACGTTCTTCTACATGATAACCACCAGTTGGGCCATCATCATTTGTTGAA

tblastx コマンドを利用して検索を行う。-db オプションには作成したデータベースの名前を指定する。

tblastx -db MusNuclDB -query query.nucl.fa -out result.txt

相同性検索の結果

検索が正しく行われると、ディレクトリに result.txt ファイルが生成され、検索結果が保存される。その中身は以下のようになっている。

TBLASTX 2.2.28+


Reference: Stephen F. Altschul, Thomas L. Madden, Alejandro A.
Schaffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J.
Lipman (1997), "Gapped BLAST and PSI-BLAST: a new generation of
protein database search programs", Nucleic Acids Res. 25:3389-3402.



Database: Mus_musculus.GRCm38.70.dna.toplevel.fa
           75 sequences; 3,783,309,620 total letters



Query= unknown

Length=268
                                                                      Score     E
Sequences producing significant alignments:                          (Bits)  Value  N

lcl|GL456221.1  dna:scaffold scaffold:GRCm38:GL456221.1:1:206961:...  58.3    3e-23  5
lcl|GL456367.1  dna:scaffold scaffold:GRCm38:GL456367.1:1:42057:1...  58.3    8e-23  5
lcl|GL456211.1  dna:scaffold scaffold:GRCm38:GL456211.1:1:241735:...  56.5    9e-23  5
lcl|GL456212.1  dna:scaffold scaffold:GRCm38:GL456212.1:1:153618:...  58.3    2e-22  5
lcl|GL456233.1  dna:scaffold scaffold:GRCm38:GL456233.1:1:336933:...  52.4    2e-22  6
lcl|GL456219.1  dna:scaffold scaffold:GRCm38:GL456219.1:1:175968:...  59.7    1e-21  5
lcl|JH584297.1  dna:scaffold scaffold:GRCm38:JH584297.1:1:205776:...  58.3    3e-21  5

tblastx で利用できるオプション

tblastx で利用できるオプションなど。

オプション意味
-queryクエリー配列のファイル名(入力ファイル)を指定
-query_loc入力ファイルの何文字から何文字目までをクエリー配列とするのかを指定
-dbデータベース名を指定
-outblast 検索結果を保存するファイル名を指定(出力ファイル)
-outfmt出力ファイルのフォーマットを指定。
-evalueE-value の閾値
-word_sizeワードサイズ
-gapopen開始ギャップのペナルティ
-gapextend伸長ギャップのペナルティ
-matrixスコアマトリックスを指定(BLOSUM62やPAM32などを指定)
-thresholdワードスコアの閾値。指定したワードサイズでデータベースに照合するとき、そのスコアが閾値以上の場合にのみ、blast 検索を開始する