アミノ酸配列のホモロジー検索

tblastn

tblastn クエリー配列がアミノ酸で、検索対象データベースが塩基配列の時に利用するプログラムである。検索する際に、核酸データベースは一度アミノ酸配列に翻訳される。なお、翻訳に関してフレームシフトを考慮して 3 通り、さらに配列の左から読むか右から読むかの 2 通りと合わせて合計 6 通りの翻訳が行われる。

データベースを作成

マウスのゲノムをデータベース化する。その元ファイルは Ensembl (FTP) からダウンロードし展開する。展開したファイルに対してデータベースを作成する。

gunzip Mus_musculus.GRCm38.70.dna.toplevel.fa.gz  #展開
makeblastdb -in Mus_musculus.GRCm38.70.dna.toplevel.fa -dbtype nucl -out MusNuclDB -parse_seqids

ディレクトリに「MusNuclDB.nhr」、「MusNuclDB.nog」、「MusNuclDB.nsi」、「MusNuclDB.nin」、「MusNuclDB.nsd」、「MusNuclDB.nsq」のファイルが生成されれば、makeblastdb が正しく実行されると判断して良い。これらファイルすべて合わせて一つのデータベースをなす(makeblastdb の使い方

tblastn による相同性検索

データベースを作成した上で tblastn 検索を行う。クエリー配列を query.prot.fa の名前でファイルに保存する。

>unknown
LDLRNVHHSFWNIWTDSEDSDYSAEILDEKKALQVRPRYGLRQRLKVTVDLCIRSCLDEA
QTWFLKWAQERKGSLYFCCTKMKIWTLPERALRQIFHVFDPEHIMELELNTEWTLIELTH
FAPYFGQMRNLRKVFLAPLHKIDFHLPNRTRVTEVKCINKFASQFSKFNCLQHLFMFCVH
FLRSQMNQVLGCLMTPLKTLSITYSLISQRDLDSFACCQSLF

ホモロジー検索を行う。

tblastn -db MusNuclDB -query query.prot.fa -out result.txt

相同性検索の結果

検索が正しく実行されると、ディレクトリに result.txt が生成され、検索結果が表示される。

TBLASTN 2.2.28+


Reference: Stephen F. Altschul, Thomas L. Madden, Alejandro A.
Schaffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J.
Lipman (1997), "Gapped BLAST and PSI-BLAST: a new generation of
protein database search programs", Nucleic Acids Res. 25:3389-3402.



Database: Mus_musculus.GRCm38.70.dna.toplevel.fa
           75 sequences; 3,783,309,620 total letters



Query= unknown

Length=222
                                                                      Score     E
Sequences producing significant alignments:                          (Bits)  Value

lcl|JH584299.1  dna:scaffold scaffold:GRCm38:JH584299.1:1:953012:...   400    5e-125
lcl|5  dna:chromosome chromosome:GRCm38:5:1:151834684:1 REF            400    5e-125
lcl|GL456354.1  dna:scaffold scaffold:GRCm38:GL456354.1:1:195993:...   387    2e-120
lcl|JH584297.1  dna:scaffold scaffold:GRCm38:JH584297.1:1:205776:...   386    6e-120
lcl|JH584296.1  dna:scaffold scaffold:GRCm38:JH584296.1:1:199368:...   385    1e-119
lcl|JH584298.1  dna:scaffold scaffold:GRCm38:JH584298.1:1:184189:...   385    1e-119
lcl|MG4136_PATCH  dna:chromosome chromosome:GRCm38:MG4136_PATCH:1...   194    2e-53
lcl|4  dna:chromosome chromosome:GRCm38:4:1:156508116:1 REF            194    2e-53

tblastn で利用できるオプション

オプション意味
-queryクエリー配列のファイル名(入力ファイル)を指定
-query_loc入力ファイルの何文字から何文字目までをクエリー配列とするのかを指定
-dbデータベース名を指定
-outblast 検索結果を保存するファイル名を指定(出力ファイル)
-outfmt出力ファイルのフォーマットを指定。
-evalueE-value の閾値
-word_sizeワードサイズ
-gapopen開始ギャップのペナルティ
-gapextend伸長ギャップのペナルティ
-matrixスコアマトリックスを指定(BLOSUM62やPAM32などを指定)
-thresholdワードスコアの閾値。指定したワードサイズでデータベースに照合するとき、そのスコアが閾値以上の場合にのみ、blast 検索を開始する