データ取得

高速シーケンサーは、サンプル中に含まれている DNA または RNA の断片をシーケンシングし、シーケンシングされた断片の塩基配列は FASTQ 形式のテキストファイルに保存される。RNA-Seq、ChIP-Seq などの解析は、ほとんどの場合、FASTQ ファイルから解析が始まる。

実験で得られた FASTQ ファイルは論文発表時に DDBJ SRANCBI SRAEMBL-EBI ENA のいずれかの公共データベースに登録される。論文中に記載される accession 番号をデータベースで調べれば、その元データを入手することができる。特に、最近では FASTQ ファイルは論文発表前に登録・発表されることも多い。

FASTQ ファイルのダウンロード

DDBJ SRA、 NCBI SRA、 EMBL-EBI ENA の 3 つのデータベース間ではデータの同期が行われている。同期が遅れている場合を除き、基本的にどのデータベースを利用してもよい。3 つのデータベースでは FASTQ ファイルの配布方法が異なっている。DDBJ SRA は FASTQ ファイルを bzip2 形式で圧縮し配布している。EMBL-EBI ENA は FASTQ ファイルを gz 形式で圧縮し配布している。また、NCBI SRA では FASTQ ファイルメタ情報などを追加した SRA 形式のファイルを配布している。bzip2 および gz 形式で圧縮された FASTQ は、解凍せずにそのまま解析に用いることができる。これに対して、SRA 形式で圧縮されたファイルの場合は、それを展開して FASTQ ファイルを抽出する必要がある。