シーケンスリードデータベース

SRA / DRA

SRA (sequence read archive) は高速シーケンサーが出力したリードデータを貯蓄しているデータベースである。日本版の DRA と欧州版の ENA とがある。SRA、DRA および ENA の 3 者はデータの同期を行なっている。

サンプルの採取方法、実験環境やプラットフォームの種類などの違いによって、シーケンサーから得られるデータも異なってくる。SRA データベースには、シーケンサーの出力データだけでなく、実験環境、実験手順、サンプルの詳細やプラットフォームの種類などのメタデータも保存されている。これらのメタデータは SRA フォーマットとよばれる規則に従って記述されている。メタデータは、次の表に示したように 6 種類が定義されている。

SRA データを総括サマリーファイル。データの登録者の連絡先などが記載されている。
SRR リードとクオリティ情報が記載されている。FASTQ ファイルなどを入手したい場合は、SRR メタデータオブジェクトをダウンロードして NCBI toolkit で FASTQ に変換できる。1 ランにつき 1 ファイルとなる。従って、repilcate が存在するような実験の場合は、複数の SRR ファイルが存在する。他の研究グループが発表したデータを再解析する場合は、このデータオブジェクトを利用する。
SRX 使用した機械装置、ライブラリーの作成方法やデータの補正方法などが記載されている。SRR の親オブジェクトであり、1 つの SRX に対して 1 つ SRR ファイルが存在する。他の研究グループがどのような方法でサンプルを調整しているのか調べる場合は、このデータオブジェクトを中心に調べる。
SRP 研究やプロジェクトの詳細事項が記載されている。SRP は SRX の親オブジェクトであり、1 つの SRP に対して 1 つあるいは複数の SRX が存在する。
SRS サンプルの生物学的な情報が記載されている。
SRZ SRP に対して、解析した結果が記載されている。ただし、このメタデータは必須ではないので、解析結果を公開しない場合は SRZ が存在しない。