シークエンスリード

3.3. シークエンスリード#

ハイスループットシーケンサー（High-Throughput Sequencer; HTS）によって得られる一次データ（raw reads）は、配列解析における最も基本的な情報であり、RNA-seq、ChIP-seq、ゲノムリシーケンス、メタゲノム解析など、さまざまな解析の出発点となります。こうした大量の生シーケンスデータを保存し、再利用可能にするための公共データベースとして、SRA、DRA、ENA といったシーケンスリードのアーカイブが整備されています。

Sequence Read Archive（SRA）は、アメリカの National Center for Biotechnology Information（NCBI）が中心となって運営する次世代シーケンサーデータのアーカイブです。Illumina などによる短鎖リードだけでなく、近年では PacBio や Oxford Nanopore によるロングリードデータも含め、さまざまなシーケンスプラットフォーム由来のデータが登録されています。SRA には、DNA や RNA の配列データに加え、必要に応じてアラインメント済みデータも保存されており、研究成果の再現性確保や大規模メタ解析の基盤として機能しています。

SRA は国際塩基配列データベース連携（International Nucleotide Sequence Database Collaboration; INSDC）の枠組みの一部として、欧州の EMBL-EBI が運営する ENA（European Nucleotide Archive）、および日本の DDBJ が運営する DRA（DDBJ Sequence Read Archive）と連携して運用されています。これら 3 つのデータベースは、登録されたシーケンスデータおよびメタデータを日常的に相互同期しており、研究者は地理的に最もアクセスしやすい拠点から同一のデータを取得できます。そのため、実際にはどれか一つに登録すれば、他のデータベースからも同等の情報を利用することが可能です。

これらのアーカイブに登録されるデータには、実験の目的、試料の由来、生物種、ライブラリ調製法、使用したシーケンサー、リード長などの詳細なメタデータが付与されます。これにより、単なる生データの保存にとどまらず、研究背景と結び付けた再解析や条件比較が可能になります。近年では、メタデータの質が解析結果の解釈に大きく影響することが広く認識されており、登録時の情報整備がますます重要になっています。

HTS データは解析の出発点として FASTQ 形式で扱われることが一般的ですが、アーカイブ内部では効率的な保存や転送のために SRA 独自形式が用いられています。そのため、公開データを解析に利用する際には、SRA Toolkit などのツールを用いて FASTQ 形式へ変換する作業が必要になります。近年では、クラウド環境上で FASTQ 形式のまま直接配布されるケースや、ストリーミングによるデータ利用も増えており、データ取得方法は多様化しています。

SRA、DRA、ENA に蓄積されたシーケンスリードは、既存研究の検証や再解析、新たな解析手法の評価、異なる研究間の比較解析など、二次解析のための重要な資源となっています。生シーケンスデータを公共データベースに登録・共有することは、研究の透明性と再現性を担保するだけでなく、将来的な新規発見を支える基盤として、現在の生命科学研究において不可欠な役割を果たしています。