バイオインフォマティクス

1.4. バイオインフォマティクス#

バイオインフォマティクスbioinformatics)あるいは生命情報科学computational biology)とは、生命科学の研究から得られる膨大かつ複雑なデータを、情報科学、統計学、計算機科学の知見を駆使して解析し、生命の謎を解き明かすための学問分野です。これは単にコンピュータを使って計算を行う技術の集まりを指すのではありません。生物学的な問いをどのようにデジタルなデータとして捉え、数学的な根拠をもって検証するかという、現代の生命科学における最も重要な「思考の基盤」として発展してきました。

かつての生物学は、生き物の形や行動を観察し、実験によって起きる変化を詳細に記録する記述的な学問が中心でした。しかし、19 世紀のメンデルによるメンデルの法則の発見や、20 世紀前半の生化学の発展を経て、1953 年に DNA の二重らせん構造が解明されたことで状況は一変します。生命現象の根幹には DNA という物質があり、それが「情報」として機能していることが明らかになったのです。これにより、生物学は分子という極めて微細なレベルで生命を理解しようとする学問へと大きく舵を切ることになりました。

1970 年代に登場したサンガー法は、この流れを決定的なものにしました。これは DNA を構成する 4 種類の塩基(A、T、G、C)の並び順を読み取る技術であり、生命の設計図を文字列としてデジタル化することを可能にしました。生物学が「目に見える現象」を追う学問から、形のない「情報」を扱う学問へと踏み出した歴史的な転換点です。DNA 配列は単なる化学物質のつながりではなく、コンピュータ上で保存し、比較し、解析できる情報の塊として認識されるようになりました。

1980 年代に入ると、蓄積されるデータ量は個人の手に負えないほどに増加しました。ここで、異なる生物間で配列の似ている部分を探し出す配列類似性検索という手法が重要になります。BLAST に代表されるアルゴリズムや、PAM、BLOSUM といった類似性スコアリング手法は、「似た配列をもつものは似た機能をもつはずだ」という生物学的仮説を計算機上で実現したものです。これと並行して、世界中の研究者がデータを共有するための GenBank のような公開データベースが整備され、データそのものが人類共有の資産として再利用される文化が根付きました。

1990 年代から始まったヒトゲノム計画は、バイオインフォマティクスの地位を揺るぎないものにしました。人間の全遺伝情報であるゲノムは約 30 億塩基対にも及びますが、これを解読し、その中から遺伝子を見つけ出す作業は、もはやコンピュータなしでは不可能な規模でした。バラバラに読み取られた短い断片をジグソーパズルのようにつなぎ合わせるゲノムアセンブリや、配列の意味を読み解いて注釈をつけるアノテーションといった技術が、この時期に体系化されました。バイオインフォマティクスは、実験を補助するツールから、研究戦略を立てる中核的な存在へと進化したのです。

2000 年代後半に登場した次世代シーケンサーは、この進化をさらに加速させました。圧倒的なスピードで配列を読み取れるようになったことで、細胞内でどの遺伝子が活発に働いているかを調べる RNA-seq 解析が普及しました。これは、生命の設計図である DNA から転写された RNA の量を測定することで、その時点の細胞の状態をスナップショットのように捉える技術です。さらに、DNA の働きを調節するスイッチのオン・オフを調べるエピゲノム解析や、特定の環境に存在する微生物集団を網羅的に解析するメタゲノム解析など、解析対象は爆発的に広がりました。

現在のバイオインフォマティクスは、個々の細胞の個性を描き出すシングルセル解析や、組織のどの位置で遺伝子が働いているかを可視化する空間トランスクリプトミクス、そして人工知能を用いた高度な予測へと、今もなお広がり続けています。しかし、どれほど手法が高度になっても、その根底にあるのは、データを正しく扱い、統計的な視点をもって生物学的意味を導き出すという姿勢に他なりません。