バイオインフォマティクスは、膨大で複雑なデータに埋もれている生命現象を、情報科学や統計学などのアルゴリズムを用いて解き明かしていく、生命科学と情報科学の融合分野である。RNA / DNA シークエンシング技術を利用した遺伝子発現量解析、ゲノム解読、ゲノムワイド関連研究(GWAS)、分子動力学シミュレーションによるタンパク質構造解析、機械学習を利用した分子機能予測などの研究が行われている。
システム
バイオインフォマティクスの研究ではコマンド操作やプログラミングのしやすい Linux あるいは Macintosh などがよく使われている。とくに論文で発表して間もない新しいプログラムの場合は、ソースコードで提供される場合が多いため、Linux あるいは Macintosh を利用することで容易に使うことができる。
プログラミング
バイオインフォマティクスに特化したプログラミング言語が存在するわけではないが、機械学習や科学計算ならば Python、塩基配列やアミノ酸配列などの文字列処理ならば Python/Perl、統計解析や比較トランスクリプトーム解析ならば R などのように、目的に応じて使い分けることが多い。
科学技術の目覚ましい発展により、生命科学の分野において新しい知見が次々と知られるようになった。これまでに蓄積されたデータは、1,500 件以上のデータベースに登録されている。
バイオインフォマティクスのタンパク質を対象とした研究では、タンパク質間の相互作用や相互作用部位の予測、立体構造予測などが挙げられる。
配列解析は、塩基配列とアミノ酸配列を対象にしている。例えば、似た配列を探す(相同性検索)アルゴリズムの開発、遺伝子領域予測や系統解析などが盛んに研究されている。
RNA シークエンシング(RNA-Seq)技術を利用することで、組織や細胞で発現しているほとんどの遺伝子の発現量を定量することができる。こうして定量された発現量を利用して、特定のストレスに応答する遺伝子や特定の形質に関わるような遺伝子を同定する目的で使われる。また、近年、大規模 RNA-Seq データを利用して、環境変動に応答する遺伝子発現量の変化をモデリングすることも行われている。