生命科学の分野のデータベース
データベース
科学技術の目覚ましい発展により、生命科学分野のデータが蓄積し、様々な知見が見出されるようになった。こうして得られたデータや知見などは、様々な形でデータベース化され、誰でもアクセスできるような形で公開されている。
生命科学分野の分野において、よく知られているデータベースとして NCBI が運営する GenBank がある。GenBank には、様々な生物種の遺伝子核酸配列データやアミノ酸配列データが登録されている。生物種として、ヒト、マウス、ショウジョウバエ、シロイヌナズナなどのモデル動物を初め、魚類、鳥類、昆虫、菌類、最近、ウィルスなど多岐にわたる。また、核酸配列として、イントロン、エクソン、UTR などの詳細なアノテーション情報とともに保存されている。GenBank の登録されているデータは豊富であるが、すべてのデータが正確である保証はなく、利用者が注意を払う必要がある。GenBank と同等な情報は、日本の DDBJ やヨーロッパの EMBL-Bank にも存在する。また、タンパク質に関するデータベースとして PDB がよく知られている。PDB には、NMR や X 線結晶解析によって解明されたタンパク質の立体構造情報が登録されている。このように、大量なデータが一般公開されることで、多くの研究者がデータベースから情報を得ることができるようになり、研究を一段と効率よく進めることができるようになる。
生命科学分野の分野のデータベースとして、GenBank/EMBL-Bank/DDBJ や PDB の他に、多様なものがある。Oxford NAR Journal のデータベース特集号によれば、NAR のデータベースリストに登録されているデータベースは 1,600 件以上ある(Rigden et al., 2020)。
References
- The 27th annual Nucleic Acids Research database issue and molecular biology database collection. Nucleic Acids Res. 2020, 48:D1. DOI: 10.1093/nar/gkz1161