遺伝子 ID 変換

生命科学分野において多様なデータベースが提供されている。データベースが異なれば、同じ遺伝子でも異なる ID が付けられることがよくある。そのため、複数のデータベースを利用してデータ解析を行う場合、あるデータベース上の遺伝子 ID から別のデータベース上の遺伝子 ID に変換する必要が生じる。

ID 変換は、BioMart、DAVID や UniProt などのソフトウェア(データベース)を利用して行うほか、研究機関が作成・公開した ID 対応表(GENCODE など)を利用して行う方法などがある。ソフトウェアなどの場合は、基本的に変更元の遺伝子 ID のリストを作成し、それを各ウェブサイトの入力フォームに入力するだけで、変換を行ってくれる。他方、ID 対応表を利用して ID 変換を行う場合、grep コマンドや Python スクリプトなどを利用する。

注意を払うべきこととして、このような ID の変換は、1 対 1 ではなく、多対多である。各データベースは、異なる理由と目的で作られている。そのため、ある遺伝子があるデータベースで複数登録されたり、他のデータベースで登録されなかったりする。この場合、遺伝子 ID の変換は 1:1 でなくなる。

ID 変換が可能なソフトウェア(データベース)

データベースによっては、API が提供されている。Python スクリプトを利用し、必要に応じてデータをデータベースから取得してくることも可能である。ただし、この場合、スクリプトの実行時にインターネットが不安定になると、最後までスクリプトが実行できない可能性がある。そのため、データベースから必要とするデータをすべてローカルにダウンロードして処理するのがおすすめである。

ID 対応表