第15回コラム
「研究紹介」
情報アーキテクチャ専攻助教 清水將吾
個人のDNA配列が1,000ドルで得られる時代が目前に迫っている。これにより、個人や医療機関において様々な場面でDNA配列が電子的にやり取りされるようになることが期待される。例えば、個人は自身のDNA配列を既知の遺伝子疾患データベースに問い合わせることで、自身が将来特定の病気にかかる可能性を予測することができ、早期治療につなげることができる。また、診療機関は患者に対する特定の治療の効果を患者のDNA配列をもとに事前に予測することが可能になる。
一方で、DNA配列が他者に知られることは危険を含んでおり、例えば、DNA配列が将来的な癌の可能性を示している場合、保険や雇用条件などに悪い影響を与える可能性がある。従って、個人にはDNA配列を他者に知られることを避けたいという要求があり、医療情報を活用したサービスが本格的に普及するためには、DNA 配列に対するプライバシー保護を実現するメカニズムが必要になる。これまではこのような機微情報は法律や契約によって守られてきたが、これはDNA情報が限定的な場所と用途でのみ使用されていたために機能したものであり、インターネット上の様々な場所でDNA情報が格納/送受信されるようになると、このような手続きによる保護のみでは十分に情報漏えいを防ぐことはできないと考えられる。
プライバシー保護型のDNA検索の問題は次のように定義される。DNA配列はACGTの 4種類の塩基の並びで表現される。サービスプロバイダが管理しているデータベースにはDNA配列の集合が格納されている。利用者はデータベースに対して自身のDNA配列を問合せ文字列として送信する。検索においては配列同士が完全に一致する必要はなく、問合せと類似した配列(に関する情報)を得ることができればよい。類似性の尺度には様々な定義が提案されているが、DNA検索においては編集距離が使われることが多い。編集距離は、塩基の置換、挿入、削除を基本操作とし、この操作を最低何回行えば二つのDNA配列を一致させることができるかによって配列間の類似度を定義する。類似度の閾値は利用者によって指定される。プライバシー保護の要件は、利用者のDNA配列を問合せを処理するサービスプロバイダに知られないことである。
この要件を満たすために、暗号に基づくアプローチとperturbationに基づくアプローチの二種類が提案されている。前者は、秘匿関数計算の原理を出発点として使う方法が一般的である。秘匿関数計算は関係者が互いの持っている情報を相手に知られることなく特定の関数の値を計算する手法である。しかし、そのままの適用には処理効率の問題があり、編集距離計算にカスタマイズしたプロトコルの開発が必要である。後者は問合せ中の塩基を確率的に別のものに置換したり、別の塩基をランダムに追加/削除することによって元の配列を隠す方法である。この方法では変形された問合せとの類似度計算が行われるため、処理効率と安全性のトレードオフとなる。
いずれの場合も既存の手法では問合せ配列とデータベース中の各配列との一対一計算を必要とする。DNA配列の長さは数百から数千程度であり、データベースに蓄積される配列の数はHumanだけでも10万に及ぶ。今後更に大規模化することが予測される遺伝子データベースに対して、類似度計算のようなコストのかかる処理を一対一で行うことは現実的ではなく、前処理としてより効率の良い方法で解候補をフィルタリングできることが望ましい。筆者はこのような背景で、現在、大規模データベースにおけるプライバシー保護型DNA検索の処理効率化の問題に取り組んでいる。