ChatGPTに5分でAlphaFold2を教えてもらおう!

AIチャットボットChatGPTがその高性能ぶりで大人気ですね。ということで同じくAIの雄、近年ライフサイエンスや創薬に衝撃を与えたAlphaFold2についてChatGPTさんに教えてもらいましょう! 

AlphaFold2について

質問 (Q) AlphaFold2とは何ですか?

ChatGPT (CG) AlphaFold2は、DeepMindが開発したタンパク質の3次元構造予測システムです。タンパク質は、生命活動に不可欠な分子であり、タンパク質の機能はその3次元構造に依存しています。 AlphaFold2は、タンパク質のアミノ酸配列情報のみから、その3次元構造を高精度で予測できます。このシステムは、ディープラーニングアルゴリズムを使用して、タンパク質の構造を予測するモデルを学習します。AlphaFold2は、2020年に開催されたCASP14で驚異的な成績を収め、最先端の実験技術に匹敵する精度でタンパク質の構造を予測することができることが実証されました。AlphaFold2は、医薬品設計やバイオテクノロジー分野など、様々な分野での応用が期待されています。

※ 一部を紙幅の都合で省略。文字の着色はこちらで行った。

す、すごい・・・説明バッチリです。もう少し詳しく聞いてみましょう。

Q AlphaFold2は、どのように医薬品の設計に役立つのですか? 

CG 医薬品は、タンパク質と相互作用することで効果を発揮するため、タンパク質の構造を知ることは、新しい医薬品の設計に不可欠です。 具体的には、AlphaFold2を用いることで、タンパク質と医薬品との相互作用に必要な部位を特定することができます。さらに、タンパク質の構造が正確に予測されることで、薬物とタンパク質との相互作用がどのように起こるかを予測できます。これにより、新しい医薬品の設計や既存の医薬品の改良が可能になります。 AlphaFold2によるタンパク質の構造予測は、従来の実験的手法に比べてコストや時間を節約できるため、医薬品の開発に貢献することが期待されています。  

なるほどAF2で簡単にタンパク質の形が分かると、その情報を活用したドラッグデザインが加速されるのですね。このような手法はSBDDと呼ばれます。 例えば、有名な抗インフルエンザ薬のタミフル(oseltamivir)はSBDDによって創られた物質です。ウイルスタンパク質NAは、シアル酸が結合するポケットを持っています。タミフルはそこにピッタリ収まる形をしており、ポケットをブロックすることでNAの機能を抑制するのです。 

参考:タンパク質結晶構造の産業利用
https://www.google.com/url?sa=t&source=web&rct=j&url=https://www.jstage.jst.go.jp/article/jcrsj/54/3/54_139/_pdf&ved=2ahUKEwjL68q0oob-AhVWsVYBHTjfDnEQFnoECBYQAQ&usg=AOvVaw0sRheLAE3rCDTtOmI0o-aE 

AlphaFold2のメカニズムについて

AF2のメカニズムについても聞いてみましょう。

Q AlphaFold2で使われているディープラーニングアルゴリズムの概要を教えてください。 

CG AlphaFold2は、2つのニューラルネットワークを使用してタンパク質の3次元構造を予測します。以下にそれぞれのニューラルネットワークの概要を示します。

予測ネットワーク(Prediction network)

予測ネットワークは、タンパク質のアミノ酸配列からタンパク質の3次元構造を予測するために使用されます。このネットワークは、深層畳み込みニューラルネットワーク(CNN)に基づいており、アミノ酸配列を入力とし、各アミノ酸残基の位置を予測するために訓練されます。予測ネットワークは、アミノ酸配列から予測される3D構造と、構造の確信度スコアを出力し

一時停止。どうやら一世代前のプログラム(AlphaFold1)の説明とごっちゃになっているようです。

参考:AlphaFold: Improved protein structure prediction using potentials from deep learning
https://www.deepmind.com/publications/alphafold-improved-protein-structure-prediction-using-potentials-from-deep-learning

質問文を修正しましょう。

Q AlphaFold2のニューラルネットワークモデルを、Attentionという単語を用いて約200文字以内で説明お願いいたします。

CG AlphaFold2のニューラルネットワークは、アテンション機構を使用して、入力配列内のアミノ酸間の相互作用をモデル化します。アテンション機構は、各アミノ酸の周囲のアミノ酸との相互作用を評価し、注意力重みを計算して、より重要な相互作用により大きな重みを割り当てます。これにより、ニューラルネットワークは、アミノ酸配列の局所的およびグローバルな相互作用を学習し、タンパク質の立体構造を予測します。また、アテンション機構は、前処理段階での多重配列アラインメント(MSA)の出力にも適用され、配列間の相同性を考慮してタンパク質構造の予測を改善します。

そう、AF2ではAttentionという手法を活用して残基間の相互作用を推測します。そしてもう一つ、多重配列アライメント(MSA)というキーワードが出てきました。

MSAとは、ある同種のタンパク質について、さまざまな生物種のアミノ酸配列を並べて比較する手法です。例えば以下は、ミオグロビンタンパク質についてヒトとウマとマッコウクジラの配列(の一部)のアライメントです。

HUMAN | MGLSDGEWQLVLNVWGKVEA …

HORSE | MGLSDGEWQQVLNVWGKVEA

PHYMC | MVLSEGEWQLVLHVWAKVEA

少しずつアミノ酸タイプが変化してますね。そう、タンパク質も生物間で進化しているんです。

そして、もっとたくさんの生物種の配列を並べると連動して変化している残基のペアがあると分かります。つまり残基Aがかさ高いアミノ酸になると残基Bは小さなアミノ酸に、Aが正電荷アミノ酸になるとBは負電荷アミノ酸に、といった具合に。このように互いの変化に呼応して共進化する残基ペアは、空間的に隣接していると考えられています。

すなわち、MSAから共進化する残基ペアを多数見つけると、立体構造を予測するヒントが得られます

そして、MSAから残基ペアの情報を抽出するための機構がAttentionです。各残基を数値(ベクトル)に変換して、内積の計算によって残基同士の関係性を数値として算出します。

例えばMSAの縦方向(生物種間で同じ位置の残基)についてAttentionを計算すると、「この残基は全然変化しない(から重要そうだ)」「変化しているけど疎水性アミノ酸ばかりだ(から分子内部にあるかも)」といった情報が得られます。

また、MSAの横方向(同一アミノ酸配列内)でAttentionを計算すると、各残基について自分と他の残基の関係性が見積もられます。

こうした計算を何サイクルも回してMSAの縦横の情報を抽出・混合していくことで、残基同士の相対配置が精度高く予測されます。

AlphaFold2とChatGPTの関係性

実は、MSAから残基間距離を推測するという発想自体は昔からよく知られていました。AF2の優れた部分の一つは、Attentionを用いた新しいディープラーニングモデルによってMSAの情報を従来法より効果的に抽出しているところです。Attentionすごいですね。もしかして・・・

Q ChatGPTもAttention機構を使って作られていますか?

CG はい、ChatGPTはアテンション機構を使用して作られた大規模言語モデルの1つです。ChatGPTは、GPT(Generative Pre-trained Transformer)というモデルファミリーの一部であり、トランスフォーマーと呼ばれるアテンション機構に基づくニューラルネットワークを使用して、自然言語処理タスクに高い精度を実現しています。ChatGPTは、自然言語での質問応答や文章生成などのタスクに用いられており、多数の言語モデルのパラメーターを学習することによって高度な言語理解能力を獲得しています。

Q なぜアテンション機構は、言語処理に高い精度を発揮するのでしょうか?

CG アテンション機構は、入力データの中から重要な部分に注目することができるため、言語処理において高い精度を発揮します。自然言語には、文脈や関連性が複雑に絡み合って表現される場合がありますが、アテンション機構を用いることで、それらの関係性を正確に捉えることができます。具体的には、アテンション機構は、入力テキストの各単語や文節の位置や意味、文脈的な情報を把握し、それらの関連性を計算することで、各単語や文節の意味をより正確に理解することができます。また、アテンション機構を使用することで、長い文章の中でも重要な部分に注目することができ、精度を維持しながら入力の長さを増やすことができます。これらの理由から、アテンション機構は、言語処理において高い精度を発揮することができます。 

なんだかAF2が『タンパク質配列(文章)から残基(単語)同士の関係性を推測』する話と似ている? 

Q つまり、AlphaFold2の話に戻ると、入力されたアミノ酸配列に対してアテンション機構を使うことで、残基同士の関連性の情報を精度良く抽出できるということでしょうか?

CG はい、その通りです。AlphaFold2では、アミノ酸配列を入力として、アテンション機構に基づくニューラルネットワークを使用して、残基同士の関連性を学習します。アテンション機構は、アミノ酸配列の各残基の位置や特徴、周辺の残基との関連性などを考慮しながら、入力の各残基同士の相互作用を精度良く抽出します。このようにして、アテンション機構を用いることで、残基同士の関連性を正確に捉え、タンパク質の立体構造予測において高い精度を発揮することができます。 

Q ということは、ChatGPTはAlphaFold2のパクリですか?

CG いいえ、ChatGPTはAlphaFold2のパクリではありません。ChatGPTは、自然言語処理タスクにおいて高い精度を発揮するために、Transformerアーキテクチャと呼ばれるニューラルネットワークを使用しています。Transformerアーキテクチャは、アテンション機構を中心とした構造を持ち、入力テキスト内の各単語の関連性を学習しています。ただし、ChatGPTとAlphaFold2は、同じアテンション機構を使用しているという共通点があります。しかし、その使用目的や実装方法は異なり、全く別々の分野で使用されています。

Q ごめんなさい、ChatGPTはAlphaFold2とは別物であり、高い自然言語処理タスクをこなす唯一無二のプログラムだと理解しました。 

CG はい、その通りです。

 参考文献

Highly accurate protein structure prediction with AlphaFold
https://www.nature.com/articles/s41586-021-03819-2

Molecule of the Month: Globin Evolution
https://pdb101.rcsb.org/motm/206