生成AIとタンパク質
題名を見て、おやっ?と思われた方も多いのではないでしょうか。生成AIは、どちらかというとデジタルや情報といったイメージがあるのに対して、タンパク質は、生身の生物の体を構成する、いわばアナログな存在なので、それらがどう関わるのかな?と疑問を持たれる方は一定数いらっしゃるでしょう。
実は、2024年のノーベル化学賞は、「タンパク質構造予測プログラムの開発」への貢献に対して与えられ、これこそが、生成AIがタンパク質研究に強い親和性があることを物語っています。では、具体的にどのような関係なのでしょうか。
そもそもタンパク質は大変複雑な分子です。原則として20種類のアミノ酸で構成されていて、その一つ一つのアミノ酸の構造も多様なうえに、それらが少ないものでも100個程度、多いものだと万のオーダーで集まり、複雑な立体構造を形成しています。そして、その機能を調べようとすると、どうしてもその正確な構造情報が必要になることが多々あるのですが、生成AIが登場する前は、構造を知ることは、とても大変な作業でした。どれくらい大変かという話はここでは省略しますが、人間が何年かけても解明することができなかった構造が、生成AIをもとに作成したプログラムでは15分程度で解明(予測)できたという例もあります。
ただし、本当にその構造を取っているのかの証明まではしてくれません。あくまで予測するところまでです。一例として、私の研究室で取り組んでいるあるタンパク質の構造をこのプログラムで予測させると、図のようになりました。

緑色のらせん状の表示がヘリックス、平たい矢印がβストランドと言われる構造です。何となくヘリックスとβストランドがバランスよく構成されているように見える一方で、妙に不自然にひも状の領域がありますね(おおむね水色の線で囲った領域)。これがこのタンパク質の真の構造なのでしょうか。私(人間)は全然違う構造を取っているのではないかと考えています。生成AIは、これまで人間が解いてきた膨大なタンパク質構造情報を学習し、それらをもとに合理的な構造を予測しています。つまり重要なのは「これまでの構造情報の学習」であって、ここに不足があると、おそらく正しい解を導けない可能性があります。私が見つけたタンパク質も、実は、今まで誰も知らず、生成AIでさえもその構造を予測することができないタンパク質である可能性が高いです。この構造が実際にどのようなものかを明らかにするためには、人が実際に手を動かして実験的に証明するしかないのです。
まとめると、生成AIのプログラムは、タンパク質の構造解析の重要なツールではありますが、彼(AI)が提案したものは、あくまでも予測構造であって、最終的に予測構造が真の構造であると証明するのは人間だということです。どうです?人間が行う研究ってワクワクしませんか。世間では、生成AIにすべてを丸投げし、人間不要の時代が来るのではないかとの懸念も聞こえますが、サイエンスに関してはそうではない状況がまだ続くのではないかと感じています。仕事の効率化などは大いにAIに任せてよいかもしれませんが、真理の追究は、人間の独壇場であってほしいものです。



