Demystify Protein Generation with Hierarchical Conditional Diffusion Models

著者 Zinan Ling (University of Tulsa), Yi Shi (Johns Hopkins University), Da Yan (Indiana University Bloomington), Yang Zhou (Auburn University), Bo Hui (University of Tulsa)

所属 University of Tulsa, Johns Hopkins University, Indiana University Bloomington, Auburn University

投稿日 2025年07月28日

カテゴリ cs.LG

arXiv 2507.18603v1 ↗

Demystify Protein Generation with Hierarchical Conditional Diffusion Models

基本情報

arXiv ID: 2507.18603v1 (https://arxiv.org/abs/2507.18603)
著者: Zinan Ling (University of Tulsa), Yi Shi (Johns Hopkins University), Da Yan (Indiana University Bloomington), Yang Zhou (Auburn University), Bo Hui (University of Tulsa)
所属: University of Tulsa, Johns Hopkins University, Indiana University Bloomington, Auburn University
投稿日: 2025年07月28日
カテゴリ: cs.LG

簡単に説明すると

この論文は、タンパク質の生成において階層的な条件付き拡散モデルを提案しています。タンパク質の機能は多層構造によって決定されるという生物学的事実に基づき、アミノ酸レベル、バックボーンレベル、全原子レベルの3つの階層でタンパク質情報を同時に生成します。これにより、特定の機能を持つタンパク質を効率的に設計できます。また、生成されたタンパク質の品質を評価するための新しい指標「Protein-MMD」も提案しており、条件付き一貫性を正確に測定できます。

1. 研究概要

1.1 背景と動機

タンパク質設計は、合成生物学から創薬に至るまで幅広い応用を持つ基礎的かつ困難な課題である。タンパク質の配列、構造、機能の間の複雑な相互作用は十分に解明されていないため、特定の生物学的機能を持つタンパク質の設計は非常に困難である。

従来の手法である進化的設計は、ランダムな変異と選択圧を利用した試行錯誤的アプローチに依存しており、時間とコストがかかる。最近では生成モデルがタンパク質設計の有望なツールとして登場している。しかし、既存のモデルは酵素工学、抗体作成、治療用タンパク質開発などのタスク固有のものが多く、新しい設計目標に対して再訓練が必要である。

また、既存の拡散モデルは単一レベルでのタンパク質表現の生成にとどまり、異なるレベル間の階層的関係を無視している。タンパク質の包括的な情報を表現する粒度レベルの選択は、実世界アプリケーションにおける生成タンパク質の信頼性に関する重大な懸念を引き起こす。

1.2 主要な貢献

本研究の主要な貢献は以下の3点である。

配列ベースと構造ベースの情報を統合した新しいマルチレベル条件付き生成拡散モデルを設計した。このフレームワークは、SE(3)不変性を維持するための剛体3D回転不変の前処理ステップを組み込み、異なるレベル間の階層的関係をモデル化する。
タンパク質生成タスクにおける現在の評価指標の限界、特に条件付き設定における限界を明らかにし、条件付き一貫性を評価するための新しい指標「Protein-MMD」を提案した。
標準的なデータセットで実験し、提案モデルの有効性を検証した。評価指標は、与えられた条件下での信頼性の高いタンパク質設計への道を開く。

2. 提案手法

2.1 手法の概要

本研究では、タンパク質の構造的および機能的なニュアンスの両方を捉える必要性に動機づけられ、3つのレベルでタンパク質の情報を生成するマルチレベル拡散モデルを提案しています。アミノ酸レベル、バックボーンレベル、全原子レベルの3つの階層で情報を生成することで、タンパク質の固有の階層的関係を効果的に統合し、より合理的なタンパク質生成モデルを実現します。

各レベルでは、情報は独自の埋め込みセットでエンコードされ、下位レベルからの条件を持つ条件付き拡散フローを通じて処理されます。デコーダーを使用して、配列、バックボーン回転、残基回転が組み合わされ、生成されたタンパク質の完全な情報を示します。

2.2 技術的詳細

アミノ酸レベル表現: タンパク質の構造をグラフ $\mathcal{G}_a = (\mathcal{V}_a, \mathcal{E}_a)$ として表現します。ノードは残基（アミノ酸）に対応し、エッジは3D空間でのCα原子間のユークリッド距離が特定の閾値以下の場合に設定されます。各ノードは空間座標と生化学的特性を含むベクトルで表現されます。

バックボーンレベル表現: バックボーン原子（C、N、Cα）の座標を特徴として使用します。2つのバックボーン原子間の3つのオイラー角（$\tau_{i,j}^1$、$\tau_{i,j}^2$、$\tau_{i,j}^3$）を計算し、これらの角度を配列距離と統合してエッジ特徴とします。

原子レベル表現: タンパク質内のすべての原子を考慮し、最も細粒度の情報を提供します。側鎖のねじれ角（$\chi_i^1$、$\chi_i^2$、$\chi_i^3$、$\chi_i^4$）を組み込んで、原子レベルでの幾何学的表現を実現します。

SE(3)不変性の確保: 各アミノ酸の座標を変換する新しい方法を導入します。最初のアミノ酸を原点に移動し、2番目のアミノ酸を正のx軸上に配置し、3番目のアミノ酸を正のxy平面に配置するよう回転行列を適用します。このプロセスをタンパク質鎖全体に反復的に適用します。

階層的拡散と条件付きフロー: 複数レベルでのタンパク質の条件付き生成を制御するため、条件付きフローメカニズムを持つ階層的拡散モデルを採用します。条件情報は下位レベルから注入され、生成プロセス全体で条件付き一貫性を確保します。レベル$i$での更新は次式で表されます：

$z^{i}{t} = \epsilon^{i}(z^{i}{t-1}; z^{i-1}{t} W^{i}, c, \gamma{t})$。

ここで、$W^{i}$は学習された線形投影行列、$c$は条件埋め込み、$\gamma_{t}$はタイムステップ埋め込みです。

2.3 新規性

既存の拡散モデルが単一レベルでの生成に留まるのに対し、本手法は3つのレベルで情報を生成し、レベル間の階層的関係を活用する初めての拡散モデルです。SE(3)不変性を保証しながら自己回帰的デコーディングを可能にする新しい前処理方法を導入し、条件付きフローメカニズムにより、下位レベルから上位レベルへの情報伝達を効率的に実現しています。

3. 実験結果

3.1 実験設定

実験は、酵素委員会（EC）データセットと遺伝子オントロジー（GO）データセットの2つの標準データセットで実施されました。ECデータセットはタンパク質が触媒する生化学反応に基づいて分類し、GOデータセットは生物学的プロセス、細胞成分、分子機能に基づいて分類しています。

比較対象として、GAN ベースのProteoGAN、TransformerベースのESM2とProstT5、グラフベースのProteinMPNNとLatentDiffを使用しました。評価指標として、多様性メトリクス（TM-score、RMSD、Seq.ID）と条件付き一貫性メトリクス（Protein-MMD、Protein-FID）を使用しました。

3.2 主要な結果

ECデータセットにおいて、提案手法（配列長512）は最も低いProtein-MMDとProtein-FIDスコアを達成した。これにより、生成されたタンパク質と実際のタンパク質間の分布的および機能的類似性を効果的にモデル化できることを示した。RMSDは最も高く、TM-scoreは2番目に低い値を示し、構造的に多様なタンパク質を生成できることが確認された。

GOデータセットでは、条件付き一貫性メトリクスで2位の性能を示した。ケーススタディでは、ProteoGANと比較して平均IoUは低いものの、最大IoUは高い。これにより、より高品質なサンプルを生成する可能性があることが示された。

3.3 既存手法との比較

ECデータセットにおいて、提案手法は多様性と条件付き一貫性の両方で優れた性能を示した。特に、Protein-MMD（13.28）とProtein-FID（237.46）で最良の結果を達成した。アブレーション研究により、3つのレベルすべてが必要であることが確認された。また、最大配列長を増やすことで条件付き一貫性が向上することも示された。

4. 実用性評価

4.1 実装の容易性

提案手法はESM2をアミノ酸レベルエンコーダーとして活用し、DiT-Bアーキテクチャを修正した拡散モデルを使用しています。既存のライブラリとフレームワークを活用できるため、実装は比較的容易です。ただし、3つのレベルでの並列処理と階層的な条件付きフローの実装には注意が必要です。

4.2 計算効率

教師強制法により、3つのレベルを独立して並列に訓練できるため、学習を効率化できる。推論時には、原子レベルから順次生成する必要がある。しかし、各レベルの処理は並列化可能である。最大配列長512での実験も実施されており、より長いタンパク質の生成にも対応できる。

4.3 応用可能性

特定の機能を持つタンパク質の設計が可能なため、創薬、酵素工学、抗体設計など幅広い応用が期待されます。提案されたProtein-MMD評価指標は、生成されたタンパク質の品質を適切に評価できるため、実用的な応用において信頼性の高い品質保証が可能です。

5. まとめと所感

5.1 論文の意義

本研究は、タンパク質生成における階層的表現の重要性を示し、マルチレベル条件付き拡散モデルという新しいアプローチを提案した。特に、SE(3)不変性を保証しながら自己回帰的デコーディングを可能にする手法は重要である。また、条件付き一貫性を評価するProtein-MMD指標の提案は、今後のタンパク質設計研究に大きな影響を与える可能性がある。

実験結果は、提案手法が既存手法と比較して優れた条件付き一貫性と多様性を達成できることを示しており、特定の機能を持つタンパク質の信頼性の高い生成への道を開いています。ただし、生成されたタンパク質の実際の機能検証は行われておらず、今後の課題として残されています。

5.2 今後の展望

今後の研究では、生成されたタンパク質の実験的検証が重要です。また、より大規模なモデルや、より多様なタンパク質ファミリーへの適用が期待されます。計算効率のさらなる改善や、他のタンパク質設計タスク（例：タンパク質-タンパク質相互作用の設計）への拡張も興味深い研究方向です。

提案されたProtein-MMD指標の汎用性を検証し、他のタンパク質生成モデルの評価にも適用することで、分野全体の評価基準の標準化に貢献する可能性があります。