MGM-Omni: Scaling Omni LLMs to Personalized Long-Horizon Speech

著者 Chengyao Wang, Zhisheng Zhong, Bohao Peng, Senqiao Yang, Yuqi Liu, Haokun Gui, Bin Xia, Jingyao Li, Bei Yu, Jiaya Jia

所属 CUHK, HKUST, SmartMore

投稿日 2025年09月30日

カテゴリ cs.AI, cs.CL

arXiv 2509.25131v1 ↗

MGM-Omni: Scaling Omni LLMs to Personalized Long-Horizon Speech

基本情報

arXiv ID: 2509.25131v1 (https://arxiv.org/abs/2509.25131)
著者: Chengyao Wang, Zhisheng Zhong, Bohao Peng, Senqiao Yang, Yuqi Liu, Haokun Gui, Bin Xia, Jingyao Li, Bei Yu, Jiaya Jia
所属: CUHK, HKUST, SmartMore
投稿日: 2025年09月30日
カテゴリ: cs.AI, cs.CL
GitHub: https://github.com/dvlab-research/MGM-Omni
Hugging Face: https://huggingface.co/spaces/wcy1122/MGM-Omni

簡単に説明すると

MGM-Omniは、テキスト、画像、動画、音声を統合的に理解し、長時間の自然な音声を生成できる革新的なオムニモーダルLLMです。従来のカスケード型システムとは異なり、「脳（理解）-口（生成）」の二重トラック設計を採用し、最大60分を超える音声の理解と10分以上の連続音声生成を実現しています。約40万時間の音声データで訓練され、ゼロショット音声クローニングと一貫した音色保持を可能にする画期的なシステムです。

1. 研究概要

1.1 背景と動機

大規模言語モデル（LLM）の発展により、テキストから視覚情報を含むマルチモーダルフレームワークへの進化が進んでいますが、音声の統合、特に長時間音声の理解と生成は重要な課題として残されています。既存のアプローチの問題点として、以下が挙げられます：

1. 視覚中心の設計: 多くのマルチモーダルシステムは視覚情報を中心に設計され、音声は二次的な入力として扱われています。

2. カスケード型TTS依存: 音声生成において独立したtext-to-speech（TTS）システムに依存し、高遅延と品質劣化を招いています。

3. トークンレートの不一致: 音声トークンシーケンスはテキストトークンよりも大幅に長く、より細かい時間解像度で動作するため、アライメントが困難です。

4. 長時間音声処理の限界: 既存システムは拡張された音声入力における文脈的一貫性と意味的精度の維持に苦労しています。

5. エラー蓄積問題: 自己回帰生成プロセスにおいて、小さな誤差が連鎖的に伝播し、音色一貫性と音質を劣化させます。

1.2 主要な貢献

本論文の主要な貢献は以下の3点です：

1. 統合型オムニモーダルアーキテクチャの提案

カスケード型システムを超越した新しい「脳-口」二重トラック設計を採用
マルチモーダル推論（MLLM）と音声合成（SpeechLM）を効果的に分離
低遅延のストリーミング音声生成とクロスモーダル相互作用を実現

2. チャンクベース並列デコーディング機構の導入

テキストと音声間のトークンレートミスマッチを軽減
効率的で高忠実度、文脈認識型の長時間音声合成を可能に
カスタマイズ音声によるストリーミングゼロショット音声クローニングをサポート

3. 包括的実験による優位性の実証

長時間音声理解における既存手法に対する大幅な性能向上
ゼロショット音声クローニングと自然で文脈認識型の長時間音声生成における最先端性能
約40万時間という効率的なデータ訓練による顕著な成果の達成

4. Long-TTS-Evalベンチマークの構築

長時間音声生成を体系的に評価する新しいベンチマークを提案
複雑なケース（数式、URL、古典中国詩など）の処理能力を評価

2. 提案手法

2.1 手法の概要

MGM-Omniは、オムニモーダル理解と表現力豊かな長時間音声生成を統合した革新的な「脳-口」二重トラック設計を採用しています。

アーキテクチャの核心思想：

MLLM（脳）: マルチモーダル理解とテキスト生成を担当
SpeechLM（口）: リアルタイム音声生成を専門とする

処理フロー：

入力処理: テキスト、画像、動画、音声の各モダリティ専用エンコーダで特徴抽出
理解段階: MLLMが統合的にマルチモーダル情報を処理し、テキストトークンを生成
生成段階: SpeechLMがチャンクベース並列デコーディング戦略でリアルタイム音声トークンを生成
音声合成: フローマッチングモデルで音声トークンをMelスペクトログラムに変換、HiFi-GANボコーダで最終音声を合成

設計の利点：

効率的なクロスモーダル処理
低遅延ストリーミング音声生成
マルチモーダル理解の品質を損なうことなく高品質音声合成を実現

2.2 技術的詳細

2.2.1 デュアル音声エンコーダ設計

MGM-Omniは音響情報と意味情報の両方を捉えるため、デュアル音声エンコーダを採用：

主エンコーダ: Qwen2-Audio（Whisper-large-v3から継続訓練）
補助エンコーダ: Belle-Whisper-large-v3（中国語音声認識に特化）

情報マイニング機構：

T_A = MLP(Q + Softmax(φ(Q) × φ(K)ᵀ) × φ(V))

Q: 主音声特徴X_main（クエリ）
K, V: 補助音声特徴X_aux（キー・バリューペア）
φ: 投影層、MLP: 多層パーセプトロン

2.2.2 チャンクベース並列デコーディング

語彙拡張：

|V| = |V_text| + k|V_speech|

k: 並列サイズ（実験では4に設定）

特徴統合：

h_t^in = (1/(k+1)) * (f(x_t) + Σ_{i=1}^k f(s_t^i))

音声トークン予測：

{ŝ_{t+1}^1, ..., ŝ_{t+1}^k} = lm_head(TTS-Adapter(h_t^out))

2.2.3 訓練戦略

第1段階 - 音声テキストプリトレーニング：

音声エンコーダとLLMの整合
TTS-Adapterのみ更新、Qwen3 LLMは凍結

第2段階 - ポストトレーニング：

LLMとTTS-Adapterを異なる学習率で共同最適化
TTS-Adapter学習率 = LLM学習率 × 5

統一長さ訓練パイプライン：

類似長音声を同一バッチでグループ化
動的バッチサイズ調整（長コンテキスト：小バッチ、短コンテキスト：大バッチ）

2.3 新規性

2.3.1 アーキテクチャ革新

従来手法との根本的違い：

カスケード型TTS: 音声合成を独立したモジュールとして分離
MGM-Omni: エンドツーエンド統合による「脳-口」協調設計

技術的優位性：

低遅延実現: 理解と生成の並列処理
文脈保持: グローバル一貫性を維持した局所的最適化
効率性: 単一フレームワーク内での最適化

2.3.2 チャンクベースデコーディングの革新

既存手法の限界：

素朴な分割手法：コンテキスト情報の喪失
単純な並列化：音質劣化

MGM-Omniの革新：

トークン遅延戦略: 最初の4テキストトークンをパディングで置換
履歴保持: 生成済みテキスト・音声をコンテキストとして維持
FSQ対応: 有限スカラー量子化音声トークナイザでの並列デコーディング実現

2.3.3 データ効率性の革新

競合手法との比較：

MOSS-TTSD: 100万時間以上
Higgs-Audio-v2: 1000万時間レベル
MGM-Omni: 約40万時間で同等以上の性能

効率達成要因：

統一訓練パイプライン
チャンクベースデコーディングによるアライメント改善
デュアルエンコーダによる特徴補完

3. 実験結果

3.1 実験設定

3.1.1 使用データセット

音声理解評価：

LibriSpeech Test: clean/other WERで英語ASR性能評価
CommonVoice: 英語WER・中国語CERで多言語ASR能力評価
AISHELL: 中国語CERで中国語特化性能評価
AIR-Bench: 音声・音・音楽を含む総合音声QA評価

長時間音声理解評価：

Needle-in-Haystack: 最大4,500秒の音声で情報検索能力評価
5種類の多様な長時間音声素材での成功率平均

オムニモーダル理解評価：

TextVQA-Speech/DocVQA-Speech/ChartVQA-Speech/AI2D-Speech: 視覚-音声統合理解能力

音声生成評価：

Seed-TTS-Eval: 短時間TTS性能（WER、話者類似度）
Long-TTS-Eval（新規提案）: 長時間TTS専用ベンチマーク

3.1.2 Long-TTS-Evalベンチマーク詳細

長時間TTS評価：

中国語341サンプル、英語353サンプル
6カテゴリ：文学、ニュース、知識、講演、レビュー、学術論文
最大長：中国語1,899トークン、英語3,277トークン
平均長：中国語689.57トークン、英語1,019.0トークン

複雑ケース評価：

中国語265サンプル、英語260サンプル
5カテゴリ：URL、メール、数式、電話番号、大きな数値

評価指標：

RTF（Real Time Factor）: 推論効率
WER/CER: 転写精度
正規化評価: GPT-5による自然な音声表現との比較

3.2 主要な結果

3.2.1 音声理解性能

短時間音声理解：

LibriSpeech: MGM-Omni-32BがClean 1.5 WER、Other 3.2 WERで最高性能
CommonVoice: 中国語4.0 CER、英語8.0 WERで競合手法を上回る
AISHELL: 1.8 CERでVITA-1.5（2.2 CER）を大幅改善
AIR-Bench: 平均6.5点でOla（6.4点）と並び最高性能

長時間音声理解：

処理能力: 最大4,500秒（75分）の音声処理を実現
成功率: Qwen2.5-Omniを大幅に上回る性能
文脈保持: 長時間にわたる一貫した理解能力を実証

3.2.2 オムニモーダル理解性能

視覚-音声統合理解：

TextVQA-Speech: MGM-Omni-7Bが81.7%でLyra-9B（80.0%）を上回る
DocVQA-Speech: MGM-Omni-32Bが88.4%で最高性能
ChartVQA-Speech: MGM-Omni-32Bが72.1%で大幅改善
AI2D-Speech: MGM-Omni-32Bが71.3%で最高性能

3.2.3 音声生成性能

短時間音声生成：

英語WER: MGM-Omni-TTS-4Bが2.22で最低エラー率
話者類似度: 0.686で最高の音色保持性能
中国語CER: 1.18で顕著な改善

長時間音声生成：

RTF: 0.19で最高の推論効率（3倍高速化）
英語WER: 4.98でMOSS-TTSD（8.69）を大幅改善
困難ケースWER: 26.26でHiggs-Audio-v2（98.61）を圧倒

3.2.4 アブレーション研究結果

デュアルエンコーダ効果：

情報マイニング使用：英語9.1 WER、中国語3.5 CER
単一エンコーダ比較で大幅な性能向上を確認

並列デコーディング効果：

並列サイズ4：RTF 0.19（3倍高速化）、WER 2.28
品質と速度の最適バランスを実現

チャンクベースデコーディング効果：

使用時：英語4.98 WER、中国語5.64 CER
非使用時：英語31.84 WER、中国語8.97 CER
劇的な性能改善を実証

3.3 既存手法との比較

3.3.1 オムニモーダルLLMとの比較

機能的優位性：

機能	Qwen2.5-Omni	Lyra	VITA-1.5	MGM-Omni
視覚理解	✓	✓	✓	✓
音声理解	✓	✓	✓	✓
長時間音声理解	×	✓	×	✓
音声生成	✓	✓	×	✓
長時間音声生成	×	×	×	✓
ゼロショット音声クローニング	×	×	×	✓

性能比較の特筆点：

長時間処理: MGM-Omniのみが60分超の音声理解と10分超の生成を実現
データ効率: 40万時間で競合の100万〜1000万時間相当の性能
統合性: 単一フレームワークでの包括的能力

3.3.2 専門TTS系との比較

CosyVoice2との比較：

短時間性能: MGM-Omniが話者類似度で0.686 vs 0.652
長時間性能: MGM-OmniがRTF 0.19 vs 0.34で大幅改善
エラー率: 英語でMGM-Omniが4.98 vs 14.80 WER

MOSS-TTSD/Higgs-Audio-v2との比較：

推論効率: MGM-OmniのRTF 0.19が最高
困難ケース処理: MGM-Omniが26.26 WER vs Higgs-Audio-v2の98.61 WER
モデルサイズ効率: MGM-Omni 2BがHiggs-Audio-v2 6Bを上回る

3.3.3 競合優位性の要因分析

技術的優位性：

アーキテクチャ: 二重トラック設計による効率最適化
デコーディング: チャンクベース並列処理による品質・速度両立
訓練戦略: 統一パイプラインによるデータ効率向上

実用的優位性：

エンドツーエンド: カスケードシステム比で遅延削減
スケーラビリティ: 効率的な計算リソース利用
汎用性: 多様なモダリティと生成タスクの統一処理

4. 実用性評価

4.1 実装の容易性

4.1.1 アーキテクチャの明確性

設計の理解しやすさ：

モジュラー設計: 「脳-口」の明確な役割分離により理解が容易
既存技術の活用: Qwen2.5-VL、Whisper等の確立された基盤モデルを利用
段階的構築: MLLM→SpeechLM→統合の順次実装が可能

技術的依存関係：

基盤モデル: Qwen2.5-VL（MLLM）、Qwen3（SpeechLM）
音声処理: CosyVoice2 FSQ トークナイザー、HiFi-GAN ボコーダー
フレームワーク: PyTorch、Transformers ライブラリ

4.1.2 実装の段階的アプローチ

Phase 1: 基本MLLM構築

Qwen2.5-VLベースの音声理解機能追加
デュアル音声エンコーダの統合
情報マイニング機構の実装

Phase 2: SpeechLM開発

Qwen3ベースのTTS-Adapter追加
基本的な音声生成機能の実装
音声トークナイザーとの統合

Phase 3: チャンクベース最適化

並列デコーディング機構の実装
チャンクベース処理パイプラインの構築
エンドツーエンド統合とテスト

4.1.3 実装上の注意点

技術的課題：

メモリ管理: 長時間音声処理時のメモリ効率
同期処理: MLLM-SpeechLM間のリアルタイム同期
GPU最適化: 並列デコーディングの効率的な実装

推奨実装戦略：

プロトタイプ: 短時間音声での基本機能検証
スケーリング: 段階的な長時間対応拡張
最適化: プロファイリングベースの性能チューニング

4.2 計算効率

4.2.1 推論効率の分析

Real Time Factor (RTF) 比較：

MGM-Omni: 0.19 (H800 GPU単体)
CosyVoice2: 0.34
MOSS-TTSD: 0.23
Higgs-Audio-v2: 0.33

効率改善要因：

並列デコーディング: 4倍の並列化により3倍高速化
チャンク処理: メモリ効率と計算効率の最適バランス
二重トラック設計: 理解と生成の並列処理

4.2.2 メモリ効率の最適化

統一長さ訓練パイプライン：

動的バッチサイズ: メモリ使用量の最適化
長さ別グルーピング: バッチ内効率の向上
メモリ節約: 長コンテキスト時の小バッチ、短コンテキスト時の大バッチ

実運用での最適化：

ストリーミング処理: 全音声の事前ロード不要
チャンク分割: 固定サイズでのメモリ使用量制御
キャッシュ戦略: 頻繁アクセスデータの効率的管理

4.2.3 スケーラビリティ評価

モデルサイズ効率：

MGM-Omni-TTS-2B: 2Bパラメータで高性能
競合比較: Higgs-Audio-v2（6B）を上回る効率
パラメータ効率: データ効率とモデルサイズの両立

分散処理対応：

モジュラー設計: MLLM/SpeechLMの独立スケーリング
パイプライン並列: 段階的処理による負荷分散
推論最適化: バッチ処理とストリーミングの柔軟対応

4.2.4 実用的計算要件

最小システム要件：

GPU: NVIDIA H800クラス（推奨）
メモリ: 80GB GPU RAM（長時間音声対応）
ストレージ: 高速SSD（音声データ処理用）

実運用スケーリング：

クラウド展開: 複数GPU環境での分散処理
エッジ対応: 軽量版での低遅延処理
バッチ処理: 大量音声の効率的処理

4.3 応用可能性

4.3.1 直接的応用領域

会話AI・アシスタント：

長時間対話: 60分超の継続対話における文脈保持
マルチモーダル応答: 画像・音声・テキストの統合理解と音声応答
個人化音声: ユーザー固有の音色でのパーソナライズ対話

コンテンツ生成・メディア：

オーディオブック: 長編小説の一貫した音色での朗読
ポッドキャスト: 個人ブランドの音声によるコンテンツ生成
音声ニュース: リアルタイムニュースの自然な音声配信
教育コンテンツ: 個別学習者に最適化された音声教材

アクセシビリティ支援：

視覚障害者支援: 画像・動画コンテンツの詳細音声説明
多言語対応: リアルタイム翻訳と音声生成
聴覚障害者支援: 手話動画の音声説明生成

4.3.2 産業特化応用

医療・ヘルスケア：

医療記録: 長時間診察の要約と音声生成
患者説明: 複雑な医療情報の分かりやすい音声説明
遠隔診療: 音声品質を重視したテレヘルス

教育・研修：

e-Learning: 個別最適化音声による学習体験
言語学習: ネイティブレベルの発音学習支援
企業研修: カスタマイズ音声による社内教育

エンターテインメント：

ゲーム: NPCの自然な長時間対話
VR/AR: 没入型体験での音声インタラクション
音声演劇: 複数キャラクターの音声生成

4.3.3 技術的拡張可能性

API・SDK化：

RESTful API: 外部システムとの容易な統合
ストリーミング対応: リアルタイム音声処理
カスタマイズ: 業界特化の音響特性調整

多言語・多様性対応：

言語拡張: 訓練データ追加による新言語対応
方言対応: 地域特化音声生成
感情表現: 文脈に応じた感情的音声生成

ハードウェア統合：

組み込みシステム: IoTデバイスでの音声インターフェース
ロボティクス: 自然な音声によるヒューマンロボットインタラクション
車載システム: 安全な音声ナビゲーション・エンターテインメント

4.3.4 市場ポテンシャル

既存市場への影響：

TTS市場: 従来カスケード型システムの置き換え
音声アシスタント: より自然で長時間対応可能なシステム
コンテンツ産業: 音声コンテンツ制作の民主化

新規市場創出：

パーソナライズ音声: 個人ブランド音声の商業利用
リアルタイム多言語: 国際会議での同時通訳音声
アクセシブルメディア: 障害者向け音声メディアの拡張

5. まとめと所感

5.1 論文の意義

5.1.1 学術的意義

パラダイムシフトの提案：
MGM-Omniは従来のカスケード型アプローチから「脳-口」統合型アーキテクチャへの根本的転換を示しており、マルチモーダルAIシステム設計の新しいパラダイムを確立しています。この統合的アプローチは、効率性と性能の両立という長年の課題に対する革新的解決策を提供しています。

技術的ブレークスルー：

長時間音声処理: 60分超の音声理解は既存オープンソースモデルでは未達成の領域
データ効率: 40万時間で競合の1000万時間レベルの性能達成は訓練効率の大幅改善
リアルタイム生成: エンドツーエンドでの低遅延音声生成は実用性において重要な進歩

ベンチマーク貢献：
Long-TTS-Evalの提案により、長時間音声生成という重要だが評価困難な領域に体系的評価手法を導入し、今後の研究発展の基盤を構築しています。

5.1.2 産業的インパクト

市場への即効性：

GitHubおよびHugging Face: 即座に利用可能なリソース提供
実用レベル性能: デモンストレーション段階を超えた実商用適用可能な品質
オープンソース: 研究コミュニティと産業界双方での迅速な採用促進

競争優位性の確立：
既存商用システム（CosyVoice2、MOSS-TTSD等）に対する明確な性能優位性を実証し、特に以下の領域で競争力を確立：

推論効率（3倍高速化）
長時間音声品質（大幅なエラー率改善）
統合性（単一システムでの多機能実現）

5.1.3 社会的意義

アクセシビリティ向上：
長時間・高品質音声生成により、視覚障害者向けの詳細音声説明、多言語リアルタイム翻訳など、情報アクセシビリティの大幅向上が期待されます。

教育機会の拡大：
個人化音声による教材生成は、言語学習、遠隔教育、個別学習支援の質を向上させ、教育機会の民主化に貢献します。

メディア制作の民主化：
プロフェッショナルレベルの音声コンテンツ生成が一般ユーザーにも可能となり、ポッドキャスト、オーディオブック等の制作参入障壁が大幅に低下します。

5.1.4 技術発展への貢献

次世代マルチモーダルAI：
MGM-Omniの統合アプローチは、将来のマルチモーダルAGI（汎用人工知能）開発における重要な設計原則を示唆しており、単一システムでの包括的知能実現への道筋を提供しています。

効率性研究の促進：
データ効率的な訓練手法と計算効率的な推論アーキテクチャは、限られたリソースでの高性能AI開発という重要な研究方向性を示しています。

5.2 今後の展望

5.2.1 技術的発展方向

アーキテクチャの進化：

Multi-Token Prediction統合: DeepSeek-V3等の先進的並列予測技術の導入により、並列サイズ拡大時の音質劣化問題の解決
動的チャンクサイズ: コンテンツの複雑さに応じた適応的チャンク分割による品質向上
注意機構最適化: 長時間音声処理における計算効率とメモリ効率のさらなる改善

モダリティ拡張：

触覚情報統合: VR/ARアプリケーション向けの触覚フィードバック対応
環境音統合: 音響環境を考慮した文脈的音声生成
非言語音: 感情表現、息遣い、間の自然な生成

個人化技術の高度化：

Few-shot音色学習: より少ないサンプルでの高精度音色クローニング
感情・スタイル制御: 細粒度の感情表現とスピーキングスタイル制御
適応学習: ユーザーとの対話を通じた音声特性の動的最適化

5.2.2 スケールアップの可能性

モデルサイズ拡張：

100B+パラメータ: より大規模なモデルでの性能向上可能性
専門化モジュール: 領域特化（医療、法律、技術等）の専門音声生成
多言語統一モデル: 数十言語を統一的に処理する大規模多言語モデル

データスケーリング：

100万時間超: より大規模データでの品質向上限界の探索
合成データ活用: 高品質合成音声による訓練データ拡張
自己教師学習: ラベルなしデータの効果的活用

5.2.3 実用化における課題と解決策

技術的課題：

レイテンシ最適化: リアルタイム対話での更なる低遅延化
- 解決方向: エッジコンピューティング対応、専用ハードウェア最適化
ロバストネス向上: ノイズ環境や音響条件変化への適応
- 解決方向: 敵対的訓練、ドメイン適応技術の統合
エラー処理: 長時間生成での品質劣化への対策
- 解決方向: 動的品質監視、リアルタイム補正機構

社会的課題：

偽造音声対策: ディープフェイク音声の悪用防止
- 解決方向: 透かし技術、検出アルゴリズムの併用開発
プライバシー保護: 音声データの安全な処理
- 解決方向: 差分プライバシー、フェデレーテッド学習の適用

5.2.4 長期的ビジョン

AGI統合の可能性：
MGM-Omniの統合アプローチは、将来のAGI（汎用人工知能）における音声インターフェースのプロトタイプとして位置づけられ、人間レベルの自然な音声コミュニケーション能力の実現に向けた重要なマイルストーンとなる可能性があります。

人間機械協調の進化：
個人化された長時間音声生成能力は、人間とAIの協調関係をより自然で親密なものに変革し、AI companion、教育パートナー、創作協力者としての新しい役割を創出する可能性があります。

創造産業の変革：
高品質かつアクセシブルな音声生成技術は、音声コンテンツ制作の完全な民主化を実現し、新しい形態のメディアアートやエンターテインメントの創出を促進することが期待されます。