MetaCLIP 2: A Worldwide Scaling Recipe

著者 Yung-Sung Chuang, Yang Li, Dong Wang, Ching-Feng Yeh, Kehan Lyu, Ramya Raghavendra, James Glass, Lifei Huang, Jason Weston, Luke Zettlemoyer, Xinlei Chen, Zhuang Liu, Saining Xie, Wen-tau Yih, Shang-Wen Li, Hu Xu

所属 FAIR (Meta), MIT, Princeton University, New York University

投稿日 2025年07月30日

カテゴリ cs.CV, cs.LG

arXiv 2507.22062v1 ↗

MetaCLIP 2: A Worldwide Scaling Recipe

基本情報

arXiv ID: 2507.22062v1 (https://arxiv.org/abs/2507.22062)
著者: Yung-Sung Chuang, Yang Li, Dong Wang, Ching-Feng Yeh, Kehan Lyu, Ramya Raghavendra, James Glass, Lifei Huang, Jason Weston, Luke Zettlemoyer, Xinlei Chen, Zhuang Liu, Saining Xie, Wen-tau Yih, Shang-Wen Li, Hu Xu
所属: FAIR (Meta), MIT, Princeton University, New York University
投稿日: 2025年07月30日
カテゴリ: cs.CV, cs.LG

簡単に説明すると

MetaCLIP 2は、世界規模のWebデータから収集した多言語の画像-テキストペアを使って、CLIPモデルを最初から訓練する世界初のレシピです。従来のCLIPは英語データのみに依存していましたが、MetaCLIP 2は300以上の言語に対応し、英語と非英語データが互いに性能向上に寄与する「相互利益」を実現しました。

GitHubリポジトリは https://github.com/facebookresearch/MetaCLIP で公開されています。この論文では、これまで英語中心だったCLIPの訓練を世界規模に拡張する際の「多言語の呪い」（multilingual curse）を打破する方法を示しています。具体的には、メタデータ、キュレーションアルゴリズム、訓練フレームワークの3つの要素を慎重に設計・スケーリングすることで、ViT-H/14モデルでImageNetの精度を80.5%から81.3%に向上させ、多言語ベンチマークで新たな最高性能を達成しています。

1. 研究概要

1.1 背景と動機

CLIPは、ゼロショット画像分類、検索、マルチモーダル大規模言語モデル（MLLM）のビジョンエンコーダとして、現代のビジョンおよびマルチモーダルモデルの重要な構成要素となっています。しかし、既存のCLIPとその大部分の変種は英語のみの設定を採用しており、MetaCLIPも10億規模の英語データセットを抽出するスケーラブルなデータキュレーションアルゴリズムを導入していました。

現在のCLIPの限界として、Webデータの約50.9%を占める非英語データを破棄していることが挙げられます。世界規模のWebデータにCLIPの訓練を拡張するためには、これらの非英語画像-テキストペアを扱う必要がありますが、以下の2つの主要な課題があります：

基本的なデータキュレーション手法の欠如：非英語データを大規模に扱うための根本的なキュレーション手法が存在しない
多言語の呪い：多言語CLIPは英語のみのCLIPよりも英語性能が悪化する（例：mSigLIPはImageNetで英語のみのSigLIPより1.5%劣る）

1.2 主要な貢献

世界規模の画像-テキストペアでCLIPを最初から訓練する初のレシピ「MetaCLIP 2」を提案
多言語の呪いは適切なレシピと十分なスケーリングによって克服可能であることを実証
英語と非英語データが相互に利益をもたらすことを示す
300以上の言語に対応したメタデータとキュレーションアルゴリズムを開発
多言語ベンチマークで新たな最高性能を達成（XM3600 64.3%、Babel-ImageNet 50.2%、CVQA 57.4%）
機械翻訳や蒸留に頼らない、ネイティブ言語による監督を実現
文化的多様性と地理的認識の向上を実現

2. 提案手法

2.1 手法の概要

MetaCLIP 2のレシピは3つのステップから構成されています：

世界規模メタデータの構築：英語のみだった50万エントリのメタデータを、300以上の言語に対応した2700万エントリに拡張
世界規模キュレーションアルゴリズムの実装：言語ごとの部分文字列マッチングとバランシングを実装
世界規模モデルの訓練フレームワークの構築：訓練中の画像-テキストペア数の増加と、世界規模データから学習するための最小限のモデル容量の研究

2.2 技術的詳細

メタデータの構築：

多言語WordNet（31言語）
Wikipedia（329言語）のユニグラムとバイグラム
Wikipediaページタイトル（40のランダムな日付のスナップショット）
言語ごとに独立したメタデータを維持（同じ単語でも言語によって意味が異なるため）

キュレーションアルゴリズム：

言語識別（LID）を使用してalt-textの言語を分類
言語固有のメタデータを使用して概念をマッチング
言語ごとに異なる閾値 t_lang を設定（英語の閾値 t_en から各言語のtail概念の割合pを計算し、同じ割合を維持するように各言語の閾値を決定）
Algorithm 1として詳細な擬似コードが提供されている

訓練フレームワーク：

多言語テキストトークナイザーの採用（XLM-V語彙が最高性能）
見たペア数のスケーリング（グローバルバッチサイズを2.3倍に増加）
最小限のモデル容量の研究（ViT-H/14が呪いを破る転換点）

2.3 新規性

外部リソース（プライベートデータ、機械翻訳、蒸留）に依存しない世界規模のCLIP訓練
言語ごとに適応的な閾値設定による、head/tail概念のバランスの維持
英語と非英語データが相互に性能向上に寄与することの実証
OpenAI CLIPおよびMetaCLIPとの最大限の重複を維持することで、一般化可能な知見を提供

3. 実験結果

3.1 実験設定

インターネットから収集した公開画像-テキストペアを使用
言語識別後、約44%のalt-textが英語（MetaCLIPの英語のみデータと同規模）
ViT-L/14とViT-H/14モデルで実験
OpenAI CLIPとMetaCLIPの訓練設定をベースに、世界規模対応に必要な変更のみを追加

3.2 主要な結果

英語ベンチマーク：

ImageNet精度：80.5% → 81.3%（ViT-H/14、世界規模データ29B pairs）
SLIP 26タスク平均：72.4% → 74.5%
DataComp 37タスク平均：66.5% → 69.6%

多言語ベンチマーク：

Babel-ImageNet：50.2%（新記録、+3.8%改善）
XM3600（画像→テキスト検索）：64.3%（新記録、+1.5%改善）
CVQA（ローカル）：57.4%（新記録、+7.6%改善）
Flickr30k-200：53.2%（画像→テキスト）
XTD-200：51.0%（画像→テキスト）

3.3 既存手法との比較

mSigLIPと比較して、より少ない見たペア数（72%）、より低い解像度（224px vs 256px）で優れた性能を達成
SigLIP 2は英語性能を優先（訓練データの90%が英語）しているが、MetaCLIP 2は英語と多言語の両方で優れた性能を実現
英語のみのデータ（13B pairs）から世界規模データ（13B pairs、同数だが多言語）に変更するだけで、文化的多様性ベンチマークで大幅な改善

4. 実用性評価

4.1 実装の容易性

MetaCLIP 2は、既存のOpenAI CLIPアーキテクチャとの最大限の重複を維持しているため、実装が容易です。必要な変更は以下の3点のみです：

多言語テキストトークナイザーの採用
グローバルバッチサイズの増加（2.3倍）
モデルサイズの拡大（ViT-H/14）

完全なメタデータ、キュレーションコード、訓練コードがオープンソースで公開されており、再現性が高いです。

4.2 計算効率

訓練には追加の計算リソースが必要ですが、推論時の計算コストは標準的なCLIPモデルと同等です。ViT-H/14モデルは大きいものの、多言語対応による追加の計算オーバーヘッドはありません。また、英語のみのタスクでも性能が向上しているため、単一モデルで多様なユースケースに対応できます。

4.3 応用可能性

MetaCLIP 2は以下の幅広い応用が可能です：

多言語画像検索：300以上の言語で画像とテキストの検索が可能
文化的に多様な画像認識：地理的に多様なベンチマークで優れた性能
マルチモーダル大規模言語モデル（MLLM）：より良いビジョンエンコーダとして利用可能
画像生成：DALL-Eや拡散モデルの基盤データとして活用
自己教師あり学習：Web-DINOなどの手法への応用

5. まとめと所感

5.1 論文の意義

MetaCLIP 2は、CLIPの訓練を英語中心から真にグローバルなスケールに拡張した画期的な研究です。「多言語の呪い」という長年の課題を、適切なスケーリングと慎重な設計によって克服できることを実証しました。特に、英語と非英語データが相互に性能向上に寄与するという発見は、今後のマルチモーダルAI研究に大きな影響を与えるでしょう。

また、機械翻訳や既存モデルからの蒸留に頼らず、ネイティブスピーカーが書いたalt-textから直接学習することで、文化的な多様性と真正性を保持している点も重要です。完全にオープンソースで公開されている点も、研究コミュニティへの貢献として高く評価できます。

5.2 今後の展望

さらなる言語の追加と、低リソース言語への対応の改善
より効率的なモデルアーキテクチャの探索（ViT-H/14より小さいモデルでの呪いの克服）
地域固有の文化的コンテキストをより深く理解するモデルの開発
世界規模データセットの継続的な更新と改善メカニズムの確立
他のマルチモーダルタスク（ビデオ理解、音声-視覚統合など）への拡張