MAESTRO: Masked AutoEncoders for Multimodal, Multitemporal, and Multispectral Earth Observation Data

著者
所属
投稿日
カテゴリ
arXiv

MAESTRO: Masked AutoEncoders for Multimodal, Multitemporal, and Multispectral Earth Observation Data

基本情報

  • arXiv ID は 2508.10894v1 である (https://arxiv.org/abs/2508.10894)
  • 著者は Antoine Labatie ら5名である
  • 所属は Institut national de l'information géographique et forestière (IGN) である
  • 投稿日は 2025年8月17日である
  • カテゴリは cs.CV である

簡単に説明すると

この論文は、地球観測データの独特な特性に適応したMasked AutoEncoder(MAE)の新しい手法「MAESTRO」を提案しています。
地球観測データはマルチモーダル、マルチテンポラル、マルチスペクトラルという3つの異質性を持ちます。
MAESTROは、これらの複雑な相互作用を効果的に統合するために、最適化された融合戦略と新しい正規化手法を導入します。
4つの地球観測データセットでの評価により、時間的動態に依存するタスクで新しい最高性能を達成しました。
GitHubでコード公開: https://github.com/ignf/maestro

1. 研究概要

1.1 背景と動機

自己教師あり学習(SSL)は、自然言語処理と計算機視覚における最近のブレークスルーの中核となっています。
これは効果的な事前学習戦略であり、多様な下流タスクでモデルを微調整する際の汎用性とデータ効率を向上させます。
特に大量のラベルなしデータで事前学習された基盤モデルの場合に顕著です。

地球観測(EO)アプリケーションでは、ラベルなしデータは豊富ですが、ラベル付きデータは依然として稀少で高コストです。
そのため、SSLパラダイムは地球観測分野で有望視されています。
ただし、SSLの潜在能力を十分に活用するには、既成のアプローチを地球観測データの独特な特性に適応させる必要があります。

地球観測データの主要な特性は、解像度、スケール、モダリティ、スペクトラルバンド間の異質性にあります。
この異質性は、マルチモーダル、マルチテンポラル、マルチスペクトラルな地球観測データセットに頻繁に反映されます。
様々なセンサーの統合により、空間-時間-スペクトラル「解像度ジレンマ」に効果的に対処できます。

1.2 主要な課題

MAEを地球観測データに拡張する際の主要な課題は以下の通りです。

まず、複数のモダリティと時間観測の統合には効果的な融合戦略が必要です。
1つのアプローチである「joint-token fusion」は、すべてのデータ次元を共有トークン空間に投影します。
別のアプローチである「token-based fusion」は、まずデータ次元をクラスタリングし、それらを個別に埋め込み、結果のトークンを融合します。

token-based fusionは、いくつかの理由によりマルチモダリティとマルチテンポラリティの処理に適しています。
モダリティと時間ステップ間の異質性をより良く捉え、モダリティ固有および時間固有のエンコーディングの統合を可能にし、クロスモーダルおよびクロステンポラルな自己教師信号の使用を可能にします。

次に、マルチスペクトラルデータの処理により複雑さが増します。
ここでは、token-basedとjoint-token fusionの選択が明確ではありません。
joint-token fusionは計算効率を提供しますが、クロススペクトラル自己教師信号を組み込む能力を制限します。

1.3 主要な貢献

本研究の主要な貢献は次の通りです。

第一に、地球観測における多モーダル、多時間、多スペクトラルSSLのための様々な融合戦略と目標の正規化手法を広範囲にベンチマークしました。

第二に、高度に相関したスペクトラルバンドのグループ内でパッチごとに再構成目標を正規化する新しいpatch-group-wiseの正規化手法を導入しました。
このアプローチは、無視できる計算コストで有用なスペクトラル事前分布を自己教師信号に注入します。

第三に、上記に基づいて、MAEフレームワークの調整された適応であるMAESTROを提案しました。
これは、地球観測データのマルチモーダル、マルチテンポラル、マルチスペクトラルな使用を性能と計算コストの両面で効果的に統制します。

第四に、4つの多様な地球観測ベンチマークでMAESTROを検証し、多時間動態に強く結び付いたタスクで最高性能を達成し、他のタスクでも非常に競争力のある結果を示しました。

2. 提案手法

2.1 アーキテクチャ

MAESTROのアーキテクチャは、地球観測データの異質な性質、特にマルチモーダル、マルチテンポラル、マルチスペクトラル特性に対応するために設計されています。

固定データセットDを、モダリティのセットm ∈ Mで構成される文脈で記述します。
各データセットタイルについて、すべてのモダリティmは、形状Im × Im × Tm × Cmの入力テンソルに関連付けられます。
ここで、Imは空間サイズ、Tm ≥ 1は元の時間ステップ数、Cmはチャネル数を示します。

2.2 多時間離散化

前処理パイプラインは、モデル入力の固定テンソル形状を強制することから始まります。
各モダリティmについて、離散化された時間ステップの目標数Dmを定義します。
元の入力テンソルは、2段階のプロセスを通じて削減されます。

まず時間ビニングにより、シーケンスをDmビンに再形成し、各ビンがTm/Dm時間ステップをカバーします。
次に各ビン内での時間ステップ選択を行います。
訓練中、各ビン内の時間ステップ選択はデータ拡張のためにランダムです。
検証・テスト中は、各ビンの代表性を最大化することを目指します。

2.3 パッチ化とアンパッチ化

異なるモダリティからの入力が固定形状に削減された後、モダリティ固有のトークナイザーに渡されます。
これらのトークナイザーは、指定されたモダリティ内の時間ステップ間で共有されますが、モダリティ間では個別のままです。

標準的なVision Transformer(ViT)パッチ化戦略を採用し、任意のモダリティmと時間ステップについて、入力は最初にサイズPmの非重複パッチに空間的に分割されます。
各パッチは形状Pm^2Cmのベクトルに平坦化され、エンコーダー前に次元Ceのパッチ埋め込みに投影されます。
すべてのスペクトラルバンドは同じトークンに共同で投影され、joint-token multispectral fusionを実装します。

2.4 多モーダル・多時間トークンベース融合

この段階で、各モダリティmについて形状Im/Pm × Im/Pm × Dm × Ceのテンソル形式で埋め込まれた入力を取得します。
元のMAEでは、これらのテンソルは2段階で処理されます。
Transformerエンコーダーは可視トークンのみを処理し、Transformerデコーダーは[mask]トークンと連結されたエンコードされたトークンを処理します。

元のMAEワークフローは単一モーダル、単一時間データ用に設計されており、マルチモーダルおよびマルチテンポラルデータをサポートするためにどのように拡張すべきかについて曖昧さが残ります。

MAESTROは5つの異なる融合モードを探索します。
「shared」モードはモダリティと時間ステップ間で遅延融合を行い、パラメータをすべてのモダリティ間で共有します。
「monotemp」モードは「shared」と同じですが、各モダリティに対してパラメータを独立に保ちます。
「mod」モードはモダリティ間で遅延融合を行いますが、時間ステップ間では早期融合を行います。
「group」モードは事前定義されたモダリティグループ間で遅延融合を行いますが、時間ステップ間およびグループ内では早期融合を行います。
「inter-group」モードは「group」に似ていますが、最後の3つのエンコーダーブロックがクロスグループトークン相互作用を可能にする融合ブロックに置き換えられます。

2.5 プリテキストタスク

マルチスペクトラルパッチ正規化

トークナイザーは各モダリティのすべてのスペクトラルバンドを共有トークンに共同でエンコードし、joint-token multispectral fusionを実装します。
この設計は効率性を向上させますが、有意義なスペクトラル事前分布を再構成タスクに埋め込むことを目指します。

これを達成するために、MAEで最初に提案され、後にいくつかの地球観測分野の研究で採用されたpatch-wise目標正規化戦略をpatch-group-wise目標正規化戦略で拡張します。
具体的には、各モダリティmについて、スペクトラルバンドをバンドグループg ∈ Gmのセットに分割することを考慮し、各パッチと各バンドグループに対して独立に目標を正規化します。

patch-group-wise目標正規化は元のpatch-wise正規化を一般化しています。
具体的には、すべてのバンドが単一のセットにグループ化されている場合、元の戦略に削減されます。

高度に相関したバンドで構成された適切に選択されたスペクトラルグループg ∈ Gmでpatch-group-wise正規化を適用すると、強い性能が得られることがわかりました。
この目標正規化により、joint-token fusionがtoken-based fusionの性能に匹敵し、時には上回ることが可能になり、同時に計算効率が大幅に向上します。

マスキング

異質なデータに適応させる必要があるもう一つの側面はマスキング戦略です。
各エンコーダーとデコーダーが処理するトークンセット内で固定マスキング比を維持することを目標としています。
ただし、異質なモダリティの場合、このマスキングを異なるトークンセット間でどのように適用すべきかについて曖昧さが残ります。

2段階アプローチを選択します。
モダリティ、空間、時間次元にわたって構造化マスキングを適用し、75%の全体的なマスキング比を満たすために非構造化調整を実行します。

2.6 下流タスク

分類・セグメンテーションヘッド

MAEフレームワークに従い、SSL事前学習後はエンコーダーのみを転送し、[mask]トークンに関連するドメインシフト効果を軽減します。

結果として、エンコーダー出力は各モダリティmについて形状Im/Pm × Im/Pm × Dm × Ceの特徴テンソルです。
これらのエンコードされた特徴を処理するために分類およびセグメンテーションヘッドを接続します。

分類ヘッドは、すべてのモダリティm、空間位置p、時間ステップt間でトークンを連結し、注意プーリングを適用して連結されたトークンを集約し、目標クラス数と等しい出力次元を持つ密な層を適用します。

セグメンテーションヘッドは、まずすべてのモダリティ固有のエンコードされたテンソルを共通の空間参照トークングリッドに整列させます。
次に、各空間位置pについて、すべてのモダリティmと時間ステップt間でトークンを連結し、注意プーリングを適用し、目標クラス数と等しい出力次元を持つ密な層を適用します。

3. 実験結果

3.1 実験設定

4つの中規模から大規模のデータセットで、マルチモダリティ、マルチテンポラリティ、マルチスペクトラリティを含むワークフローを適用しました。

TreeSatAI-TSは、15の多ラベルクラスを持つ樹種識別データセットです。
ドイツ全土の60m × 60mの50,381タイルで構成され、0.2m解像度のaerialイメージ(RGB + NIR)と、aerialの取得に最も近い年の全年をカバーするSentinel-1およびSentinel-2時系列が含まれます。

PASTIS-HDは、19のセマンティッククラスを持つ農業作物セグメンテーションデータセットです。
フランスの1280m × 1280mの433タイルを含み、1mにリサンプリングされた非常に高解像度(VHR)衛星イメージ(SPOT 6-7)と、昇順・降順軌道の約70取得をカバーするSentinel-1時系列、約1年をカバーするSentinel-2時系列が含まれます。

FLAIR#2は、12のセマンティッククラスを持つ土地被覆セグメンテーションデータセットです。
フランスの102.4m × 102.4mの77,762タイルで構成され、0.2m解像度のaerialおよび標高イメージ(RGB + NIR + DSM)と、全年をカバーするSentinel-2時系列が含まれます。

FLAIR-HUBは、15のセマンティッククラスを持つ土地被覆セグメンテーションデータセットです。
FLAIR#2の拡張版で、フランスの102.4m × 102.4mの241,100タイルを含み、0.2m解像度のaerialおよび標高イメージ(RGB + NIR + DEM + DSM)と、全年をカバーるSentinel-1およびSentinel-2時系列が含まれます。

3.2 アブレーションスタディ

多モーダル・多時間融合

異なる多モーダルおよび多時間融合モードを評価しました。
多モーダル融合に関して、類似モダリティ間での早期融合からはわずかな利益が観察されましたが、異なるモダリティ間で適用された場合は大幅な性能低下が見られました。
また、遅延融合を使用する場合、モダリティ間でのエンコーダーパラメータの共有は一貫して役立ちませんでした。

多時間性に関して、早期多時間融合(「mod」「group」「inter-group」)は、遅延多時間融合(「shared」「monotemp」)を一貫して上回ることがわかりました。
TreeSatAI-TS(重み付きF1)とPASTIS-HD(mIoU)では+2-3%、FLAIR-HUB(mIoU)では+1%の改善が見られました。
性能向上は、時間動態が重要な役割を果たすタスクで特に顕著でした。

これらの発見は、多時間SSLにおける潜在的に見過ごされた機会を浮き彫りにしており、これは従来の研究で多モーダルSSLよりも注目が少なかった分野です。

多スペクトラル融合と目標正規化

異なる多スペクトラル融合と目標正規化の選択を評価しました。
TreeSatAI-TSとPASTIS-HDに評価を限定しました。FLAIR-HUBの性能は主にaerialモダリティによって駆動されるためです。

joint-token fusion内での異なる目標正規化の選択の影響を最初に評価しました。
先行研究と一致して、patch-wise正規化は性能を向上させましたが、提案されたpatch-group-wiseアプローチは大幅に良い結果をもたらしました。

注目すべきことに、patch-group-wise正規化とjoint-token fusionの組み合わせは、patch-wise正規化とtoken-based fusionの組み合わせの性能に匹敵し、時には上回りました。
token-based fusionでは、patch-wise正規化が各スペクトラルグループ内で自然に適用されるため、目標正規化の観点で2つのアプローチは等価です。

この結果は計算への影響を考慮すると特に注目に値します。
token-based fusionはスペクトラルグループ数に対して線形に増加するコストを発生させますが、patch-group-wise正規化とjoint-token fusionの組み合わせは無視できるオーバーヘッドで同様の性能を達成します。

3.3 MAESTROの性能評価

4つの評価データセット全体でMAESTROとベースラインFM、教師ありViTの性能を評価しました。

MAESTRO vs. SOTA: MAESTROは評価された4つのデータセットのうち2つで新しい最高性能を設定し、残りの2つでは以前のSOTAまたは最高性能ベースラインFMにほぼ匹敵しました。
TreeSatAI-TS(重み付きF1)で+2.7%、PASTIS-HD(mIoU)で+2.5%先行SOTAを上回りました。

MAESTRO vs. 教師ありViT: MAESTROは教師ありViTをさらに大きなマージンで上回りました。
TreeSatAI-TSで+3.7%(重み付きF1)、PASTIS-HDで+4.4%(mIoU)、FLAIR#2で+5.7%(mIoU)、FLAIR-HUBで+3.8%(mIoU)の改善を示しました。

MAESTRO vs. ベースラインFM: MAESTROはTreeSatAI-TSとPASTIS-HDでベースラインFMを大幅に上回りました。
これは主に、これらのベースラインFMでサポートされている唯一の融合戦略である遅延多時間融合の制限によるものです。

3.4 データセットサイズによるスケーリング

MAESTROと教師ありViTの性能を、様々な事前学習および微調整データセット分数で評価しました。
MAESTROは教師ありViTを一貫して上回り、特に微調整データが限られている場合に顕著でした。
完全データセットと削減データセットを比較すると、ラベル付き微調整データの量に関係なく、より多くのラベルなしデータが下流性能を体系的に改善することがわかりました。

これらの結果は、MAESTROがより大規模なラベルなし事前学習からさらに恩恵を受ける可能性があることを示唆しています。

4. 実用性評価

4.1 計算効率性

patch-group-wise正規化とjoint-token fusionの組み合わせは、token-based fusionに匹敵する性能を無視できる計算オーバーヘッドで達成します。
token-based fusionがスペクトラルグループ数に対して線形に増加するコストを発生させるのに対し、MAESTROのアプローチは大幅に効率的です。

5つの異なる融合モードの評価により、「group」および「inter-group」モードが最適なパフォーマンスと計算コストのバランスを提供することが示されました。
早期多時間融合は、時間動態に依存するタスクで一貫した性能向上をもたらしながら、計算効率を維持します。

4.2 実装の容易性

MAESTROは標準的なTransformerアーキテクチャに基づいて構築されており、既存の深層学習フレームワークとの統合が容易です。
提案された融合戦略と正規化手法は、最小限の追加実装複雑性で標準的なMAEフレームワークに組み込むことができます。

GitHubでのコード公開により、再現性と実用的な応用が促進されます。
マルチモーダル地球観測データの前処理パイプラインも含まれており、研究者が異なるデータセットに手法を適用することが容易になります。

4.3 応用可能性

MAESTROは地球観測の様々なアプリケーション分野で応用可能です。
樹種識別、農業作物セグメンテーション、土地被覆マッピングでの成功した評価は、環境モニタリング、精密農業、都市計画などの分野での幅広い応用性を示しています。

特に時間動態に依存するタスクでの優れた性能は、変化検出、季節変動分析、長期環境監視などのアプリケーションで特に価値があります。
マルチモーダルデータの効果的な統合により、異なるセンサーからの補完的な情報を活用する統合的な地球観測システムの開発が可能になります。

事前学習されたモデルの下流タスクへの転送学習能力は、限られたラベル付きデータしか利用できない新しいアプリケーション分野での迅速な適用を可能にします。

5. まとめと所感

5.1 論文の意義

本論文は、自己教師あり学習を地球観測データの独特な特性に適応させる上で重要な前進を示しています。
従来のSSL手法が主に単一モーダル、単一時間データ用に設計されていたのに対し、MAESTROは地球観測データのマルチモーダル、マルチテンポラル、マルチスペクトラル特性を効果的に活用する包括的なソリューションを提供しています。

特に多時間融合に関する発見は重要です。
早期多時間融合が遅延多時間融合を一貫して上回ることを実証し、これまで見過ごされがちだった多時間SSLの機会を浮き彫りにしました。
既存の基盤モデルの多くが本質的に単一時間であるため、微調整時に遅延多時間融合に制限され、大幅な性能低下を招く可能性があることを明らかにしました。

patch-group-wise正規化の導入は、計算効率と性能のバランスを取る上で画期的です。
高度に相関したスペクトラルバンドのグループ内での正規化により、token-based fusionに匹敵する性能を無視できる計算オーバーヘッドで達成できることを示しました。

5.2 技術的革新性

MAESTROの技術的革新性は、複数の次元での最適化にあります。
異なるモダリティの特性に応じた適応的な融合戦略の採用により、類似モダリティ間では早期融合の利益を活用しながら、異なるモダリティ間では独立性を保持することで最適な性能を実現しています。

スペクトラル事前分布を再構成タスクに効果的に注入するpatch-group-wise正規化は、地球観測データの多スペクトラル特性を活用する新しいアプローチを提示しています。
この手法により、joint-token fusionの計算効率を維持しながら、クロススペクトラル情報を効果的に活用できます。

マスキング戦略の2段階アプローチも注目に値します。
構造化マスキングと非構造化調整の組み合わせにより、異質なモダリティ間で一貫したマスキング比を維持しながら、各モダリティの特性に適応しています。

5.3 今後の展望

MAESTROの成功は、地球観測分野での自己教師あり学習の更なる発展の基盤を提供しています。
より大規模なラベルなし事前学習データセットからの恩恵が示されており、将来的にはより包括的なグローバル地球観測データを活用した事前学習が期待されます。

インターデータセット転送学習への拡張により、異なる地理的地域やセンサー間での知識転送が可能になれば、グローバルな地球観測アプリケーションでの適用性が大幅に向上するでしょう。

モダリティに依存しない汎用基盤モデルへの疑問を提起した点も重要です。
異なるモダリティの特性を考慮したモダリティ固有の専門化の重要性を示唆しており、今後の基盤モデル開発の方向性に影響を与える可能性があります。

リアルタイム地球観測アプリケーションへの適用や、より多様なスペクトラル範囲(ハイパースペクトラルデータなど)への拡張も興味深い研究方向です。
また、気候変動監視や災害対応などの緊急性の高いアプリケーションでの実用化も期待されます。

地球観測データの独特な特性を考慮したSSL戦略の設計に対する包括的なアプローチを提供した本研究は、この分野における重要なマイルストーンとして位置づけられます。