ChronoGraph: A Real-World Graph-Based Multivariate Time Series Dataset

著者 Adrian Catalin Lutu, Ioana Pintilie, Elena Burceanu, Andrei Manolache
所属 Bitdefender (Romania),
投稿日 2025年09月08日
カテゴリ cs.LG

ChronoGraph: A Real-World Graph-Based Multivariate Time Series Dataset

基本情報

  • arXiv ID: 2509.04449v1 (https://arxiv.org/abs/2509.04449)
  • 著者: Adrian Catalin Lutu, Ioana Pintilie, Elena Burceanu, Andrei Manolache
  • 所属: Bitdefender (Romania),
    University of Bucharest (Romania),
    University of Stuttgart (Germany),
    International Max Planck Research School for Intelligent Systems (Germany)
  • 投稿日: 2025年09月08日
  • カテゴリ: cs.LG

簡単に説明すると

この論文では、実際のマイクロサービス環境から収集された
グラフ構造を持つ多変量時系列データセット「ChronoGraph」を提案しています。
このデータセットは700個のマイクロサービスから6か月間にわたって収集された
実運用データで構成されています。各サービスはCPU使用率、メモリ使用量、
ネットワークトラフィックなどのシステムレベル指標を持つ多変量時系列として表現されます。
サービス間の依存関係が有向グラフとして明示的に記録されています。
さらに、専門家によって注釈されたインシデントウィンドウが異常ラベルとして提供されており、
予測手法の頑健性評価や異常検知手法のベンチマークが可能となっています。
データセットとコードは公開予定とされています。

1. 研究概要

1.1 背景と動機

大規模自動化システムにおけるサービス指標の短期・中期予測は、
信頼性の高い運用にとって極めて重要です。
製造業、輸送業、IT インフラストラクチャにわたる様々な領域で、
予測結果はアラート、オートスケーリング、容量計画を駆動する基盤となっています。
マイクロサービスアーキテクチャは独特な課題を提起します。
数百の疎結合されたサービスが依存関係グラフを形成し、
障害(回帰、リソース競合、上流の障害など)がコール間を伝播する可能性があるため、
正確な予測には局所的な時間的動態と
サービス間の相互影響の両方が必要となります。

しかし、既存のグラフベンチマークはこの設定を反映していない。交通データや大気質データは
一変量であり、インシデント注釈が欠けている。一方、SWaTやWADIなどの工業制御データセットは
異常ラベルと多変量性を含んでいるが、真の隣接行列ではなくプロセス図のみを提供している。
これらの制約により、多変量時系列、明示的な依存構造、ラベル付きインシデントを
単一のデータセットで組み合わせたベンチマークの必要性が残されていた。

1.2 主要な貢献

この研究は多変量時系列とグラフ構造、実運用でのインシデントデータを組み合わせた
包括的なベンチマークデータセットを提供することで、重要な貢献をしています。

実世界の多変量時系列データセットとしては、6か月間の実運用マイクロサービス
テレメトリから構築されたChronoGraphを公開しています。約700のサービスを収録し、
各サービスは5次元の時系列(約8,000タイムステップ)と、
相互作用するサービス間の通信を捉えた3次元時系列で表現されています。

明示的なグラフトポロジーとインシデント伝播については、
サービス依存関係グラフを含み、異常が経験的に伝播する経路を提供しています。
これにより、モデルが障害の拡散における位相的相関を捉え、
構造認識予測アプローチの評価を支援します。

ベースライン評価では、予測手法、時系列基盤モデル、
標準的な異常検知手法をベンチマークしています。現在のアプローチの主要な限界である
長期予測の困難さとシステムのグラフ構造を活用できない問題を強調し、
改善への潜在的道筋について議論しています。

2. 提案手法

2.1 手法の概要

ChronoGraphは新しい予測モデルを提案するのではなく、既存手法を評価するための包括的なベンチマークデータセットの提供に焦点を置いている。
データセットの構築手法は実運用環境からの系統的なデータ収集と専門家による注釈付けプロセスを中心としている。

大企業が運営する実運用マイクロサービスプラットフォームから6か月間の運用テレメトリを収集。
708のサービスそれぞれについて、CPU使用率、メモリ使用量、メモリワーキングセット、
ネットワークトラフィック率(着信・発信)の5つのシステムレベル指標を監視。
測定はコンテナごとに記録され、サービスレベルで集約(コンテナ間の平均)され、
固定の30分間隔で記録される。

2.2 技術的詳細

データ収集プロセスにおいて、長期間の不連続性(メンテナンスや廃止による)を含む
系列の除去とタイムスタンプの整合性確保を実施。各サービスは8005タイムステップと
5変数を持つ多変量時系列として表現される。さらに、観測されたサービス間通信により
有向グラフが定義され、ノードは多変量時系列と関連付けられ、エッジは
リクエスト数、リターンコード、レイテンシの3次元に沿ったサービス依存関係を表現。

サービス障害ラベルについては、内部インシデントレポートから派生した
注意深く選定された異常ラベルのセットを含む。人間が作成したインシデント記録を解析して
影響を受けたサービスとタイムスタンプを抽出し、報告時刻を中心とした
固定長ウィンドウにマッピング。この手順により、特定のサービスに関連する
17の異常セグメントが得られる。

2.3 新規性

ChronoGraphの新規性は、以下の3つの要素を単一のデータセットで
初めて組み合わせた点にあります。
(1)サービスごとの多変量時系列
(2)機械読み取り可能な依存関係グラフ
(3)実際のインシデントと整合したラベル付き障害ウィンドウ。

既存のベンチマークと比較すると、交通やエアクオリティデータセットは一変量であり
インシデント注釈が欠如している。工業制御システムデータセット(SWaT、WADI)は
異常ラベルと多変量性を含んでいるが、真の隣接行列ではなくプロセス図のみを提供している。
ChronoGraphは明示的なトポロジーと実運用でのインシデントを組み合わせることで、
予測および異常検知手法の両方の評価を可能にしている。

3. 実験結果

3.1 実験設定

評価では2つの主要目標を追求:(i)ChronoGraphでの予測モデルのベンチマーク、
(ii)破損ラベルを真実とした多変量時系列での異常検知手法の評価。

予測評価では、時間的安定性を評価するため、各モデルを全テストシーケンス(3202タイムステップ)と
短期間の最初500ステップの両方で評価。評価指標として、平均絶対誤差(MAE)、
平均二乗誤差(MSE)、平均絶対スケール誤差(MASE)を使用。

異常検知評価では、F1_K-AUCとROC_K-AUCを主要評価指標として採用。これらは
従来の精度、再現率、F1スコアの限界を克服し、より公平な比較を可能にする。
60/40の訓練・テスト分割を適用し、モデル学習に十分な履歴を確保しながら
評価に十分なデータを保持。

3.2 主要な結果

予測結果において、全てのモデルが短期ウィンドウで低い誤差を示しました。
Chronosは500ポイントサブセットで最良の性能を達成したが、全シーケンスでは最悪となった。
対照的に、TabPFN-TSは両設定で最も安定しており、全シーケンスでの性能はProphetと同等。
この一貫した長期間での性能低下は、現在の手法が長期間の時間的動態を
効果的にモデル化する能力に限界があることを示唆している。

異常検知結果では、全ての評価手法で性能は控えめに留まった。Prophetが最も強い
個別結果を達成したが、依然として非常に高い偽陰性率に苦しんでいる。
Isolation ForestとOC-SVMはより多くの異常を検知するが、高い偽陽性率が代償。
オートエンコーダベース検知と基盤モデル(TabPFN-TS、Chronos)は全体的に低性能。
Prophet、Isolation Forest、Autoencoderのアンサンブルはより均衡した性能を提供するが、
障害期間の信頼性高い特定には程遠い結果。

3.3 既存手法との比較

評価対象モデルには統計モデル、表現学習、基盤モデル、
古典的ML手法を含む広範なアプローチを選択しました。
時系列の基盤モデルとしては、ゼロショット・少数ショットタスク用の
Chronos-Bolt Base、時系列に適応されたTransformerベースの
事前データ適合ネットワークであるTabPFN-TSを含みます。

統計的な予測手法においては、ARIMAがノイズ条件下で主に平均予測に
デフォルトしたため、トレンド、季節性、休日効果の
分解可能モデルであるProphetを採用しました。
異常検知では、予測モデルからの残差使用に加えて、
再構築誤差で異常を検知するオートエンコーダ、
高次元外れ値検知の強力なベースラインである古典的AD手法の
Isolation ForestとOne-Class SVMも考慮しました。

結果は、トポロジーに依存しない方式で時系列に一般的に使用される手法が、
マイクロサービスの複雑な動態を説明するのに苦労していることを示している。
予測や検知への依存関係グラフの組み込みが、より効果的なアプローチへの有望な道筋を提供する可能性。

4. 実用性評価

4.1 実装の容易性

ChronoGraphデータセット自体は実装が容易で、標準的なデータ形式で提供される予定。
ベンチマークされた各手法は確立された実装を持ち、研究者が容易に再現・拡張可能。
しかし、真にグラフ認識アプローチを実装することは、時間的動態とグラフ構造情報を
統合する新しい方法論が必要で、より複雑になる可能性。

著者らは明示的なグラフトポロジーと実運用インシデントを組み合わせた
初のデータセットとして、構造認識予測アプローチの評価を可能にしている。
データセットとコードの公開により、研究コミュニティが容易にアクセスし、
既存手法のベンチマークや新しいグラフベース手法の開発に活用できる。

4.2 計算効率

現在評価された手法の計算効率性は比較的良好です。
Prophetは統計的手法として軽量で高速です。
基盤モデル(Chronos、TabPFN-TS)は事前訓練済みなので、
ファインチューニングや推論時間が短縮されます。
Isolation ForestやOC-SVMのような古典的手法も計算効率が良好です。

ただし、将来のグラフ認識アプローチでは、グラフ畳み込みやアテンション機構を
統合する必要があり、計算コストが増加する可能性があります。
特に708個のサービスと8000タイムステップという規模では、
効率的なアルゴリズムと最適化が重要になります。
しかし、実用的なマイクロサービス監視システムでは、
リアルタイム性よりも精度が優先される場合が多いため、
適度な計算コスト増加は受け入れられると考えられます。

4.3 応用可能性

ChronoGraphは高い応用可能性を持ちます。まず、マイクロサービス監視での
実際の課題へ直接対応しており、エンタープライズ環境での運用へ
即座に適用可能です。異常検知、容量計画、自動スケーリングの改善へ
直接寄与できます。

さらに、グラフ構造を持つ時系列予測の研究分野全体への貢献も大きい。
IoTネットワーク、電力グリッド、交通システム、ソーシャルネットワークなど、
他のドメインのグラフベース時系列問題にも応用可能な方法論の発展を促進する。
実世界データによる信頼性の高いベンチマークとして、学術研究と産業応用の
橋渡しを担う重要な役割を果たすと期待される。

また、多変量時系列コミュニティと時間的グラフ学習コミュニティを結びつける
共有ベンチマークとしての価値も高く、両分野の融合による新しい研究方向を
促進する可能性を持つ。

5. まとめと所感

5.1 論文の意義

ChronoGraphは時系列予測とグラフ学習分野において極めて重要な貢献をしています。
実世界のマイクロサービス環境から収集された大規模データセットとして、
学術研究と実用的課題の間のギャップを埋める貴重なリソースを提供している。
多変量時系列、明示的なグラフ構造、専門家ラベル付き異常を組み合わせた
初のベンチマークとして、これまで困難だった構造認識による時系列予測の
体系的評価を可能にしています。

ベンチマーク結果は現在の手法の限界を明確に示しており、特に長期予測の困難さと
グラフ構造を活用できない問題を定量的に実証している。これらの発見は
今後の研究方向性に重要な指針を提供し、グラフ認識による時系列予測手法の
必要性を明確に示しています。また、異常の空間的クラスタリングの観察は
障害伝播のメカニズムに関する実証的洞察を提供し、
システム信頼性向上への重要な示唆を含んでいる。

5.2 今後の展望

ChronoGraphは今後の研究発展において複数の有望な方向性を開く。
最も重要なのは、時間的動態とグラフ構造情報を統合した
新しいグラフ認識予測手法の開発です。
Graph Neural NetworksやGraph Attention Networks を
時系列予測に適応させることで、サービス間依存関係を明示的にモデル化し、
障害伝播パターンを学習できる可能性があります。

長期予測の改善も重要な課題です。現在の手法が示した長期間での性能劣化を克服するため、
構造的制約やドメイン知識を組み込んだ安定化技術、
あるいは階層的な時間スケールでの予測アプローチが有効である可能性があります。

異常検知においては、グラフベース手法による伝播パターンの学習、
半教師あり学習による限られたラベルの効果的活用、そして
実運用での偽陰性・偽陽性の均衡最適化が重要な研究課題となる。
また、データセット拡張による他のドメインへの般化性の検証や、
マルチモーダル情報(ログ、トレース、ユーザーフィードバック)の統合も
将来の発展方向として期待される。