MLエンジニアへの道 #36 - GNNパイプライン

このブログ記事では、GNN APIを用いて異なる下流タスクに対応するパイプラインを構築します。

これまで、GNNに関する議論では、下流タスクの詳細については避け、下流タスクのための潜在ノード表現の作成に焦点を当ててきました。しかし、下流タスクは、適切なデータ準備、モデル選択、評価手法の決定、およびGNNパイプラインの構築において重要です。基本的なモデルやGNN APIの機能を使ったパイプライン構築を学んだ今、下流タスクとそれに基づくパイプラインについて議論します。

グラフレベルのタスク

グラフレベルのタスクは、最終的な潜在ノード埋め込みを集約したり、新しいグラフを生成したりして、グラフのクラスや値を予測することを指します。具体例として、分子の毒性の二値分類、材料科学の化学特性予測、薬物候補生成（ドラッグディスカバリー）が挙げられます。これらのタスクでは、複数のグラフとそれに関連付けられたラベルを準備し、データセットを訓練用、検証用、テスト用に分割して教師あり学習を行います。

上記は、TF-GNNおよびPyGを使用してグラフレベルのタスク向けのデータセットを生成する方法を示しています。 PyGの実装は、前回の記事で取り上げた内容とほぼ同じであり、私たちが最も馴染みのある設定に沿っています。モデルがトレーニング中にテストデータセットを見ないため、これらのモデルは 帰納的(inductive) 設定でトレーニングされているといいます。帰納的設定でトレーニングされたモデルは、未見のデータに対しても一般化できます。

ノードレベルおよびエッジレベルのタスク

ノードレベルおよびエッジレベルのタスクでは、ノードやエッジのクラスや値を予測します。ノードレベルタスクの例として、金融取引ネットワークにおける不正アカウント検出や、引用ネットワークにおける学術論文の発表会場予測があります。一方、エッジレベルタスクの例として、推薦システムでの評価予測や、SNSアカウント間の将来のリンク予測があります。これらのタスクは主に単一のグラフを対象とし、複数のグラフを扱うケースは少ないです。単一のグラフを扱う場合、各ノードやエッジをデータポイントとして扱い、データセットを分割するためにマスクを使用します。

トレーニング中にモデルがグラフ全体の構造を観察して推論を行うため、単一グラフをマスク処理して扱う場合、モデルは 推移的（transductive） 設定でトレーニングされるといいます。これまでに紹介したモデルは隣接行列を使用し、グラフ全体の構造が既知であることを前提としています。そのため、これらのモデルは単一グラフの埋め込みを生成する際に、新しいグラフへの一般化能力が低い傾向にあります。

PyTorch. 2024. PyG Documentation. PyTorch.
TensorFlow. 2024. TF-GNN: TensorFlow Graph Neural Networks. GitHub.

グラフレベルのタスク

TF-GNN

PyG

ノードレベルおよびエッジレベルのタスク

TF-GNN

PyG

大規模な動的グラフ

TF-GNN

PyG

結論

リソース