MLエンジニアへの道 #35 - 異種グラフ学習

このブログ記事では、ディープラーニングにおける異種グラフ学習やGNN APIついて紹介します。

同種グラフと異種グラフ

これまで、暗黙的に同種グラフを扱ってきました。同種グラフでは、グラフ内のすべてのノードとエッジが同じ種類に属します。例えば、ソーシャルネットワークは同種グラフであり、ノードはすべて人間を表し、エッジは人間関係の存在を表します。しかし、ノードやエッジが異なる種類を持つ異種グラフを構築することも可能です。

上は異種有向グラフの例です。このグラフには、著者ノード、機関ノード、論文ノード、研究分野ノードが含まれており、これらは「執筆」、「引用」、「所属」、「トピックを持つ」といったエッジによって接続されています。二部グラフは異種グラフの一種であり、異なる種類のノードを2種類持ち、主にレコメンダシステムで、ユーザーが特定のアイテムを好むかどうかを予測するために使用されます（これについては後日詳しく取り上げるかもしれません）。ノードやエッジの種類の違いを無視したり、それらの違いを表現するためにノードやエッジの埋め込みを使用して異種グラフを同種グラフとして扱うことも可能ですが、ノードやエッジの種類の違いを考慮することで、モデルの表現力向上が期待できます。

関係型GNN

ノードやエッジの種類の違いを区別する最も簡単な方法は、各エッジの種類、関係ごとに複数のGNNレイヤーを積み重ね、その結果を集約して単一のレイヤーにすることです。例えば、Schlichtkrull, M. ら (2017) によるR-GCNでは、以下のようなレイヤーを使用しています。

h_i^{(t+1)} = \sigma(\sum_{r \in R}\sum_{j \in \{i, N_i\}}\frac{1}{c_{i, r}}W_r^{(t)} h_j^{(t)})

ここで、 $R$ はグラフ内のすべてのエッジ種類の集合であり、 $c_{i,r}$ は次数や学習可能なパラメータを表します。上記のアプローチで顕著な問題の1つは、特に多くの関係を持つデータの場合、パラメータ数が増加することです。そのため、Schlichtkrull, M. ら (2017) は基底分解を使用します。基底分解は、 $W_r = \sum_{b}^B a_{r,b}V_b$ という形で表され、 $b$ の値が $r$ より小さい場合、関係間で基底を共有し、関係固有の重みを削減することが可能です。(R-GCNはブロック分解も使用します。)

同種グラフ用に構築された他のレイヤーに対しても同様の処理を行うことができますし、関係に応じて異なる複雑さのレイヤーを使用することも可能です。また、グラフトランスフォーマーも適切な埋め込みやエンコーディングを準備することで異種グラフを簡単にサポートできます。 TokenGTを例に取ると、異なるノードやエッジの種類ごとに異なる埋め込みを準備し、適切なタイプ識別子を追加することができます。

PyTorch. 2024. PyG Documentation. PyTorch.
Schlichtrull, M. et al. 2017. Modeling Relational Data with Graph Convolutional Networks. ArXiv.
TensorFlow. 2024. TF-GNN: TensorFlow Graph Neural Networks. GitHub.

同種グラフと異種グラフ

関係型GNN

GNN API

TensorFlow - TF-GNN

PyTorch - PyG

結論

リソース