関係ネットワーク(RN)は、物体間の関係を推論できる構造を持つ人工ニューラルネットワークの構成要素です。このような関係の例として、空間関係(上、下、左、右、前、後ろ)が挙げられます。[1]
RNは関係性を推論することができ、データ効率が良く、オブジェクトの順序に関係なくオブジェクトのセットに対して操作を行うことができます。[1]
歴史
2017年6月、DeepMindは初の関係ネットワークを発表しました。同社は、この技術が複数の質問応答問題セットにおいて「超人的な」パフォーマンスを達成したと主張しました。[1]
| データセット | 正確さ | 注記 |
|---|---|---|
| CleVR(ピクセル) | 95.5% | 球体や円柱などの3Dオブジェクトの画像。質問の種類は、「属性」クエリ(「球体は何色ですか?」)、「属性比較」クエリ(「立方体は円柱と同じ素材ですか?」)、「個数」クエリ(「球体はいくつありますか?」)です。 |
| CleVR(状態の説明) | 96.4% | 状態記述マトリックスで表される画像。マトリックスの各行には、単一のオブジェクトの特徴(座標(x、y、z)、色(r、g、b)、形状(立方体、円柱、…)、材質(ゴム、金属、…)、サイズ(小、大、…))が含まれていました。 |
| ある種のCLEVR | 94% | 2D画像が並んでおり、それぞれに6色の正方形または円が6つずつ含まれています。質問は固定長の2進数でコード化されているため、自然言語解析の複雑さが軽減されます。各画像は、10個の関係質問(「灰色の物体から最も遠い物体の形状は?」)と10個の非関係質問(「灰色の物体の形状は?」)に対応しています。 |
| バビ | 90% | テキストデータ。20個のタスクがあり、それぞれ演繹、帰納、計数といった特定の種類の推論が求められます。各質問には、一連の補足文が関連付けられています。例えば、「サンドラはフットボールを拾った」と「サンドラはオフィスに行った」という文は、「フットボールはどこにあるか?」という質問(答え:「オフィス」)を補足しています。各文は個別に処理されます。成功率は95%です。エントリ数は1万件です。 |
| 動的物理システム | 93%の接続
/95%カウント |
弾性接続と非弾性接続を持つ表面上を移動するボール。1つのテストでは、ボールのペアが接続されているかどうかを判定しました。もう1つのテストでは、ボールがいくつ接続されているかを調べました。 |
デザイン
RNは、ニューラルネットワークの機能形式を制約し、関係推論の共通特性を捉えます。これらの特性は、学習によって確立されるのではなく、畳み込みニューラルネットワーク(CNN)に明示的に付加されるものであり、空間的かつ並進不変な特性について推論する能力が明確に畳み込みニューラルネットワーク(CNN)の一部であるのと同様です。考慮対象となるデータは、単純なリスト、またはノードがオブジェクト、エッジが関係性を考慮するオブジェクトのペアである有向グラフとして表すことができます。RNは複合関数です。
ここで、入力は「オブジェクト」の集合であり、i番目のオブジェクトはfφとgθであり、qは質問である。fφとgθは多層パーセプトロンであり、2つのパラメータは学習可能なシナプス重みである。RNは微分可能である。gθの出力は「関係」である。したがって、gθの役割は、2つのオブジェクトがどのような関係にあるかを推論することである。[1]
画像(128×128ピクセル)の処理は4層CNNを用いて行われる。CNNの出力は、関係分析の対象となるオブジェクトとして扱われるが、その「オブジェクト」が明示的に何を表しているかは考慮されない。質問は長短期記憶ネットワークを用いて処理された。[1]
参照
参考文献
- ^ abcde Santoro, Adam; Raposo, David; Barrett, David GT; Malinowski, Mateusz; Pascanu, Razvan; Battaglia, Peter; Lillicrap, Timothy (2017年6月5日). 「関係推論のためのシンプルなニューラルネットワークモジュール」. arXiv : 1706.01427 [cs.CL].