静止画からAIが3D画像を生成する『GQN』という技術。Google関連会社が開発

2018年6月21日2019年4月7日

人間の脳は視覚をどう認識しているかについて、目に見える以上の物があります。初めて客室に入ると、そこにある家具やアイテムを目にします。テーブルの3本の脚を見ると、人間の脳は勝手に脚が4本あるものだと認識します。つまり、脳は見えない部分も別アングルからの物の形を想像する事が出来ます。
これらは人間にとっては簡単な動作ですが、人工システムにとっては大きな課題となります。

この課題に対し、Google関連でAlphaGoを開発したAI企業『DeepMind』が取り組み、『Generative Query Network(GQN)』を開発。その結果は人間が想像するような形に非常に近くなっています。

つまりGenerative Query Network(GQN)ってどういうことだってばよ

公式サイトの機械翻訳を参考に硬く描きましたが、
この技術はざっくり説明すると、AIが静止画から3D画像を生成しますよという技術です。

下に掲載する動画を見ると分かりやすいかと思います。

Generative Query Network(GQN)の解説動画

Generative Query Networks

Generative Query Networks

この動画を YouTube で視聴

スクリーンショット

画面左半分にある箱は3D上のモデル。箱の中には赤い球、水色の立方体、紫色の円錐が置いてあります。この箱の中のとあるアングルからの静止画を、AIに渡し3D画像を推測し、生成してもらいます。
画面右半分はAIの計算イメージ。グレーで塗りつぶされた四角い正方形はAIさんの『自信力パラメーター』みたいな物です。今は真っ黒と真っ白のマスがモザイク状に増えていくに従い、AIさんが『自信ありまっせ！』という判断がされている事になります。

まず、一つのアングル(View1)から静止画を渡してみます。AIさんの『自信力パラメーター』が少し白黒のマスが増えました。しかし増えたのは半分以下でAIさんの『自信力パラメーター』『こうでっか…？』位の自身になっています。
ただ、後で記述しますが、驚くべきことにこのGenerative Query Network(GQN)は1枚の静止画からもある程度の3D画像は生成出来るそうです。とはいえ、画像が少ないと生成される3D画像の再現度は落ちます。

生成される3D画像の精度を上げる為、もう一アングル(View2)からの静止画をAIさんに渡してみます。すると、AIさんの『自信力パラメーター』が一気に増え『だいたい分かったで！』みたいな状態になっていると思います。

そこで、AIさんに『このアングル(View3)からの3D画像を出力してみて』とお願いしてみます。

すると、AIさんが計算し、『どや！出来たで！』と言ったかどうかは分かりませんが、見事View3と同じ3D画像を出力する事が出来ました。凄い！

もっと凄いことに、箱の中を回転させた動画もAIさんが想像する事が出来ました。『こんなこともやっといたで！』と言ったかどうかもわかりませんがお見事です。
人間でも3D空間の想像が不得意な方はここまで想像するのは難しいかもしれません。

こちらは他のサンプル画像からの3D画像生成結果。このような感じで少ない画像から、グルグル回転出来る程の3D画像を生成しています。
中には1枚の静止画から3D画像を生成出来ている物もあります。

Generative Query Network(GQN)を開発した『DeepMind』によると、現在は低解像度の解析しか出来ていませんが、ハードウェアの技術の進歩によって、高解像度に出来る事が期待されるとの事。
また、仮想現実(VR)、拡張現実(AR)への応用も模索中だそうです。

見えない部分をコンピューターが認識するこの技術が発展すれば、車の自動運転技術の危険予測等にも生かせるかもしれませんね。
コンセプトアートから3Dモデルを予測するなんて事もあるかもしれません。個人的にはAftereffectsやBoujouのトラッキング精度の向上を望みたい所…。
ソースコードが公開されたりしたら、2次元キャラのスカートの中を覗く猛者も現れるかもしれません。