
MIT の研究者らは、ロボット ナビゲーションなどの長期的な視覚タスクを計画するための、既存の技術の約 2 倍効率的な生成人工知能主導のアプローチを開発しました。
彼らの手法では、特別なビジョン言語モデルを使用して画像内のシナリオをキャプチャし、目標を達成するために必要なアクションをシミュレートします。次に、2 番目のモデルがこれらのシミュレーションを設計上の問題に対応する標準プログラミング言語に変換し、ソリューションを改良します。
最終的に、システムは、目標を達成するための計画を計算する古典的な計画ソフトウェアに入力できる一連のファイルを自動的に生成します。この 2 段階のシステムにより、平均成功率が約 70% のプログラムが生成され、約 30% しか達成できなかった最良のベースライン手法を上回りました。
重要なのは、このシステムはこれまでに遭遇したことのない新しい問題を解決できるため、状況が瞬時に変化する可能性がある実際の環境に適しているということです。
「私たちのフレームワークは、画像を理解する能力などのビジョン言語モデルの利点と、形式ソルバーの強力な設計機能を組み合わせています」と、MIT 航空宇宙学 (AeroAstro) の大学院生であり、この手法に関するオープンアクセス論文の主著者である Yilun Hao 氏は述べています。 「単一の画像を取得し、それをシミュレーションにかけ、実際の多くのアプリケーションで役立つ長期信頼性の高いプログラムに組み込むことができます。」
彼女は、MIT 情報意思決定システム研究所 (LIDS) の大学院生である Yongchao Chen もこの論文に参加しています。 Chuchu Fan、エアロアストロ准教授、LIDS 主任研究員。そしてMIT-IBM Watson AI Labの研究科学者Yang Zhang氏はこう語る。この論文は学習表現に関する国際会議で発表される予定です。
視覚的なタスクを扱う
近年、ファン氏と同僚は、複雑な推論と計画を実行するための人工知能モデルの使用を研究しており、多くの場合、テキスト入力を処理するために大規模言語モデル (LLM) を使用しています。
ロボットの組み立てや自動運転など、現実世界の設計上の問題の多くには、LLM だけではうまく処理できない視覚的な入力が含まれています。研究者らは、画像とテキストを処理できる強力な人工知能システムであるビジュアル言語モデル (VLM) を使用して、ビジュアル領域への拡張を試みました。
しかし、VLM はシーン内のオブジェクト間の空間関係を理解するのが難しく、複数のステップにわたって正しく応答できないことがよくあります。このため、長期計画に VLM を使用することが困難になります。
その一方で、科学者たちは、複雑な状況に対して効果的な長期計画を作成できる、強力で正式な計画立案者を開発しました。ただし、これらのソフトウェア システムは視覚的な入力を処理できず、ソルバーが理解できる言語に問題をエンコードするには専門知識が必要です。
ファンと彼女のチームは、両方の方法の利点を生かした自動計画システムを構築しました。 VLM ガイド付きフォーマル プランニング (VLMFP) と呼ばれるこのシステムは、連携して動作する 2 つの特殊な VLM を使用して、視覚的なプランニングの問題をフォーマル プランニング ソフトウェアですぐに使用できるファイルに変換します。
研究者らはまず、自然言語を使用して画像内のシナリオを記述し、そのシナリオでの一連のアクションをシミュレートすることに特化した、SimVLM と呼ばれる小さなモデルを慎重にトレーニングしました。次に、GenVLM と呼ばれるはるかに大きなモデルが、SimVLM からの記述を使用して、計画ドメイン定義言語 (PDDL) として知られる正式な計画言語で一連の初期ファイルを生成します。
ファイルは、タスクを解決するための段階的なプログラムを計算する従来の PDDL ソルバーに入力する準備ができています。 GenVLM はソルバーの結果とシミュレーターの結果を比較し、PDDL ファイルを繰り返し改善します。
「ジェネレーターとシミュレーターは連携してまったく同じ結果を達成できます。これは、目標を達成するアクション シミュレーションです」と Howe 氏は言います。
GenVLM は大規模でクリエイティブな AI モデルであるため、トレーニング中に PDDL の多くの例を確認し、この形式言語がさまざまな問題をどのように解決できるかを学習しました。この既存の知識により、モデルは正確な PDDL ファイルを生成できます。
柔軟なアプローチ
VLMFP は 2 つの別々の PDDL ファイルを作成します。 1 つ目は、環境、法的措置、およびドメイン ルールを定義するドメイン ファイルです。また、当面の特定の問題の初期状態と目標を定義する問題ファイルも生成します。
「PDDL の利点の 1 つは、その環境内のすべてのインスタンスでドメイン ファイルが同じであることです。これにより、私たちのフレームワークは、同じドメインの下にある非表示のインスタンスに一般化するのに優れています」と Howe 氏は説明します。
システムを効果的に一般化できるようにするために、研究者は、モデルがシナリオのパターンを記憶することなく問題と目標を理解できるように、SimVLM 用の十分なトレーニング データを慎重に設計する必要がありました。テストすると、SimVLM はシナリオを記述し、アクションをシンボル化し、トライアルの約 85% で目標が達成されたかどうかを検出しました。
全体として、VLMFP フレームワークは、6 つの 2D 計画タスクで約 60 パーセントの成功率を達成し、マルチロボットのコラボレーションやロボットの組み立てを含む 2 つの 3D タスクで 80 パーセント以上の成功率を達成しました。また、これまでに見たことのないシナリオの 50% 以上について、ベースラインの方法をはるかに超えた有効な計画も生成しました。
「私たちのフレームワークは、さまざまな状況でルールが変更された場合に一般化できます。これにより、私たちのシステムに、さまざまなタイプの視覚ベースの計画上の問題を解決する柔軟性が与えられます。」と Pan 氏は付け加えます。
研究者らは将来的には、VLMFP がより複雑なシナリオを処理できるようにし、VLM による幻覚を検出して軽減する方法を模索したいと考えています。
「長期的には、人工知能モデルはエージェントとして機能し、適切なツールを使用して、より複雑な問題を解決できるようになります。しかし、適切なツールを持つとは何を意味しますか。また、これらのツールをどのように統合すればよいでしょうか。まだまだ道のりは長いですが、ビジュアルベースの計画を組み込むことで、この取り組みはパズルの重要なピースになります」とファゼル氏は言います。
この研究には、MIT-IBM Watson AI Lab から資金の一部が提供されました。