複雑な視覚的タスクを計画するためのより良い方法

MIT の研究者らは、ロボットナビゲーションなどの長期的な視覚タスクを計画するための、既存の技術の約 2 倍効率的な生成人工知能主導のアプローチを開発しました。

彼らの手法では、特別なビジョン言語モデルを使用して画像内のシナリオをキャプチャし、目標を達成するために必要なアクションをシミュレートします。次に、2 番目のモデルがこれらのシミュレーションを設計上の問題に対応する標準プログラミング言語に変換し、ソリューションを改良します。

最終的に、システムは、目標を達成するための計画を計算する古典的な計画ソフトウェアに入力できる一連のファイルを自動的に生成します。この 2 段階のシステムにより、平均成功率が約 70% のプログラムが生成され、約 30% しか達成できなかった最良のベースライン手法を上回りました。

重要なのは、このシステムはこれまでに遭遇したことのない新しい問題を解決できるため、状況が瞬時に変化する可能性がある実際の環境に適しているということです。

「私たちのフレームワークは、画像を理解する能力などのビジョン言語モデルの利点と、形式ソルバーの強力な設計機能を組み合わせています」と、MIT 航空宇宙学 (AeroAstro) の大学院生であり、この手法に関するオープンアクセス論文の主著者である Yilun Hao 氏は述べています。「単一の画像を取得し、それをシミュレーションにかけ、実際の多くのアプリケーションで役立つ長期信頼性の高いプログラムに組み込むことができます。」

彼女は、MIT 情報意思決定システム研究所 (LIDS) の大学院生である Yongchao Chen もこの論文に参加しています。 Chuchu Fan、エアロアストロ准教授、LIDS 主任研究員。そしてMIT-IBM Watson AI Labの研究科学者Yang Zhang氏はこう語る。この論文は学習表現に関する国際会議で発表される予定です。

視覚的なタスクを扱う

近年、ファン氏と同僚は、複雑な推論と計画を実行するための人工知能モデルの使用を研究しており、多くの場合、テキスト入力を処理するために大規模言語モデル (LLM) を使用しています。

ロボットの組み立てや自動運転など、現実世界の設計上の問題の多くには、LLM だけではうまく処理できない視覚的な入力が含まれています。研究者らは、画像とテキストを処理できる強力な人工知能システムであるビジュアル言語モデル (VLM) を使用して、ビジュアル領域への拡張を試みました。

しかし、VLM はシーン内のオブジェクト間の空間関係を理解するのが難しく、複数のステップにわたって正しく応答できないことがよくあります。このため、長期計画に VLM を使用することが困難になります。

その一方で、科学者たちは、複雑な状況に対して効果的な長期計画を作成できる、強力で正式な計画立案者を開発しました。ただし、これらのソフトウェアシステムは視覚的な入力を処理できず、ソルバーが理解できる言語に問題をエンコードするには専門知識が必要です。

ファンと彼女のチームは、両方の方法の利点を生かした自動計画システムを構築しました。 VLM ガイド付きフォーマルプランニング (VLMFP) と呼ばれるこのシステムは、連携して動作する 2 つの特殊な VLM を使用して、視覚的なプランニングの問題をフォーマルプランニングソフトウェアですぐに使用できるファイルに変換します。

研究者らはまず、自然言語を使用して画像内のシナリオを記述し、そのシナリオでの一連のアクションをシミュレートすることに特化した、SimVLM と呼ばれる小さなモデルを慎重にトレーニングしました。次に、GenVLM と呼ばれるはるかに大きなモデルが、SimVLM からの記述を使用して、計画ドメイン定義言語 (PDDL) として知られる正式な計画言語で一連の初期ファイルを生成します。

ファイルは、タスクを解決するための段階的なプログラムを計算する従来の PDDL ソルバーに入力する準備ができています。 GenVLM はソルバーの結果とシミュレーターの結果を比較し、PDDL ファイルを繰り返し改善します。

「ジェネレーターとシミュレーターは連携してまったく同じ結果を達成できます。これは、目標を達成するアクションシミュレーションです」と Howe 氏は言います。

GenVLM は大規模でクリエイティブな AI モデルであるため、トレーニング中に PDDL の多くの例を確認し、この形式言語がさまざまな問題をどのように解決できるかを学習しました。この既存の知識により、モデルは正確な PDDL ファイルを生成できます。

柔軟なアプローチ

VLMFP は 2 つの別々の PDDL ファイルを作成します。 1 つ目は、環境、法的措置、およびドメインルールを定義するドメインファイルです。また、当面の特定の問題の初期状態と目標を定義する問題ファイルも生成します。

「PDDL の利点の 1 つは、その環境内のすべてのインスタンスでドメインファイルが同じであることです。これにより、私たちのフレームワークは、同じドメインの下にある非表示のインスタンスに一般化するのに優れています」と Howe 氏は説明します。

システムを効果的に一般化できるようにするために、研究者は、モデルがシナリオのパターンを記憶することなく問題と目標を理解できるように、SimVLM 用の十分なトレーニングデータを慎重に設計する必要がありました。テストすると、SimVLM はシナリオを記述し、アクションをシンボル化し、トライアルの約 85% で目標が達成されたかどうかを検出しました。

全体として、VLMFP フレームワークは、6 つの 2D 計画タスクで約 60 パーセントの成功率を達成し、マルチロボットのコラボレーションやロボットの組み立てを含む 2 つの 3D タスクで 80 パーセント以上の成功率を達成しました。また、これまでに見たことのないシナリオの 50% 以上について、ベースラインの方法をはるかに超えた有効な計画も生成しました。

「私たちのフレームワークは、さまざまな状況でルールが変更された場合に一般化できます。これにより、私たちのシステムに、さまざまなタイプの視覚ベースの計画上の問題を解決する柔軟性が与えられます。」と Pan 氏は付け加えます。

研究者らは将来的には、VLMFP がより複雑なシナリオを処理できるようにし、VLM による幻覚を検出して軽減する方法を模索したいと考えています。

「長期的には、人工知能モデルはエージェントとして機能し、適切なツールを使用して、より複雑な問題を解決できるようになります。しかし、適切なツールを持つとは何を意味しますか。また、これらのツールをどのように統合すればよいでしょうか。まだまだ道のりは長いですが、ビジュアルベースの計画を組み込むことで、この取り組みはパズルの重要なピースになります」とファゼル氏は言います。

この研究には、MIT-IBM Watson AI Lab から資金の一部が提供されました。

ヒューストン — 物議を醸しているヒューストンの419解放ホームレスセンターの開設は、火曜日に市の指導者が施設の正確な運営開始時期についてさまざまなメッセージを出していたにもかかわらず、わずか数週間先にあるようだ。火曜日のヒューストン市議会で、第一地区議会議員のホアキン・マルティネス氏は、待望のセンターが5月末までにオープンする可能性があることを示唆したようだ。マルティネス氏は市議会で「もし私が間違っていたら市長が訂正してくれるが、今月末までには稼働できるはずだと思う」と述べた。解放アベニュー419番地にある24時間年中無休の施設には、ホームレス状態にある人々をより恒久的な住宅に移すというヒューストンの取り組みの一環として、最大222床のベッドがあり、毎年数百人が利用できる予定である。このプロジェクトは何か月もの間、特に第2区と市東部の一部の住民の間で、犯罪、安全、家、公園、学校の近くに避難所のない人々が集中していることを懸念していると述べ、論争を呼んでいる。マルティネス氏のコメントを受けて、KPRC 2は正式な開幕日が設定されているかどうかを明らかにするために同氏の事務所に連絡を取った。マルティネス氏の広報担当者は後に電子メールで次のように述べた。「残念ながら、419 Emancipation がいつオープンするかはまだ決まっていません。」広報担当者はまた、マルティネス氏はインタビューに応じられないとも述べた。その後、KPRC 2は、マルティネス氏の評議会でのパブリックコメントを指摘し、評議員が発言を間違えたのではないかと尋ねた。返事はありません。一方、ジョン・ホイットマイヤー市長政権の広報担当者は当初、KPRC 2に対し、施設の「ソフトオープン」は5月27日か5月29日に行われる可能性があると述べ、その後質問をハリス精神保健・IDDセンターに委ねた。その後、ハリスセンターはKPRC 2に対し、「5月下旬か6月上旬」の施設開設に向けて市と協力し続けているとの声明を発表した。ヒューストン市の住宅・コミュニティ開発局も、同施設は「目標とする5月下旬から6月上旬のオープンに向けて順調に進んでいる」と述べた。今年初め、ヒューストン市議会は、ハリスセンターが2029年まで施設を運営できるようにする約3,900万ドルの協定を承認した。市によると、ハリスセンターは、運営能力、ホームレスや問題行動のある人々へのサービス提供経験、組織の準備状況、長期的な持続可能性を評価する競争プロセスを経て選ばれたという。しかし、近隣住民の中には依然として懐疑的な人もいる。この計画に反対の声を上げた第2区住民のスコット・シングルトンさんは、ホームレスセンターが公共の安全上の懸念を引き起こす可能性があると懸念しているとKPRC […]

Related Posts

TOP 20 Rap & Hip-Hop Festivals in the USA

「月末までに」市議会議員、ヒューストンのホームレスセンター開設スケジュールを示唆

コロン、フィリピン完全旅行ガイド (2020) – BORED NOMAD

Leave a Reply Cancel reply