
ChatGPT や Claude などのチャットボットは、さまざまなタスクを支援できるため、過去 3 年間で使用量が急激に増加しました。シェイクスピアのソネットを書いているときも、コードを精査しているときも、曖昧なトリビアの質問への答えが必要なときも、AI システムがあなたをサポートしてくれそうです。この多用途性の源は何でしょうか?ウェブ上の何十億、あるいは何兆ものテキスト データ ポイント。
このデータは、ロボットに家庭や工場の役に立つヘルパーになるよう教えるには十分ではありません。さまざまな環境でオブジェクトを扱い、積み重ね、さまざまな配置で配置する方法を理解するには、ロボットのデモンストレーションが必要です。ロボット トレーニング データは、タスクの各動作を通じてシステムを説明するトレーニング ビデオのコレクションと考えることができます。実際のロボットでこれらのデモを収集するには時間がかかり、完全には再現できないため、エンジニアは AI を使用してシミュレーション (現実世界の物理学を反映していないことが多い) を作成したり、各デジタル環境を最初から時間をかけて作成したりして、トレーニング データを作成しました。
マサチューセッツ工科大学コンピューターサイエンス・人工知能研究所(CSAIL)とトヨタ研究所の研究者らは、ロボットに必要な多様で現実的な訓練の場を作り出す方法を発見したかもしれない。同社の「管理可能なシーン生成」アプローチは、キッチン、リビング ルーム、レストランなどのデジタル シーンを作成し、エンジニアが現実世界の多くのインタラクションやシナリオをシミュレートするために使用できるようにします。テーブルやプレートなどのオブジェクトのモデルで満たされた 4,400 万以上の 3D 部屋でトレーニングされたこのツールは、既存のアセットを新しいシーンに配置し、それぞれを物理的に正確で本物のような環境に洗練します。
Steerable Scene Creation は、日常生活で見かけるシーンで拡散モデル (ランダム ノイズからビジュアルを作成する人工知能システム) を「操作」することによって、これらの 3D 世界を作成します。研究者らは、この生成システムを使用して環境を「ペイント」し、シーン全体の特定の要素を塗りつぶしました。空白のキャンバスが突然 3D オブジェクトが散りばめられたキッチンになり、徐々に再配置されて現実世界の物理学を模倣したシーンを想像することができます。たとえば、このシステムは、フォークがテーブル上のボウルを通過しないことを保証します。これは、モデルが重なったり交差したりする「クリッピング」として知られる 3D グラフィックスでよく発生する障害です。
ただし、シーン作成をどのように操作してリアリズムに近づけるかは、選択した戦略によって異なります。その主な戦略は「モンテカルロ ツリー検索」(MCTS) で、モデルは一連の代替シーンを作成し、特定の目的 (シーンを物理的により現実的にする、またはできるだけ多くの食べられるアイテムを含めるなど) に向けてさまざまな方法でそれらを追加します。これは、AlphaGo 人工知能プログラムが囲碁 (チェスに似たゲーム) で人間の対戦相手に勝つために使用されており、システムは最も収益性の高い手を選択する前に潜在的な一連の手を検査するためです。
「シーン作成というタスクを継続的な意思決定プロセスとして組み立てることによって、MCTS をシーン作成に適用したのは私たちが初めてです」と、CSAIL 研究者であり、この研究を紹介する論文の筆頭著者である MIT 電気工学・コンピュータサイエンス学科 (EECS) の博士課程学生であるニコラス・ファフ氏は述べています。 「私たちは、時間の経過とともに、より良い、より望ましいシーンを生成するために、部分的なシーンを構築し続けています。その結果、MCTS は、拡散モデルがトレーニングされたものよりも複雑なシーンを作成します。」
特に興味深い実験の 1 つでは、MCTS は単純なレストランのシーンに最大数のオブジェクトを追加しました。平均してオブジェクトが 17 個しかないシーンでトレーニングした後、大量の点心料理を含む最大 34 個のアイテムがテーブル上に表示されました。
制御可能なシーンを作成すると、強化学習を通じて多様なトレーニング シナリオを作成することも可能になります。これは基本的に、試行錯誤によって目標を達成するように拡散モデルを教えることです。初期データでトレーニングした後、システムは 2 番目のトレーニング フェーズに入り、そこで報酬 (基本的には、望ましい結果と、その目標にどれだけ近づいているかを示すスコア) を計画します。モデルは、より高いスコアのシーンを作成することを自動的に学習し、多くの場合、トレーニングされたシナリオとはまったく異なるシナリオを生成します。
ユーザーは、特定の視覚的な説明 (「テーブルの上にリンゴが 4 つとボウルが置かれたキッチン」など) を入力して、システムを直接指示することもできます。次に、操作可能なシーンを作成すると、リクエストを正確に実現できます。たとえば、このツールは、食料庫の棚のシーンを作成する場合は 98 パーセント、乱雑な朝食のテーブルでは 86 パーセントの割合でユーザーの指示に正確に従いました。どちらのマークも、「MiDiffusion」や「DiffuScene」などの同様の手法と比較して、少なくとも 10% 改善されています。
このシステムは、プロンプトや光の指示 (「同じオブジェクトを使用して別のシーンの配置を考え出す」など) を使用して特定のシーンを完成させることもできます。たとえば、キッチンのテーブル上のいくつかの皿にリンゴを置くように頼んだり、棚にボードゲームや本を置いたりすることができます。これは基本的に、空いたスペースにアイテムを挿入することで「空白を埋める」ことですが、シーンの残りの部分は保持します。
研究者らによると、彼らのプロジェクトの強みは、ロボット工学者が実際に使用できる多くのシーンを作成できることにあるという。 「私たちの調査結果から得られた重要な洞察は、事前にトレーニングしたシーンが、私たちが本当に望んでいるシーンとまったく同じでなくても大丈夫だということです」と Pfaff 氏は言います。 「私たちのステアリング手法を使用すると、この幅広い分布を超えて、「より良いもの」からサンプルを抽出することができます。言い換えれば、ロボットを訓練したい、多様で現実的でタスクに合わせたシーンを作り出すことです。」
このような広大なシーンは、さまざまなアイテムと対話する仮想ロボットを記録できるテスト場となりました。たとえば、機械は慎重にフォークとナイフをカトラリーホルダーに置き、さまざまな 3D 設定で皿上のパンを再配置しました。それぞれのシミュレーションは現実世界と同様に流動的かつ現実的で、いつかトレーニングに役立つ適応性のあるロボットのシーンを作成しました。
このシステムは、ロボットの多様なトレーニング データを大量に生成する上で有望な方法になる可能性があるが、研究者らは、自分たちの研究はむしろ概念実証に過ぎないと述べている。将来的には、固定されたアセット ライブラリを使用するのではなく、生成 AI を使用してまったく新しいオブジェクトやシーンを作成したいと考えるでしょう。また、シーンをさらにインタラクティブにするために、ロボットが開けたり回転させたりできる多関節オブジェクト (食品が詰まったキャビネットや瓶など) を組み込むことも計画しています。
仮想環境をさらに現実的にするために、Pfaff 氏と彼の同僚は、インターネット上の画像から抽出したオブジェクトとシーンのライブラリを使用し、「Scalable Real2Sim」に関する以前の成果を使用して、現実世界のオブジェクトを組み込む可能性があります。 AI で構築されたロボットのテスト場の多様性と活気を拡大することで、チームは、熟練したロボットにさまざまなスキルを教えるための膨大なデータセットとして使用できる、大量のデータを生成するユーザーのコミュニティを構築したいと考えています。
「現在、シミュレーション用に現実的なシーンを作成することは、非常に困難な作業となっています。手順を作成すると、簡単に大量のシーンを生成できますが、それらのシーンは、ロボットが現実世界で遭遇する環境を表すものではありません。カスタム シーンを手動で作成するのは、時間もコストもかかります」と、Amazon の応用ロボット科学者である Jeremy Binagia 氏は述べています。 「デバッグ可能なシーン生成は、より良いアプローチを提供します。既存のシーンの大規模なコレクションで生成モデルをトレーニングし、それを (強化学習などの戦略を使用して) 特定の下流アプリケーションに適応させます。既製の視覚言語モデルを活用したり、2D グリッド内でのオブジェクトの配置のみに焦点を当てた以前の作業と比較して、このアプローチでは、翻訳の物理的な実現可能性が確保され、D の物理的な実現可能性が確保され、多くのシーンがより興味深いものになります。」
「ポストトレーニングと推論時間検索による監視可能なシーン作成は、シーン作成を大規模に自動化するための効率的な新しいフレームワークを提供します」と、トヨタ研究所のロボット工学者、Rick Corey SM ’08、PhD ’10 氏は述べています。彼もこの論文には参加していません。 「さらに、下流のタスクにとって重要であると考えられる『これまでに見たことのない』シーンを生成することもできます。将来的には、このフレームワークと大量のウェブデータを組み合わせることで、現実世界への展開のための効果的なロボットトレーニングに向けた重要なマイルストーンが開かれる可能性があります。」
パフ氏は、マサチューセッツ工科大学の電気工学、コンピュータサイエンス、航空宇宙学、機械工学のトヨタ教授であるラス・テドレイク氏とともにこの論文を執筆した。トヨタ研究所の大規模行動モデル担当上級副所長。 CSAILの主任研究員。追加の著者は、トヨタ研究所のロボット研究者であるHongkai Dai SM ’12、PhD ’16です。チームリーダー兼上級研究員セルゲイ・ザハロフ。カーネギーメロン大学博士課程の岩瀬俊さん。彼らの研究は、特に Amazon と Toyota Research Institute によって支援されました。研究者らは9月に開催されたロボット学習会議(CoRL)で研究成果を発表した。