
MITの研究者らは、ロボットが障害物を通して「見る」ことで隠れた物体を見つけて操作できるようにする技術の研究に10年以上を費やしてきた。彼らの手法は、隠されたアイテムを反射する表面貫通無線信号を利用します。
現在、研究者らは生成人工知能モデルを活用して、これまでのアプローチの精度を制限してきた長年のボトルネックを克服しています。その結果、より正確な形状の再構成を生成する新しい方法が誕生し、視界から遮られた物体を確実に把握して操作するロボットの能力が向上する可能性があります。
この新しい技術は、反射された無線信号から隠されたオブジェクトの部分的な再構築を構築し、特別に生成された AI モデルを使用してその形状の欠落部分を埋めます。
研究者らはまた、生成人工知能を使用して、すべての家具を含む部屋全体を正確に再現する拡張システムも発表しました。このシステムは、宇宙を移動する人間を反射する 1 つの固定レーダーから送信される無線信号を使用します。
これにより、環境をスキャンするために移動ロボットにワイヤレス センサーを取り付ける必要があるという、多くの既存の方法の中での 1 つの大きな課題が克服されます。また、一部の一般的なカメラベースの技術とは異なり、この方法では周囲の人々のプライバシーが保護されます。
これらのイノベーションにより、倉庫ロボットが梱包された商品を出荷前に検証できるようになり、返品による無駄が排除される可能性があります。また、スマート ホーム ロボットが室内の誰かの位置を理解できるようになり、人間とロボットの対話の安全性と効率が向上します。
「私たちが今行っているのは、無線の反射を理解するのに役立つ人工知能モデルを開発することです。これにより、多くの新しくて興味深い応用が可能になりますが、技術的な観点から見ると、これまで見ることができなかったギャップを埋める能力から、反射を解釈してシーン全体を再構築する能力まで、能力の質的な飛躍でもあります」と、MIT コンピューター工学部の電気工学およびコンピューター サイエンス グループの責任者であるファデル アディブ氏は述べています。研究室の教授であり、これらの技術に関する 2 つの記事の上級著者でもあります。 「私たちは人工知能を使用して、ついにワイヤレスビジョンのロックを解除しようとしています。」
Ladiv 氏は、筆頭著者で研究助手の Laura Dodds 氏も最初の記事に参加しています。研究助手のメイジー・ラム氏、ワリド・アクバル・ウェイボ・チェン氏も同様。そして筆頭著者で元ポスドクのKaichen Zhouによる2番目の論文について。ドッズ。研究助手のサイード・サード・アフザル氏。両方の論文は、IEEE Conference on Computer Vision and Pattern Recognition で発表されます。
鏡面性の増加
Adib グループは以前、ミリ波 (mmWave) 信号を使用して、山の下に埋められた紛失した財布など、視界から隠された 3D オブジェクトの正確な再構成を作成することを実証しました。
これらの波は Wi-Fi で使用されるのと同じ種類の信号であり、乾式壁、プラスチック、ボール紙などの一般的な障害物を通過し、隠れた物体を跳ね返す可能性があります。
しかし、ミリ波は通常、鏡面反射します。これは、波が表面に衝突した後、一方向に反射することを意味します。表面の大部分がミリ波センサーからの信号を反射し、それらの領域が実質的に見えなくなります。
「物体を再構築したいとき、私たちは上面しか見ることができず、底面や側面はまったく見ることができません」とドッズ氏は説明します。
研究者らはこれまで物理学の原理を利用して反射信号を解釈してきましたが、これでは再構成された 3D 形状の精度が制限されてしまいます。
新しい論文では、生成 AI モデルを使用して部分再構成の欠落部分を埋めることで、この制限を克服しました。
「しかし、課題は、これらのギャップを埋めるためにこれらのモデルをどのようにトレーニングするかということです。」親切に言います。
通常、研究者は AI モデルのトレーニングに非常に大規模なデータセットを使用します。これが、Claude Velma のようなモデルが非常に優れたパフォーマンスを発揮する理由の 1 つです。しかし、トレーニングに十分な大きさのミリ波データセットはありません。
代わりに、研究者らは大規模なコンピューター ビジョン データセットの画像を照合して、ミリ波反射の特徴を模倣しました。
「既存のデータセットをドメインに適用できるように、鏡面性の特徴とこれらの反射から得られるノイズを想像してみてください。そのために十分な新しいデータを収集するには何年もかかるでしょう」と Lam 氏は言います。
研究者らは、ミリ波反射の物理学をこの適合データに直接埋め込み、生成 AI モデルにもっともらしい形状の再構成を教えるために使用する合成データセットを作成しました。
Wave-Former と呼ばれる完全なシステムは、ミリ波の反射に基づいて潜在的なオブジェクトの表面のセットを提案し、それらを生成 AI モデルに入力して形状を完成させ、完全な再構成が達成されるまで表面を微調整します。
Wave-Former は、缶、箱、調理器具、果物など、約 70 の日常的な物体の忠実な再構築を生成することができ、最先端のベースラインよりも精度が 20% 近く向上しました。物体は段ボール、木材、乾式壁、プラスチック、布地の裏や下に隠されていました。
「幽霊」を参照
チームは同じアプローチを使用して、室内を動き回る人間からのミリ波反射を利用して屋内シーン全体を完全に再現する拡張システムを構築しました。
人間の動きにより、マルチパス反射が発生します。数ミリの波が人から反射され、壁や物体から再び反射されて、センサーに戻ってくるとドッズ氏は説明します。
これらの二次反射は、いわゆる「ゴースト信号」を生成します。これは、人の移動に伴って位置が変化する、元の信号の反射コピーです。これらのゴースト信号は通常ノイズとして無視されますが、部屋のレイアウトに関する情報も含まれています。
「これらの反射が時間の経過とともにどのように変化するかを分析することで、周囲の環境を大まかに理解し始めることができます。しかし、これらの信号を直接解釈しようとすると、精度と解像度が制限されます。」ドッズ氏は言う。
彼らは、同様のトレーニング方法を使用して、シーンの大まかな再構成を解釈し、マルチパス ミリ波反射の動作を理解するように生成人工知能モデルを教育しました。このモデルはギャップを埋め、シーンが完成するまで最初の再構成を調整します。
彼らは、単一のミリ波レーダーで捕捉された 100 人以上の人の軌跡を使用して、RISE と呼ばれるシーン再構築システムをテストしました。平均して、RISE は既存の技術の約 2 倍の精度の再構成を実現しました。
研究者らは将来的に、再構成の詳細をさらに改善したいと考えている。彼らはまた、言語と視覚に関する GPT、Claude、Gemini の基本モデルなど、新しいアプリケーションを開拓できる無線信号の大規模な基本モデルを構築したいと考えています。
この研究は、米国科学財団 (NSF)、MIT メディア ラボ、および Amazon によって部分的に支援されています。