91免费看片-91免费看视频-91免费人成网站在线观看18-91免费入口-91免费视-91免费视频网站

新聞中心

查找相關新聞報道,了解坤達的最新動向。

(轉載)具身人工智能的最新進展--綜述

2024/10/29科研動態

文章聚焦于多模態大模型(MLMs)時代下具身人工智能(Embodied AI)領域。探討了Embodied AI在實現人工通用智能(AGI)中的重要性和作為連接網絡空間與物理世界的基礎技術的角色。特別地,隨著多模態大模型和世界模型(WMs)的出現,這些架構因其出色的感知、交互和推理能力而被視作具身代理的“大腦”。首先回顧了具身機器人和模擬器的代表工作,分析了其研究重點和局限性;隨后,詳細討論了四個主要研究領域:具身感知、具身交互、具身代理以及模擬到現實的適應

此外,文中還探索了多模態大模型在虛擬和實體具身代理中的應用,并強調了它們對于實現在動態數字和物理環境中的交互的重要性。最后,文章總結了具身AI所面臨的挑戰和局限,并指出了未來的發展方向。這項研究為具身AI領域的學者提供了重要的參考,并鼓勵更多的創新。

具身機器人

具身機器人僅體現在多模態大模型(MLMs)和世界模型(WMs)的應用上,還涉及到了視覺語言導航、物體抓取等多種復雜的交互任務。例如,英偉達開發的NvidiaVIMA系統能夠在視覺和文本提示的指導下執行復雜任務,甚至模擬物理現象。特斯拉的人形機器人Optimus也在不斷迭代,馬斯克預測它將成為特斯拉未來的長期價值來源之一。此外,斯坦福大學李飛飛團隊發布的成果表明,機器人可以通過接入大模型直接理解人類的自然語言指令,并將其轉化為具體的行動。這些進展標志著具身機器人正朝著更加自主和智能的方向發展,有望在未來實現更廣泛的應用場景。

具身研究四大領域

(1)具身感知

具身感知的主要任務是:估測,識別和操作。

估測:依據觸覺信息推斷出物體的特性,如硬度、形狀等。

識別:根據觸覺反饋識別物體的種類。

操作:利用觸覺信息指導對物體的操作過程。

對于非視覺感知的觸覺,觸覺傳感器的設計原理類似于人類皮膚的觸覺機制,即當物體接觸皮膚時,皮膚發生形變并通過豐富的神經細胞發送電信號。根據設計原理的不同,觸覺傳感器可以分為非視覺基視覺基多模態三種類型。而非視覺基觸覺傳感器是主要依賴于電學或力學原理,記錄力、壓力、振動和溫度等基本低維感官信息。

(2)具身交互

具身交互中基于視覺語言導航(VLN)的任務主要有:

MiC:需要大型語言模型(LLM)直接預測目標位置,并通過描述場景感知提供導航指令。這種方法要求LLM充分運用其“想象”能力來構建想象中的場景。

MCR-Agent:設計了一個三層行動策略,需要模型預測目標位置、預測目標交互所需的像素級掩碼,并從前一次導航決策中學習。

OVLM:要求LLM預測指令對應的行動序列和地標序列。在導航過程中,視覺語言地圖會不斷更新和維護,并且行動會與地圖上的地標相鏈接。

(3)具身智能體

具身智能體中基于視覺語言動作(VLA)模型有:

MiC:需要LLM直接預測目標位置,并提供導航指令。

MCR-Agent:采用了三層行動策略,包括目標預測、目標交互像素級掩碼預測和從歷史導航決策中學習。

OVLM:要求LLM預測操作和地標序列,在導航過程中持續更新視覺語言地圖。

(4)具身世界模型

具身世界模型是在模擬中創建與真實環境相似的世界模型,幫助算法在轉移到現實世界時更好地泛化。其需要通過收集物理世界的數據來訓練模型。并且利用具身控制算法,來開發能夠適應不同環境變化的控制策略。隨后實現模擬到現實(Sim-to-Real)適應,將模擬環境中學習的能力或行為轉移到現實世界的過程。這包括驗證算法、模型和控制策略的有效性,確保它們能在物理環境中穩健可靠地運行。

具身世界模型與VLA模型的區別: VLA模型首先在大規模互聯網數據上進行訓練以獲得高級能力,然后與真實世界機器人數據共同微調。而世界模型則從零開始在物理世界數據上訓練,逐漸發展出高級能力。

具身世界模型適用場景: 適用于輸入輸出相對結構化的任務,如自動駕駛和物體分類等,但不太適合處理高度未結構化的復雜任務。

多模態大模型應用

多模態大模型(MLMs)在具身人工智能(Embodied AI)領域的應用十分廣泛且深入。這類模型通過整合多種感官信息,如視覺和語言,使得具身智能體能夠在復雜的環境中進行高效導航和交互。例如,通過增強跨模態匹配方法,代理可以更好地理解指令,并利用其歷史決策進行自我監督學習。同時,利用大型語言模型(LLMs)和視覺編碼器的融合,可以提升代理對歷史記憶的理解,并基于此執行更復雜的任務。此外,圖譜學習技術也被用來預測連續環境中可移動路徑點,幫助代理將復雜導航轉化為節點間的簡單導航,從而縮小了從離散到連續環境性能差距。這些進步共同推動了具身代理在理解和應對動態物理環境方面的顯著提升。

結語

文章對多模態大模型時代具身人工智能領域的全面綜述,涵蓋了具身機器人的最新進展、模擬器、感知、交互、具身代理及從模擬到現實世界的適應等關鍵研究方向。

轉載:具身人工智能的最新進展--綜述

          論文題目:Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI

                             論文鏈接:https://arxiv.org/abs/2407.06886


(版權屬于原作者,如有侵權,請聯系刪除)

數智裝備 智能互聯

聯系坤達, 了解如何打造專業智能化工廠方案
獲取方案