查找相關新聞報道,了解坤達的最新動向。
文章聚焦于多模態(tài)大模型(MLMs)時代下具身人工智能(Embodied AI)領域。探討了Embodied AI在實現(xiàn)人工通用智能(AGI)中的重要性和作為連接網(wǎng)絡空間與物理世界的基礎技術的角色。特別地,隨著多模態(tài)大模型和世界模型(WMs)的出現(xiàn),這些架構(gòu)因其出色的感知、交互和推理能力而被視作具身代理的“大腦”。首先回顧了具身機器人和模擬器的代表工作,分析了其研究重點和局限性;隨后,詳細討論了四個主要研究領域:具身感知、具身交互、具身代理以及模擬到現(xiàn)實的適應。
此外,文中還探索了多模態(tài)大模型在虛擬和實體具身代理中的應用,并強調(diào)了它們對于實現(xiàn)在動態(tài)數(shù)字和物理環(huán)境中的交互的重要性。最后,文章總結(jié)了具身AI所面臨的挑戰(zhàn)和局限,并指出了未來的發(fā)展方向。這項研究為具身AI領域的學者提供了重要的參考,并鼓勵更多的創(chuàng)新。
1 具身機器人
具身機器人僅體現(xiàn)在多模態(tài)大模型(MLMs)和世界模型(WMs)的應用上,還涉及到了視覺語言導航、物體抓取等多種復雜的交互任務。例如,英偉達開發(fā)的NvidiaVIMA系統(tǒng)能夠在視覺和文本提示的指導下執(zhí)行復雜任務,甚至模擬物理現(xiàn)象。特斯拉的人形機器人Optimus也在不斷迭代,馬斯克預測它將成為特斯拉未來的長期價值來源之一。此外,斯坦福大學李飛飛團隊發(fā)布的成果表明,機器人可以通過接入大模型直接理解人類的自然語言指令,并將其轉(zhuǎn)化為具體的行動。這些進展標志著具身機器人正朝著更加自主和智能的方向發(fā)展,有望在未來實現(xiàn)更廣泛的應用場景。
2 具身研究四大領域
(1)具身感知
具身感知的主要任務是:估測,識別和操作。
估測:依據(jù)觸覺信息推斷出物體的特性,如硬度、形狀等。
識別:根據(jù)觸覺反饋識別物體的種類。
操作:利用觸覺信息指導對物體的操作過程。
對于非視覺感知的觸覺,觸覺傳感器的設計原理類似于人類皮膚的觸覺機制,即當物體接觸皮膚時,皮膚發(fā)生形變并通過豐富的神經(jīng)細胞發(fā)送電信號。根據(jù)設計原理的不同,觸覺傳感器可以分為非視覺基、視覺基和多模態(tài)三種類型。而非視覺基觸覺傳感器是主要依賴于電學或力學原理,記錄力、壓力、振動和溫度等基本低維感官信息。
(2)具身交互
具身交互中基于視覺語言導航(VLN)的任務主要有:
MiC:需要大型語言模型(LLM)直接預測目標位置,并通過描述場景感知提供導航指令。這種方法要求LLM充分運用其“想象”能力來構(gòu)建想象中的場景。
MCR-Agent:設計了一個三層行動策略,需要模型預測目標位置、預測目標交互所需的像素級掩碼,并從前一次導航?jīng)Q策中學習。
OVLM:要求LLM預測指令對應的行動序列和地標序列。在導航過程中,視覺語言地圖會不斷更新和維護,并且行動會與地圖上的地標相鏈接。
(3)具身智能體
具身智能體中基于視覺語言動作(VLA)模型有:
MiC:需要LLM直接預測目標位置,并提供導航指令。
MCR-Agent:采用了三層行動策略,包括目標預測、目標交互像素級掩碼預測和從歷史導航?jīng)Q策中學習。
OVLM:要求LLM預測操作和地標序列,在導航過程中持續(xù)更新視覺語言地圖。
(4)具身世界模型
具身世界模型是在模擬中創(chuàng)建與真實環(huán)境相似的世界模型,幫助算法在轉(zhuǎn)移到現(xiàn)實世界時更好地泛化。其需要通過收集物理世界的數(shù)據(jù)來訓練模型。并且利用具身控制算法,來開發(fā)能夠適應不同環(huán)境變化的控制策略。隨后實現(xiàn)模擬到現(xiàn)實(Sim-to-Real)適應,將模擬環(huán)境中學習的能力或行為轉(zhuǎn)移到現(xiàn)實世界的過程。這包括驗證算法、模型和控制策略的有效性,確保它們能在物理環(huán)境中穩(wěn)健可靠地運行。
具身世界模型與VLA模型的區(qū)別: VLA模型首先在大規(guī)模互聯(lián)網(wǎng)數(shù)據(jù)上進行訓練以獲得高級能力,然后與真實世界機器人數(shù)據(jù)共同微調(diào)。而世界模型則從零開始在物理世界數(shù)據(jù)上訓練,逐漸發(fā)展出高級能力。
具身世界模型適用場景: 適用于輸入輸出相對結(jié)構(gòu)化的任務,如自動駕駛和物體分類等,但不太適合處理高度未結(jié)構(gòu)化的復雜任務。
3 多模態(tài)大模型應用
多模態(tài)大模型(MLMs)在具身人工智能(Embodied AI)領域的應用十分廣泛且深入。這類模型通過整合多種感官信息,如視覺和語言,使得具身智能體能夠在復雜的環(huán)境中進行高效導航和交互。例如,通過增強跨模態(tài)匹配方法,代理可以更好地理解指令,并利用其歷史決策進行自我監(jiān)督學習。同時,利用大型語言模型(LLMs)和視覺編碼器的融合,可以提升代理對歷史記憶的理解,并基于此執(zhí)行更復雜的任務。此外,圖譜學習技術也被用來預測連續(xù)環(huán)境中可移動路徑點,幫助代理將復雜導航轉(zhuǎn)化為節(jié)點間的簡單導航,從而縮小了從離散到連續(xù)環(huán)境性能差距。這些進步共同推動了具身代理在理解和應對動態(tài)物理環(huán)境方面的顯著提升。
4 結(jié)語
文章對多模態(tài)大模型時代具身人工智能領域的全面綜述,涵蓋了具身機器人的最新進展、模擬器、感知、交互、具身代理及從模擬到現(xiàn)實世界的適應等關鍵研究方向。
轉(zhuǎn)載:具身人工智能的最新進展--綜述
論文題目:Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI
論文鏈接:https://arxiv.org/abs/2407.06886
(版權(quán)屬于原作者,如有侵權(quán),請聯(lián)系刪除)
您還未登錄,請登錄后再進行相關操作!