記者5日從浙江人形機器人創(chuàng)新中心獲悉,該中心聯(lián)合香港中文大學、浙江大學等團隊在機器人空間智能領域取得重要突破,提出名為RAM的三維空間理解與操作模型,為提升機器人在復雜長程任務中的操作可靠性提供了新的技術路徑。相關成果近日發(fā)表于國際學術期刊《科學·機器人》。
以視覺語言大模型為代表的人工智能(AI)技術,提升了機器人理解自然語言指令和分解復雜任務的能力。但從“聽懂指令”到“完成動作”之間,仍存在關鍵鴻溝:機器人需要在三維空間中理解物體的位置、朝向、尺度、可操作區(qū)域及相互關系,并將這些信息轉(zhuǎn)化為可執(zhí)行的運動約束?,F(xiàn)有大模型多依賴二維圖文數(shù)據(jù)訓練,缺乏直接的物理世界經(jīng)驗,在推理物體位姿和空間關系時易產(chǎn)生不符合物理規(guī)律的判斷。如何讓模型獲得可驗證、可遷移的三維空間知識,并將高層語義規(guī)劃與底層物理執(zhí)行連接起來,是具身智能和機器人操作領域的重要課題。
“針對這一挑戰(zhàn),我們提出了RAM模型,其借鑒檢索增強生成的思想,為大模型配備可查詢的外部三維知識庫。機器人執(zhí)行任務時,模型可以按需檢索物體類別、幾何屬性、功能平面、抓取點等信息,從而彌補視覺語言模型自身三維空間理解不足的問題?!眻F隊成員、浙江人形機器人創(chuàng)新中心首席技術官許學成介紹。
研究團隊還專門構(gòu)建了面向機器人操作場景的空間理解問答評測集,結(jié)果顯示,在該評測集覆蓋的多類空間推理任務中,RAM模型的整體表現(xiàn)優(yōu)于多種代表性視覺語言大模型。除核心任務外,RAM展現(xiàn)出一定通用性與擴展性。
“人形機器人走向真實應用場景,不僅需要硬件本體、靈巧手和運動控制能力,也需要理解三維環(huán)境、判斷物理約束并規(guī)劃可執(zhí)行動作的算法能力?!痹S學成介紹,該研究讓機器人不僅能“聽懂人話”,還能“精準動手”,即通過給大模型配備一套結(jié)構(gòu)化的幾何知識庫,打通了從語義推理到精確操作的“最后一公里”。
據(jù)悉,浙江人形機器人創(chuàng)新中心由寧波市政府與浙江大學團隊聯(lián)合共建,成立于2023年12月。目前,該中心已形成軟硬件深度融合,覆蓋多行業(yè)、多場景的產(chǎn)品矩陣,正助力寧波打造以人形機器人為引領的全國具身智能創(chuàng)新高地。
友情鏈接: 政府 高新園區(qū)合作媒體
Copyright 1999-2026 中國高新網(wǎng)chinahightech.com All Rights Reserved.京ICP備14033264號-5
電信與信息服務業(yè)務經(jīng)營許可證060344號主辦單位:《中國高新技術產(chǎn)業(yè)導報》社有限責任公司