一、報告主題:VLA?on?Wheels:?Empowering?Vision-language-action?Models?for?Mobile?Manipulation
二、報告人:王子為
三、報告時間:2025年10月22日(周三)下午15:00-16:00
四、報告地址:計算機大樓D501
五、報告摘要:
視覺-語言-動作(VLA,?Vision-Language-Action)模型憑借龐大的參數規模和大規模訓練數據,展現出極強的泛化能力與高成功率。然而,在許多實際應用場景中,如家庭服務與倉儲管理,機器人需要具備移動操作能力,即在不同位置與物體交互。目前的?VLA?模型多為固定基座操作設計,因此在移動操作任務中的應用仍然受限。為賦能?VLA?模型適用于移動操作,提出了一種高效的適配方法,包括:1.全身運動規劃框架,用于從?VLA?模型輸出中生成理想的操作軌跡;2.幾何場景圖表示,用于輔助選擇底座停靠點。該機器人操作系統顯著拓展了?VLA?模型的應用場景,使其能夠在需要移動性的任務中高效完成復雜操作。
六、報告人簡介:
王子為老師現為南洋理工大學(NTU)電氣與電子工程學院助理教授。加入NTU之前,他曾在卡內基梅隆大學機器人研究所擔任博士后研究員。他分別于?2023?年和?2018?年獲得清華大學自動化系博士學位與物理系學士學位。他的研究目標是構建面向機器人的基礎模型(Foundation?Models,?FMs),包括將FMs與物理場景對齊(grounding)以及在資源受限的機器人平臺上部署?FMs。他已在人工智能、機器人學與計算機視覺的頂級期刊與會議上發表?50?余篇論文,并擔任多個國際會議與期刊的常任審稿人。
校歷
郵箱
EN

浙公網安備 33010302002621號