具身智能近年来受到大量关注,被誉为人工智能的下一个浪潮。具身智能的典型特色是具身性、情境化、交互性和主动性,通过身体在物理环境中互动来实现的智能。本报告将对具身智能的具身机理进行探讨,包括身体、智能与环境的相互关系,分析具身智能是脑控全身还是身脑互控; 并对类动物行为、类人类智能、感知-行为快速适应性反馈、及具身认知等不同层面的智能体现进行介绍。
本次报告围绕在线三维重建,在线场景理解,以及在线三维交互,汇报我们近年来的系列工作,包括:快速相机运动下的实时三维重建,机器人自主与协同式场景扫描与重建,机器人主动式场景理解,以及基于三维几何表征学习的机器人灵巧抓取等。
围绕具身智能PIE方案,P(Perception)介绍机器人全感知与交互感知,I(Imagination)介绍物理世界概念驱动的仿真推理框架,E(Execution)介绍通用元操作技能设想与工作。基于上述三个模块,介绍具身PIE大模型探索与初步成果。最后介绍具身认知智能工作,如何验证脑神经行为与身体行为稳定隐射关系。
作为一种将人工智能与机器人技术相结合的新型智能系统,具身智能体的记忆和持续学习是非常关键的问题。在这个报告中,我将介绍我们在这两个方向的一些初步探索,并就未来可以进一步深入研究的问题给出一些粗浅的想法。
报告将讨论通过具身多模态大模型系统融合视觉语言等模态可以直接对高度泛化通用的物理任务输出动作的解决方案。介绍由本体和数据构成基石层、大脑和小脑构成能力层的具身多模态大模型系统方案。对于本体和数据,我们将对人形机器人的形态进行探讨,提供硬件的发展思路和基于合成大数据的泛化训练数据获取途径。对于能力层,我们完全通过合成数据和Sim2Real实现了多个泛化的移动和操作技能,包括二指和灵巧抓取、铰接类物体操作、柔性物体操作、端到端视觉语言导航大模型等等,这些构成了小脑。而对于大脑,我们将展示GPT-4V为代表的非具身多模态大模型进行视觉感知、任务规划和调用中层的三维视觉技能,实现从家用电器泛化操作到开放指令物体摆放的能力。最后,报告将展望通用机器人的未来,讨论其中的机会和挑战。