具身智能
开放世界的具身大模型
Speakers
Presentation Slides
Presentation Video
多模态大语言模型(MLLMs)已在各种任务中展示了在视觉指令跟随方面的潜力。最近,一些研究将 MLLMs 集成到机器人操作中,使机器人能够解释多模态信息并预测低级动作。尽管基于 MLLM 的策略已经显示出令人鼓舞的进展,但在面对新任务或类别时,它们可能会预测出失败的执行姿势。鉴于这些挑战,我们提出一个问题:“我们能否开发一种端到端的机器人代理,不仅具备操作技能,还能有效纠正低级失败动作?” 借鉴丹尼尔·卡内曼的观点,即“人类思维分为快速系统和慢速系统,分别代表直觉过程和更为逻辑的推理”,我们介绍了一系列模仿人类思维方式的研究工作,以解决上述问题。