具身智能

开放世界的具身大模型

Speakers

Jiaming Liu

Date / Time

2024-10-17

17:10

Presentation Slides

Presentation Video

YouTube

多模态大语言模型（MLLMs）已在各种任务中展示了在视觉指令跟随方面的潜力。最近，一些研究将 MLLMs 集成到机器人操作中，使机器人能够解释多模态信息并预测低级动作。尽管基于 MLLM 的策略已经显示出令人鼓舞的进展，但在面对新任务或类别时，它们可能会预测出失败的执行姿势。鉴于这些挑战，我们提出一个问题：“我们能否开发一种端到端的机器人代理，不仅具备操作技能，还能有效纠正低级失败动作？” 借鉴丹尼尔·卡内曼的观点，即“人类思维分为快速系统和慢速系统，分别代表直觉过程和更为逻辑的推理”，我们介绍了一系列模仿人类思维方式的研究工作，以解决上述问题。