质朴发言:大模型时代下的具身智能|Z 沙龙第 5 期

2024年4月9日修改
来源:质朴发言
发文时间:2024.01.12
早在 2021 年 10 月,斯坦福的李飞飞团队发表在 Nature Communications 上的 Embodied Intelligence 论文 Embodied intelligence via learning and evolution 研究了智能体的智能化程度与身体结构的关系。
在后续接受采访时,李飞飞提到过这样一个观点:从识别图像这样简单的机器学习能力,到学习如何解决复杂类人任务,具身智能可能会迎来一次重大转变。
而 LLM 席卷全球后,将 LLM 接入机器人本体,是目前许多团队在做的尝试。LLM+VLM+机器人方案更被认为是通用知识、视觉智能和硬件操作的结合,让人看到具身智能的曙光。机器人和 AI 从业者们开始更加广泛探讨“大模型能给具身智能带来什么?”。
由此,我们在 1 月 6 日举办了 Z 沙龙的第五期:大模型时代下的具身智能,这也是首期 co-host 形式。我们有幸与光速光合的朋友们一起邀请了许多产业界和学术界的朋友来到质朴发言,碰撞思想,交流观点。
清华大学的研究人员在圆桌中分享了让人激动的学术进展,如“基于强化学习实现更强场景泛化能力的四足机器人”“精细操作上的触觉仿真,仿真环境渲染视觉效果迁移到真实世界”方向的最新成果。
也有投资人们对谈 Stanford 最新的炒虾机器人 Mobile ALOHA 主创的收获。Google DeepMind 的 RT X、Figure.AI 的场景化研究,也都在圆桌中有所讨论。还有一些具身智能从业者,和研究人员关心的点,在此罗列一些,方便大家结合目录使用:
对大模型驱动的机器人研究未来展望(1.8)
构建具身大模型的海量数据从何而来?Sim2Real 和超级 Simulator 是否会带来变革(3.2)
从业者们如何看待强化学习和模仿学习这两大具身智能研究方向(3.2)
Embodied 和 interacted 的鸿沟面前,VLM 是否是缸中之脑(3.5)
AI 创业者转行具身智能创业,会遇到哪些问题(5.1)
👍
目录 建议结合要点进行针对性阅读。👇
一、具身智能本体的形态会是怎样的?Mobility和 Manipulation 如何实现?
1、具身智能的实现思路:
2、具身智能相比于当前的LLM,是"下一代智能“
3、关于如何用多模态模型实现具身智能,理想和现实的差距仍有待学术界弥合
4、想要让机器人实现具身智能的目标,应该从三个方面训练机器人
5、大模型的到来,为智能机器人的研究带来了实实在在的生产力爆发
6、大模型动的机器人研究 vs 传统控制算法驱动的机器人研究
7、对大模型驱动的机器人研究未来展望
8、未来4大趋势
二、如何定义具身智能?
1、具身智能的具体定义是什么?大模型要解决的智能问题与具身智能要解决的核心问题的差异点是什么?
2、“人形”对于具身智能重要吗?
三、数据从何而来,如何构建具身智能的大脑?
1、关于大模型和多模态的数据泛化
2、数据采集和数据量问题
3、如何解决特定任务/特定场景问题?
4、结构化场景与非结构化场景
5、目前的VLM还是缸中之脑?