输入“/”快速插入内容

具身智能赛道爆发的前夕,我们应该了解些什么?(上)|Z研究第 5 期

⏰ 发表时间:2024-07-10
「Z计划」 是 智谱 AI 面向 未上市初创企业与优秀独立开发者/团队,提供 Tokens 赞助、投资支持和技术支持等资源的创新加速计划。 面向全球,持续招募中!🐋(点击报名) 「Z研究」 是围绕该计划的面向大模型领域的投研计划,鼓励自由研究,大胆发言 。🌲同时,本文不为或有提及的智谱公司任何产品做商业推广。如有提及,纯属绕不开。如未提及,也是正常。
编者按:过去一年,大模型技术和具身智能赛道似乎已迈入了加速前进的通道。Tesla 发布的 Optimus 能够实施极其灵巧的柔性操作,并计划通过租用形式开始提供服务;
Stanford 的 Mobile ALOHA 机器人能够独立完成炒虾任务,并在实现一些固定任务的泛化;
宇树科技推出了 9.9 万的机器人标志着人形机器人进入十万以内的售价。OpenAI 重启机器人团队,Figure 计划进行大规模数据采集......
海淀区发布打造全国具身智能创新高地三年行动方案,北京人形机器人创新中心(亦庄)等各地具身智能中心正在引入更多人才和力量。
大厂传组建具身部门,初创公司融资如火如荼,但又因为应用场景不明存在争议。各个产业地方联盟都在希望成立统一的数据集,规范数据采集......
作为一个系统性的工程,相比原来人们常说的“汽车制造,是现代工业皇冠上的明珠”我们更愿意称“具身智能机器人是未来计算机科学和工业界皇冠上的明珠”。
由于涉及算法层,不同技术流派,数据,模拟器,传感器,视觉方案,力学结构等多个维度。并整体向着更鲁棒性,各层级之间过渡更加平滑的方向前进。
因此我们做了一些梳理,包括过往的工作,和一些基础知识。希望可以抛砖引玉让大家对这个复杂的系统工程多一些了解。
我们也注意到许多矛盾,比如力矩控制、电流控制,究竟做到哪一步才算端到端?
机器人的 foundation model 或者 GPT 时刻会是什么样的?触觉等感知信号究竟以什么样的形式进入模型当中。这些问题我们愿意与更多学者和从业者讨论交流。
同样, Z 计划 一直关注具身创业项目,并坚信未来大语言模型不仅仅像现在这样执行语言交互和上层推理,以及 VLM 能力,而是 Transformer 架构在内存等前提下可以跑更多的上层推理,从而趋近图灵完备。
希望我们可以与更多优秀的具身创业团队同行。了解
本次分享将拆分为“上”/“下”两篇:本篇(即“上”篇)将关注于具身智能的核心概念介绍与算法层细节;“下”篇将关注于具身智能相关的模拟器和硬件实现。
目录 建议结合要点进行针对性阅读 。 👇
一、具身智能概论
1、定义
2、历史
3、构成
二、具身智能算法层
1、技术层级
2、具身智能组件
3、具身智能方案
4、算法层Summary
#1. 具身智能概论
1、 定义
具身智能是指一种能够与其环境进行交互并在环境中执行任务的智能体。 它不仅依赖于数据集的静态输入,还能在三维环境中移动、导航、操纵和改变周围的环境。
这种智能体通过与环境的动态交互来学习和理解世界,从而能够执行复杂的任务。 具身智能强调的是智能体与环境的交互/学习/改变 ,而不仅仅是身体本身。
这种交互性为智能体提供了一种新的、更好的了解世界的方式, 从而实现更高层次的智慧和能力。
具身智能不需要必须是人形,只要具备可以感知环境且与环境进行交互的物理实体就行。 但是,人形机器人在许多方面具备相当的优势:
效仿自然进化的高效设计: 人类的身体结构和功能经过长期进化,具有高效的感知和运动能力。
比如,四只手的协作控制相当复杂,且意义不大,两只手的设计足够应对复杂难题;人类的两只眼睛是感知世界性价比最高的选择,一只眼睛没有立体视,三只眼睛又没必要。
适应现有环境: 人类设计的环境和工具都是为人类使用而设计的,人形机器人可以更好地适应和操作这些环境和工具。人形机器人在家居等服务场景具备显著优势。
增强人机交互的自然性和接受度: 人形机器人在某些场景中提供更好的伦理和心理舒适度,并且在安全性方面具有优势。
数据的可获得性: 数据的极度匮乏制约了机器人的发展,人形机器人的数据相对更容易获得。可以让人类穿戴传感器进行正常的生活与工作,在这个过程中收集相关数据。
2024 北京智源大会,张亚勤院士认为无人驾驶可能会成为第一个真正实现具身智能或物理智能的 AGI,而时间节点就在明年。他说,“无人驾驶要变成主流、通过新图灵测试,需要是好司机,也需要是老司机。我认为明年会实现。”而这一进展如果实现,将加速人工智能技术在实际场景中的落地应用。
【智谱清言智能 体推荐】了解更多关于具身智能,点击互动👇