深度一文带你读懂“具身智能”_媒体中心

深度一文带你读懂“具身智能”

时间: 2024-02-21 04:30:20 | 作者: 媒体中心

具身智能作为AI发展的一个重要分支，正在成为科技界和大众关注的热门。

2023年，是大模型占据科技热门话题榜单绝对C位的一年。继ChatGPT之后，又一个大模型概念爆火，它就是具身智能（Embodied AI）。

2000年图灵奖获得者、中国科学院院士姚期智认为，AI领域下一个挑战将是实现“具身通用AI”；科技部副部长、中国科学院院士吴朝晖在2023中关村论坛上表示：以ChatGPT为代表的自然语言大模型并不是AI大模型的最终形态，比它更高级的是多模态的具身智能。他的观点与英伟达首席执行官黄仁勋相仿，后者今年在一次演讲中预测：人工智能的下一波浪潮是具身智能。其描述的“具身人工智能”是能够理解、推理并与物理世界互动的智能系统，包括机器人技术、无人驾驶汽车，甚至是聊天机器人，它们会更聪明，因为它们能了解物理世界。

今年以来，我们大家可以看到的是，具身智能作为AI发展的一个重要分支，正在成为广泛关注的热门，一时之间，具身智能机器人也成为了科技界的新风向标。那么到底什么是具身智能？

据CCF专家定义，具身智能是指一种基于物理身体进行感知和行动的智能系统，其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动，由此产生智能行为和适应性。

具身智能拥有支持感知和运动的物理身体，能够直接进行主动式感知，也可以执行物理任务。更重要的是，具身智能强调“感知-行动回路”的重要性，即感受世界—对世界进行建模—进而采取行动—做验证并调整模型的过程；这一过程正是“纸上得来终觉浅，绝知此事要躬行”，与我们人类的学习和认知过程一致。虽然在现今技术条件下通过与环境的互动以第一视角得到的数据不够稳定，但这种类似于人类自我中心感知的学习，从视觉、语言和推理到一个人工具象，能够在一定程度上帮助解决更多现实世界中的问题。具身智能相比上一代传统AI视觉机器人，更具有泛化性，适合重交互性、可自适应的场景。

所谓具身智能机器人，即具有主动性的第一人称智能，其本质上是可与环境交互感知，能自主规划、决策、行动，具有执行能力的机器人。其核心目标是能够听到人类语言，然后分解任务，规划子任务，在移动中识别物体，与环境交互，最终完成相应任务。

具身智能的本质是智能体具备和环境交互感知能力，以及基于感知到的任务和环境进行自主规划-决策-行动-执行等一系列行为的能力。我们判断，未来的机器人需要实际做到和人一样，通过实现规划决策（大脑）、运动控制（小脑）、主控系统、主干结构及零部件的组合（类似于人的一系列关节和肌肉）达成这一目标。

具身智能的思想萌芽于人工智能诞生之初。1950年，图灵在其为人工智能奠基、提出图灵测试的经典论文《Computing Machinery and Intelligence》的结尾展望了人工智能可能的两条发展道路：一条路是聚焦抽象计算（比如下棋）所需的智能，另一条路则是为机器配备最好的传感器、使其可以与人类交流、像婴儿一样地进行学习。这两条道路便逐渐演变成了非具身和具身智能。

在具身智能的发展道路上，人们思考和探讨AI系统要不要拥有与人类相似的身体和感知能力，以及身体怎么样影响智能和认知。早期的具身智能研究大多分布在在机器人学和仿生学领域，逐渐发展并融合了跨学科的方法和技术。近年来，随着深度学习等技术的加快速度进行发展，具身智能研究进入了一个新的阶段。研究人员利用虚拟物理环境和强大的计算能力，设计和训练具备感知和行动能力的智能系统，并将这种交互能力迁移到真实世界、使智能体进行自主决策和执行物理交互任务。

目前，微软、谷歌、英伟达以及斯坦福、卡耐基梅隆等高等学府均开展了具身智能的相关研究。其中斯坦福AI实验室主任李飞飞认为，具身智能不单单指人形机器人，任何能在空间中移动的有形智能机器都是人工智能的一种形式。

姚期智在“2023世界机器人大会”上表示，“具身AGI最理想身体的形式应该就是人形机器人。人类的社会环境主要是为人类定制，比如说楼梯的结构、门把手的高度、被子的形状等等。如果我们也可以打造一个有泛应用的通用机器人，人形是最适合的形态，人形机器人能适应人类的各种各样的环境。”

业内专家觉得，生成式AI与人形机器人融合，可以开启“具身智能”时代。智元机器人彭志辉也表示，具身智能即将为通用机器人补全最后一块拼图。

在国内，2022年，小米发布了首款“全尺寸人形仿生机器人”CyberOne。在2023世界机器人大会期间，星动纪元、宇树科技、智元机器人等企业对外发布了人形机器人。在10月24日科大讯飞开发者大会上，业界首个大模型+具身智能的人形机器人也在现场亮相。

以GPT为典型的预训练大模型多模态，为AI的交互能力带来革命性潜力，AI赋能实体设备实现“具身智能”引起全球期待，“具身智能”的机器人与人类的交流将不再是机械式的“查字典式问答”，而是结合个性化沟通、任务理解、交互、规划和实体执行的新局面。

现在的AI，思想方面颇为“成熟”，具身智能已经给它提供了一个能够正常的使用的躯体。而人形机器人正是通用AI“具身化”的载体。随技术和产业高质量发展，装有AI大模型“大脑”、运动能力很强的人形机器人有望从事多种工作，包括家政服务、养老陪护、教育、医疗、设施巡检、抢险救灾等。

作为AI具身智能的下一代本体，通用人形机器人有望引领AI进入“具身智能”时代，同时也将推动专用机器人向通用机器人方向发展。具身智能把人工智能技术与机器人实体相结合，让“大脑”有了可支配、可感知、可交互、可行动的“身体”，作为人类的重要伙伴和助手，带来非常大便利和效益。

姚期智指出，目前具身机器人遇到的主要挑战有：第一，机器人不能够像大语言模型一样有一个基础大模型直接一步到位，做到最底层的控制。第二，计算能力的挑战。即使谷歌研发的Robotics Transformer模型，要做到机器人控制，距离实际需要的控制水平仍有许多事情要做。第三，如何把机器人多模态的感官感知全部融合起来，仍面临诸多难题要解决。第四，机器人的发展需要收集很多数据，其中也面临很多安全隐私等方面的问题。

11月2日，工业与信息化部印发《人形机器人创新发展指导意见》（简称《指导意见》），以推动人形机器人产业高水平质量的发展，高水平赋能新型工业化，有力支撑现代化产业体系建设。政策支持将加快中国人形机器人产业研发和落地，人形机器人产业化可期，是未来成长大赛道。