foundation agent 是下一个 ai 前沿还是「吹水」？ -金沙娱场城app

作者：机器之能发布时间：2024-02-03

chatgpt

机器之心pro · 会员通讯 week 05

---- 本周为您解读 ③个值得细品的 ai & robotics 业内要事 ----

1. foundation agent 是下一个 ai 前沿还是「吹水」？

foundation agent 是什么新兴概念？相比于以往的各类 agent 有哪些关键特点？foundation agent 和 foundation model 到底是不是一个东西？...

2. robot transformers 是什么 transformer？

为何要关注 robot transformer？什么是 robot transformer？robot transformers 都有哪些工作？这些工作分别解锁了什么价值？...

3. 多模态大型语言模型综述：理清多模态关键技术

mm-llm 近期的研究方向如何？mm-llm 模型的核心架构是什么？26 个最佳 mm-llm 都有哪些特点？...

...本期完整版通讯含 3 项专题解读 29 项本周 ai & robotics 赛道要事速递，其中技术方面项，国内方面项，国外方面项...

本期通讯总计 21427 字，可免费试读至 12 %

消耗 99 微信豆即可兑换完整本期解读（约合人民币 9.9 元）

要事解读 ①foundation agent 是下一个 ai 前沿还是「吹水」？

日期：1 月 24 日

事件：近日，英伟达高级科学家 jim fan 在一场演讲中提出「foundation agent（基础智能体）」概念，jim fan 认为「foundation agent」将是下一个 ai 前沿，会从根本上改变我们的生活。

先来了解下 foundation agent 是什么？

1、英伟达高级科学家 jim fan 在演讲中提出「foundation agent」这一概念。jim fan 认为，「foundation agent」是一个可以在虚拟世界和现实世界里泛化的通用智能体模型。「foundation agent」能跨越虚拟与现实世界的界限，核心是创建一个能够在虚拟和现实世界中无缝运作的 ai 模型。该技术可以在视频游戏、元宇宙、无人机和人形机器人等领域发挥重要作用，使单一模型能够在这些不同环境中掌握多种技能。

2、jim fan 认为，「foundation agent」应该在以下 3 个维度上进行扩展：

① 技能：能解决的任务数量；

② 具身：能控制的身体形态的多样性；

③ 现实：智能体能掌握的虚拟或物理空间的数量，包括有不同规则的游戏、模拟和真实世界场景。

3、jim fan 以坐标轴举例，在 embodiment、skill、reality 三个轴上进行泛化的单一智能体，起点是 alphago，最终目标则是「foundation agent」。

foundation agent 有哪些关键特点？与以往的各类 agent 相比有没有区别？[1] [2] [3]

1、jim fan 认为，基础智能体的训练将与 chatgpt 非常相似，任何语言任务均可以表达为文本输入和文本输出。

2、「foundation agent」包括三方面的能力：

① 具备海量的常识知识和技能，可以完成任何一个领域的基础任务；

② 没有固定的物理躯体形态，可以根据不同的任务，无障碍的控制不同形态的「身体」。

③ 可以在不同的时空和规则下完成任务，目前的理解就是既可以完成现实中的任务，也可以胜任网络中虚拟世界的角色。

3、「foundation agent」关键点在于需要有跨环境操作能力。foundation agent 的目标是开发一个能够广泛适用于各种环境的 ai 智能体，需要同一个模型可以在视频游戏、元宇宙、无人机和人形机器人等多种不同的应用场景中运作，而无需为每个场景单独设计和训练 ai 模型。

4、单从定义上来看，首先，「foundation agent」作为一种智能体，与以往通用意义上的 ai agent 定义存在一定的偏差，侧重点不同。

① 「foundation agent」强调的是，可以在虚拟世界和现实世界里泛化的通用智能体模型。

② 在综述论文《agent ai: surveying the horizons of multimodal interaction》中，给出的定义为「ai agent 作为一类能够感知视觉刺激、语言输入和其他以环境为基础的数据，并能生成具有无尽智能体的有意义的实体行动的交互系统。」

③ 在综述论文《the rise and potential of large language model based agents: a survey 》中，定义则更为简洁，「ai agent 是能够感知环境、做出决策并采取行动的人工实体」。

5、其次，ai agent 也分为不同的类型，总结来看，包括以下几种：

① 通用智能体（generalist agents）：这类智能体对许多任务都非常有用，特别是在大型基础模型和交互式 ai 领域的最新进展下；为了使通用智能体真正对用户有价值，必须易于交互，并能广泛适应不同的上下文和模态。

② 具体化智能体（embodied agents）：这类智能体在物理或虚拟环境中具有实体表现形式；能够处理和解释视觉和上下文数据，这对于创建更复杂和具有上下文意识的 ai 系统至关重要。

③ 行动智能体（action agents）：这类智能体专注于执行特定的动作或任务；通常在受限的环境中进行用户行为预测和任务规划。

④ 交互智能体（interactive agents）：这类智能体能够与用户进行交互，例如提供聊天伴侣或客户支持服务；能够结合知识反馈，以提供更丰富的交互体验。

⑤ 模拟和环境智能体（simulation and environments agents）：这类智能体在模拟环境中操作，能够进行视觉导航、环境重排列等任务。

⑥ 生成智能体（generative agents）：这类智能体能够生成新的内容或数据，例如在增强现实/虚拟现实/混合现实环境中的应用。

⑦ 知识和逻辑推理智能体（knowledge and logical inference agents）：这类智能体专注于使用知识和逻辑进行推理，包括情感推理和神经符号推理。

⑧ 基于大型语言模型和视觉语言模型的智能体（llms and vlms agent）：这类智能体利用大型预训练语言模型和视觉语言模型，能够在各种环境中执行复杂的动作和任务。

6、同时，针对「foundation agent」提出的在技能、具身、现实维度提出的 3 个能力设想，此前也有相关的研究工作提出。

1）在综述论文《agent ai: surveying the horizons of multimodal interaction》中，研究者提到了多模态智能体 ai（multimodal agent ai: maa），是一种基于理解多模态感知输入在特定环境中生成有效行为的系统。

① 研究者们着眼于通过整合外部知识、多感官输入和人类反馈来改善智能体的系统，基于此提供下一步的实体行动预测。

② 研究者们认为，通过在实际环境中开发 ai agent 系统，可以减少大型基础模型的产生错误输出的倾向。除了智能体在物理世界中行动和互动外，人们可以轻松地创造任何虚拟现实或模拟场景，并与嵌入在虚拟环境中的智能体互动是一个趋势。

③ 研究者们开发了一个无限智能体，能够从通用基础模型（如 gpt-x，dall-e）中传递记忆信息到新的领域或情境，以理解、生成以及在物理或虚拟世界提供交互编辑。

2）针对虚拟、现实环境的转变，论文《agent ai: surveying the horizons of multimodal interaction》总结了当前的技术情况。

① 基于 rl 策略的具体化智能体通常在模拟环境中训练，这些模拟并不能完全复制现实世界的特性（例如，干扰、光线、重力和其他物理属性）。

② 由于模拟与现实之间的差异，模拟中训练的模型在应用于现实世界时常常难以表现良好。这个问题被称为「从模拟到现实」的问题。目前，解决该问题的方法包括领域随机化、领域适应、模拟的改进等。

3）论文《agent ai: surveying the horizons of multimodal interaction》，提出了「agent transformer」的概念，即定义为能够感知、解释和以有意义的方式与环境互动的 ai 系统，旨在处理和理解多模态数据，包括视觉刺激、语言输入和其他环境相关数据。

① 研究者们不再仅使用冻结的 llms 和 vlms（语言和视觉模型），尝试采用一个综合的转换模型，可以接受视觉令牌和语言令牌作为输入，同时模型的输入还增加了第三种类型「代理令牌」，代理令牌被用来在模型的输入和输出空间中保留一个特定的子空间，用以展示代理行为。

② 研究者们提出的「agent transformer」不再是连接冻结的子模块和使用存在的基础模型作为构建块，而是为代理系统提出了一个统一的、端到端的训练范式。

③ 「agent transformer」的关键优势在于能够减轻大型基础模型的局限性，如产生幻觉或环境错误输出。通过植根于现实世界环境，agent transformer 可以提供更准确、更具上下文意识的响应和行动。

foundation agent 和 foundation model 到底是不是就是一个东西？[4] -[6]

1、「foundation model」概念最早于 2021 年由斯坦福人工智能中心提出，是指「在广泛数据上训练的模型，可以适应广泛的下游任务。

2、目前业内提及「foundation model」时，大多指经过预训练的语言及多模态模型。这类能够完成一系列可能的任务和应用，如文本、图像或音频生成，可以是独立系统，也可以作为许多其他应用的「基础」。例如，openai 的 gpt-3 和 gpt-4 是支撑对话式聊天代理 chatgpt 的基础模型。