机器之心pro · 会员通讯 week 05
---- 本周为您解读 ③个值得细品的 ai & robotics 业内要事 ----
1. foundation agent 是下一个 ai 前沿还是「吹水」?
foundation agent 是什么新兴概念?相比于以往的各类 agent 有哪些关键特点?foundation agent 和 foundation model 到底是不是一个东西?...
2. robot transformers 是什么 transformer?
为何要关注 robot transformer?什么是 robot transformer?robot transformers 都有哪些工作?这些工作分别解锁了什么价值?...
3. 多模态大型语言模型综述:理清多模态关键技术
mm-llm 近期的研究方向如何?mm-llm 模型的核心架构是什么?26 个最佳 mm-llm 都有哪些特点?...
...本期完整版通讯含 3 项专题解读 29 项本周 ai & robotics 赛道要事速递,其中技术方面 项,国内方面 项,国外方面 项...
本期通讯总计 21427 字,可免费试读至 12 %
消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元)
要事解读 ①foundation agent 是下一个 ai 前沿还是「吹水」?
日期:1 月 24 日
事件:近日,英伟达高级科学家 jim fan 在一场演讲中提出「foundation agent(基础智能体)」概念,jim fan 认为「foundation agent」将是下一个 ai 前沿,会从根本上改变我们的生活。
先来了解下 foundation agent 是什么?
1、英伟达高级科学家 jim fan 在演讲中提出「foundation agent」这一概念。jim fan 认为,「foundation agent」是一个可以在虚拟世界和现实世界里泛化的通用智能体模型。「foundation agent」能跨越虚拟与现实世界的界限,核心是创建一个能够在虚拟和现实世界中无缝运作的 ai 模型。该技术可以在视频游戏、元宇宙、无人机和人形机器人等领域发挥重要作用,使单一模型能够在这些不同环境中掌握多种技能。
2、jim fan 认为,「foundation agent」应该在以下 3 个维度上进行扩展:
① 技能:能解决的任务数量;
② 具身:能控制的身体形态的多样性;
③ 现实:智能体能掌握的虚拟或物理空间的数量,包括有不同规则的游戏、模拟和真实世界场景。
3、jim fan 以坐标轴举例,在 embodiment、skill、reality 三个轴上进行泛化的单一智能体,起点是 alphago,最终目标则是「foundation agent」。
foundation agent 有哪些关键特点?与以往的各类 agent 相比有没有区别?[1] [2] [3]
1、jim fan 认为,基础智能体的训练将与 chatgpt 非常相似,任何语言任务均可以表达为文本输入和文本输出。
2、「foundation agent」包括三方面的能力:
① 具备海量的常识知识和技能,可以完成任何一个领域的基础任务;
② 没有固定的物理躯体形态,可以根据不同的任务,无障碍的控制不同形态的「身体」。
③ 可以在不同的时空和规则下完成任务,目前的理解就是既可以完成现实中的任务,也可以胜任网络中虚拟世界的角色。
3、「foundation agent」关键点在于需要有跨环境操作能力。foundation agent 的目标是开发一个能够广泛适用于各种环境的 ai 智能体,需要同一个模型可以在视频游戏、元宇宙、无人机和人形机器人等多种不同的应用场景中运作,而无需为每个场景单独设计和训练 ai 模型。
4、单从定义上来看,首先,「foundation agent」作为一种智能体,与以往通用意义上的 ai agent 定义存在一定的偏差,侧重点不同。
① 「foundation agent」强调的是,可以在虚拟世界和现实世界里泛化的通用智能体模型。
② 在综述论文《agent ai: surveying the horizons of multimodal interaction》中,给出的定义为「ai agent 作为一类能够感知视觉刺激、语言输入和其他以环境为基础的数据,并能生成具有无尽智能体的有意义的实体行动的交互系统。」
③ 在综述论文《the rise and potential of large language model based agents: a survey 》中,定义则更为简洁,「ai agent 是能够感知环境、做出决策并采取行动的人工实体」。
5、其次,ai agent 也分为不同的类型,总结来看,包括以下几种:
① 通用智能体(generalist agents):这类智能体对许多任务都非常有用,特别是在大型基础模型和交互式 ai 领域的最新进展下;为了使通用智能体真正对用户有价值,必须易于交互,并能广泛适应不同的上下文和模态。
② 具体化智能体(embodied agents):这类智能体在物理或虚拟环境中具有实体表现形式;能够处理和解释视觉和上下文数据,这对于创建更复杂和具有上下文意识的 ai 系统至关重要。
③ 行动智能体(action agents):这类智能体专注于执行特定的动作或任务;通常在受限的环境中进行用户行为预测和任务规划。
④ 交互智能体(interactive agents):这类智能体能够与用户进行交互,例如提供聊天伴侣或客户支持服务;能够结合知识反馈,以提供更丰富的交互体验。
⑤ 模拟和环境智能体(simulation and environments agents):这类智能体在模拟环境中操作,能够进行视觉导航、环境重排列等任务。
⑥ 生成智能体(generative agents):这类智能体能够生成新的内容或数据,例如在增强现实/虚拟现实/混合现实环境中的应用。
⑦ 知识和逻辑推理智能体(knowledge and logical inference agents):这类智能体专注于使用知识和逻辑进行推理,包括情感推理和神经符号推理。
⑧ 基于大型语言模型和视觉语言模型的智能体(llms and vlms agent):这类智能体利用大型预训练语言模型和视觉语言模型,能够在各种环境中执行复杂的动作和任务。
6、同时,针对「foundation agent」提出的在技能、具身、现实维度提出的 3 个能力设想,此前也有相关的研究工作提出。
1)在综述论文《agent ai: surveying the horizons of multimodal interaction》中,研究者提到了多模态智能体 ai(multimodal agent ai: maa),是一种基于理解多模态感知输入在特定环境中生成有效行为的系统。
① 研究者们着眼于通过整合外部知识、多感官输入和人类反馈来改善智能体的系统,基于此提供下一步的实体行动预测。
② 研究者们认为,通过在实际环境中开发 ai agent 系统,可以减少大型基础模型的产生错误输出的倾向。除了智能体在物理世界中行动和互动外,人们可以轻松地创造任何虚拟现实或模拟场景,并与嵌入在虚拟环境中的智能体互动是一个趋势。
③ 研究者们开发了一个无限智能体,能够从通用基础模型(如 gpt-x,dall-e)中传递记忆信息到新的领域或情境,以理解、生成以及在物理或虚拟世界提供交互编辑。
2)针对虚拟、现实环境的转变,论文《agent ai: surveying the horizons of multimodal interaction》总结了当前的技术情况。
① 基于 rl 策略的具体化智能体通常在模拟环境中训练,这些模拟并不能完全复制现实世界的特性(例如,干扰、光线、重力和其他物理属性)。
② 由于模拟与现实之间的差异,模拟中训练的模型在应用于现实世界时常常难以表现良好。这个问题被称为「从模拟到现实」的问题。目前,解决该问题的方法包括领域随机化、领域适应、模拟的改进等。
3)论文《agent ai: surveying the horizons of multimodal interaction》,提出了「agent transformer」的概念,即定义为能够感知、解释和以有意义的方式与环境互动的 ai 系统,旨在处理和理解多模态数据,包括视觉刺激、语言输入和其他环境相关数据。
① 研究者们不再仅使用冻结的 llms 和 vlms(语言和视觉模型),尝试采用一个综合的转换模型,可以接受视觉令牌和语言令牌作为输入,同时模型的输入还增加了第三种类型「代理令牌」,代理令牌被用来在模型的输入和输出空间中保留一个特定的子空间,用以展示代理行为。
② 研究者们提出的「agent transformer」不再是连接冻结的子模块和使用存在的基础模型作为构建块,而是为代理系统提出了一个统一的、端到端的训练范式。
③ 「agent transformer」的关键优势在于能够减轻大型基础模型的局限性,如产生幻觉或环境错误输出。通过植根于现实世界环境,agent transformer 可以提供更准确、更具上下文意识的响应和行动。
foundation agent 和 foundation model 到底是不是就是一个东西 ?[4] -[6]
1、「foundation model」概念最早于 2021 年由斯坦福人工智能中心提出,是指「在广泛数据上训练的模型,可以适应广泛的下游任务。
2、目前业内提及 「foundation model」 时,大多指经过预训练的语言及多模态模型。这类能够完成一系列可能的任务和应用,如文本、图像或音频生成,可以是独立系统,也可以作为许多其他应用的「基础」。例如,openai 的 gpt-3 和 gpt-4 是支撑对话式聊天代理 chatgpt 的基础模型。
金沙娱场城app copyright © 2024 金沙娱场城app-老版金沙app下载客户手机端 北京智识时代科技有限公司 金沙娱场城app的版权所有