浙江大学学报(工学版), 2025, 59(2): 213-226 doi: 10.3785/j.issn.1008-973X.2025.02.001

计算机技术

基座模型技术背景下的具身智能体综述

李颂元,, 朱祥维, 李玺,

1. 中山大学 电子与通信工程学院,广东 深圳 518107

2. 浙江大学 计算机科学与技术学院,浙江 杭州 310058

Survey of embodied agent in context of foundation model

LI Songyuan,, ZHU Xiangwei, LI Xi,

1. School of Electronics and Communication Engineering, Sun Yat-sen University, Shenzhen 518107, China

2. College of Computer Science and Technology, Zhejiang University, Hangzhou 310058, China

通讯作者: 李玺,男,教授. orcid.org/0000-0003-3947-4011. E-mail: xilizju@zju.edu.cn

收稿日期: 2024-03-24  

基金资助: 国家自然科学基金资助项目(T2350005).

Received: 2024-03-24  

Fund supported: 国家自然科学基金资助项目(T2350005).

作者简介 About authors

李颂元(1989—),男,博士后,从事人工智能的研究.orcid.org/0000-0003-4052-1006.E-mail:lisy287@mail.sysu.edu.cn , E-mail:lisy287@mail.sysu.edu.cn

摘要

近年来,虽然自然语言处理、计算机视觉、多模态学习等领域的基座模型取得了突破性的进展,展现出了通用人工智能的潜力,但它们在因果推理和物理常识理解方面的表现远不及人类或动物. 这是因为这些模型主要依赖于大量的数据和计算能力,缺乏与现实世界的直接互动和经验积累. 许多研究者开始质疑,单纯通过增加模型规模是否足以克服这些根本性的问题. 这促使学界重新审视智能的本质,认为智能不仅是计算能力的提升,更是源于与环境的互动. 具身智能正逐渐受到人工智能领域的关注,因为它强调智能体通过与物理世界的直接互动,学习和适应环境,展现出更接近生物智能的特性. 结合基座模型的技术背景,对具身人工智能进行全面的调研. 讨论当前具身智能体背后的技术思想、测试基准及应用. 对未来具身人工智能的趋势和挑战进行前瞻性的分析.

关键词: 具身智能 ; 多模态学习 ; 基座模型 ; 强化学习

Abstract

Foundational models in natural language processing, computer vision and multimodal learning have achieved significant breakthroughs in recent years, showcasing the potential of general artificial intelligence. However, these models still fall short of human or animal intelligence in areas such as causal reasoning and understanding physical commonsense. This is because these models primarily rely on vast amounts of data and computational power, lacking direct interaction with and experiential learning from the real world. Many researchers are beginning to question whether merely scaling up model size is sufficient to address these fundamental issues. This has led the academic community to reevaluate the nature of intelligence, suggesting that intelligence arises not just from enhanced computational capabilities but from interactions with the environment. Embodied intelligence is gaining attention as it emphasizes that intelligent agents learn and adapt through direct interactions with the physical world, exhibiting characteristics closer to biological intelligence. A comprehensive survey of embodied artificial intelligence was provided in the context of foundational models. The underlying technical ideas, benchmarks, and applications of current embodied agents were discussed. A forward-looking analysis of future trends and challenges in embodied AI was offered.

Keywords: embodied intelligence ; multimodal learning ; foundation model ; reinforcement learning

PDF (841KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

李颂元, 朱祥维, 李玺. 基座模型技术背景下的具身智能体综述. 浙江大学学报(工学版)[J], 2025, 59(2): 213-226 doi:10.3785/j.issn.1008-973X.2025.02.001

LI Songyuan, ZHU Xiangwei, LI Xi. Survey of embodied agent in context of foundation model. Journal of Zhejiang University(Engineering Science)[J], 2025, 59(2): 213-226 doi:10.3785/j.issn.1008-973X.2025.02.001

“从哪种方法着手[人工智能]是最好的?这是一个困难的决定. 一些人认为,从抽象的活动,如下棋开始,可能是最佳路径. 而另一些人则认为,最好的方式是为机器装备顶级的传感器,然后教会它听说英语,这一过程类似于对一个小孩子进行教育,通过指向物体并告诉它们的名称来学习. 我不确定哪一种方法是正确的,但我相信这两种方法都应该尝试. ”——阿兰·图灵[1]

早在1950年,人工智能之父阿兰·图灵[1]指出人工智能的发展存在着2条技术路线,分别被后人称作“无身的”(disembodied)和“具身的”(embodied)智能(以下简称“无身智能”和“具身智能”). 纵观人工智能的发展史,无身智能(如自然语言处理、计算机视觉)占据了主导地位,这是因为开发无身智能相对容易,无须构建复杂的物理身体.

近年来,无身的基座模型[2]在自然语言处理和计算机视觉领域取得了显著成就,引发了学术界和产业界的广泛关注. 基座模型(foundation models),通称大模型,通常先从互联网抓取的海量数据中学习通用的表征,再通过微调(fine-tuning)[3]或提示词工程(prompt engineering)[4-5],在极少量甚至没有下游任务数据的情况下迁移到下游任务. 基座模型能够涌现出执行训练时未见过的任务的能力,这种能力被广泛认为是通用人工智能的重要标志. 现在出现了一种趋势:完成特定任务的最有效的方式是迁移通用模型,而非训练定制模型[6].

尽管基座模型涌现出了通用人工智能的火花[7],但越来越多的证据表明,它们在因果推理及物理世界的常识方面的表现远低于智能生物的水平[8-9]. 当前的智能其实是“互联网智能”,缺少物理世界的生活经验,而真正的智能需要与物理世界互动,将自身的知识与物理世界建立起联系[10-11]. 这是图灵提出的人工智能的另一个方向,现在被称作具身智能(embodied intelligence). 它在图灵的时代是难以实现的,但随着基座模型的出现和传感器与执行器的进步,发展具身智能的时机已经成熟.

本文聚焦于基座模型技术背景下的具身智能体,即具身的基座模型. 这类模型也被称为基座智能体(foundation agent),它们能够利用基座模型技术思想带来的通用任务泛化能力,具身地参与到现实世界中,学习物理世界的经验,而不是简单地将无身的基座模型部署到有物理身体的机器上. 与无身智能相比,具身智能体存在数据资源匮乏、仿真环境到现实环境的迁移难题、多具身通用性要求以及轻量级部署等诸多方面的挑战.

1. 基座模型及具身认知概述

1.1. 基座模型

Bommasani等[2]引入 “基座模型”这一术语,以标识机器学习领域的一次范式转变. 这类模型指的是通用的、大规模的预训练模型,它们通常基于Transformer架构[12],通过自监督学习的方法(self-supervised learning)[13-14]进行预训练. Transformer架构具有规模化定律(scaling law),即模型可以增大至极大的规模,性能仍有增长[15]. 自监督学习,如自回归语言建模(autoregressive language modeling)[4,16-17]、遮罩自编码(mask autoencoding)[3,18]和对比学习(contrastive learning)[5,19],通过定义输入的一部分为预测目标,利用海量的未标注数据训练出模型强大的表征能力. 这些通过自监督学习训练出的大型模型能够适用于各种任务,特别是能够泛化到训练时未见的任务,在自然语言处理、计算机视觉、多模态学习等多个领域取得了成功.

基座模型是在自然语言处理(natural language processing, NLP)领域出现的,以BERT[3]和GPT[16]为代表. BERT采用遮罩自编码的方式,遮盖了大约15%的输入序列,使得模型预测被遮盖的词元(token),训练出通用的特征表示. 与BERT不同,GPT以自回归的方式预测输入序列中的下一个词元. 利用这2种方式训练出来的模型在自然语言处理领域实现了突破,激发了大型语言模型(large language models, LLMs)的研究热潮[20-24]. 如表1所示为代表性的大型语言模型的规模比较.

表 1   大型语言模型的规模比较

Tab.1  Scale comparison of large language model

大型语言模型参数量
BERT[3]1.10×108/3.40×108
GPT[16]1.17×108
GPT-2[17]1.5×109
GPT-3[4]1.75×1011
PaLM[21]8×109/6.2×1010/5.40×1011
LLaMA[23]7×109/1.3×1010/3.3×1010/6.5×1010
LLaMA 2[24]7×109/1.3×1010/7.0×1010

新窗口打开| 下载CSV


受到自然语言处理成功的启发,大规模样本预训练的思想已扩展到计算机视觉领域. 与语言信号相比,视觉信号的维度更高,空间冗余性更大,需要更有效的特征表示方法. 这一需求催生了对比学习(contrastive learning)的引入,通过最大化正样本对的相似度和最小化负样本对的相似度来学习有效的特征表示[19,25-26]. 视觉Transformer[27](ViT)的引入,使得同时对视觉和语言2种模态基于Transformer进行建模成为可能. 得益于对比学习和视觉Transformer的结合,出现了多模态的视觉-语言模型,从自然语言和视觉的监督信号中学习多模态的表征[5,28]. 最近,文献中公开参数数据的多模态模型发展到了百亿级别的参数规模[29-30]. 借助视觉Transformer,遮罩自编码器(masked autoencoder, MAE)[18]在计算机视觉中获得了与自然语言处理中的遮罩自编码[3]相仿的结果,推动了视觉基座模型的成功[31-32].

到目前为止,笔者所讨论的基座模型,无论是语言的、视觉的还是多模态的,都是无身的模型. 将基座模型的范式扩展到具身智能领域是自然而富有挑战性的任务,因为它涉及环境、实体和应用的多样性和复杂性. 本文的调研部分将聚焦于具身的基座模型的最新进展.

1.2. 具身认知

具身智能中的“具身”源于认知科学的具身认知(embodied cognition)领域,它认为智能是在与环境的感知运动的行动中显现出来的[12,33]. 具身认知领域同样关注语言和视觉的理解. 下面,从语言和视觉2个方面,回顾具身认知领域的发展.

长期以来,机器能否真正理解人类语言一直是热门的讨论话题. 图灵提出模仿游戏(即图灵测试),判断是否能够通过书面对话将机器与人类区分开来[1]. 研究表明,人类倾向于将自己所理解的含义投射到人工智能体所产生的输出上,以为人工智能体像人类一样“理解”了语言,需要谨慎设计评估机器理解能力的测试[34]. 为此,Searle通过他著名的“中文房间论证”(Chinese room argument)挑战了这样一个假设:一个与人类行为无法区分的系统必须拥有心智[35]. 在中文房间里,一个不懂中文的人仅通过遵循一套指令就能对中文请求作出回应,这表明机器可能仅仅在操作语言的符号而不理解其含义. 这意味着语言的意义不能完全脱离现实世界而单独存在于其形式之中. Harnad将该问题称为符号落地问题(symbol grounding problem)[10],指出一个人仅通过参照中文-中文字典来学习中文是困难的(作为第二语言)甚至不可能的(作为第一语言),这是因为在学习的过程中没有将符号与物理世界联系起来. 最近,针对大型语言模型的出现,Bender等[36]设计了章鱼测试的思想实验,表明仅基于语言的形式训练的大型语言模型,由于缺乏将话语与现实世界联系起来的能力,无法通过更敏感的测试. 这说明尽管大型语言模型在自然语言处理方面取得了巨大进步,但不意味着它们真正具备了自然语言理解的能力. 语言模型要实现真正的情境语言理解,需要具备物理世界和社会背景的知识[37].

具身认知的另一个研究方向是视觉系统. 早期对幼猫的实验表明,视觉能力不是独立发育的,运动对于幼猫的视觉感知的发育至关重要[38]. 在这项实验中,2只幼猫在完全黑暗的环境中成长,之后它们被暴露于相同的视觉刺激中. 他们唯一的不同是一个能够自动运动,另一个被前者牵引着等路程地被动移动. 实验结果表明,只有那只能自主运动的幼猫发育出了正常的视觉感知能力. Gibson[39]进一步提出,视觉不仅仅依赖于眼睛,而是一个具身的过程,与个体在环境中的互动密切相关.

实际上,具身认知科学在广泛的意义上研究行为和心智之间的关系,不仅限于语言和视觉. 许多实验已经证明,认知可以受到身体的影响[40],抽象的认知状态是基于身体状态的[41-42]. 这一理念启发了一部分人工智能科学家们长期致力于具身人工智能[4348]. 最近,随着基座模型的出现和现代传感器及执行器的成熟,具身方向的研究工作重新被人们重视,经典的图灵测试的概念甚至被扩展到所谓的具身图灵测试[8],这反映了评估机器的理解能力正趋于考虑其与环境的物理互动. 这与图灵最初的设想相呼应,他认为机器智能的发展应该包含无形体和有形体的智能探索[1].

2. 具身智能体的技术路线

2.1. 问题定义

具身智能的问题通常被定义为具有本体感知状态的决策问题,本体感知状态表示智能体身体部位的位置和方向. 形式上,$ a $表示动作,$ s $表示本体感知状态,$ o $表示观察,$ x $表示辅助信息. 一般而言,具身智能体在时间步$ t $的函数表示为如下形式:

$ {a}_{t+1},{s}_{t+1}=P\left({\boldsymbol{a}}_{t-T\to t},{\boldsymbol{s}}_{t-T\to t},{\boldsymbol{o}}_{t-T\to t},{\boldsymbol{x}}_{t-T\to t}\right). $
(1)

式中:$ {\boldsymbol{a}}_{t-T\to t} $$ {\boldsymbol{s}}_{t-T\to t} $$ {\boldsymbol{o}}_{t-T\to t} $$ {{\boldsymbol{x}}}_{t-T\to t} $分别为从时间步$ t-T $$ t $的动作序列、本体感知状态序列、观察序列及辅助信息序列,其中$ T $为序列的长度. 辅助信息$ {\boldsymbol{x}}_{t-T\to t} $是可选的,它可以是奖励、目标或任何组合的辅助信息,帮助智能体做出决策. 例如,令$ x $为奖励$ r $,则强化学习的具身智能体的函数如下:

$ {a}_{t+1},{s}_{t+1}=P\left({\boldsymbol{a}}_{t-T\to t},{\boldsymbol{s}}_{t-T\to t},{\boldsymbol{o}}_{t-T\to t},{\boldsymbol{r}}_{t-T\to t}\right). $
(2)

元组$ \left({{\boldsymbol{a}}}_{t-T\to t},{{\boldsymbol{s}}}_{t-T\to t},{{\boldsymbol{o}}}_{t-T\to t},{{\boldsymbol{x}}}_{t-T\to t}\right) $在具身智能中被称为一条轨迹. 若$ {{\boldsymbol{o}}}_{t-T\to t} $ 被定义为视觉观察 $ {{\boldsymbol{v}}}_{t-T\to t} $,且 $ {{\boldsymbol{x}}}_{t-T\to t} $ 作为语言指令 $ {{\boldsymbol{l}}}_{t-T\to t} $,则视觉-语言多模态智能体的函数可以表示为

$ {a}_{t+1},{s}_{t+1}=P\left({{\boldsymbol{a}}}_{t-T\to t},{{\boldsymbol{s}}}_{t-T\to t},{{\boldsymbol{v}}}_{t-T\to t},{{\boldsymbol{l}}}_{t-T\to t}\right). $
(3)

式(3)中的$ s $不表示具身的本体状态信息,而是无身的状态信息,则该智能体退化成传统的强化学习的无身智能体.

2.2. 适用于智能体的 Transformer 架构

Transformer架构[12]已成为现代人工智能研究的核心架构. 它在以下3个关键方面促进了基座模型引发的范式转变. 1)Transformer架构能够捕捉长距离的依赖关系,训练出具有更强大表征能力的模型. 2)Transformer利用了硬件的并行处理能力,能够被扩展到极大的模型规模. 3)Transformer能够作为跨不同模态的统一编码器,例如式(1)中的$ {\boldsymbol{a}}_{t-T\to t} $$ {\boldsymbol{s}}_{t-T\to t} $$ {\boldsymbol{o}}_{t-T\to t} $$ {\boldsymbol{x}}_{t-T\to t} $都可以被词元化(tokenized)并输入到同一个Transformer模型中.

考虑到Transformer在自然语言处理领域的显著成功,将其应用于强化学习领域自然而然地显得极具吸引力. 决策Transformer[49-51]和轨迹Transformer[52]将强化学习问题视作序列建模问题. 它们将轨迹视为状态、行动和奖励的序列,这可以被单元化并输入到Transformer中.

尽管决策Transformer最初被提出时采用了非具身的形式,但它完全可以扩展到具身的应用场景中. 如图1所示为自回归的具身的决策Transformer实例. 决策Transformer的核心思想是将传统的强化学习问题转变为监督学习问题. 这种转变意味着奖励信号是可选的,使得根据这一架构训练出来的智能体既可以是传统意义上的强化学习智能体[53],也可以是不依赖于奖励信号的非强化学习智能体[11,54-55].

图 1

图 1   具身的决策 Transformer

Fig.1   Embodied decision Transformer


与大型语言模型类似,决策Transformer可以以自回归或遮罩自编码的方式预训练.

2.3. 自监督预训练

现代人工智能经历了从监督预训练向自监督预训练的范式转变. 与监督预训练依靠标注好的数据不同,自监督预训练能够利用大量的未标注数据来学习具有通用性的表示. 这种方法使得自监督预训练可以广泛应用于众多的下游任务,并在这些任务上取得先进的性能. 例如,语言模型可以通过自回归或遮罩自编码的方式进行预训练. 在自回归的方式中,模型训练目标是预测给定前文单元序列的下一个单元[4,16-17,20]. 在遮罩自编码的方式中,模型旨在预测在给定的未遮罩的单元序列基础上,那些被遮罩的单元是什么[3]. 这2种自监督预训练方法都利用大量的未标注数据来学习具有广泛适用性的表示,这些表示随后可以通过微调或各种零样本转移技术应用到各种下游任务上. 下面探讨如何将自监督预训练技术应用于具身智能体的场景.

受到自回归的大型预训练语言模型的启发,Reid 等[56]提出以自回归的方式预训练决策Transformer. 与原始决策Transformer相比,收敛速度显著加快. Gato将决策Transformer扩展到通用的具身智能体[54]. Gato的观察序列包括了分词文本、图像、离散值(例如Atari的按钮操作)和本体感知序列(被离散为1 024个均匀区间). RoboCat将Gato(西班牙语中“猫”的意思)扩展为机器人操控的基座智能体[57]. RoboCat采用VQ-GAN作为图像编码器,通过行为克隆自我提高性能. 一些其他的具身智能体将大型语言模型适配到具身模型. PaLM-E[11]使大型语言模型PaLM[21]能够在现实世界中做出决策. 观察和状态估计被嵌入为语言单元并送入PaLM. 输出为语言序列,可以被低级策略控制器解释. RT-2[55]微调了视觉-语言模型,将动作表达为词元. 在测试时,文本单元被反词元化成动作,实现了机器人的控制.

另一种自监督具身智能体采用遮罩自编码的方式. MVP系列工作通过遮罩自编码预训练视觉表示,利用强化学习训练控制器,在模拟器中实现了机器臂控制,并将该工作扩展到现实世界的具身实例[58-59]. SMART对动作进行了遮罩,训练模型恢复出被遮罩的动作,旨在让模型学到动作的特征[60]. MaskDP对状态和动作进行遮罩,且对前向和逆向的动力学都进行了训练[61]. Voltron沿用 MVP 的预训练思路,引入语言监督信号,对齐视觉和语言2个模态的信息,提高了语言控制任务的准确率[62]. RPT对图像、本体感知和动作的输入进行遮罩,这类似于在具身认知中讨论的具身智能假设[63]. 如图2所示为具身智能体的遮罩自编码预训练.

图 2

图 2   具身智能体的遮罩自编码预训练

Fig.2   Pretraining with masked autoencoding for embodied agent


此外,许多具身智能体的工作没有从头做预训练,而是利用外部预训练好的模型,相关工作详见2.6节.

2.4. 多模态学习

多模态学习通过结合不同模态的数据,如文本、图像、本体感知状态和动作,提供了丰富的信息处理方式. 具身智能的研究本质上与多模态学习紧密相关,因为它涉及从多种感官输入中提取和融合信息. Transformer能够作为不同模态的统一编码空间,为多模态学习开启新的可能性. 具身智能体的多模态学习在表示学习的预训练阶段及任务迁移的微调阶段均被广泛采用.

多模态最常见的形态是将视觉和语言的模态连接起来. ViLBERT[64]、UNITER[65]和Oscar[66]等视觉-语言模型在复杂的下游任务,例如视觉问答和视觉常识推理,展现了改进性能的潜力. 这些方法一般包括一个图像编码器、一个目标检测模型和一个预训练的语言模型,它们通过对比学习在图像-文本对上联合微调,以学习视觉-语言表征. 通过扩大模型规模,CLIP[5]、ALIGN[28]和BASIC从网页抓取丰富但嘈杂的视觉-语言数据来学习视觉表征,表现出了强大的任务泛化能力[67]. 最近,PaLI[29]和PaLI-X[30]继续扩大模型规模和数据量. 这些视觉-语言多模态模型可以应用于视觉-语言的具身智能体. 例如,VLN-BERT展示了对无身的网络的预训练可以改善具身智能体的视觉表征[68]. Airbert利用图像-标题二元组生成路径-指令二元组,改进了预训练的方法[69].

除了视觉和语言,多模态学习的概念还可以扩展到动作和本体感知状态等其他模态,这些模态在具身智能体中至关重要. Gato编码文本、图像、游戏的离散值和机器人的连续值,以学习多任务和多具身(可拥有多种物理身体)的智能体[54]. RPT利用视觉、本体感知状态,并遮罩这些模态的学习单元,以学习视觉-动作模型[63]. RoboCat扩展了Gato,但在使用模态方面类似于RPT,以自我提升的方式构建基座智能体[57]. 如表2所示为上述讨论的大型多模态模型.

表 2   大型多模态模型

Tab.2  Large multimodal model

大型多模态模型视觉语言本体动作参数量图像-文本对数量轨迹量
ViLBERT[64]1.55×1083.1×106
UNITER[65]8.6×107/3.03×1089.6×106
Oscar[66]1.10×108/3.40×1086.5×106
CLIP[5]3.70×1084.00×108
ALIGN[28]7.90×1081.8×109
BASIC[67]3×1096.6×109
PaLI[29]1.7×10101×109
PaLI-X[30]5.5×1010
Gato[54]1.2×1092.1×1096.3×107
RPT[63]3.08×1082.0×104
RoboCat[57]1.18×1092.8×106

新窗口打开| 下载CSV


2.5. 强化学习与模仿学习

具身智能体传统上是通过强化学习的方式进行训练[13]. 在这种方式下,智能体通过与环境的互动来学习,这包括基于智能体的当前状态采取行动,从环境中接收奖励作为反馈,基于这些奖励来更新智能体的决策策略[70]. 有时候,智能体与环境交互的任务很难定义出合适的奖励函数. 传统的强化学习方法存在样本效率低下、学习过程缓慢的问题. 强化学习的试错过程还会为一些任务带来安全问题. 为了解决这些问题,模仿学习被提出作为训练智能体的方法. 在模仿学习中,智能体通过观察专家(无论是人类还是其他智能体)的行为来学习. 这种方法允许智能体模仿专家的行为,之后可能通过强化学习进行进一步的微调. 在这一过程中,专家的行为被记录下来,构成了训练智能体的数据集. 近年来,模仿学习在具身智能体的训练中越来越受到关注,越来越多的具身智能体使用模仿学习进行训练[54,59,71-73],出现了针对具身智能体的大规模数据集,以支持这种训练方式,详见3.1节.

2.6. 模型即服务

在某些场景下,通过互联网服务来实现基座智能体变得可行. 模型即服务(model as a service, MaaS)作为创新的范式,极大地促进了基座模型的开发和部署[74]. 在模型即服务的范式下,成熟的无身基座模型可以部署到具身智能体. 研究发现,大型语言模型(LLMs)能够有效地将用自然语言表达的高级任务分解成一系列低级动作,无须额外训练[75]. 例如LM-Nav直接利用GPT-3在现实世界中导航[76]. NavGPT展示了在视觉语言导航任务中,如何利用GPT-3.5和GPT-4进行零样本的动作预测[77]. 此外,PaLM-E[11]整合了540B的PaLM[21]和22B的Vision Transformer[78],以执行多种具身推理任务. 所有这些智能体的运作都需要连接到互联网,以便访问这些外部的大型模型.

3. 数据集与模拟器

3.1. 数据集

尽管基座模型的特点是利用未标记数据,但它们需要大量的标记数据来执行下游任务. 实际上,基座智能体需要更大规模的标记数据来满足执行多任务和部署在多具身上的需求.

3.1.1. 标记数据到未标记数据

在监督学习的时代,数据集是模型成功的关键. 数据集既提供了监督信号,又充当了任务性能的基准测试. 大规模数据集不仅服务于特定的任务,还通过监督预训练为下游任务提供了重要的支持. 通常,模型会先在大规模数据集(如ImageNet[79])上进行预训练,随后在特定的数据集(如COCO[80]、Cityscapes[81])上进行微调,以完成目标检测、语义分割、全景分割等下游任务.

进入基座模型的时代,自监督预训练在众多任务中展现出了优异的表征能力. 实际上,在很多情况下,自监督预训练的效果超过了监督式预训练[5,16]. 尽管如此,预训练的模型需要依赖特定任务的数据集进行微调,以更好地适应下游任务. 关于基座智能体自监督预训练的更多细节,参见2.3节.

3.1.2. 从特定任务数据集到通用任务数据集

早年的机器人学习(robot learning)方法通常专注于执行特定的任务,需要对应的特定数据集. 例如,在机器人操控领域,基本动作如抓取和推动各自有着专属的数据集. 抓取数据集关注的是使用机器人手或夹持器安全、稳定地抓持物体的行为[82-90]. 推动数据集常用于处理难以直接抓取的物体. 当物体过大、过重或被其他物体所包围时,推动物体以达到预期效果或重新定位可能更实际[91-93].

与机器人操控相似,传统视觉导航任务被细分为许多专门的数据集. 视觉导航任务通常围绕指定目标的方式展开研究,如智能体可导航至一个坐标点(点目标导航)[94],至给定物体类别的一个实例(对象目标导航)[95],至由目标图像给出的地点(图像目标导航)[70],至发声的物体[96],或根据自然语言指令导航(视觉-语言导航)[97-99]. 视觉导航的基准测试可能涵盖一个或多个导航任务[100].

在基座智能体的背景下,数据集往往涵盖多个任务、多个场景,甚至多种具身形式. 在导航方面,SCAND是面向户外场景的长距离数据集,支持2种不同的机器人[101]. GNM在6个不同的机器人上采集了60 h的导航轨迹数据[102]. 在机器人操控领域,RoboNet为7种机器人平台,不针对具体任务,提供了1 500万视频帧的预训练数据[103]. Bridge Data采集了71种任务的训练数据[104]. RH20T为7种不同配置的机器人平台提供了约150种技能的训练数据[105]. Open X-Embodiment数据库[6]汇集了来自21个机构的22种不同机器人的数据集,展现了527项技能和160 266个任务. 在这些大规模数据集上训练的高容量模型展现了更好的泛化能力. 如表3所示为多具身的智能体数据集.

表 3   真实场景的大规模的多任务、多具身智能体数据集

Tab.3  Real-world, large-scale dataset for multitask or cross-embodiment agent

数据集技能数轨迹量帧数/106时长/h具身形态数
SCAND[101]1388.72
RoboNet[103]1.62×105157
Bridge Data[104]717.2×1031
RH20T[105]1501.10×105407
Open X-Embodiment[6]52710622
GNM[102]606

新窗口打开| 下载CSV


3.2. 模拟器

近年来,许多适用于具身智能的新模拟器被开发出来. 模拟器可以为智能体提供既安全又高效的学习环境. 此外,模拟器可以用于生成大量数据,这些在现实世界中的收集成本会非常高. 模拟器常用作基准测试,评估和比较不同方法的效果.

表4所示为常用于具身智能体研究的模拟器. 模拟器中使用的数据既可以是合成的,也可以是基于现实世界扫描得到的. 例如Matterport3D[102]和Habitat-Sim[100]模拟器是基于现实世界环境扫描构建的. 这类“现实世界”模拟器极大地增强了智能体从模型到现实应用的能力.

表 4   具身智能体的模拟器与数据集

Tab.4  Simulator and dataset for embodied agent

模拟器数据集任务室内/室外
AI2-THOR[106]ObjectNav 2021
RoboTHOR[107]
ProcTHOR[108]
目标导航
导航
导航、操控
室内
SAPIEN[109]SAPIEN操控室内
TDW[110]TDW操控室内/室外
Matterport3D[97]R2R[97]
RxR[111]
REVERIE[99]
视觉语言导航室内
Gibson[112]Gibson导航室内
Habitat-Sim[100]HP3D[100]
HM3D[113]
导航室内

新窗口打开| 下载CSV


虽然在模拟器中训练得到的模型能够在模拟环境下表现良好,但模拟环境与现实世界之间存在的明显差异是其在物理机器人上应用的主要障碍[114]. 在这方面,一些具身方法同时在模拟和现实世界[11,57,115],或完全在现实世界中[60]评估模型的表现.

此外,一系列研究专注于模拟到现实的迁移. Kadian等[116]提出名为 Sim-vs-Real 相关系数 (SRCC) 的度量,用于量化从模拟到现实的可预测性,发现模拟器的性能差异在部署到现实世界后不一致. 他们建议通过微调模拟器参数,提高模拟到现实的转换效果. RoboTHOR提供了与物理对应物相匹配的模拟环境[107]. Anderson等[117]将具有预先收集和标注的占用图和导航图的视觉-语言导航智能体进行迁移. Truong等[118]使用Context-Map 技术,将在室内模拟器上训练的智能体迁移到室外的现实世界环境中. 目前模拟到现实的迁移工作主要集中在有限的场景中. 对于面向多任务、多场景甚至多具身的基座智能体的迁移,仍然有巨大挑战.

4. 具身智能体的应用

一般而言,具身智能体被设计为能够朝任何目标移动,并与之互动以完成各种任务. 重点关注2个引起了广泛研究兴趣的应用:视觉导航(即朝任何目标移动)和机器人操控(即与目标互动). 在基座智能体的框架下,这2个应用都强调了任务泛化的重要性. 此外,视觉导航注重于场景的泛化能力,机器人操控侧重于具身形态的泛化.

4.1. 视觉导航

视觉导航(visual navigation)赋予智能体在未知环境中利用视觉信息到达指定目的地的能力. 实现视觉导航的方法有很多种. 讨论2项典型的任务:目标导航和视觉语言导航. 介绍在通用视觉导航领域中的基座智能体. 如表5所示为本节讨论的导航智能体.

表 5   视觉导航智能体的比较

Tab.5  Comparison of agents for visual navigation

智能体语言基座模型真实世界模拟器室内/室外建图参数量
EmbCLIP[119]CLIPAI2-THOR室内8.8×107
CoW[120]CLIPAI2-THOR, Habitat室内3.07×108
ZSON[121]CLIPHabitat, Gibson室内
LFG[122]GPT-3.5Habitat室内2.0×1010
DDN[123]GPT-3.5AI2-THOR室内2.0×1010
PixNav[124]LLaMA-Adapter, GPT-4, Grounding DINO, SAMHabitat室内
PreSS[125]BERT, GPTMatterport3D室内1.17×108/3.40×108
VLN-BERT[68]ViLBERTMatterport3D室内1.55×108
MARVAL[126]Matterport3D, Gibson室内
LM-Nav[76]ViNG, CLIP GPT-3室外
NavGPT[77]GPT-3.5, GPT-4Matterport3D室内
DiscussNav[114]GPT-4Matterport3D室内
Vienna[127]Matterport3D, Habitat室内3.1×107
ViNT[115]室内/室外3.1×107

新窗口打开| 下载CSV


4.1.1. 目标导航

目标导航(object-goal navigation 或 visual goal navigation)的目标是指引智能体前往目标物体所在地. 基座模型的应用使得对目标导航的零样本迁移成为可能. 例如,EmbCLIP证明了CLIP编码的骨干相比于ImageNet预训练的骨干网络更有效,展示了在训练阶段未涉及的4个类别的测试成果[119]. CLIP on Wheels(简称CoW)[120]采用结合启发式探索策略的模型,能够扩展到更多未见过的类别. ZSON在目标图片上进行训练,旨在适应开放世界场景而不仅限于预定义的物体类别[121]. LFG利用GPT-3.5作为搜索的启发式,进行路径规划[122]. Wang等[123]将目标导航设定为需求驱动的任务,使用GPT-3.5将用户需求转化为物体目标. PixNav[124]利用4个外部大型模型,包括LLaMA-Adapter[128]、GPT-4[20]、Grounding DINO[129]和SAM[31],设计逐步细化的提示模板,探索了基座模型在自我定位和构建结构化记忆方面的潜力.

4.1.2. 视觉语言导航

视觉语言导航(vision-and-language navigation, VLN)是指智能体依据自然语言指令进行导航[97]. 随着大型语言模型如BERT[3]和GPT[16]的出现,将它们应用到视觉语言导航成为研究的新趋势. PreSS微调BERT和GPT以学习文本表征,这些表征能够更好地泛化到以前未见过的指令[125]. 此外,先预训练图像-文本对的视觉-语言多模态表征,再迁移到视觉语言任务,正逐渐成为一种主流方法,代表性的多模态模型包括ViLBERT[64]和Oscar[66]. 对于导航任务,VLN-BERT采用ViLBERT[68],Airbert采用ViLBERT和Oscar[69],以更好地协调导航的视觉和语言指令.

在探索互联网规模的图像文本对预训练的同时,人类指令数据的稀缺成为研究的瓶颈. 为此,MARVAL 利用伴随的合成数据集Marky-Gibson,提供了具有合成指令的大规模数据增强[126]. 另一条研究路径利用外部大型语言模型. LM-Nav[76]采用GPT-3[4]来识别由视觉导航模型ViNG[130]预定义的图上的地标,展示了基于预训练模型且无须任何微调的导航系统. 最近,NavGPT通过零样本动作预测,展示了大型语言模型在复杂具身场景中的推理能力[77]. DiscussNav用提示词在大语言模型上建立几个领域专家,用模拟的专家咨询会议来导航智能体,展示了令人印象深刻的零样本迁移性能[114].

4.1.3. 通用视觉导航

面对多样化的视觉导航任务和特定任务的解决方案,研究者们努力构建能够应对多项导航任务的统一智能体. Vienna是通用的具身导航智能体,它依托于庞大的数据集VXN进行训练[127]. 通过结合目标描述和任务编码,Vienna 展示了统一的方法,处理不同的输入域或模态之间的导航任务,实现了知识的跨任务重用. Vienna 在简化问题复杂度的同时,实现了与分别学习各个视觉导航任务相媲美甚至更优的性能. ViNT[115]在来自不同机器人平台的多个导航数据集上进行训练,设定了通用的“达到目标”的目标,使其能够兼容任何导航数据集. 它采用灵活的基于Transformer的架构来学习导航技能,并且能够微调,以适用于多种下游导航任务. ViNT 展示了正向迁移的能力,超越了在小数据集上训练的专家模型的表现.

4.2. 机器人操控

机器人操控(robotic manipulation)涉及机器人与环境中的对象相互作用的能力. 这是机器人学中的核心任务,已经被研究了数十年. 在基座智能体的技术背景下,机器人操控的方法可以分为视觉-语言方法和纯视觉方法.

表6所示为讨论的机器人操控的智能体的特点. 越来越多的方法不仅在仿真环境中评估模型性能,还直接在真实物理世界中进行测试,同时具身智能体呈现出面向多具身发展的趋势.

表 6   机器人操控的基座智能体比较

Tab.6  Comparison of foundation agent for robotic manipulation

智能体语言基座模型真实世界多具身参数量
SayCan[131]PaLM5.40×1011
R3M[132]
Gato[54]1.2×109
RT-1[53]SayCan5.40×1011
PaLM-E[11]PaLM, ViT-22B5.62×1011
RT-2[55]PaLI-X5.5×1010
SMART[60]1.08×107
MVP[58]2.2×107
Real MVP[59]3.07×108
RPT[63]3.07×108
RoboCat[57]
Yang 等[133]




1.2×109
1.80×108

新窗口打开| 下载CSV


SayCan通过价值函数将大型语言模型与现实世界连接在一起,使其执行真实世界的动作[131]. R3M通过结合时间对比学习、视频-语言对齐和L1惩罚,预训练鼓励稀疏和紧凑的表征的多模态模型[132]. Gato将文本、图像、离散值和连续值转换为词元(token),并将它们输入到Transformer中,以学习一般性策略[54]. RT-1关注开放的任务无关的训练范式,以零样本迁移的方式泛化到更多的机器人任务[53]. PaLM-E[11]将操控的规划问题形式转化为语言问题,将来自任意模态的输入转化为词元,并将词元输入到PaLM中. RT-2[55]结合大型多模态模型,例如PaLI-X[30],并直接预测机器人动作.

MVP[58]展示了自然图像的自监督预训练对于学习机器人任务是有效的. Real MVP[59]用更多的数据和更大的架构,将MVP扩展到真实世界环境中. MaskDP[61]对状态和动作词元进行遮罩,使模型学习前向和逆向的动力学. RPT[63]将遮罩自编码扩展到多模态,遮掩图像、本体感知状态和行动. RoboCat[57]展示了能够泛化到新任务和新机器人的自我提升的基座智能体. Yang等[133]通过利用导航和操控这2个任务的相似性,在多种机器人上训练单一目标导向策略,验证了跨具身学习的有效性,展示了该策略在各种实际环境中的适应能力.

5. 趋势与挑战

目前,具身智能体的数据采集尚处于起步阶段,许多具身任务缺乏足够的可训练数据集. 由于具身智能体需要在物理世界中采集数据,而非直接从互联网上获取,这增大了数据采集的难度和成本. 具身形态和任务场景的多样性进一步加剧了该问题. 为了推动具身智能体的发展,迫切需要构建更大规模、更多样化的具身数据集,提高具身数据集的采集效率,降低采集成本.

仿真环境与现实世界之间存在定义域鸿沟(domain gap),这是在模型器中训练的模型部署到物理机器人上的主要障碍. 在基座模型时代,模型往往在众多场景中预训练,这增大了从模拟器到现实世界迁移的复杂程度. 越来越多的方法(特别是在机器人操控领域)专注于真实世界的部署. 由于基座智能体的任务、场景及物理形态众多,导致评估协议实现繁复,比较不同的真实世界方法是一个挑战.

基座智能体正变得越来越具有通用性. 它们能够执行多种任务,在不同环境中采取行动,甚至适应多种具身形态. 任务、环境和具身形态正以开放式的方式(即非预定义)被探索. 智能体有望能够推广到之前未见过的任务、环境和具身形态上. 这种能力主要由智能体的庞大规模及配套的大规模数据集和训练技术所推动. 增加智能体的规模是提升性能的直接方式,但这一做法面临着成本高昂和边际效益递减的问题. 需要寻找其他策略,避免单个智能体规模过大.

大规模智能体虽然能够展现出良好的性能,但由于规模庞大、耗时耗能,不适合在边缘设备上部署,轻量级部署成为基座智能体面临的一大挑战. Wei等[134]提出,目前还不清楚大型语言模型的能力在何种规模下会涌现. 需要在智能体的复杂性与性能之间找到平衡点.

6. 结 语

本文回顾了基座模型和具身认知的发展,梳理了实现具身智能的最新技术进展及相关的数据集与模拟器,分析基座智能体在机器人操纵和导航方面的应用. 具身智能的研究体现了人工智能从纯计算转向与物理环境交互的趋势. 具身智能体在任务泛化、仿真环境到现实环境的迁移、多具身适应及轻量级部署方面面临诸多挑战,但其发展展现了广阔的应用前景. 未来,随着技术的不断进步,具身智能体有望在更多领域发挥重要的作用,推动通用人工智能的发展.

参考文献

TURING A

Computing machinery and intelligence

[J]. Mind, 1950, 59 (236): 433

[本文引用: 4]

BOMMASANI R, HUDSON D A, ADELI E, et al. On the opportunities and risks of foundation models [EB/OL]. [2021-06-12]. https://arxiv.org/abs/2108.07258.

[本文引用: 2]

DEVLIN J, CHANG M W, LEE K, et al. Bert: pretraining of deep bidirectional transformers for language understanding [EB/OL]. [2019-05-24]. https://arxiv.org/abs/1810.04805.

[本文引用: 7]

BROWN T, MANN B, RYDER N, et al. Language models are few-shot learners [C] // Advances in Neural Information Processing Systems . [S. 1. ]: Curran Associates, 2020 : 1877-1901.

[本文引用: 5]

RADFORD A, KIM J W, HALLACY C, et al. Learning transferable visual models from natural language supervision [C]// International Conference on Machine Learning. [S. l. ]: PMLR, 2021: 8748-8763.

[本文引用: 6]

PADALKAR A, POOLEY A, JAIN A, et al. Open X-embodiment: robotic learning datasets and RT-X models [EB/OL]. [2024-05-22]. https://arxiv.org/abs/2310.08864.

[本文引用: 3]

BUBECK S, CHANDRASEKARAN V, ELDAN R, et al. Sparks of artificial general intelligence: early experiments with gpt-4 [EB/OL]. [2023-04-13]. https://arxiv.org/abs/2303.12712.

[本文引用: 1]

ZADOR A, ESCOLA S, RICHARDS B, et al

Catalyzing next-generation artificial intelligence through neuroai

[J]. Nature Communications, 2023, 14 (1): 1597

[本文引用: 2]

BERGLUND L, TONG M, KAUFMANN M, et al. The reversal curse: Llms trained on “a is b” fail to learn “b is a” [EB/OL]. [2024-04-04]. https://arxiv.org/abs/2309.12288.

[本文引用: 1]

HARNAD S

The symbol grounding problem

[J]. Physica D: Nonlinear Phenomena, 1990, 42 (1-3): 335- 346

DOI:10.1016/0167-2789(90)90087-6      [本文引用: 2]

DRIESS D, XIA F, SAJJADI M S, et al. Palm-e: an embodied multimodal language model [EB/OL]. [2023-03-06]. https://arxiv.org/abs/2303.03378.

[本文引用: 7]

VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C] // Advances in Neural Information Processing Systems . Long Beach: Curran Associates, 2017: 5998-6008.

[本文引用: 3]

HINTON G E, SALAKHUTDINOV R R

Reducing the dimensionality of data with neural networks

[J]. Science, 2006, 313 (5786): 504- 507

DOI:10.1126/science.1127647      [本文引用: 2]

HINTON G E, OSINDERO S, TEH Y W

A fast learning algorithm for deep belief nets

[J]. Neural Computation, 2006, 18 (7): 1527- 1554

DOI:10.1162/neco.2006.18.7.1527      [本文引用: 1]

KAPLAN J, MCCANDLISH S, HENIGHAN T, et al. Scaling laws for neural language models [EB/OL]. [2020-01-22]. http://arxiv.org/abs/2001.08361.

[本文引用: 1]

RADFORD A, NARASIMHAN K, SALIMANS T, et al. Improving language understanding by generative pre-training [EB/OL]. [2018-06-09]. https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf.

[本文引用: 6]

RADFORD A, WU J, CHILD R, et al

Language models are unsupervised multitask learners

[J]. OpenAI Blog, 2019, 1 (8): 9

[本文引用: 3]

HE K, CHEN X, XIE S, et al. Masked autoencoders are scalable vision learners [C] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . New Orleans: IEEE, 2022: 16000-16009.

[本文引用: 2]

HE K, FAN H, WU Y, et al. Momentum contrast for unsupervised visual representation learning [C] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Seattle: IEEE, 2020: 9729-9738.

[本文引用: 2]

OPENAI. Gpt-4 technical report [EB/OL]. [2023-03-04]. https://arxiv.org/abs/2303.8774.

[本文引用: 3]

CHOWDHERY A, NARANG S, DEVLIN J, et al. Palm: scaling language modeling with pathways [EB/OL]. [2022-10-05]. https://arxiv.org/abs/2204.02311.

[本文引用: 3]

ANIL R, DAI A M, FIRAT O, et al. Palm 2 technical report [EB/OL]. [2023-09-13]. https://arxiv.org/abs/2305.10403.

TOUVRON H, LAVRIL T, IZACARD G, et al. Llama: open and efficient foundation language models [EB/OL]. [2023-02-27]. https://arxiv.org/abs/2302.13971.

[本文引用: 1]

TOUVRON H, MARTIN L, STONE K, et al. Llama 2: open foundation and fine-tuned chat models [EB/OL]. [2023-07-19]. https://arxiv.org/abs/2307.09288.

[本文引用: 2]

CHEN T, KORNBLITH S, NOROUZI M, et al. A simple framework for contrastive learning of visual representations [C] // International Conference on Machine Learning . [S. l. ]: PMLR, 2020: 1597-1607.

[本文引用: 1]

GRILL J B, STRUB F, ALTCHÉ F, et al. Bootstrap your own latent: a new approach to self-supervised learning [C] // Advances in Neural Information Processing Systems . [S. 1. ]: Curran Associates, 2020: 21271-21284.

[本文引用: 1]

DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16x16 words: transformers for image recognition at scale [EB/OL]. [2021-06-03]. https://arxiv.org/abs/2010.11929.

[本文引用: 1]

JIA C, YANG Y, XIA Y, et al. Scaling up visual and vision-language representation learning with noisy text supervision [C] // International Conference on Machine Learning. [S. l. ]: PMLR, 2021: 4904-4916.

[本文引用: 3]

CHEN X, WANG X, CHANGPINYO S, et al. Pali: a jointly-scaled multilingual language-image model [EB/OL]. [2023-06-05]. https://arxiv.org/abs/2209.06794.

[本文引用: 3]

CHEN X, DJOLONGA J, PADLEWSKI P, et al. Pali-x: on scaling up a multilingual vision and language model [EB/OL]. [2023-05-29]. https://arxiv.org/abs/2305.18565.

[本文引用: 4]

KIRILLOV A, MINTUN E, RAVI N, et al. Segment anything [EB/OL]. [2023-04-05]. https://arxiv.org/abs/2304.02643.

[本文引用: 2]

WANG X, WANG W, CAO Y, et al. Images speak in images: a generalist painter for in-context visual learning [C] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Vancouver: IEEE, 2023: 6830-6839.

[本文引用: 1]

SMITH L, GASSER M

The development of embodied cognition: six lessons from babies

[J]. Artificial Life, 2005, 11 (1/2): 13- 29

[本文引用: 1]

WEIZENBAUM J

Eliza: a computer program for the study of natural language communication between man and machine

[J]. Communications of the ACM, 1966, 9 (1): 36- 45

[本文引用: 1]

SEARLE J R

Minds, brains, and programs

[J]. Behavioral and Brain Sciences, 1980, 3 (3): 417- 424

DOI:10.1017/S0140525X00005756      [本文引用: 1]

BENDER E M, KOLLER A. Climbing towards nlu: on meaning, form, and understanding in the age of data [C] // Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. [S. l. ]: ACL, 2020: 5185-5198.

[本文引用: 1]

BISK Y, HOLTZMAN A, THOMASON J, et al. Experience grounds language [EB/OL]. [2020-11-02]. https://arxiv.org/abs/2004.10151.

[本文引用: 1]

HELD R, HEIN A

Movement-produced stimulation in the development of visually guided behavior

[J]. Journal of Comparative and Physiological Psychology, 1963, 56 (5): 872

[本文引用: 1]

GIBSON J J

The ecological approach to the visual perception of pictures

[J]. Leonardo, 1978, 11 (3): 227- 235

DOI:10.2307/1574154      [本文引用: 1]

EERLAND A, GUADALUPE T M, ZWAAN R A

Leaning to the left makes the Eiffel tower seem smaller: posture-modulated estimation

[J]. Psychological Science, 2011, 22 (12): 1511- 1514

[本文引用: 1]

LAKOFF G, JOHNSON M. Metaphors we live by [M]. Chicago: University of Chicago, 1980.

[本文引用: 1]

LAKOFF G, JOHNSON M, SOWA J F

Philosophy in the flesh: the embodied mind and its challenge to western thought

[J]. Computational Linguistics, 1999, 25 (4): 631- 634

[本文引用: 1]

BROOKS R A

Elephants don’t play chess

[J]. Robotics and Autonomous Systems, 1990, 6 (1/2): 3- 15

[本文引用: 1]

BROOKS R A

Intelligence without representation

[J]. Artificial Intelligence, 1991, 47 (1-3): 139- 159

DOI:10.1016/0004-3702(91)90053-M     

BROOKS R A

New approaches to robotics

[J]. Science, 1991, 253 (5025): 1227- 1232

DOI:10.1126/science.253.5025.1227     

PFEIFER R, SCHEIER C. Understanding intelligence [M]. Cambridge: MIT press, 2001.

PFEIFER R, BONGARD J. How the body shapes the way we think: a new view of intelligence [M]. Cambridge: MIT press, 2006.

ORTIZ JR C L

Why we need a physically embodied Turing test and what it might look like

[J]. AI Magazine, 2016, 37 (1): 55- 62

DOI:10.1609/aimag.v37i1.2645      [本文引用: 1]

CHEN L, LU K, RAJESWARAN A, et al. Decision transformer: reinforcement learning via sequence modeling [C] // Advances in Neural Information Processing Systems , [S. 1. ]: Curran Associates, 2021: 15084-15097.

[本文引用: 1]

ZHENG Q, ZHANG A, GROVER A. Online decision transformer [C] // International Conference on Machine Learning . Baltimore: PMLR, 2022: 27042-27059.

FURUTA H, MATSUO Y, GU S S. Generalized decision transformer for offline hindsight information matching [EB/OL]. [2022-02-04]. https://arxiv.org/abs/2111.10364.

[本文引用: 1]

JANNER M, LI Q, LEVINE S. Offline reinforcement learning as one big sequence modeling problem [C] // Advances in Neural Information Processing Systems . [S. 1. ]: Curran Associates, 2021: 1273-1286.

[本文引用: 1]

BROHAN A, BROWN N, CARBAJAL J, et al. Rt-1: robotics transformer for real-world control at scale [EB/OL]. [2023-08-11]. https://arxiv.org/abs/2212.06817.

[本文引用: 3]

REED S, ZOLNA K, PARISOTTO E, et al. A generalist agent [EB/OL]. [2022-05-12]. https://​arxiv.org/abs/2205.06175.

[本文引用: 7]

BROHAN A, BROWN N, CARBAJAL J, et al. Rt-2: vision-language-action models transfer web knowledge to robotic control [EB/OL]. [2023-07-28]. https://arxiv.org/abs/2307.15818.

[本文引用: 4]

REID M, YAMADA Y, GU S S. Can Wikipedia help offline reinforcement learning? [EB/OL]. [2022-07-24]. https://arxiv.org/abs/2201.12122.

[本文引用: 1]

BOUSMALIS K, VEZZANI G, RAO D, et al. RoboCat: a self-improving foundation agent for robotic manipulation [EB/OL]. [2023-12-22]. https://arxiv.org/abs/2306.11706.

[本文引用: 6]

XIAO T, RADOSAVOVIC I, DARRELL T, et al. Masked visual pre-training for motor control [EB/OL]. [2022-03-11]. https://arxiv.org/abs/2203.06173.

[本文引用: 3]

RADOSAVOVIC I, XIAO T, JAMES S, et al. Real-world robot learning with masked visual pre-training [C] // Conference on Robot Learning . Atlanta: PMLR, 2023: 416-426.

[本文引用: 4]

SUN Y, MA S, MADAAN R, et al. SMART: self-supervised multi-task pretraining with control transformers [EB/OL]. [2023-01-24]. https://arxiv.org/pdf/2301.09816.

[本文引用: 3]

LIU F, LIU H, GROVER A, et al. Masked autoencoding for scalable and generalizable decision making [C] // Advances in Neural Information Processing Systems . New Orleans: Curran Associates, 2022: 12608-12618.

[本文引用: 2]

KARAMCHETI S, NAIR S, CHEN A S, et al. Language-driven representation learning for robotics [EB/OL]. [2023-02-24]. https://arxiv.org/pdf/2302.12766.

[本文引用: 1]

RADOSAVOVIC I, SHI B, FU L, et al. Robot learning with sensorimotor pre-training [EB/OL]. [2023-12-14]. https://arxiv.org/abs/2306.10007.

[本文引用: 5]

LU J, BATRA D, PARIKH D, et al. Vilbert: pretraining task-agnostic visiolinguistic representations for vision-and-language tasks [C] // Advances in Neural Information Processing Systems . Vancouver: Curran Associates, 2019: 13-23.

[本文引用: 3]

CHEN Y C, LI L, YU L, et al. Uniter: universal image-text representation learning [C] // Proceedings of the European Conference on Computer Vision . Glasgow: Springer, 2020: 104-120.

[本文引用: 2]

LI X, YIN X, LI C, et al. Oscar: object-semantics aligned pre-training for vision-language tasks [C] // Proceedings of the European Conference on Computer Vision . Glasgow: Springer, 2020: 121-137.

[本文引用: 3]

PHAM H, DAI Z, GHIASI G, et al

Combined scaling for zero-shot transfer learning

[J]. Neurocomputing, 2023, 555: 126658

[本文引用: 2]

MAJUMDAR A, SHRIVASTAVA A, LEE S, et al. Improving vision-and-language navigation with image-text pairs from the web [C] // Proceedings of the European Conference on Computer Vision . Glasgow: Springer, 2020: 259-274.

[本文引用: 3]

GUHUR P L, TAPASWI M, CHEN S, et al. Airbert: in-domain pretraining for vision-and-language navigation [C] // Proceedings of the IEEE/CVF International Conference on Computer Vision . [S. l. ]: IEEE, 2021: 1634-1643.

[本文引用: 2]

ZHU Y, MOTTAGHI R, KOLVE E, et al. Target-driven visual navigation in indoor scenes using deep reinforcement learning [C] // International Conference on Robotics and Automation . Singapore: IEEE, 2017: 3357-3364.

[本文引用: 2]

JANG E, IRPAN A, KHANSARI M, et al. Bc-z: zero-shot task generalization with robotic imitation learning [C] // Conference on Robot Learning. Auckland: PMLR, 2022: 991-1002.

[本文引用: 1]

FU Z, ZHAO T Z, FINN C. Mobile aloha: learning bimanual mobile manipulation with low-cost whole-body teleoperation [EB/OL]. [2024-01-04]. https://arxiv.org/abs/2401.02117.

CHI C, XU Z, PAN C, et al. Universal manipulation interface: in-the-wild robot teaching without in-the-wild robots [EB/OL]. [2024-02-15]. https://arxiv.org/abs/2402.10329.

[本文引用: 1]

GAN W, WAN S, PHILIP S Y. Model-as-a-service (MaaS): a survey [C] // IEEE International Conference on Big Data. Sorrento: IEEE, 2023: 4636-4645.

[本文引用: 1]

HUANG W, ABBEEL P, PATHAK D, et al. Language models as zero-shot planners: extracting actionable knowledge for embodied agents [C] // International Conference on Machine Learning . Baltimore: PMLR, 2022: 9118-9147.

[本文引用: 1]

SHAH D, OSIŃSKI B, LEVINE S, et al. LM-Nav: robotic navigation with large pre-trained models of language, vision, and action [C] // Conference on Robot Learning . Atlanta: PMLR, 2023: 492-504.

[本文引用: 3]

ZHOU G, HONG Y, WU Q. NavGPT: explicit reasoning in vision-and-language navigation with large language models [EB/OL]. [2023-10-19]. https://arxiv.org/abs/2305.16986.

[本文引用: 3]

DEHGHANI M, DJOLONGA J, MUSTAFA B, et al. Scaling vision transformers to 22 billion parameters [C] // International Conference on Machine Learning . Paris: PMLR, 2023: 7480-7512.

[本文引用: 1]

DENG J, DONG W, SOCHER R, et al. ImageNet: a large-scale hierarchical image database [C] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Miami: IEEE, 2009: 248-255.

[本文引用: 1]

LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft coco: common objects in context [C] // Proceedings of the European Conference on Computer Vision . Zurich: Springer, 2014: 740-755.

[本文引用: 1]

CORDTS M, OMRAN M, RAMOS S, et al. The cityscapes dataset for semantic urban scene understanding [C] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Las Vegas: IEEE, 2016: 3213-3223.

[本文引用: 1]

KAPPLER D, BOHG J, SCHAAL S. Leveraging big data for grasp planning [C] // International Conference on Robotics and Automation . Seattle: IEEE, 2015: 4304-4311.

[本文引用: 1]

MAHLER J, LIANG J, NIYAZ S, et al. Dex-net 2.0: deep learning to plan robust grasps with synthetic point clouds and analytic grasp metrics [EB/OL]. [2017-08-08]. https://arxiv.org/abs/1703.09312.

DEPIERRE A, DELLANDRÉA E, CHEN L. Jacquard: a large scale dataset for robotic grasp detection [C] // IEEE/RSJ International Conference on Intelligent Robots and Systems . Madrid: IEEE, 2018: 3511-3516.

LEVINE S, PASTOR P, KRIZHEVSKY A, et al

Learning hand-eye coordination for robotic grasping with deep learning and large-scale data collection

[J]. The International Journal of Robotics Research, 2018, 37 (4-5): 421- 436

DOI:10.1177/0278364917710318     

KALASHNIKOV D, IRPAN A, PASTOR P, et al. Qt-opt: scalable deep reinforcement learning for vision-based robotic manipulation [EB/OL]. [2018-11-28]. https://arxiv.org/abs/1806.10293.

BOUSMALIS K, IRPAN A, WOHLHART P, et al. Using simulation and domain adaptation to improve efficiency of deep robotic grasping [C] // International Conference on Robotics and Automation . Brisbane: IEEE, 2018: 4243-4250.

BRAHMBHATT S, HAM C, KEMP C C, et al. ContactDB: analyzing and predicting grasp contact via thermal imaging [C] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Long Beach: IEEE, 2019: 8709-8719.

FANG H S, WANG C, GOU M, et al. Graspnet-1billion: a large-scale benchmark for general object grasping [C] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . [S. l. ]: IEEE, 2020: 11444-11453.

EPPNER C, MOUSAVIAN A, FOX D. Acronym: a large-scale grasp dataset based on simulation [C] // International Conference on Robotics and Automation . Xi’an: IEEE, 2021: 6222-6227.

[本文引用: 1]

YU K T, BAUZA M, FAZELI N, et al. More than a million ways to be pushed. a high-fidelity experimental dataset of planar pushing [C] // IEEE/RSJ International Conference on Intelligent Robots and Systems . Daejeon: IEEE, 2016: 30-37.

[本文引用: 1]

FINN C, LEVINE S. Deep visual foresight for planning robot motion [C] // International Conference on Robotics and Automation . Singapore: IEEE, 2017: 2786-2793.

EBERT F, FINN C, DASARI S, et al. Visual foresight: model-based deep reinforcement learning for vision-based robotic control [EB/OL]. [2018-12-03]. https://arxiv.org/abs/1812.00568.

[本文引用: 1]

SAVVA M, CHANG A X, DOSOVITSKIY A, et al. Minos: multimodal indoor simulator for navigation in complex environments [EB/OL]. [2017-12-11]. https://arxiv.org/abs/1712.03931.

[本文引用: 1]

BATRA D, GOKASLAN A, KEMBHAVI A, et al. Objectnav revisited: on evaluation of embodied agents navigating to objects [EB/OL]. [2020-08-30]. https://arxiv.org/abs/2006.13171.

[本文引用: 1]

CHEN C, JAIN U, SCHISSLER C, et al. Soundspaces: audio-visual navigation in 3d environments [C] // Proceedings of the European Conference on Computer Vision . Glasgow: Springer, 2020: 17-36.

[本文引用: 1]

ANDERSON P, WU Q, TENEY D, et al. Vision-and-language navigation: interpreting visually-grounded navigation instructions in real environments [C] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Salt Lake City: IEEE, 2018: 3674-3683.

[本文引用: 4]

THOMASON J, MURRAY M, CAKMAK M, et al. Vision-and-dialog navigation [C] // Conference on Robot Learning . [S. l. ]: PMLR, 2020: 394-406.

QI Y, WU Q, ANDERSON P, et al. Reverie: remote embodied visual referring expression in real indoor environments [C] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . [S. l. ]: IEEE, 2020: 9982-9991.

[本文引用: 2]

SAVVA M, KADIAN A, MAKSYMETS O, et al. Habitat: a platform for embodied ai research [C] // Proceedings of the IEEE/CVF International Conference on Computer Vision . Seoul: IEEE, 2019: 9339-9347.

[本文引用: 4]

KARNAN H, NAIR A, XIAO X, et al. Socially compliant navigation dataset (SCAND): a large-scale dataset of demonstrations for social navigation [EB/OL]. [2022-03-28]. https://arxiv.org/abs/2203.15041.

[本文引用: 2]

SHAH D, SRIDHAR A, BHORKAR A, et al. GNM: a general navigation model to drive any robot [EB/OL]. [2022-10-07]. https://arxiv.org/abs/2210.03370.

[本文引用: 3]

DASARI S, EBERT F, TIAN S, et al. RoboNet: large-scale multi-robot learning [EB/OL]. [2020-01-02]. https://arxiv.org/abs/1910.11215.

[本文引用: 2]

EBERT F, YANG Y, SCHMECKPEPR K, et al. Bridge data: boosting generalization of robotic skills with cross-domain datasets [EB/OL]. [2021-09-27]. https://arxiv.org/abs/2109.13396.

[本文引用: 2]

FANG H, FANG, H, TANG Z, et al. RH20T: a comprehensive robotic dataset for learning diverse [EB/OL]. [2023-09-26]. https://arxiv.org/abs/2307.00595.

[本文引用: 2]

KOLVE E, MOTTAGHI R, HAN W, et al. Ai2-thor: an interactive 3d environment for visual AI [EB/OL]. [2022-08-26]. https://arxiv.org/abs/1712.05474.

[本文引用: 1]

DEITKE M, HAN W, HERRASTI A, et al. Robothor: an open simulation-to-real embodied ai platform [C] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Seattle: IEEE, 2020: 3164-3174.

[本文引用: 2]

DEITKE M, VANDERBILT E, HERRASTI A, et al. Procthor: large-scale embodied ai using procedural generation [C] // Advances in Neural Information Processing Systems , Vancouver: Curran Associates, 2022: 5982-5994.

[本文引用: 1]

XIANG F, QIN Y, MO K, et al. Sapien: a simulated part-based interactive environment [C] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Seattle: IEEE, 2020: 11097-11107.

[本文引用: 1]

GAN C, SCHWARTZ J, ALTER S, et al. ThreeD-world: a platform for interactive multi-modal physical simulation [EB/OL]. [2021-12-28]. https://arxiv.org/abs/2007.04954.

[本文引用: 1]

KU A, ANDERSON P, PATEL R, et al. Room-across-room: multilingual vision-and-language navigation with dense spatiotemporal grounding [EB/OL]. [2020-10-15]. https://arxiv.org/abs/2010.07954.

[本文引用: 1]

XIA F, ZAMIR A R, HE Z, et al. Gibson env: real-world perception for embodied agents [C] // Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition . Salt Lake City: IEEE, 2018: 9068-9079.

[本文引用: 1]

YADAV K, RAMRAKHYA R, RAMAKRISHNAN S K, et al. Habitat-matterport 3d semantics dataset [C] // Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition . Vancouver: IEEE, 2023: 4927-4936.

[本文引用: 1]

LONG Y, LI X, CAI W, et al. Discuss before moving: visual language navigation via multi-expert discussions [EB/OL]. [2023-09-20]. https://arxiv.org/abs/2309.11382.

[本文引用: 3]

SHAH D, SRIDHAR A, DASHORA N, et al. Vint: a foundation model for visual navigation [EB/OL]. [2023-10-24]. https://arxiv.org/abs/2306.14846.

[本文引用: 3]

KADIAN A, TRUONG J, GOKASLAN A, et al

Sim2real predictivity: does evaluation in simulation predict real-world performance?

[J]. IEEE Robotics and Automation Letters, 2020, 5 (4): 6670- 6677

DOI:10.1109/LRA.2020.3013848      [本文引用: 1]

ANDERSON P, SHRIVASTAVA A, TRUONG J, et al. Sim-to-real transfer for vision-and-language navigation [C] // Conference on Robot Learning . London: PMLR, 2021: 671-681.

[本文引用: 1]

TRUONG J, ZITKOVICH A, CHERNOVA S, et al. Indoorsim-to-outdoorreal: learning to navigate outdoors without any outdoor experience [EB/OL]. [2023-05-10]. https://arxiv.org/abs/2305.01098.

[本文引用: 1]

KHANDELWAL A, WEIHS L, MOTTAGHI R, et al. Simple but effective: clip embeddings for embodied ai [C] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . New Orleans: IEEE, 2022: 14829-14838.

[本文引用: 2]

GADRE S Y, WORTSMAN M, ILHARCO G, et al. Clip on wheels: zero-shot object navigation as object localization and exploration [EB/OL]. [2022-03-20]. https://arxiv.org/abs/2203.10421.

[本文引用: 2]

MAJUMDAR A, AGGARWAL G, DEVNANI B, et al. ZSON: zero-shot object-goal navigation using multimodal goal embeddings [C]// Advances in Neural Information Processing Systems . Vancouver: Curran Associates, 2022: 32340-32352.

[本文引用: 2]

SHAH D, EQUI M R, OSIŃSKI B, et al. Navigation with large language models: semantic guesswork as a heuristic for planning [C] // Conference on Robot Learning . Atlanta: PMLR, 2023: 2683-2699.

[本文引用: 2]

WANG H, CHEN A G H, LI X, et al. Find what you want: learning demand-conditioned object attribute space for demand-driven navigation [EB/OL]. [2023-11-06]. https://arxiv.org/abs/2309.08138.

[本文引用: 2]

CAI W, HUANG S, CHENG G, et al. Bridging zero-shot object navigation and foundation models through pixel-guided navigation skill [EB/OL]. [2023-09-21]. https://arxiv.org/abs/2309.10309.

[本文引用: 2]

LI X, LI C, XIA Q, et al. Robust navigation with language pretraining and stochastic sampling [EB/OL]. [2019-09-05]. https://arxiv.org/abs/1909.02244.

[本文引用: 2]

KAMATH A, ANDERSON P, WANG S, et al. A new path: scaling vision-and-language navigation with synthetic instructions and imitation learning [C] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Vancouver: IEEE, 2023: 10813-10823.

[本文引用: 2]

WANG H, LIANG W, GOOL L V, et al. Towards versatile embodied navigation [C] // Advances in Neural Information Processing Systems , Vancouver: Curran Associates, 2022: 36858-36874.

[本文引用: 2]

ZHANG R, HAN J, ZHOU A, et al. Llama-adapter: efficient fine-tuning of language models with zero-init attention [EB/OL]. [2023-06-14]. https://arxiv.org/abs/2303.16199.

[本文引用: 1]

LIU S, ZENG Z, REN T, et al. Grounding dino: marrying dino with grounded pre-training for open-set object detection [EB/OL]. [2023-03-20]. https://arxiv.org/abs/2303.05499.

[本文引用: 1]

SHAH D, EYSENBACH B, KAHN G, et al. Ving: learning open-world navigation with visual goals [C] // International Conference on Robotics and Automation . Xi’an: IEEE, 2021: 13215-13222.

[本文引用: 1]

AHN M, BROHAN A, BROWN N, et al. Do as I can, not as i say: grounding language in robotic affordances [EB/OL]. [2022-08-16]. https://arxiv.org/abs/2204.01691.

[本文引用: 2]

NAIR S, RAJESWARAN A, KUMAR V, et al. R3m: a universal visual representation for robot manipulation [EB/OL]. [2022-11-18]. https://arxiv.org/abs/2203.12601.

[本文引用: 2]

YANG J, GLOSSOP C, BHORKAR A, et al. Pushing the limits of cross-embodiment learning for manipulation and navigation [EB/OL]. [2024-02-29]. https://arxiv.org/abs/2402.19432.

[本文引用: 2]

WEI J, TAY Y, BOMMASANI R, et al. Emergent abilities of large language models [EB/OL]. [2022-10-26]. https://arxiv.org/abs/2206.07682.

[本文引用: 1]

/