本文介绍了业内首个跨本体具身大小脑协作框架RoboOS与开源具身大脑RoboBrain,可实现跨场景多任务轻量化快速部署与跨本体协作,推动单机智能迈向群体智能,为构建具身智能开源统一生态加速场景应用提供底层技术支持。该项目由北京大学视频与视觉技术国家工程研究中心仉尚航老师研究组与北京智源研究院等联合研究,在2025年中关村论坛“未来人工智能先锋论坛”上发布。
一、RoboBrain:具身多模态大模型
在具身场景中,长程操作任务是机器人执行复杂任务的核心能力之一。本次发布的开源具身大脑RoboBrain融合了机器人任务规划、可操作区域感知、轨迹预测的三维能力,通过将抽象指令映射为具象动作序列,增强长程操作任务的能力,表现出卓越性能。
RoboBrain由三个模块组成:(1)用于任务规划的基座模型、(2)用于可操作区域感知的A-LoRA模块、(3)用于轨迹预测的T-LoRA模块。在推理时,模型首先感知视觉输入,并将输入指令分解为一系列可执行的子任务,然后执行可操作区域感知和轨迹预测。RoboBrain采用多阶段训练策略,使其具备长历史帧记忆和高分辨率图像感知能力,进而提升场景感知和操作规划的能力。我们的RoboBrain的推理流程如图1所示。

图1 RoboBrain的模型架构
单图、多图和视频结合文本指令输入到我们的模型中,以训练基座大脑模型。此外,我们通过A-LoRA和T-LoRA对RoboBrain进行微调,以赋予RoboBrain可操作区域感知和轨迹预测的能力。在推理时,模型首先会感知视觉输入并根据输入的指令,分解为一系列可执行的子任务,然后执行可操作区域感知和轨迹预测。
RoboBrain在任务规划、可操作区域感知和轨迹预测评测任务中均表现出卓越性能:
-任务规划:我们选取了RoboVQA、OpenEQA以及从ShareRobot数据集中提取的测试集作为任务规划能力的评估基准,并与当前6个领先的MLLMs进行对比,包括GPT-4V,Claude3,LLaVA1.5,LLaVA-OneVision-7b,Qwen2-VL-7b和RoboMamba。实验结果表明,RoboBrain在3个基准中均超越了所有基线模型,尤其在OpenEQA和ShareRobot上表现尤为突出,这得益于RoboBrain在机器人理解任务和长视频感知中的优秀能力。在RoboVQA中,RoboBrain的BLEU-4分数超过第二名18.75分,展示了其在复杂长程任务规划中的能力。

图2 RoboBrain在3个具身任务规划基准中的表现
在3个具身任务规划基准中,RoboBrain均超越了所有基线模型,展示了其在复杂长程任务规划中的能力。
-可操作区域感知:我们采用平均精度(AP)指标来评估模型的可操作区域感知性能,该指标综合了不同阈值设置下的精度-召回曲线。在AGD20K可操作区域感知测试集上,RoboBrain的表现显著优于其他模型,分别超越Qwen2-VL和LLaVA-NeXT 14.6分和17.3分,验证了其在理解指令和物体物理属性方面的能力。

表1 RoboBrain在可操作区域预测上的性能
RoboBrain的表现显著优于其他模型,分别超越Qwen2-VL和LLaVA-NeXT 14.6分和17.3分,验证了其在理解物体物理属性方面的能力。
-轨迹预测:为评估真实轨迹与预测轨迹之间的相似性,我们采用了离散Fréchet距离(DFD)、Hausdorff距离(HD)和均方根误差(RMSE)三项指标进行综合评估。通过对模型不同变体的比较,RoboBrain在DFD、HD和RMSE指标上均表现出显著改进,尤其是最终模型的误差较基线模型分别下降了42.9%、94.2%和31.6%,进一步验证了其在轨迹预测任务中的高精度和稳定性。

表2 RoboBrain在轨迹预测上的性能
最终模型的误差较基线模型分别下降了42.9%、94.2%和31.6%,进一步验证了其在轨迹预测任务中的高精度和稳定性。
目前,RoboBrain能够解读人类指令和视觉图像,以生成基于实时图像反馈的行动计划和评估,预测每一步的轨迹并感知相应的可操作区域。具体来说,RoboBrain的预测通常能够捕捉轨迹的关键特征,从而生成比真实轨迹更平滑、更高效的路径。这种优化可能源于机器人实际轨迹中存在的固有性质,例如在类似操作场景下可能包含冗余路径点。通过从大规模具身数据集中学习,并结合大语言模型的推理能力,RoboBrain能够推断出高效且优化的执行路径避免了过拟合问题,能够在不同场景中表现出良好的泛化能力,生成既可行又合理的轨迹。

二、RoboOS:跨本体具身大小脑协作框架
RoboOS基于“大脑-小脑”分层架构,通过模块化设计、智能任务管理和跨本体协作,为机器人提供高效、灵活、可扩展的底层支持,实现从单机智能到群体智能的跃迁。
在RoboOS的分层架构下,具身大脑RoboBrain的复杂场景感知与决策能力,可与小脑技能库的高效执行能力深度结合,确保协作框架在长周期、高动态任务中的稳定运行。实现大脑模型(如LLM/VLM)与小脑技能(如抓取、导航)的“即插即用”,目前,可支持松灵双臂、睿尔曼单/双臂、智元人形、宇树人形等不同类型的具身本体。
RoboOS可以通过共享记忆系统的方法,实现多个机器人之间的状态同步与智能协作,突破传统机器人协作中‘信息孤岛’限制,实现跨本体协作控制,可动态管理多机器人任务队列,支持优先级抢占与资源优化分配,确保复杂场景下实时响应,实现高并发任务调度。此外,RoboOS可基于执行反馈动态调整策略,结合环境变化,持续优化任务规划,提升鲁棒性,做到实时闭环优化。
在“递送苹果和水果刀”的任务场景中,基于RoboOS及RoboBrain,睿尔曼单臂机器人、宇树人形G1、松灵双臂机器人成功实现了相互之间的分工协作:
1. RoboOS接收‘拿离杯子最近的水果,并递送一把水果刀’指令后,递送RoboBrain进行任务拆解,并将拆解后的子任务分发给3台跨本体机器人。
2. RoboBrain通过‘空间记忆’感知环境,确定果篮、苹果位置,并拆解任务为宇树G1挑拣苹果、睿尔曼传递果篮、松灵机器人抓取水果刀、睿尔曼返回几个步骤。
在各机器人本体执行子任务过程中,由RoboOS提供端云协作能力,将任务规划为技能粒度,实现云端RoboBrain分发规划,端侧执行技能并实时反馈。
三、快速轻量化泛化部署,打造统一生态
RoboOS是面向多机器人系统的跨本体具身智能协作框架,旨在解决具身智能落地过程中通用适配和多机调度的难题。面对异构本体接入难、任务调度低效、缺乏动态错误反馈等问题,RoboOS采用“大小脑协同”架构:
-RoboBrain(云端大脑):负责任务理解、规划决策和上下文感知。
-小脑执行模块(端侧):负责感知、认知、决策和行动闭环协作,实现高效执行。
这一机制能够动态感知本体差异,灵活适配操作指令,并自动修复异常行为,从而提升系统在复杂任务场景下的鲁棒性和泛化能力。
RoboOS通过Profile模板机制快速完成机器人能力建模与适配,支持异构机器人灵活接入。端侧的小脑模块可调用开源技能库、自研低阶控制器等多种技能接口,形成模块复用、即插即用的运行体系,大幅降低开发门槛和接入成本。
在云端,RoboOS具备完备的模型适配和API接入能力,兼容多模态VLM,作为可插拔的大脑决策引擎,广泛适用于服务机器人、工业自动化、智慧物流、智能制造等领域,支撑复杂任务的多机协作。端云协同机制使机器人在注册后即可与RoboBrain建立双向通信链路,通过高效发布-订阅机制实现实时任务调度和状态反馈,指令响应延迟低于10ms,满足复杂动态任务的闭环控制需求。
RoboOS还提供基于内存优化的数据访问引擎,支持TB级历史数据的随机访问,为任务复现、异常回溯和跨任务知识迁移提供基础能力。结合RoboBrain的任务推理与策略优化模块,历史数据可用于多机之间的协作知识共享,促进智能演化和自主学习。依托端云一体化的协同能力与动态调度机制,RoboOS具备高度的扩展性和可迁移性,为具身智能的规模化部署和生态构建奠定通用操作系统级的基础。
