在具身智能的落地进程中,行业长期受困于泛化能力与控制精度的权衡。传统的控制论方法精度高但缺乏语义理解,而基于大模型的端到端方案虽然具备了一定的效果,却往往受限于推理延迟,难以应对物理世界的瞬态变化。卓世科技构建了行业首个集成直觉(System 1)、逻辑(System 2)、共情(System 3)的“三核协同”具身大脑解决方案Tri-Core。本文将从架构设计、核心算法实现及数据训练策略三个维度进行深度解析。

一、架构总览:三核闭环
相比于目前主流的单一VLA(Vision-Language-Action)模型架构,我们采用了类脑的模块化设计,受认知心理学中双系统理论的启发,并构建了以下三核协同的层次化的系统:
●System 1 (小脑): 基于VLA的反应式控制,负责实时生成高频率动作。
●System 2 (大脑): 基于VLM的长程规划,负责因果推演和复杂任务拆解。
●System 3 (共情系统): 负责情感计算与伦理安全,赋予系统“拟人化”的思考。
这种架构的核心优势在于异步计算,即System 1在边缘侧高频运行以保证实时性,而System 2在云端或高算力单元低频运行以保证逻辑正确性以及深度推理。
二、System 1:基于流匹配的VLA模型
System 1的定位是“小脑”,负责动作的执行,其核心指标是响应速度与鲁棒性。
该VLA模型采用了Mixture-of-Transformers (MoT) 架构,将视觉语言模型(VLM)和动作专家(Action Expert)统一建模。
动作专家:早期的VLA模型(如 RT-2)通常采用离散化的Token进行自回归生成。然而,这种方式在处理连续的人型臂动作时,往往会出现动作不平滑的问题,且推理速度较慢。我们在 System 1 的动作专家中引入了 Flow Matching(流匹配) 生成范式。不同于扩散模型需要繁琐的去噪步数,Flow Matching 通过学习从高斯噪声到目标动作分布的向量场,能够以更少的推理步数生成高质量的连续动作轨迹。
视觉专家:System 1的小尺寸VLM由System 2的大尺寸VLM通过知识蒸馏获得。
训练策略:为了使得VLA模型获得足够的泛化能力,我们进行了2阶段的训练
(1)Stage 1: 跨具身预训练。这一阶段使用开源具身数据集,包含多种形态机器人的数据。虽然这些数据对应的动作空间不一致,但能极大提升模型的泛化认知能力。
(2)Stage 2: 单一具身后训练。这一阶段使用目标机型的任务导向数据,针对特定的垂直场景进行微调,进一步强化模型在目标机型上的稳定性和准确性。
三、System 2:具备物理世界能力的逻辑规划器
System 2是基于璇玑玉衡大模型构建的“大脑皮层”,是一个大尺寸的视觉语言模型(VLM)。它的核心任务是将用户的自然语言指令以及捕捉的视觉图像转化为System 1可执行的原子动作序列。
为了使其具备物理世界能力,我们在通用多模态理解、具身规划、空间感知等数据集上进行多阶段微调。
此外,为了提升“大脑”的思考能力,我们并未直接让System 2输出指令,而是强制其进行隐空间模拟。在执行不可逆操作(如“打碎鸡蛋”)前,System 2会基于物理常识预测后果。
例如,面对“清理桌面”的指令,System 2 会构建如下思维链:
识别物体(水杯, 书) -> 判定物理约束(书在水杯下) -> 预测风险(直接抽书导致水杯倾倒) -> 生成修正计划(先移开水杯,再拿书)。
这种具备物理一致性的推理能力,是目前通用大模型所不具备的。
四、System 3:情感中枢
这是卓世科技架构中最为独特的一环。在传统的机器人学中,人机交互通常是基于规则的硬编码。而我们将其提升到了模型层面。
System 3是一个并行的轻量级多模态模型,负责多模态情感感知,它实时处理视觉(面部微表情、姿态)和音频(语调、语速)信号。
通过对这些非语义信息的分析,系统能够计算用户的情感状态向量,如[焦虑, 放松, 愤怒, 快乐]。从而影响System 2的推理决策。
此外,System 3还充当了伦理安全过滤器的作用,它拥有比System 2更高的中断权限。一旦 System 2 的规划路径触犯了预设的伦理边界(如检测到路径上存在生物体且存在碰撞风险),System 3 会直接在底层熔断控制信号,确保绝对安全。
五、Benchmark

在具身行业权威基准测试SimplerEnv和LIBERO中,卓世具身大脑Tri-Core均取得了SOTA水平,超过了π0、英伟达GROOT N1.5等前沿模型。
基准测试介绍:SimplerEnv 是一个专为评估机器人真机策略而设计的闭环仿真环境,旨在解决“Sim-to-Real(仿真到真机)”和“Real-to-Sim(真机到仿真)”之间的鸿沟。LIBERO是专为终身学习和知识迁移而设计的基准测试集。
六、结语
卓世科技具身智能大脑的研发初衷,是试图回答一个核心问题:如何让AI不仅具备“智能”,更具备“本能”与“人性”。
通过System 1的极致快思考、System 2的深度慢思考以及System 3的价值对齐,我们正在重新定义智能体与物理世界的交互方式。这不仅仅是算法的创新,更是系统工程的突破。
探索永无止境。未来,卓世科技将进一步加快具身大脑的迭代进程,坚定不移地加大对 VLA 模型与世界模型的研发投入。我们将持续深化模型对复杂物理规律的理解与泛化,引领具身智能迈向更加通用、智能与安全的新纪元。





商业观察网-《商业观察》杂志社官网版权与免责声明:
① 凡本网注明“来源:商业观察网或《商业观察》杂志”的所有作品,版权均属于商业观察网,未经本网授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:商业观察网”。违反上述声明者,本网将追究其相关法律责任。
② 凡本网注明“来源:XXX(非商业观察网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
③ 如因作品内容、版权和其它问题需要同本网联系的,请在30日内进行。
相关文章