卓世科技具身智能大脑Tri-Core：从“端到端”到“三核协同”的架构演进-商业观察网-《商业观察》杂志社官网

在具身智能的落地进程中，行业长期受困于泛化能力与控制精度的权衡。传统的控制论方法精度高但缺乏语义理解，而基于大模型的端到端方案虽然具备了一定的效果，却往往受限于推理延迟，难以应对物理世界的瞬态变化。卓世科技构建了行业首个集成直觉（System 1）、逻辑（System 2）、共情（System 3）的“三核协同”具身大脑解决方案Tri-Core。本文将从架构设计、核心算法实现及数据训练策略三个维度进行深度解析。

一、架构总览：三核闭环

相比于目前主流的单一VLA（Vision-Language-Action）模型架构，我们采用了类脑的模块化设计，受认知心理学中双系统理论的启发，并构建了以下三核协同的层次化的系统：

●System 1 (小脑): 基于VLA的反应式控制，负责实时生成高频率动作。

●System 2 (大脑): 基于VLM的长程规划，负责因果推演和复杂任务拆解。

●System 3 (共情系统): 负责情感计算与伦理安全，赋予系统“拟人化”的思考。

这种架构的核心优势在于异步计算，即System 1在边缘侧高频运行以保证实时性，而System 2在云端或高算力单元低频运行以保证逻辑正确性以及深度推理。

二、System 1：基于流匹配的VLA模型

System 1的定位是“小脑”，负责动作的执行，其核心指标是响应速度与鲁棒性。

该VLA模型采用了Mixture-of-Transformers (MoT) 架构，将视觉语言模型（VLM）和动作专家（Action Expert）统一建模。

动作专家：早期的VLA模型（如 RT-2）通常采用离散化的Token进行自回归生成。然而，这种方式在处理连续的人型臂动作时，往往会出现动作不平滑的问题，且推理速度较慢。我们在 System 1 的动作专家中引入了 Flow Matching（流匹配）生成范式。不同于扩散模型需要繁琐的去噪步数，Flow Matching 通过学习从高斯噪声到目标动作分布的向量场，能够以更少的推理步数生成高质量的连续动作轨迹。

视觉专家：System 1的小尺寸VLM由System 2的大尺寸VLM通过知识蒸馏获得。

训练策略：为了使得VLA模型获得足够的泛化能力，我们进行了2阶段的训练

（1）Stage 1: 跨具身预训练。这一阶段使用开源具身数据集，包含多种形态机器人的数据。虽然这些数据对应的动作空间不一致，但能极大提升模型的泛化认知能力。

（2）Stage 2: 单一具身后训练。这一阶段使用目标机型的任务导向数据，针对特定的垂直场景进行微调，进一步强化模型在目标机型上的稳定性和准确性。

三、System 2：具备物理世界能力的逻辑规划器

System 2是基于璇玑玉衡大模型构建的“大脑皮层”，是一个大尺寸的视觉语言模型（VLM）。它的核心任务是将用户的自然语言指令以及捕捉的视觉图像转化为System 1可执行的原子动作序列。

为了使其具备物理世界能力，我们在通用多模态理解、具身规划、空间感知等数据集上进行多阶段微调。

此外，为了提升“大脑”的思考能力，我们并未直接让System 2输出指令，而是强制其进行隐空间模拟。在执行不可逆操作（如“打碎鸡蛋”）前，System 2会基于物理常识预测后果。

例如，面对“清理桌面”的指令，System 2 会构建如下思维链：

识别物体(水杯, 书) -> 判定物理约束(书在水杯下) -> 预测风险(直接抽书导致水杯倾倒) -> 生成修正计划(先移开水杯，再拿书)。

这种具备物理一致性的推理能力，是目前通用大模型所不具备的。

四、System 3：情感中枢

这是卓世科技架构中最为独特的一环。在传统的机器人学中，人机交互通常是基于规则的硬编码。而我们将其提升到了模型层面。

System 3是一个并行的轻量级多模态模型，负责多模态情感感知，它实时处理视觉（面部微表情、姿态）和音频（语调、语速）信号。

通过对这些非语义信息的分析，系统能够计算用户的情感状态向量，如[焦虑, 放松, 愤怒, 快乐]。从而影响System 2的推理决策。

此外，System 3还充当了伦理安全过滤器的作用，它拥有比System 2更高的中断权限。一旦 System 2 的规划路径触犯了预设的伦理边界（如检测到路径上存在生物体且存在碰撞风险），System 3 会直接在底层熔断控制信号，确保绝对安全。

五、Benchmark

在具身行业权威基准测试SimplerEnv和LIBERO中，卓世具身大脑Tri-Core均取得了SOTA水平，超过了π0、英伟达GROOT N1.5等前沿模型。

基准测试介绍：SimplerEnv 是一个专为评估机器人真机策略而设计的闭环仿真环境，旨在解决“Sim-to-Real（仿真到真机）”和“Real-to-Sim（真机到仿真）”之间的鸿沟。LIBERO是专为终身学习和知识迁移而设计的基准测试集。

六、结语

卓世科技具身智能大脑的研发初衷，是试图回答一个核心问题：如何让AI不仅具备“智能”，更具备“本能”与“人性”。

通过System 1的极致快思考、System 2的深度慢思考以及System 3的价值对齐，我们正在重新定义智能体与物理世界的交互方式。这不仅仅是算法的创新，更是系统工程的突破。

探索永无止境。未来，卓世科技将进一步加快具身大脑的迭代进程，坚定不移地加大对 VLA 模型与世界模型的研发投入。我们将持续深化模型对复杂物理规律的理解与泛化，引领具身智能迈向更加通用、智能与安全的新纪元。

商业观察网-《商业观察》杂志社官网版权与免责声明：

① 凡本网注明“来源：商业观察网或《商业观察》杂志”的所有作品，版权均属于商业观察网，未经本网授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的，应在授权范围内使用，并注明“来源：商业观察网”。违反上述声明者，本网将追究其相关法律责任。

② 凡本网注明“来源：XXX（非商业观察网）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。

③ 如因作品内容、版权和其它问题需要同本网联系的，请在30日内进行。

【上一篇】创纪录！杨立昆“世界模型”公司AMI获超10亿美元种子融资

【下一篇】2026AWE 现场直击：美的空气机以架构重构空调，给行业上了一堂“降维打击课”

卓世科技具身智能大脑Tri-Core：从“端到端”到“三核协同”的架构演进

相关文章

编辑推荐

即时

摩根大通给与众安在线“增持”评级，定价26港元

穿越者完成数千万元天使+轮融资，中国首艘商业载...

立讯精密：汽车和通讯业务高增长

极融洞察：人工智能重塑金融科技战略版图

运满四方一路东风东风股份与专用车合作伙伴及多...

官方声明

《商业观察》杂志社严正声明

关于假冒《商业观察》杂志官方投稿的声明

关注我们

友情链接：