人形机器人论文精选 - 2026-03-20
本期收录 12 篇论文(HuggingFace 热门 + Semantic Scholar 精选 + arXiv 最新)。
1. ADMM-Based Distributed MPC with Control Barrier Functions for Safe Multi-Robot Quadrupedal Locomotion
来源: 📄 arXiv 作者: Yicheng Zeng, Ruturaj S. Sambhus, Basit Muhammad Imran等 发布日期: 2026-03-19 arXiv: 2603.19170v1
一句话摘要
提出基于ADMM的分布式MPC框架,通过节点-边分裂形式将CBF安全约束的集中式优化问题分解为可并行求解的局部二次规划,实现多足机器人完全去中心化的安全轨迹规划。
现状痛点
现有分布式MPC难以处理多机器人间的安全耦合约束,CBF引入的显式代理间耦合使问题无法直接分解,导致计算复杂度高、难以满足实时性要求。
解决方案与技术亮点
创新采用节点-边分裂 formulations和ADMM算法,将全局问题分解为独立的节点局部和边局部QP,通过邻域通信实现完全去中心化、对称计算负载的并行求解。
效果与应用场景
在两台Unitree Go2四足机器人和四机器人仿真中验证,实现与集中式MPC相当的性能,4机器人场景下平均每周期规划时间减少51%,适用于危险环境探索、协同运输等场景。
2. PRIOR: Perceptive Learning for Humanoid Locomotion with Reference Gait Priors
来源: 📄 arXiv 作者: Chenxi Han, Shilu He, Yi Cheng等 发布日期: 2026-03-19 arXiv: 2603.18979v1
一句话摘要
现状痛点
解决方案与技术亮点
效果与应用场景
3. Empathetic Motion Generation for Humanoid Educational Robots via Reasoning-Guided Vision--Language--Motion Diffusion Architecture
来源: 📄 arXiv 作者: Fuze Sun, Lingyu Li, Lekan Dai等 发布日期: 2026-03-19 arXiv: 2603.18771v1
一句话摘要
提出RG-VLMD框架,通过门控混合专家模型进行多模态情感估计,结合教学动作策略和推理引导的扩散架构,为人形教育机器人生成语义一致、适应性强的共演讲手势。
现状痛点
现有共手势生成方法缺乏对教学语境的深层理解,情感估计与运动生成之间存在语义鸿沟,导致运动可控性差、教学表达力不足,难以生成符合教育场景需求的个性化手势。
解决方案与技术亮点
创新性地引入门控混合专家模型预测Valence/Arousal,通过情感驱动策略映射到离散教学动作类别;采用clip级意图和帧级教学计划的条件扩散生成,利用加性潜在限制和辅助动作组监督提升运动结构化程度。
效果与应用场景
在NAO机器人上验证了生成运动序列的物理可行性和实时可执行性,实验表明运动模式更结构化且独特性强,显著提升了教育人机交互中的手势可控性和教学表达力,适用于智能教育机器人场景。
4. RoboForge: Physically Optimized Text-guided Whole-Body Locomotion for Humanoids
来源: 📄 arXiv 作者: Xichen Yuan, Zhe Li, Bofan Lyu等 发布日期: 2026-03-18 arXiv: 2603.17927v2
一句话摘要
提出RoboForge框架,通过物理可信度优化(PP-Opt)模块实现文本驱动的人形机器人全身运动生成与物理执行的双向耦合,解决传统重定向方法的物理不可行性问题。
现状痛点
现有文本到运动生成pipeline存在重定向过程中的运动质量下降、物理不可行性(如浮空、滑行、穿透)、接触转换错误以及真实世界动力学数据采集成本高等技术瓶颈。
解决方案与技术亮点
核心创新在于PP-Opt模块实现生成与控制的双向耦合:前向将物理可信度奖励融入师生蒸馏策略精炼动作;后向将仿真 rollout 转化为高质量运动数据微调生成器,形成自改进循环。
效果与应用场景
在Unitree G1人形机器人上验证,IsaacLab和MuJoCo环境中追踪精度和成功率均显著优于传统显式重定向基线,为可部署的文本引导人形智能提供实用路径。
5. Learning Whole-Body Control for a Salamander Robot
来源: 📄 arXiv 作者: Mengze Tian, Qiyuan Fu, Chuanfang Ning等 发布日期: 2026-03-17 arXiv: 2603.16683v1
一句话摘要
该论文提出使用深度强化学习开发蝾螈机器人的统一关节级全身控制策略,实现从仿真到真实硬件的稳定迁移,并在行走和游泳模式间实现无缝转换。
现状痛点
现有蝾螈机器人主要依赖中央模式发生器(CPG)和基于模型的控制策略,学习型统一全身控制在高自由度两栖机器人上的仿真到真实转移仍面临重大挑战,且足式机器人在两栖环境中的学习控制研究几乎空白。
解决方案与技术亮点
论文采用强化学习将本体感受观测和命令速度直接映射到关节动作,提出系统级real-to-sim匹配和sim-to-real迁移策略,通过仿真训练获得稳定协调的全身运动策略,并实现水陆两种运动模式的统一控制框架。
效果与应用场景
实验表明学习策略在仿真和真实硬件上均能实现平坦及非平坦地形上的稳定行走,仿真中成功实现行走与游泳模式转换,可应用于复杂两栖环境探测、搜索救援及生物运动机理研究等场景。
6. ADAPT: Adaptive Dual-projection Architecture for Perceptive Traversal
来源: 📄 arXiv 作者: Shuo Shao, Tianchen Huang, Wei Gao等 发布日期: 2026-03-17 arXiv: 2603.16328v1
一句话摘要
ADAPT提出一种自适应双投影架构,通过水平高程图和垂直距离图表示3D环境,并将感知范围作为可学习动作,实现人形机器人在不同场景下动态调整感知视野,兼顾感知精度与计算效率。
现状痛点
现有方法依赖固定感知配置,在复杂3D环境中难以平衡感知保真度与计算效率;voxel-based方法观测维度高、计算开销大,限制了机器人在高速运动时的敏捷性和在拥挤场景中的精细感知能力。
解决方案与技术亮点
创新采用双投影表示(水平高程图+垂直距离图)大幅降低观测维度;将感知范围作为策略的可学习参数,使机器人能在高速运动时扩展视野、在拥挤场景收缩视野获得更高局部分辨率,实现自适应感知。
效果与应用场景
实验在Unitree G1人形机器人上实现零样本迁移,在多种3D环境挑战中显著优于固定范围基线,展现出高度鲁棒的穿越能力,适用于复杂地形行走、障碍物避让等实际应用场景。
7. ECHO: Edge-Cloud Humanoid Orchestration for Language-to-Motion Control
来源: 📄 arXiv 作者: Haozhe Jia, Jianfei Song, Yuan Zhang等 发布日期: 2026-03-17 arXiv: 2603.16188v1
一句话摘要
ECHO提出云端扩散模型生成动作、边缘强化学习跟踪执行的拟人机器人全身控制框架,实现自然语言到动作的端到端映射。
现状痛点
现有方法依赖人体模型推理时重定向、与低层PD控制不兼容;模拟到真实迁移存在困难;缺乏自主跌倒恢复能力。
解决方案与技术亮点
提出38维机器人原生动作表示,融合云端1D卷积UNet扩散模型与边缘教师-学生强化学习策略,配备证据适应模块和形态对称约束实现零样本 sim-to-real 迁移。
效果与应用场景
在HumanML3D基准上达到FID 0.029、R-Precision Top-1 0.686,Unitree G1真机实现零微调自然语言命令执行,适用于家庭服务、工业巡检等场景。
8. Enforcing Task-Specified Compliance Bounds for Humanoids via Anisotropic Lipschitz-Constrained Policies
来源: 📄 arXiv 作者: Zewen He, Yoshihiko Nakamura 发布日期: 2026-03-17 arXiv: 2603.16180v1
一句话摘要
本文提出各向异性Lipschitz约束策略(ALCP),将任务空间刚度上限映射为策略雅可比矩阵的状态依赖约束,通过hinge-squared谱范数惩罚实现方向依赖的柔顺性控制。
现状痛点
现有RL方法难以施加可量化验证的柔顺性目标,经典刚度设计不适用于模型-free场景,且传统LCP使用单一标量约束缺乏物理可解释性。
解决方案与技术亮点
提出ALCP框架,建立任务空间刚度与策略Jacobian Lipschitz常数之间的映射关系,使用hinge-squared谱范数惩罚在训练中强制执行各向异性柔顺约束。
效果与应用场景
在人形机器人双足 locomotion任务中验证,显著提升运动稳定性、冲击鲁棒性,抑制振荡并降低能耗,适用于复杂运动控制场景。
9. The Era of End-to-End Autonomy: Transitioning from Rule-Based Driving to Large Driving Models
来源: 📄 arXiv 作者: Eduardo Nebot, Julie Stephany Berrio Perez 发布日期: 2026-03-17 arXiv: 2603.16050v1
一句话摘要
该论文系统分析了自动驾驶从模块化规则系统向端到端大驾驶模型(LDM)的技术转型,涵盖特斯拉FSD、Rivian、NVIDIA等商业实现,并提出监督式端到端驾驶作为L2++新兴产品类别。
现状痛点
传统规则型模块化架构存在感知-规划-控制级联误差、难以处理长尾分布场景、系统扩展性受限等问题,且安全验证复杂,难以满足商业化部署需求。
解决方案与技术亮点
提出端到端学习框架,直接将原始传感器输入映射到驾驶动作;采用大驾驶模型(LDM)架构;监督式E2E系统(FSD Supervised)实现大部分动态驾驶任务,人类仅需安全监督。
效果与应用场景
特斯拉FSD V12/V14已实现商业部署,预计2026年L2++系统大规模量产;技术架构可扩展至人形机器人等具身智能系统,推动robotaxi和自动驾驶卡车落地。
10. HSImul3R: Physics-in-the-Loop Reconstruction of Simulation-Ready Human-Scene Interactions
来源: 📄 arXiv 作者: Yukang Cao, Haozhe Xie, Fangzhou Hong等 发布日期: 2026-03-16 arXiv: 2603.15612v1
一句话摘要
HSImul3R提出物理在环的双向优化框架,通过场景目标强化学习和直接仿真奖励优化分别精化人体运动与场景几何,首次实现稳定、可直接部署到真实人形机器人的仿真就绪3D人类场景交互重建。
现状痛点
现有方法存在严重感知-仿真差距:视觉上合理的重建常违反物理约束,在物理引擎中运行时出现不稳定、穿透、漂浮等问题,导致无法应用于Embodied AI和机器人交互任务。
解决方案与技术亮点
创新性地将物理仿真器作为主动监督器,设计双向优化管道:前向利用场景目标RL在运动保真度和接触稳定性双重监督下优化人体动作;反向通过直接仿真奖励反馈(重力稳定性、交互成功率)优化场景几何;并构建HSIBench多样化基准。
效果与应用场景
实验表明HSImul3R生成首个稳定、仿真就绪的HSI重建,可直接部署到真实世界人形机器人,应用于人机交互、动作模拟、虚拟现实、物理仿真验证等场景。
11. HALO:Closing Sim-to-Real Gap for Heavy-loaded Humanoid Agile Motion Skills via Differentiable Simulation
来源: 📄 arXiv 作者: Xingyi Wang, Chenyun Zhang, Weiji Xie等 发布日期: 2026-03-16 arXiv: 2603.15084v1
一句话摘要
论文提出基于可微分模拟器MuJoCo XLA的两阶段梯度系统辨识框架,通过先校准机器人模型再辨识未知负载质量,实现重载条件下人形机器人运动技能的零样本sim-to-real迁移。
现状痛点
人形机器人在实际场景携带未知负载时引入显著模型不匹配,传统sim-to-real强化学习方法在重载条件下效果严重下降,存在难以克服的sim-to-real差距。
解决方案与技术亮点
提出两阶段梯度-based系统辨识框架:第一阶段利用可微分仿真器校准标称机器人模型以减少内在sim-to-real差异;第二阶段基于校准模型辨识未知负载的质量分布,显式减少结构化模型偏差后再进行策略训练。
效果与应用场景
实验表明该方法实现了更精确的参数辨识,显著提高了运动跟踪精度,增强了重载条件下的敏捷性和鲁棒性,可零样本迁移到真实硬件,适用于需要携带重物的各种人形机器人应用场景。
12. Exploring the dynamic properties and motion reproducibility of a small upper-body humanoid robot with 13-DOF pneumatic actuation for data-driven control
来源: 📄 arXiv 作者: Hiroshi Atsuta, Hisashi Ishihara, Minoru Asada 发布日期: 2026-03-16 arXiv: 2603.14787v1
一句话摘要
研发了一款13自由度气动上半身类人机器人,通过分析其动态特性和可重复性,基于多层感知器实现了带时延补偿的数据驱动控制器,在轨迹跟踪上优于传统PID控制。
现状痛点
气动驱动类人机器人因非线性特性和执行时延难以精确控制,高自由度系统更增控制难度,传统PID等方法难以应对复杂的动力学特性。
解决方案与技术亮点
提出采用多层感知器(MLP)结合显式时延补偿的数据驱动控制方法,利用随机运动数据训练网络生成压力命令,实现对气动执行器的精准控制。
效果与应用场景
实验表明MLP控制器在4自由度臂系统的轨迹跟踪性能显著优于PID控制器,适用于需要高安全性和柔顺性的人体交互场景。