人形机器人论文精选 - 2026-03-15
本期收录 30 篇高质量论文。
1. $Ψ_0$: An Open Foundation Model Towards Universal Humanoid Loco-Manipulation
作者: Songlin Wei, Hongyi Jing, Boqian Li等 发布日期: 2026-03-12 arXiv: 2603.12263v1相关性: 0.5
一句话摘要
本文提出Ψ_0人形机器人基础模型,通过分阶段训练策略(先在大规模人类 egocentric 视频上预训练视觉-动作表示,再在真实机器人数据上微调动作专家),在仅800小时人类视频+30小时机器人数据条件下,超越使用10倍以上数据的基线方法40%以上。
现状痛点
现有方法尝试通过联合训练大规模人类和机器人数据解决人形机器人 loco-manipulation 问题,但人类与机器人之间存在根本的运动学差异(kinematic and motion disparities),导致数据效率低下,尽管使用了大量数据,性能仍不理想。
解决方案与技术亮点
论文提出分阶段训练范式:第一阶段使用自回归VLM backbone在大规模egocentric人类视频上进行预训练,获取可泛化的视觉-动作表示;第二阶段使用flow-based动作专家在高质量人形机器人数据上进行后训练,学习精确的关节控制。关键创新在于解耦学习过程以最大化异构数据源的效用。
效果与应用场景
实验表明,仅需约800小时人类视频和30小时真实机器人数据,即可在多个任务上实现最优性能,总体成功率比使用超过10倍数据的基线方法提升40%以上。该模型适用于人形机器人的通用locomotion和manipulation任务。
2. SPARK: Skeleton-Parameter Aligned Retargeting on Humanoid Robots with Kinodynamic Trajectory Optimization
作者: Hanwen Wang, Qiayuan Liao, Bike Zhang等 发布日期: 2026-03-12 arXiv: 2603.11480v1相关性: 0.5
一句话摘要
论文提出两阶段管道,先通过URDF骨骼表示和对齐校准将人类运动转换为机器人兼容格式,再通过渐进式运动动力学轨迹优化生成自然、动力学可行的运动参考。
现状痛点
人类运动演示数据与机器人运动学/动力学不兼容,直接使用受限;现有重定向方法需大量手动调整,易产生逆运动学误差,且缺乏物理一致性。
解决方案与技术亮点
核心创新包括:(1) URDF骨骼结构对齐校准而非启发式修改;(2) 三阶段渐进式轨迹优化(运动学TO→逆动力学→完整动力学TO),每阶段热启动。
效果与应用场景
生成自然、动力学一致的状态轨迹和关节力矩 profiles,为学习控制策略提供高质量参考,适用于不同人形机器人平台的多样化运动任务。
3. Learning to Assist: Physics-Grounded Human-Human Control via Multi-Agent Reinforcement Learning
作者: Yuto Shibata, Kashu Yamazaki, Lalit Jayanti等 发布日期: 2026-03-11 arXiv: 2603.11346v1相关性: 0.5
一句话摘要
论文提出AssistMimic方法,将紧密交互的力量交换动作模仿建模为多智能体强化学习问题,联合训练助手和接受者策略,实现物理 grounded 的辅助动作追踪。
现状痛点
现有GMT技术仅能实现无接触社交互动或独立动作,辅助场景要求机器人持续感知人类伙伴并快速适应其动态姿态,现有方法无法处理物理交互的辅助动作追踪。
解决方案与技术亮点
提出三大创新:1)多智能体RL框架联合训练双方策略;2)伙伴策略初始化,从单Human动作追踪迁移先验改善探索;3)动态参考重定向和接触促进奖励,使助手适应接受者实时姿态并鼓励物理有意义的支撑。
效果与应用场景
在标准基准上首次成功追踪辅助交互动作,实现物理 grounded 且社会感知的人形控制,潜在应用于护理服务、日常辅助等需要与人类紧密物理交互的场景。
4. RL-Augmented MPC for Non-Gaited Legged and Hybrid Locomotion
作者: Andrea Patrizi, Carlo Rizzardo, Arturo Laurenzi等 发布日期: 2026-03-11 arXiv: 2603.10878v1相关性: 0.5
一句话摘要
该论文提出一种结合强化学习(RL)与模型预测控制(MPC)的层级架构,通过RL智能体学习非周期步态并将接触时机规划卸载给MPC,实现50-120kg不同体型机器人的零样本sim-to-real迁移。
现状痛点
传统MPC在处理接触式运动规划时面临组合爆炸难题,周期步态假设限制了非结构化地形的适应性,且步态时机调整需要大量人工调参,难以实现快速动态响应。
解决方案与技术亮点
论文提出分层RL-MPC架构,高层RL通过试错学习非周期步态和接触时机,低层MPC负责跟踪运动指令,仅需少量奖励函数即可训练,实现接触规划的端到端学习。
效果与应用场景
在Flat terrain腿部机器人和混合式 locomotion验证,实现零样本sim-to-sim和sim-to-sim迁移,在Centauro 120kg轮腿机器人上完成真实部署,适用于非平坦地形和混合 locomotion。
5. Cybo-Waiter: A Physical Agentic Framework for Humanoid Whole-Body Locomotion-Manipulation
作者: Peng Ren, Haoyang Ge, Chuan Qi等 发布日期: 2026-03-11 arXiv: 2603.10675v1相关性: 0.5
一句话摘要
论文提出Cybo-Waiter框架,将VLM规划的自然语言指令转换为可验证的JSON任务程序,通过SAM3和RGB-D多目标3D几何监督实现人形机器人全身运动与操作的闭环执行与重规划。
现状痛点
人形机器人在人类环境中执行开放式自然语言任务时面临挑战:运动与操作通过姿态、可达性和平衡紧密耦合,在部分可观测性下进行长期任务可靠执行困难,缺乏有效的任务验证和反馈机制。
解决方案与技术亮点
提出人形智能体框架,包含三层架构:VLM规划器将指令编译为带谓词前置条件和成功条件的JSON子任务序列;多目标3D接地模块使用SAM3和RGB-D估计对象质心和范围;监督器基于条件级诊断验证完成并触发重规划。运动执行时协调全身运动与操作,选择满足可达性和平衡约束的原语。
效果与应用场景
实验展示了在桌面操作和长时程人形机器人运动-操作任务中的鲁棒性提升,包括多目标接地的准确性、时间稳定性改善以及恢复驱动的重规划能力。适用于服务机器人、家庭助理、餐饮服务等需要自然语言交互的复杂人形机器人场景。
6. Kinodynamic Motion Retargeting for Humanoid Locomotion via Multi-Contact Whole-Body Trajectory Optimization
作者: Xiaoyu Zhang, Steven Haener, Varun Madabushi等 发布日期: 2026-03-10 arXiv: 2603.09956v1相关性: 0.5
一句话摘要
提出KDMR框架,将人形机器人运动重定向建模为多接触全身轨迹优化问题,通过整合刚体动力学、接触互补约束和GRF测量生成物理一致的类人运动。
现状痛点
传统纯运动学重定向方法依赖空间MoCap数据,导致脚滑穿、地面穿透等物理不一致问题,严重影响下游模仿学习策略的性能和稳定性。
解决方案与技术亮点
KDMR框架创新性地将运动重定向表述为轨迹优化问题,显式 enforcement of 刚体动力学和接触互补约束,并利用GRF测量自动检测脚跟着地-脚尖离地接触事件,精确复制复杂类人接触模式。
效果与应用场景
实验表明KDMR在动态可行性、平滑性、GRF跟踪精度方面显著优于GMR方法,并能加速BeyondMimic框架下下游控制策略的收敛,提升整体运动稳定性,适用于人形机器人运动控制与模仿学习。
7. SCDP: Learning Humanoid Locomotion from Partial Observations via Mixed-Observation Distillation
作者: Milo Carroll, Tianhu Peng, Lingfan Bao等 发布日期: 2026-03-10 arXiv: 2603.09574v1相关性: 0.5
一句话摘要
SCDP通过混合观测蒸馏和条件扩散策略,仅用板载传感器实现人形机器人运动控制,无需外部状态估计,在模拟和真实机器人上验证了有效性。
现状痛点
现有的人形机器人运动控制方法依赖特权全身体态信息,需要复杂且不可靠的状态估计系统,难以在真实环境中部署,训练-部署存在严重不匹配。
解决方案与技术亮点
提出混合观测训练框架,扩散模型以传感器历史为条件,监督预测特权未来状态动作轨迹;开发限制去噪、上下文分布对齐和上下文感知注意力掩码,隐式实现状态估计。
效果与应用场景
模拟中速度控制达99-100%成功率,AMASS测试集跟踪成功率93%,与特权基线相当;成功部署于G1人形机器人(50Hz),展示无需外部传感的稳健真实运动控制。
8. MO-Playground: Massively Parallelized Multi-Objective Reinforcement Learning for Robotics
作者: Neil Janwani, Ellen Novoseller, Vernon J. Lawhern等 发布日期: 2026-03-10 arXiv: 2603.09237v1相关性: 0.5
一句话摘要
论文提出GPU加速的MORLAX算法和MO-Playground多目标环境平台,实现多目标强化学习的大规模并行化,在人形机器人6个冲突目标(平滑性、效率、臂摆动等)的Pareto最优策略学习中实现25-270倍加速。
现状痛点
现有MORL算法无法有效利用大规模并行计算能力,同时模拟数千环境的计算成本过高,导致多目标强化学习难以应用于复杂机器人任务。
解决方案与技术亮点
提出MORLAX——GPU原生的高效多目标强化学习算法,配合MO-Playground——可pip安装的GPU加速多目标环境库,支持在几分钟内近似Pareto最优解集。
效果与应用场景
在BRUCE人形机器人上验证,可同时优化6个冲突目标(速度、能耗、平滑性等),获得更优Pareto前沿超体积,适用于双足机器人运动控制、多任务机械臂等复杂场景。
9. Embodied Human Simulation for Quantitative Design and Analysis of Interactive Robotics
作者: Chenhui Zuo, Jinhao Xu, Michael Qian Vergnolle等 发布日期: 2026-03-10 arXiv: 2603.09218v1相关性: 0.5
一句话摘要
该论文提出了一个基于全身肌肉骨骼模型和强化学习控制器的可扩展仿真框架,用于物理人机交互的定量分析与协同优化。
现状痛点
传统物理人机交互评估依赖间接指标,无法获取人体内部生物力学状态(肌肉力、关节负荷),且难以准确评估复杂的人体运动响应,导致大规模设计空间探索计算成本过高。
解决方案与技术亮点
核心创新包括:1)构建全身肌肉骨骼模型作为人类动力学预测代理;2)开发强化学习控制器生成适应性、生理合理的运动行为;3)采用顺序训练管道使预训练策略作为一致评估器;4)通过耦合仿真获取内部生物力学指标,实现结构参数与控制策略的协同优化。
效果与应用场景
在优化人机外骨骼交互的演示中,显著改善了关节对齐并降低了接触力。该框架可应用于可穿戴康复设备、外骨骼系统、协作机器人等人机交互产品的定量设计与分析。
10. ZeroWBC: Learning Natural Visuomotor Humanoid Control Directly from Human Egocentric Video
作者: Haoran Yang, Jiacheng Bao, Yucheng Xin等 发布日期: 2026-03-10 arXiv: 2603.09170v1相关性: 0.5
一句话摘要
ZeroWBC提出从人类第一人称视频直接学习自然的人形机器人全身控制策略,通过VLM预测人体动作并重定向到机器人,消除了对昂贵机器人远程操作数据的依赖。
现状痛点
现有方法依赖昂贵的机器人远程操作数据收集,数据获取成本高、耗时长;运动模式僵化,缺乏自然人类行为(如坐、踢等),难以实现多样化、自然的全身控制。
解决方案与技术亮点
论文提出三阶段pipeline:首先微调VLM根据文本指令和第一人称视觉预测未来全身人体运动;然后将预测的动作重定向到真实机器人关节;最后通过鲁棒的通用动作追踪策略执行控制,实现无需机器人数据的自然控制。
效果与应用场景
在Unitree G1人形机器人上验证,成功实现坐、踢等自然行为,运动自然度和多样性显著优于基线方法,为通用人形机器人全身控制提供可扩展、高效的范式,适用于家庭服务、娱乐互动等场景。
11. Predictive Control with Indirect Adaptive Laws for Payload Transportation by Quadrupedal Robots
作者: Leila Amanzadeh, Taizoon Chunawala, Randall T. Fawcett等 发布日期: 2026-03-09 arXiv: 2603.08831v1相关性: 0.5
一句话摘要
该论文提出一种层级化规划控制框架,将间接自适应律与模型预测控制相结合用于四足机器人未知载荷运输,通过实时估计降阶模型参数实现鲁棒轨迹规划。
现状痛点
四足机器人在运输未知动态载荷时面临模型参数不确定、传统MPC缺乏自适应能力、在粗糙地形上稳定性不足等技术瓶颈。
解决方案与技术亮点
提出一种高层自适应MPC与低层全身控制器的层级框架,采用梯度下降间接自适应律估计降阶模型参数,并将凸稳定性准则融入MPC约束实现实时轨迹规划。
效果与应用场景
实验验证可运输高达自重109%的静态载荷和73%自重的动态载荷,室内外粗糙地形测试表明其抗扰动和障碍物规避能力,适用搜索救援、物流运输等场景。
12. Embedding Classical Balance Control Principles in Reinforcement Learning for Humanoid Recovery
作者: Nehar Poddar, Stephen McCrory, Luigi Penco等 发布日期: 2026-03-09 arXiv: 2603.08619v1相关性: 0.5
一句话摘要
将经典平衡控制指标(捕获点、质心状态、质心动量)嵌入强化学习critic网络作为特权信息,通过奖励塑造引导策略学习,使纯本体感知执行器实现人形机器人从失衡到站立的全谱系自主恢复。
现状痛点
当前人形机器人在非结构化环境中易发生跌倒且难以恢复,现有强化学习方法将恢复简单视为任务奖励优化问题,缺乏对平衡状态的显式表示,导致学习信号不足、恢复失败率高的技术瓶颈。
解决方案与技术亮点
提出将经典平衡指标作为critic特权输入并在训练中围绕这些量塑造奖励的统一策略框架,无需参考轨迹或预设接触方式,使单一策略覆盖 ankle/hip 策略、修正性跨步、 compliant 跌倒及多接触起身等全谱系行为。
效果与应用场景
在 Isaac Lab 的 Unitree H1-2 上训练,实验表明恢复率达 93.4%,消融实验验证平衡结构信息的必要性,实现了 sim-to-sim(Isaac Lab→MuJoCo)及初步硬件零样本迁移,为人形机器人自主恢复的实际应用奠定基础。
13. MetaWorld-X: Hierarchical World Modeling via VLM-Orchestrated Experts for Humanoid Loco-Manipulation
作者: Yutong Shen, Hangxu Liu, Penghui Liu等 发布日期: 2026-03-09 arXiv: 2603.08572v1相关性: 0.5
一句话摘要
现状痛点
解决方案与技术亮点
效果与应用场景
14. Multifingered force-aware control for humanoid robots
作者: Pasquale Marra, Gabriele M. Caddeo, Ugo Pattacini等 发布日期: 2026-03-09 arXiv: 2603.08142v1相关性: 0.5
一句话摘要
现状痛点
解决方案与技术亮点
效果与应用场景
15. Omnidirectional Humanoid Locomotion on Stairs via Unsafe Stepping Penalty and Sparse LiDAR Elevation Mapping
作者: Yuzhi Jiang, Yujun Liang, Junhao Li等 发布日期: 2026-03-09 arXiv: 2603.07928v1相关性: 0.5
一句话摘要
本文提出一种基于密集不安全步态惩罚和稀疏LiDAR高程映射的单阶段训练框架,实现人形机器人在楼梯上的安全全方位 locomotion。
现状痛点
现有方法依赖前向深度相机存在盲区,限制全方位移动;稀疏的接触后不安全步态惩罚导致学习效率低和策略次优。
解决方案与技术亮点
提出三大创新:1)密集不安全步态惩罚提供连续反馈;2)滚动点云映射系统含时空置信度衰减和保护区域机制;3)Edge-Guided Asymmetric U-Net修复稀疏LiDAR在楼梯踢脚线的重建畸变。
效果与应用场景
模拟实验达到近100%安全步态率,真实机器人实验保持高安全步态率,完成复杂户外地形长距离行走测试,验证了可靠的sim-to-real迁移和长期稳定性。
16. Low-Cost Teleoperation Extension for Mobile Manipulators
作者: Danil Belov, Artem Erkhov, Yaroslav Savotin等 发布日期: 2026-03-08 arXiv: 2603.07672v1相关性: 0.5
一句话摘要
开发了一种低成本的移动双臂操作器遥操作系统,利用智能手机IMU追踪、leader arms和脚踏板实现直观的全身控制。
现状痛点
移动双臂操作器遥操作需同时控制高维系统,传统方法依赖昂贵的专业VR设备,成本高且缺乏沉浸式视觉反馈。
解决方案与技术亮点
提出模块化开源框架,创新性使用智能手机IMU进行头部追踪和相机控制,结合leader arms双边操作和脚踏板基座导航,集成于XLeRobot框架。
效果与应用场景
用户研究表明该系统显著提升任务性能并降低认知负荷,适用于工业检测、危险环境作业及家庭服务等场景。
17. GeoLoco: Leveraging 3D Geometric Priors from Visual Foundation Model for Robust RGB-Only Humanoid Locomotion
作者: Yufei Liu, Xieyuanli Chen, Hainan Pan等 发布日期: 2026-03-08 arXiv: 2603.07624v1相关性: 0.5
一句话摘要
GeoLoco利用冻结的视觉基础模型的3D几何先验,将单目RGB图像转换为高维3D潜在表示,实现仅凭RGB视觉的仿人机器人稳健零样本sim-to-real迁移。
现状痛点
现有感知型仿人 locomotion依赖主动深度传感器,丢弃了丰富的语义和外观线索;端到端强化学习从原始2D像素学习存在极端样本低效性和因几何尺度丢失导致的sim-to-real崩溃。
解决方案与技术亮点
提出proprioceptive-query多头交叉注意力机制,根据机器人实时步态动态关注任务关键拓扑特征;引入双头辅助学习方案,显式正则化潜在空间与物理地形几何对齐,防止过拟合于表层纹理。
效果与应用场景
仅在仿真中训练即实现对Unitree G1仿人机器人的稳健零样本迁移,成功穿越挑战性地形,适用于无需深度传感器的通用具身智能导航与运动控制。
18. InterReal: A Unified Physics-Based Imitation Framework for Learning Human-Object Interaction Skills
作者: Dayang Liang, Yuhang Lin, Xinzhe Liu等 发布日期: 2026-03-08 arXiv: 2603.07516v1相关性: 0.5
一句话摘要
InterReal是一个统一的基于物理的模仿学习框架,通过HOI运动数据增强和自动奖励学习器,使人型机器人能够跟踪人类-物体交互参考动作,学习精细交互技能并在真实世界部署。
现状痛点
现有框架主要关注非交互性的全身控制,忽视了人-物体交互(HOI)能力,且缺乏针对接触约束的数据增强和大规模奖励塑造的有效方法,限制了人型机器人在实际场景中的应用。
解决方案与技术亮点
提出两项核心创新:1) HOI运动数据增强方案,包含手-物接触约束,提高策略在物体扰动下的稳定性;2) 自动奖励学习器,由元策略基于关键跟踪误差指标探索并分配奖励信号给底层强化学习目标。
效果与应用场景
在box-picking和box-pushing任务上取得最高跟踪精度和任务成功率,并在真实人型机器人Unitree G1上验证了框架的实用性和鲁棒性,适用于需要精细人-物交互的服务机器人场景。
19. Perceptive Variable-Timing Footstep Planning for Humanoid Locomotion on Disconnected Footholds
作者: Zhaoyang Xiang, Upama Pant, Ayonga Hereid 发布日期: 2026-03-08 arXiv: 2603.07400v1相关性: 0.5
一句话摘要
论文提出一种基于混合整数模型预测控制的感知式可变时序脚步规划方法,通过联合优化脚部放置和步态时长,在非连续支撑区域实现动态一致的地形感知步态规划。
现状痛点
现有方法难以处理真实世界中障碍物或危险地面形成的非连续可踏足区域,且缺乏自适应步态时序调整能力,在非结构化环境中规划效率和安全性不足。
解决方案与技术亮点
提出感知式MI-MPC框架,联合规划脚步位置和步态持续时间;利用深度图像融合概率局部高度图并提取凸可踏足区域;通过二进制变量强制区域约束;嵌入Capturability边界(侧向单步+矢状无限步)保证安全性;步内重规划通过反向传播瞬时DCM增强鲁棒性。
效果与应用场景
在Digit机器人随机步进石场仿真(含外部推力干扰)中验证,实现毫秒级求解速度,生成地形感知、动态一致的脚步序列,具有自适应时序调整能力,适用于复杂非结构化环境中的双足运动。
20. Learning From Failures: Efficient Reinforcement Learning Control with Episodic Memory
作者: Chenyang Miao 发布日期: 2026-03-07 arXiv: 2603.07110v1相关性: 0.5
一句话摘要
现状痛点
解决方案与技术亮点
效果与应用场景
21. ACLM: ADMM-Based Distributed Model Predictive Control for Collaborative Loco-Manipulation
作者: Ziyi Zhou, Pengyuan Shu, Ruize Cao等 发布日期: 2026-03-07 arXiv: 2603.07095v1相关性: 0.5
一句话摘要
论文提出一种基于ADMM的分布式模型预测控制框架,通过利用有效载荷耦合结构将全局优化问题分解为并行子问题,实现多足机器人协作locomanipulation的实时规划与控制。
现状痛点
现有方法存在两难:集中式规划虽能捕捉动态耦合但计算复杂度随机器人数量指数增长,无法实时应用;分层或完全去中心化方法则忽视力交互导致行为保守,难以应对复杂环境。
解决方案与技术亮点
论文利用payload-induced耦合结构将全局OCP分解为带共识约束的并行单机器人子问题,采用ADMM迭代求解,每个规划周期仅需几次迭代即可收敛,并设计wrench-aware全身控制器同时跟踪运动和交互力。
效果与应用场景
仿真验证了多达4个机器人的协作搬运能力,展现良好的可扩展性、实时性能和鲁棒性。适用于复杂非结构化环境中多足机器人协作搬运重载payload的任务。
22. HybridMimic: Hybrid RL-Centroidal Control for Humanoid Motion Mimicking
作者: Ludwig Chee-Ying Tay, I-Chia Chang, Yan Gu 发布日期: 2026-03-06 arXiv: 2603.06775v1相关性: 0.5
一句话摘要
提出HybridMimic框架,通过学习策略动态调节基于重心模型的控制器,预测连续接触状态和期望重心速度,实现物理可行的运动模仿控制。
现状痛点
标准RL框架在部署时不显式考虑机器人动力学,导致在分布外环境中产生物理不可行的命令;现有混合方法依赖预定义的接触时序,灵活性和通用性受限。
解决方案与技术亮点
HybridMimic学习策略动态预测接触状态和重心速度,利用物理信息的奖励函数训练策略输出精确控制目标和参考转矩,结合重心动力学生成可用的前馈力矩。
效果与应用场景
在Booster T1人形机器人上,相比SOTA RL基线降低13%平均基座位置跟踪误差,提升了动态感知部署的鲁棒性,适用于复杂环境中的运动模仿任务。
23. Towards Motion Turing Test: Evaluating Human-Likeness in Humanoid Robots
作者: Mingzhe Li, Mengyin Liu, Zekai Wu等 发布日期: 2026-03-06 arXiv: 2603.06181v1相关性: 0.5
一句话摘要
该论文提出运动图灵测试框架和HHMotion数据集,通过SMPL-X表示消除外观影响,让人类观察者评判类人机器人与人类动作的相似度,以量化评估类人机器人运动的人类相似性。
现状痛点
现有类人机器人运动与人类动作仍存在明显偏差,尤其在跳跃、拳击、跑步等动态动作中差异显著;同时缺乏客观评估类人机器人运动人类相似性的标准化方法和基准数据集。
解决方案与技术亮点
论文构建了包含1000条动作序列的HHMotion数据集,涵盖15类动作、11个类人模型和10个人类对象;提出运动图灵测试评估框架;开发了基于运动数据预测人类相似度分数的基线模型。
效果与应用场景
该研究可用于类人机器人运动质量评估、机器人设计与优化、人机交互场景中的动作自然度评价,以及动画和游戏领域中动作合成效果的客观衡量。
24. Moving Through Clutter: Scaling Data Collection and Benchmarking for 3D Scene-Aware Humanoid Locomotion via Virtual Reality
作者: Beichen Wang, Yuanjie Lu, Linji Wang等 发布日期: 2026-03-06 arXiv: 2603.05993v1相关性: 0.5
一句话摘要
该论文提出Moving Through Clutter(MTC)框架,利用VR技术收集人体在杂乱3D环境中的运动数据,并自动重定向到人形机器人,构建了包含348条轨迹和145个场景的大规模数据集,为场景感知的人形机器人运动规划与控制研究奠定基础。
现状痛点
当前人形机器人运动研究主要聚焦于开放平坦的无障碍环境,而现实场景(如家居、办公室)充满杂物和几何约束,缺乏系统性的全人体运动与场景几何耦合的数据集,导致场景感知的人形运动研究严重滞后。
解决方案与技术亮点
论文提出基于VR的沉浸式数据采集框架,可程序化生成不同杂乱程度的3D场景,通过VR设备捕获与机器人 embodiment 一致的人体全身运动,并自动重定向到人形机器人模型,同时引入环境杂乱程度、稳定性、碰撞安全性等多维评估基准。
效果与应用场景
该数据集可用于研究几何环境适应的人形运动机制,开发场景感知的运动规划与控制算法,潜在应用包括家庭服务机器人、灾难救援机器人、复杂环境探测机器人等需要全身协调运动的智能系统。
25. PhysiFlow: Physics-Aware Humanoid Whole-Body VLA via Multi-Brain Latent Flow Matching and Robust Tracking
作者: Weikai Qin, Sichen Wu, Ci Chen等 发布日期: 2026-03-05 arXiv: 2603.05410v1相关性: 0.5
一句话摘要
本文提出PhysiFlow框架,通过多脑潜在流匹配和鲁棒追踪技术,实现物理感知的视觉语言动作人形机器人全身控制,解决语义引导与动态协调难题。
现状痛点
现有VLA方法推理效率低下,缺乏有效语义引导全身控制机制,在动态肢体协调任务中表现不稳定,难以满足真实世界任务执行需求。
解决方案与技术亮点
提出多脑VLA架构结合潜在流匹配技术,实现语义-运动意图引导的物理感知控制;引入鲁棒追踪机制增强系统稳定性;通过多脑协同提升全身运动协调性。
效果与应用场景
实验表明该框架可实现可靠的视觉语言引导全身协调运动,适用于复杂环境中的家务服务、危险任务执行、人机交互等多种实际应用场景。
26. OmniDP: Beyond-FOV Large-Workspace Humanoid Manipulation with Omnidirectional 3D Perception
作者: Pei Qu, Zheng Li, Yufei Jia等 发布日期: 2026-03-05 arXiv: 2603.05355v2相关性: 0.5
一句话摘要
提出OmniDP,基于激光雷达的端到端3D视觉运动策略,通过时间感知注意力池化处理全景点云,实现360度感知下的大范围工作空间人形机器人操作。
现状痛点
现有RGB-D方案视野狭窄且存在自遮挡,频繁移动基座带来运动不确定性和安全隐患;主动视觉系统和第三方相机引入机械复杂度、标定依赖和延迟问题。
解决方案与技术亮点
采用360度激光雷达点云作为感知输入,设计时间感知注意力池化机制有效编码稀疏3D数据并捕捉时序依赖;开发全身遥操作系统支持完整身体协调的数据采集。
效果与应用场景
在仿真和真实环境中验证,在大范围工作空间和杂乱场景下表现稳健,显著优于基于自身深度相机的基线方法,适用于非结构化环境中的灵巧操作任务。
27. Risk-Aware Reinforcement Learning for Mobile Manipulation
作者: Michael Groom, James Wilson, Nick Hawes等 发布日期: 2026-03-04 arXiv: 2603.04579v1相关性: 0.5
一句话摘要
该论文首次提出结合分布强化学习与扭曲风险度量,训练可运行时调整风险敏感度的移动操作视觉运动策略,并通过模仿学习实现风险感知行为的迁移。
现状痛点
现有移动操作全身控制器缺乏风险敏感决策机制,无法在动态非结构化环境中评估动作风险,导致在最坏情况下性能表现不佳。
解决方案与技术亮点
提出两阶段方法:首先用分布强化学习训练特权教师策略,利用扭曲风险度量处理回报分布获得风险调整优势估计;再通过模仿学习将教师策略蒸馏为基于自我中心深度观察的学生策略,实现可调风险敏感度。
效果与应用场景
在未映射环境中实现反应式全身运动控制,展示更好的最坏情况性能,适用于家庭服务机器人、危险环境探测等需要安全保障的移动操作场景。
28. Cognition to Control - Multi-Agent Learning for Human-Humanoid Collaborative Transport
作者: Hao Zhang, Ding Zhao, H. Eric Tseng 发布日期: 2026-03-04 arXiv: 2603.03768v1相关性: 0.5
一句话摘要
本文提出C2C(认知到控制)三层层级架构,将VLM场景推理、去中心化多智能体强化学习协调和全身运动控制相结合,实现类人机器人与人类伙伴在协作运输任务中的长期规划与实时控制融合。
现状痛点
现有视觉-语言-动作(VLA)系统偏重响应式(System 1)行为,难以将持续性审慎思考(System 2)与低延迟连续控制集成;多智能体人机协作中,长期协调决策与物理执行需在接触、可行性和安全约束下协同演化。
解决方案与技术亮点
C2C架构包含:(i) VLM接地层维护场景引用并推断 embodiment-aware 可供性;(ii) 去中心化MARL作为马尔可夫潜在游戏构建的审慎技能层,以共享势能编码任务进度;(iii) 高频全身控制层保证运动学/动力学可行性和接触稳定性;审慎层以残差策略实现,隐式内化伙伴动力学无需显式角色分配。
效果与应用场景
在协作搬运任务中相比单智能体和端到端基线展现更高成功率和鲁棒性,实现稳定协调并涌现领导-跟随行为;适用于工业协作、物流运输、助老服务等需要人机物理协作的场景。
29. Interaction-Aware Whole-Body Control for Compliant Object Transport
作者: Hao Zhang, Yves Tseng, Ding Zhao等 发布日期: 2026-03-04 arXiv: 2603.03751v1相关性: 0.5
一句话摘要
提出交互感知全身控制(IO-WBC),将上半身交互执行与下半身支撑控制解耦,利用强化学习策略适应重载交互扰动,实现稳定的人形机器人协作物体搬运。
现状痛点
非结构化环境中协作搬运时,强时变交互力使追踪式全身控制失效,精确速度追踪不可行,尤其在紧密接触支撑任务中平衡难以维持。
解决方案与技术亮点
提出仿生交互导向全身控制架构,将上下身控制结构分离;设计轨迹优化参考生成器提供运动先验;采用强化学习策略处理重载交互与外扰;通过非对称师生蒸馏实现仅依赖本体感知历史部署。
效果与应用场景
在多种场景下实现稳定的全身行为与物理交互,完成重载情况下的 compliant 物体搬运,适用于助老助残、物流协作等非结构化环境中的服务机器人任务。
30. HALyPO: Heterogeneous-Agent Lyapunov Policy Optimization for Human-Robot Collaboration
作者: Hao Zhang, Yaru Niu, Yikai Wang等 发布日期: 2026-03-04 arXiv: 2603.03741v1相关性: 0.5
一句话摘要
HALyPO提出一种基于参数空间Lyapunov函数的异构多智能体策略优化方法,通过在策略参数层面强制执行每步Lyapunov下降条件来消除人机异质性导致的理性差距,确保去中心化学习的全局稳定性。
现状痛点
人机协作中机器人与人类的内在异质性造成理性差距(RG),即去中心化最佳响应动态与集中式合作目标之间的变异不匹配,导致独立策略梯度更新在广义和博弈中出现振荡或发散,难以处理开放-ended交互空间。
解决方案与技术亮点
HALyPO创新性地将Lyapunov稳定性理论从状态空间扩展到策略参数空间,定义参数空间分歧度量并强制每步Lyapunov下降;通过最优二次投影纠正去中心化梯度,实现RG的单调收缩而非传统方法的状态/轨迹约束。
效果与应用场景
在协作搬运、装配等场景中提升泛化能力和鲁棒性,有效处理人机协作中的极端案例和开放环境,仿真和真实仿人机器人实验验证了 certified 稳定性对协作性能的显著提升。