人形机器人论文精选 - 2026-03-09
本期收录 30 篇高质量论文。
1. Towards Motion Turing Test: Evaluating Human-Likeness in Humanoid Robots
作者: Mingzhe Li, Mengyin Liu, Zekai Wu等 发布日期: 2026-03-06 arXiv: 2603.06181v1相关性: 0.5
一句话摘要
论文提出Motion Turing Test评估框架和HHMotion数据集,通过SMPL-X表示消除外观影响,系统评估类人机器人运动的人类相似程度。
现状痛点
类人机器人运动虽日益自然,但缺乏客观量化评估标准;现有方法难以仅凭运动学特征区分机器人与人类动作;动态动作(跳跃、拳击、跑步)仍存在明显差距。
解决方案与技术亮点
构建1000个动作序列的HHMotion数据集(15类动作,11机器人+10人类),采用SMPL-X统一表示;招募30人标注500+小时,得分0-5量表;提出基于运动数据的基线模型预测人类相似度。
效果与应用场景
类人机器人运动质量评估、动作生成算法优化、人机交互自然度提升、机器人运动控制训练;基线模型优于现有LLM方法,为运动human-likeness预测提供新思路。
2. Moving Through Clutter: Scaling Data Collection and Benchmarking for 3D Scene-Aware Humanoid Locomotion via Virtual Reality
作者: Beichen Wang, Yuanjie Lu, Linji Wang等 发布日期: 2026-03-06 arXiv: 2603.05993v1相关性: 0.5
一句话摘要
本文提出MTC框架,通过VR技术收集人体在杂乱3D环境中的运动数据并自动重定向到人形机器人,构建了包含348条轨迹和145个场景的数据集,为场景感知的人形机器人运动研究提供数据基础。
现状痛点
当前人形机器人运动研究集中在开放平坦环境,而真实家庭和办公环境密集杂乱、需要全身协调和空间推理,但该领域缺乏系统性的运动-场景耦合数据集,导致场景感知运动研究严重受限。
解决方案与技术亮点
论文提出VR数据采集框架,程序化生成可控杂乱等级的场景,通过沉浸式VR捕获与化身一致的人体运动轨迹,自动重定向至人形机器人模型,并引入环境杂乱度和运动稳定性、碰撞安全性等评估基准。
效果与应用场景
该数据集可用于研究几何诱导的运动适应性,开发场景感知的运动规划和控制算法,使人形机器人能在真实家庭、办公室等杂乱环境中实现安全稳定的移动,应用前景包括服务机器人、助老助残等领域。
3. PhysiFlow: Physics-Aware Humanoid Whole-Body VLA via Multi-Brain Latent Flow Matching and Robust Tracking
作者: Weikai Qin, Sichen Wu, Ci Chen等 发布日期: 2026-03-05 arXiv: 2603.05410v1相关性: 0.5
一句话摘要
PhysiFlow是一个物理感知的multi-brain VLA框架,通过多脑潜在流匹配和鲁棒跟踪技术,实现语义运动意图引导的人形机器人全身协调控制。
现状痛点
现有VLA方法推理效率低下,且缺乏对全身控制的语义引导机制,导致动态肢体协调任务执行不稳定,难以满足真实世界任务需求。
解决方案与技术亮点
提出多脑架构分离感知、推理与控制模块,采用潜在流匹配提升推理效率,引入物理感知模块确保动作合理性,并结合鲁棒跟踪增强稳定性,实现语义驱动的全身运动生成。
效果与应用场景
实验表明该框架能可靠执行视觉语言引导的全身协调任务,适用于危险环境作业、复杂家务助手、多任务服务机器人等需要语义理解与全身运动控制的实际场景。
4. OmniDP: Beyond-FOV Large-Workspace Humanoid Manipulation with Omnidirectional 3D Perception
作者: Pei Qu, Zheng Li, Yufei Jia等 发布日期: 2026-03-05 arXiv: 2603.05355v2相关性: 0.5
一句话摘要
论文提出OmniDP,一个基于LiDAR的端到端3D视觉运动策略,通过Time-Aware Attention Pooling处理全景点云,实现360度全景感知,使人形机器人能在超大工作空间内完成灵活操作。
现状痛点
现有RGB-D方案视野窄(FOV小)且存在自遮挡,导致需频繁移动基座才能操作,增加运动不确定性和安全风险;主动视觉系统等扩展感知方案存在机械复杂、校准依赖和高延迟问题。
解决方案与技术亮点
论文提出OmniDP方法,包含三方面创新:1)基于LiDAR的360度全景3D感知替代传统RGB-D;2)Time-Aware Attention Pooling机制有效编码稀疏点云并捕获时序依赖;3)开发全身遥操作系统支持完整身体协调的数据采集。
效果与应用场景
仿真和真实环境实验表明,OmniDP在大工作空间和杂乱场景中表现鲁棒,显著优于基于自我中心深度相机的基线方法。适用于仓储物流、家庭服务、危险环境作业等需要大范围操作的人形机器人场景。
5. Risk-Aware Reinforcement Learning for Mobile Manipulation
作者: Michael Groom, James Wilson, Nick Hawes等 发布日期: 2026-03-04 arXiv: 2603.04579v1相关性: 0.5
一句话摘要
论文首次提出基于分布强化学习训练风险感知移动操作视觉运动策略,通过扭曲风险度量实现运行时可调的风险敏感性,并利用模仿学习将教师策略蒸馏到基于自我中心深度观测的学生策略。
现状痛点
现有移动机械臂整体控制器缺乏显式风险敏感决策机制,无法在动态非结构化环境中对动作风险进行推理和做出知情决策,制约了机器人从实验室向日常环境的过渡。
解决方案与技术亮点
提出三阶段方法:1) 使用分布强化学习训练风险中性的教师策略;2) 应用扭曲风险度量到回报分布计算风险调整优势;3) 通过模仿学习将教师策略蒸馏到基于自我中心深度观测的学生策略,实现运行时可调的风险敏感性。
效果与应用场景
在未映射环境中执行反应性整体运动规划,利用实时深度感知进行避障,展示了更好的最坏情况性能和可调节的风险行为,适用于家庭服务机器人、仓储物流等动态环境中的移动操作任务。
6. Cognition to Control - Multi-Agent Learning for Human-Humanoid Collaborative Transport
作者: Hao Zhang, Ding Zhao, H. Eric Tseng 发布日期: 2026-03-04 arXiv: 2603.03768v1相关性: 0.5
一句话摘要
论文提出C2C三层认知-控制层级架构,将VLM接地、分布式MARL deliberation与全身控制结合,实现人形机器人与人类的多智能体协作搬运,在长期规划与实时控制间建立显式桥梁。
现状痛点
现有VLA系统侧重System 1反应式行为,缺乏将System 2持续 deliberative 推理与低延迟连续控制整合的机制,多智能体HRC中长程协调与物理执行必须在接触、可行性约束下协同演化。
解决方案与技术亮点
提出三层架构:(i) VLM接地层维护场景指涉并推理 embodiment-aware affordances;(ii) 分布式MARL deliberation层作为System 2核心,将人-机器人耦合建模为马尔可夫潜在游戏优化技能选择;(iii) 全身控制层高频执行技能并满足动力学可行性。
效果与应用场景
在协作搬运任务中展示更高成功率和鲁棒性,优于单智能体和端到端基线方法,涌现出稳定的领导-跟随协作行为,适用于人-机器人协作制造、物流搬运、家政服务等场景。
7. Interaction-Aware Whole-Body Control for Compliant Object Transport
作者: Hao Zhang, Yves Tseng, Ding Zhao等 发布日期: 2026-03-04 arXiv: 2603.03751v1相关性: 0.5
一句话摘要
本文提出一种受生物启发的交互导向全身控制(IO-WBC),通过结构分离上下半身控制、轨迹优化参考生成器与强化学习策略的结合,实现复杂交互下的稳定物体运输。
现状痛点
非结构化环境中强时变交互力导致传统跟踪型全身控制失效,close-contact支持任务中精确速度跟踪难以实现,机器人难以在重负载交互中保持平衡与物理一致性。
解决方案与技术亮点
提出IO-WBC架构将上半身交互执行与下半身支撑控制解耦;采用轨迹优化参考生成器提供运动先验;使用强化学习策略处理重负载交互和扰动;通过非对称师生蒸馏实现仅依赖本体感受历史的部署。
效果与应用场景
在模拟中通过随机化负载质量和外部扰动进行训练,实验表明该方法能在精确速度跟踪不可行时保持稳定的全身行为和物理交互,适用于助人机器人辅助搬运、护理支援等场景。
8. HALyPO: Heterogeneous-Agent Lyapunov Policy Optimization for Human-Robot Collaboration
作者: Hao Zhang, Yaru Niu, Yikai Wang等 发布日期: 2026-03-04 arXiv: 2603.03741v1相关性: 0.5
一句话摘要
论文提出HALyPO方法,通过在策略参数空间建立Lyapunov稳定性条件来解决人机协作中异构智能体间的理性差距(RG)问题,实现去中心化策略学习的单调收缩与稳定训练。
现状痛点
人机协作中机器与人的异质性导致理性差距(RG),使去中心化最优响应与集中式合作上升之间产生变异不匹配,独立策略梯度更新易振荡或发散,且难以处理开放互动空间。
解决方案与技术亮点
HALyPO引入参数空间不一致度量作为Lyapunov函数,通过每步强制Lyapunov下降条件建立形式稳定性,并利用最优二次投影修正去中心化梯度,确保RG单调收缩,不同于传统Lyapunov安全RL的状态约束方法。
效果与应用场景
在模拟环境和真实类人机器人实验中验证了方法有效性,显著提升了协作边缘情况的泛化能力和鲁棒性,适用于需要处理复杂人类行为多样性的各类人机协作场景。
9. X-Loco: Towards Generalist Humanoid Locomotion Control via Synergetic Policy Distillation
作者: Dewei Wang, Xinmiao Wang, Chenyun Zhang等 发布日期: 2026-03-04 arXiv: 2603.03733v1相关性: 0.5
一句话摘要
X-Loco通过synergetic policy distillation和case-adaptive specialist selection机制,将多个专家策略的知识蒸馏到单一基于视觉的学生策略中,实现通用人形机器人运动控制,同时掌握跌倒恢复、地形穿越和全身协调等多样化技能。
现状痛点
现有方法训练的单一大理1碑策略难以同时掌握多种运动技能,不同技能间的动态特性和控制目标存在冲突,导致在多样化场景下性能受限,且现有方法缺乏对跌倒恢复能力的整合。
解决方案与技术亮点
提出X-Loco框架,包含三个核心创新:1)训练多个oracle specialist策略分别掌握不同技能;2)设计case-adaptive specialist selection机制,根据当前状态动态选择最合适的专家指导;3)采用synergetic policy distillation将多专家知识有效融合到基于视觉的学生策略中。
效果与应用场景
实验表明X-Loco在跌倒恢复和地形穿越等任务上达到最优性能,是首个实现视觉-based人形机器人同时整合直立行走、全身协调和跌倒恢复的框架,潜在应用于复杂地形探索、灾难救援和家庭服务等场景。
10. HoMMI: Learning Whole-Body Mobile Manipulation from Human Demonstrations
作者: Xiaomeng Xu, Jisang Park, Han Zhang等 发布日期: 2026-03-03 arXiv: 2603.03243v1相关性: 0.5
一句话摘要
HoMMI提出一种从无机器人人类演示中学习全身移动操作的数据收集与策略学习框架,通过增强型自我中心感知和跨实体手眼策略设计,弥合人类与机器人之间的实体差距,实现长程移动操作任务。
现状痛点
传统数据收集依赖机器人设备,成本高且难以扩展;引入自我中心感知后,人类到机器人的观察与动作空间实体差距显著增大,导致策略迁移困难,无法满足双手协调、全身运动、导航和主动感知等复杂任务需求。
解决方案与技术亮点
论文提出三大创新:1) 实体无关的视觉表征;2) 放松的头部动作表征;3) 全身控制器实现手眼轨迹的协调运动。通过跨实体手眼策略设计,在机器人特定物理约束下完成全身运动规划与执行。
效果与应用场景
实验验证了长时域移动操作任务中的双手协调、全身协调、导航和主动感知能力。潜在应用包括家庭服务机器人、工业物流搬运、多机器人协作等需要全身运动与移动操作的场景。
11. CMoE: Contrastive Mixture of Experts for Motion Control and Terrain Adaptation of Humanoid Robots
作者: Shihao Ma, Hongjin Chen, Zijun Xu等 发布日期: 2026-03-03 arXiv: 2603.03067v1相关性: 0.5
一句话摘要
CMoE提出将对比学习融入混合专家模型,通过约束专家激活分布促进地形专业化,使人形机器人实现20cm台阶和80cm缝隙等复杂地形的自适应运动控制。
现状痛点
传统MoE框架中门控网络对不同地形的专家激活接近均匀分布,导致专家专业化不足,模型表达能力受限,难以满足真实环境中多样复杂地形的自适应需求。
解决方案与技术亮点
CMoE是单阶段强化学习框架,创新性地引入对比学习机制,通过最大化同一地形内专家激活一致性、最小化不同地形间相似性,促进专家针对不同地形类型的专业化分工。
效果与应用场景
在Unitree G1人形机器人上验证,可穿越20cm高连续台阶和80cm宽缝隙,混合地形上实现稳健自然步态,适用于复杂环境探索、救援巡检等实际应用场景。
12. Rhythm: Learning Interactive Whole-Body Control for Dual Humanoids
作者: Hongjin Chen, Wei Zhang, Pengfei Li等 发布日期: 2026-03-03 arXiv: 2603.02856v1相关性: 0.5
一句话摘要
论文提出Rhythm框架,首个实现双人形机器人实时全身交互控制的统一方法,通过交互感知运动重定向、图强化学习策略和鲁棒部署系统,成功将拥抱、舞蹈等交互行为从仿真迁移到真实Unitree G1机器人。
现状痛点
现有研究主要关注单机器人控制,多人形机器人交互面临严重运动学不匹配和复杂接触动力学挑战,缺乏统一框架实现物理耦合的双机器人实时交互控制和从仿真到真实世界的迁移。
解决方案与技术亮点
论文提出三大创新组件:1)交互感知运动重argeting(IAMR)模块从人类数据生成可行的人形交互参考;2)交互引导强化学习(IGRL)策略通过图结构奖励学习耦合动力学;3)鲁棒的仿真到现实部署系统实现双机器人交互的稳定迁移。
效果与应用场景
在Unitree G1物理机器人上验证,实现robust的交互式全身控制,成功转移拥抱、舞蹈等多种行为,验证了框架的通用性和实用性,为人机协作、服务机器人等应用场景奠定基础。
13. Safe Whole-Body Loco-Manipulation via Combined Model and Learning-based Control
作者: Alexander Schperberg, Yeping Wang, Stefano Di Cairano 发布日期: 2026-03-02 arXiv: 2603.02443v1相关性: 0.5
一句话摘要
提出一种结合强化学习 locomotion 与模型导纳控制的全身控制器,通过参考 Governor 和神经网络增强卡尔曼滤波实现安全可靠的足臂协同操作。
现状痛点
腿式运动与臂式操作的协调控制困难,尤其在接触交互中保持安全性和柔顺性面临挑战,现有方法难以实现统一的六自由度力响应。
解决方案与技术亮点
创新性地将 RL 策略用于腿部运动控制,模型导纳控制器用于机械臂,外力 wrench 映射为末端速度,参考 Governor 提供安全约束,神经网络增强卡尔曼滤波提升基座速度估计鲁棒性。
效果与应用场景
在 Unitree Go2 四足机器人平台验证,实现交互速度精准跟踪、柔顺响应及动态环境安全可靠运行,适用于人机物理协作与复杂环境操作。
14. MVR: Multi-view Video Reward Shaping for Reinforcement Learning
作者: Lirui Luo, Guoxi Zhang, Hongming Xu等 发布日期: 2026-03-02 arXiv: 2603.01694v1相关性: 0.5
一句话摘要
MVR提出利用多视角视频-文本相似度进行状态相关性建模,通过状态依赖的奖励塑造解决传统VLM奖励设计中静态姿态偏见和单一视角信息缺失的问题。
现状痛点
现有VLM奖励方法存在三方面不足:一是线性叠加VLM分数可能改变最优策略;二是依赖单张静态图像难以处理复杂动态运动任务;三是单一视角容易被遮挡导致关键信息丢失。
解决方案与技术亮点
论文提出Multi-View Video Reward Shaping框架,包含两个核心创新:1)利用多视角视频-文本相似度学习状态相关性函数,降低对特定静态姿态的依赖;2)引入状态依赖的奖励塑造公式,根据任务进度自动调整VLM引导权重。
效果与应用场景
在HumanoidBench的类人 locomotion任务和MetaWorld的 manipulation任务上验证了方法有效性,可应用于机器人运动控制、操作任务等需要复杂时序动作的强化学习场景。
15. Scaling Tasks, Not Samples: Mastering Humanoid Control through Multi-Task Model-Based Reinforcement Learning
作者: Shaohuai Liu, Weirui Ye, Yilun Du等 发布日期: 2026-03-02 arXiv: 2603.01452v1相关性: 0.5
一句话摘要
现状痛点
解决方案与技术亮点
效果与应用场景
16. Spherical Latent Motion Prior for Physics-Based Simulated Humanoid Control
作者: Jing Tan, Weisheng Xu, Xiangrui Jiang等 发布日期: 2026-03-01 arXiv: 2603.01294v1相关性: 0.5
一句话摘要
现状痛点
解决方案与技术亮点
效果与应用场景
17. Pro-HOI: Perceptive Root-guided Humanoid-Object Interaction
作者: Yuhang Lin, Jiyuan Shi, Dewei Wang等 发布日期: 2026-03-01 arXiv: 2603.01126v1相关性: 0.5
一句话摘要
Pro-HOI提出一种根轨迹引导的人形机器人运动操作框架,通过SDF损失优化动作质量、以根轨迹为通用控制接口,并融合实时检测与数字孪生实现物体滑移检测与自动重抓取,实现鲁棒的同步导航与 loco-manipulation。
现状痛点
现有HOI任务缺乏通用控制接口和鲁棒闭环感知机制,导致人形机器人难以实现泛化性强、鲁棒性高的运动操作,无法同时进行导航和精细操作,且在复杂真实场景中可靠性不足。
解决方案与技术亮点
论文提出三大创新:1) 使用SDF损失优化搬运动作以消除穿透伪影;2) 以根轨迹为策略条件、参考动作为奖励的新训练框架,免去复杂奖励调参;3) 融合实时检测与数字孪生的持久物体估计模块,实现滑移检测与自动重抓取。
效果与应用场景
在Unitree G1机器人上验证,Pro-HOI在泛化性和鲁棒性上显著优于基线方法,能在复杂真实场景中实现可靠的长时间操作,适用于家政服务、物流搬运、危险环境探测等需要同步导航与精细操作的场景。
18. Minimalist Compliance Control
作者: Haochen Shi, Songbo Hu, Yifan Hou等 发布日期: 2026-03-01 arXiv: 2603.00913v1相关性: 0.5
一句话摘要
提出一种仅使用电机电流/电压信号的极简柔顺控制方法,无需力传感器即可实现安全物理交互,通过执行器信号和雅可比矩阵估计外部作用力并融入任务空间导纳控制。
现状痛点
现有柔顺控制依赖力矩传感器增加硬件成本,强化学习方法存在sim-to-real差距、缺乏安全保证且增加系统复杂性,限制了技术在实际机器人中的应用和推广。
解决方案与技术亮点
利用现代伺服电机和准直驱电机可直接获取的电流/电压信号,通过执行器信号与机器人雅可比矩阵估计外部wrench,实现无需力传感器、电流控制或学习的任务空间导纳控制器,具有 embodiment-agnostic 和即插即用特性。
效果与应用场景
在机械臂、灵巧手和两个人形机器人上验证,覆盖多接触任务,结合视觉语言模型、模仿学习和基于模型的规划,展示了稳健、安全的柔顺交互能力,适用于人机协作和复杂操作场景。
19. Humanoid Robots as First Assistants in Endoscopic Surgery
作者: Sue Min Cho, Jan Emily Mangulabnan, Han Zhang等 发布日期: 2026-02-27 arXiv: 2602.24156v1相关性: 0.5
一句话摘要
本研究首次验证了人形机器人作为手术助手的可行性,使用Unitree G1远程操作完成尸体蝶窦切除术,提供稳定的内镜可视化,确立了人形形态在外科辅助中的工程基础。
现状痛点
当前医疗机器人缺乏人形形态,无法满足特定手术场景需求;人形机器人虽被宣称将用于手术但缺乏实际应用验证;手术助手需具备足够体力维持和精细操作能力。
解决方案与技术亮点
采用Unitree G1人形机器人平台,通过远程操作控制其持握内镜提供术野可视化,由经验丰富的耳鼻喉科主任医师进行实际操作,验证形态可行性并识别工程转化目标。
效果与应用场景
成功完成尸体蝶窦切除术,内镜视野稳定;该技术为未来自主诊断性镜检、远程手术指导及人形机器人辅助微创手术奠定基础,短期内可作为手术教学和远程会诊工具。
20. Geometry-based pneumatic actuators for soft robotics
作者: Rui Chen, Daniele Leonardis, Domenico Chiaradia等 发布日期: 2026-02-27 arXiv: 2602.24104v1相关性: 0.5
一句话摘要
提出基于几何结构的气动执行器(GPAs),通过可配置的CNC热封约束层实现可预测变形、近零弯曲半径和多状态驱动。
现状痛点
现有软气动执行器存在最小弯曲半径限制、多状态驱动能力不足、结构稳定性差等设计瓶颈,难以实现复杂可预测的形变模式。
解决方案与技术亮点
采用CNC热封技术制作可配置约束层腔室,通过几何结构设计实现可预测的线性角度变换和非线性力矩-角度关系,无需复杂控制即可实现多状态驱动。
效果与应用场景
实现了49g腕部外骨骼降低51%肌肉活动度、30.8g触觉界面提供8N力反馈、208g双足机器人多步态运动,验证了在可穿戴机器人、触觉系统和软体 locomotion 领域的应用潜力。
21. OmniTrack: General Motion Tracking via Physics-Consistent Reference
作者: Yuhan Li, Peiyuan Zhi, Yunshen Wang等 发布日期: 2026-02-27 arXiv: 2602.23832v1相关性: 0.5
一句话摘要
OmniTrack提出两阶段运动跟踪框架,首先在仿真中生成物理可行的参考轨迹,然后训练策略跟踪这些可行动作,实现人形机器人对复杂动作的稳定跟踪。
现状痛点
现有方法中人类与机器人形态和动力学差异导致参考运动存在漂浮、穿透等物理不可行 artifact,跟踪不准确参考与保持稳定之间存在冲突,且泛化能力不足。
解决方案与技术亮点
采用两阶段解耦方法:第一阶段利用特权策略在仿真中通过轨迹 rollout 生成严格遵守动力学的物理可行运动;第二阶段训练通用控制策略跟踪这些可行运动,实现稳定控制迁移。
效果与应用场景
实验表明OmniTrack提升跟踪精度,对未见动作有强泛化性;真实机器人实现数小时稳定跟踪复杂特技动作(如空翻、侧手翻),并支持人形动态在线遥操作。
22. EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents
作者: Wenjia Wang, Liang Pan, Huaijin Pi等 发布日期: 2026-02-26 arXiv: 2602.23205v1相关性: 0.5
一句话摘要
EmbodMocap提出了一种使用双移动iPhone的便携式RGB-D捕获系统,通过联合校准双视角实现无标记环境下的度量级4D人体-场景重建,为具身智能代理提供大规模野外数据采集方案。
现状痛点
现有捕获系统依赖昂贵的室内工作室和穿戴设备,难以在真实环境中大规模采集场景条件化的人体运动数据;单目或单视角方法存在深度歧义问题,导致重建精度不足。
解决方案与技术亮点
核心创新包括:1)双移动iPhone联合校准dual RGB-D序列;2)统一度量世界坐标系下的人体-场景联合重建;3)无需静态相机或标记物的便携式采集;4)双视角设置有效缓解深度歧义。
效果与应用场景
实验验证了相比单iPhone或单目模型更优的对齐和重建性能。该数据支持三项具身AI任务:单目人体-场景重建的度量级世界空间输出、物理基础角色动画的人-物交互技能学习、以及仿人机器人通过sim-to-real RL复现人体动作的运动控制。
23. InCoM: Intent-Driven Perception and Structured Coordination for Whole-Body Mobile Manipulation
作者: Jiahao Liu, Cui Wenbo, Haoran Li等 发布日期: 2026-02-26 arXiv: 2602.23024v1相关性: 0.5
一句话摘要
本文提出InCoM框架,通过意图驱动的感知重新加权和解耦的协调流匹配动作解码,解决全身移动操作中底座与机械臂动作耦合及视角变化时感知注意力分配不当的难题。
现状痛点
现有方法面临两大挑战:一是底座与机械臂动作强耦合导致全身控制优化困难,二是移动操作中视角动态变化时感知注意力分配不当,难以实现稳健的跨模态感知。
解决方案与技术亮点
提出三项创新:1)推断潜在运动意图并动态重加权多尺度感知特征,实现阶段自适应注意力分配;2)几何-语义结构化对齐机制增强跨模态对应;3)解耦协调流匹配动作解码器显式建模底座-机械臂协同动作生成。
效果与应用场景
在ManiSkill-HAB三个场景中成功率达28.2%、26.1%、23.6%的显著提升,验证了方法对通用机器人全身移动操作任务的有效性,适用于家庭服务、仓储物流等复杂环境。
24. Humanizing Robot Gaze Shifts: A Framework for Natural Gaze Shifts in Humanoid Robots
作者: Jingchao Wei, Jingkai Qin, Yuxiao Cao等 发布日期: 2026-02-25 arXiv: 2602.21983v1相关性: 0.5
一句话摘要
论文提出RGS框架,结合VLM推理和条件VQ-VAE运动生成,实现类人自然眼神转移,提升人机交互真实感
现状痛点
现有机器人难以在非结构化人机交互中实现自然、符合情境的眼神转移,缺乏认知注意力机制与生物模拟运动生成的有效耦合方案
解决方案与技术亮点
创新提出双组件架构:1) VLM多模态推理 pipeline 从视觉语言线索推断情境化gaze targets;2) 条件VQ-VAE生成眼球-头部协调的多样化类人运动
效果与应用场景
实验验证可有效复制人类目标选择规律,生成逼真多样的眼神转移动作,适用于社交机器人、陪伴机器人、交互式服务等自然人机交互场景
25. LessMimic: Long-Horizon Humanoid Interaction with Unified Distance Field Representations
作者: Yutang Lin, Jieming Cui, Yixuan Li等 发布日期: 2026-02-25 arXiv: 2602.21723v1相关性: 0.5
一句话摘要
LessMimic提出利用距离场(DF)作为统一交互表示,通过DF导出的几何线索(表面距离、梯度、速度分解)调节全身策略,摆脱对动作参考的依赖,结合VAE编码交互潜变量与对抗交互先验(AIP)强化学习训练,并经DAgger蒸馏实现纯视觉部署。
现状痛点
现有方法依赖参考动作或任务特定奖励,将策略与特定物体几何紧密耦合,无法在同一框架内实现多技能泛化和长时序技能组合,且需依赖动作捕捉基础设施,限制了人形机器人在非结构化环境中的通用性和可扩展性。
解决方案与技术亮点
论文核心创新在于采用距离场作为统一交互表示:1)DF导出几何线索(表面距离、梯度、速度分解)作为策略条件;2)VAE编码交互潜变量捕获语义;3)对抗交互先验(AIP)结合强化学习进行后训练;4)DAgger风格蒸馏将DF潜变量与自我中心深度特征对齐,实现纯视觉零样本部署。
效果与应用场景
在PickUp和SitStand任务中,单一策略在0.4x至1.6x物体尺度下达80-100%成功率(基线急剧下降);5任务实例轨迹达62.1%成功;可连续组合40个任务。适用于非结构化环境中的人形机器人通用交互、技能合成与失败恢复。
26. Biomechanical Comparisons Reveal Divergence of Human and Humanoid Gaits
作者: Luying Feng, Yaochu Jin, Hanze Hu等 发布日期: 2026-02-25 arXiv: 2602.21666v1相关性: 0.5
一句话摘要
提出GDAF框架系统量化人类与双足机器人运动学与动力学差异,揭示现代类人控制器仍存在显著生物力学偏差。
现状痛点
现有类人机器人难以实现真正类人运动,单纯复制关节角度无法捕捉运动底层原理,缺乏统一量化评估框架。
解决方案与技术亮点
提出GDAF统一生物力学评估框架,比较28种行走速度下人与机器人运动,发布速度连续类人运动数据集。
效果与应用场景
发现机器人存在步态对称性、能量分布、关节协调等系统性偏差,为类人 locomotion控制器优化提供定量基准。
27. Task-oriented grasping for dexterous robots using postural synergies and reinforcement learning
作者: Dimitrios Dimou, José Santos-Victor, Plinio Moreno 发布日期: 2026-02-24 arXiv: 2602.20915v1相关性: 0.5
一句话摘要
论文提出一种结合姿态协同与强化学习的端到端任务导向抓取方法,从ContactPose数据集学习人类抓取偏好,使人形机器人能根据不同下游任务意图进行自适应抓取。
现状痛点
现有抓取方法多为开环或闭环控制,缺乏端到端解决方案;无法同时考虑多物体抓取与任务约束;缺乏与人类社交规范对齐的任务特异性抓取能力。
解决方案与技术亮点
从ContactPose数据集提取人类抓取偏好,使用VAE训练手部姿态协同模型模拟人类抓取动作,结合强化学习通过探索优化抓取策略,实现端到端的上下文感知抓取。
效果与应用场景
可使人形机器人在人机协作环境中根据具体任务需求(如传递工具、放置物品等)选择合适的抓取方式,提升机器人辅助操作的灵活性和自然性。
28. Soft Surfaced Vision-Based Tactile Sensing for Bipedal Robot Applications
作者: Jaeeun Kim, Junhee Lim, Yu She 发布日期: 2026-02-20 arXiv: 2602.18638v2相关性: 0.5
一句话摘要
该论文提出了一种软表面、基于视觉的触觉足传感器,通过可变形皮肤层捕获接触变形光学信号,实现接触姿态估计、剪切力可视化、压力中心计算、地形分类和接触斑特征检测,赋予双足机器人丰富的足部触觉感知能力。
现状痛点
现有双足机器人主要依赖本体感觉进行平衡控制,缺乏丰富的足部触觉反馈,导致在复杂地形上的稳定性、适应性环境感知能力不足,现有传感器难以同时获取多模态接触信息。
解决方案与技术亮点
论文提出将软可变形皮肤层与内部视觉传感器结合,通过接触图像流实时估计接触位姿、可视化剪切力、计算压力中心、分类地形及检测接触斑几何特征,实现了多模态触觉感知。
效果与应用场景
在倾斜平台和视觉遮挡条件下验证了传感器性能,证明足部触觉反馈可显著提升双足机器人的平衡控制和对地形的感知能力,适用于复杂地形行走、动态平衡保持等场景。
29. Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation
作者: Runpei Dong, Ziyan Li, Xialin He等 发布日期: 2026-02-18 arXiv: 2602.16705v2相关性: 0.5
一句话摘要
本文提出HERO范式,通过结合大视觉模型的开放词汇理解能力与模拟训练的精确控制性能,实现人形机器人在真实环境中对任意物体的视觉 loco-manipulation。
现状痛点
现有基于真实世界模仿学习的方法难以收集大规模训练数据,导致末端执行器控制精度不足且泛化能力有限,难以应对开放词汇的日常物体操作任务。
解决方案与技术亮点
论文提出残差感知末端执行器跟踪策略,融合逆 kinematics 将残差目标转为参考轨迹、学习神经前向模型进行精确正向运动学计算、以及目标调整和重规划机制,实现了经典机器人学与机器学习的有效结合。
效果与应用场景
系统将末端执行器跟踪误差降低3.2倍,可在办公室到咖啡店等多样真实环境中可靠操作43cm至92cm高度表面上的日常物品(如杯子、苹果、玩具),为 humanoid 机器人与日常物体交互提供新训练范式。
30. Perceptive Humanoid Parkour: Chaining Dynamic Human Skills via Motion Matching
作者: Zhen Wu, Xiaoyu Huang, Lujie Yang等 发布日期: 2026-02-17 arXiv: 2602.15827v1相关性: 0.5
一句话摘要
本文提出Perceptive Humanoid Parkour (PHP)框架,通过运动匹配将人类技能重组为长期轨迹,结合DAgger和RL蒸馏成深度感知策略,实现仅凭深度传感器完成自主跑酷决策与执行。
现状痛点
现有的人形机器人运动研究虽能实现稳定行走,但难以捕捉人类动态运动的敏捷性与表现力;跑酷需要低层鲁棒性、类人运动表达、长期技能组合和感知决策的深度融合,现有方法无法兼顾动态运动的优雅流畅与复杂环境适应性。
解决方案与技术亮点
提出三阶段方法:1) 用运动匹配(特征空间最近邻搜索)将人类原子技能重组为连续运动轨迹;2) 训练运动追踪RL专家策略;3) 通过DAgger和RL将专家策略蒸馏为单一深度感知多技能学生策略,实现感知驱动的上下文感知决策。
效果与应用场景
在Unitree G1机器人上完成挑战性障碍跑酷实验,成功攀爬1.25m高障碍物(96%机器人高度),实现多障碍物连续穿越和实时闭环适应障碍物扰动,展现了高度动态运动能力和实际应用潜力。