Confidential
请输入机构专属访问密码,验证通过后5分钟内无需重复输入。
开放式场景的交互式移动操作
让机器人与环境、与人协律而行
移动操作任务需要面对无法穷举的交互对象,完成任务依赖复杂的交互顺序,现有框架局限于固定工位桌面级操作
机器人在过道补货,周围顾客持续穿梭——有人停在货架前看商品、有人推购物车加速通过、有人蹲下取低层商品暂时看不见机器人。
每个人的当下身份不同——驻留看货者 / 直线通过者 / 蹲姿暂时遮蔽者
对每个人匹配不同策略——减速让行 / 预留通过空间 / 暂停等待
预判每人下一秒位置,避开即将产生的冲突点
过道里一把椅子挡路,旁边有人在走动。机器人要同场处理两种完全不同的对象。
椅子 = 可协商物(可推);走动的人 = 不可接触动态对象;过道墙 = 静态障碍
同场多策略并行——椅子轻推挪开、人丝滑绕开并预留让行空间、沿墙侧身通过
预测椅子推开后位置、人下一步走向,确保通道可通行且不撞到任何一方
团队在开放场景移动操作领域具备业内领先水平
团队在移动操作方向具备长期实机验证经验,相关学术成果获得IROS Mobile Manipulation Best Paper
在全身协同连续移动操作与人形整机开放场景中执行验证,覆盖移动、操作与物体交互的完整能力闭环
港科 Robotics 核心班底,兼具顶级研究与整机研发能力
哈佛大学访问学者 · 新国立博后 · 港科大博士 · 加州大学圣地亚哥硕士
移动操作 · 交互式接触及导航 · 物理仿真器 · 隐空间推理世界模型
港科大博士后&博士 · 中科院大学硕士 · 戴盟联创 & 小鹏
开放场景定位导航 · 复杂环境感知 · 全身运控 · 整机部署
港大博士 · 港科大硕士 · 上海 AI Lab
具身智能与生成式模型负责人
视觉语言操作 · 开放词汇导航 · 强化学习 · 世界模型
Google Scholar 引用 800+
港科大博士 · 哥大硕士 · 逐际动力
轮腿机器人 · 可重构底盘 · 人形下肢 · 移动操作整机运控
港科大博后&博士 · UCB访问学者 · 普渡硕士 · 上交本科
自动驾驶多机决策与规划 · 自主决策 · 安全交互
普渡机器人产品研发 · 同济大学学士
曾任上市集团产品部负责人(五十余人团队)
多年产品研发及标准化,团队及项目管理经验 · 实现国内外双市场交付 · 超亿元销售额
顶尖学术能力 · T-RO、RSS、ICRA、IROS 及 ICLR、NeurIPS 等顶会顶刊持续产出,多篇 Best Paper 与荣誉提名
系统级全栈 · 覆盖理解 · 感知 · 规划 · 控制 · 多类机器人 embodiment,从算法研究到整机部署落地的完整链条
同门深耕、默契协作 · 港科Robotics实验室核心团队,多年并肩攻关,团队配合紧密、决策与执行同频
技术研发、战略规划与资源对接
香港科技大学 副教授 (Early Tenure)
国家级人才计划
顶级论文
博士研究生
硕士研究生
2024 IEEE RA-L 最佳论文荣誉提名 · 2025 IEEE ICRA 最佳论文候选
2025 IEEE/RSJ IROS 最佳学生论文候选 · 移动操作最佳论文
担任机器人、自动驾驶等顶级期刊会议编委,并持续培养高水平博士与硕士研究团队。
合作、项目与转化
总项目经费
入选多个国家级、省级科技人才库,核心参与多个国家级重点项目
在机器人、自动驾驶等方向具备核心技术产研转化经验,与华为、理想、广汽、元戎启行、路特斯等头部企业保持深度合作
交互式规划 · 接触丰富的精细操作(principle of contact reasoning)· 移动操作 · 安全运动规划与避障 · 全身安全控制
视觉语言操作 · 开放词汇导航 · 强化学习 · 世界模型
从动作执行层(灵巧、安全的与环境交互)到理解层(人的指令、泛化交互理解),全栈系统经验积累
模型表征层缺少带交互理解的因果推理、动作执行层的输入中缺少交互相关信息。交互信息在感知、推理、动作各层流失断裂。
场景理解层缺少对周围交互对象及其空间关系的统一理解,多模态观测难以沉淀为可复用的结构化表征。
交互对象 · 空间关系 · 结构化感知
任务导向的场景表征与结构化交互数据
现有模型虽然能够基于语言和视频推理,但模型的表征层中缺少了真实动作执行对周围交互对象的因果推理。
表征层缺少交互因果推理
推演交互信息演化的 JEPA 世界模型
开放场景中的移动操作任务需要应对比更复杂的接触动力学和无法穷举的现实交互对象。
富接触物理交互 · 无边界交互对象
复杂动力学交互下的移动操作
我们的解决方案
以交互式运动规划为核心,从自研交互数据范式出发,
训练多模态交互世界模型,搭建从交互意图到动作执行的桥梁
针对三层挑战,以结构化交互数据范式和交互世界模型串联从开放场景理解到移动操作技能的系统
ORCHTECH 核心技术 I
定义结构化交互数据 · 把真实交互转化为可学习的因果样本
把真实交互编码为结构化数据,从环境观测与场景推理,经对象角色与应对动作,闭环于执行结果反馈
以自有仿真交互数据驱动从理解到动作执行的完整闭环
ORCHTECH 核心技术 II
在统一的隐空间中联合交互信息推理动作执行
世界模型的三类范式
以视觉真实感与场景生成为主,服务内容创作、数据增广与「看起来像」的交互预览,不直接承担机器人动作闭环。
模型输出直接驱动动作或轨迹选择,强调端到端决策,但对物理一致性与可交互因果的推理相对有限。
直接推演动作后果、交互对象响应与接触物理,为规划与控制提供可验证的「如果这样做,世界会怎样」。
以世界模型承载交互因果,连接动作执行层。而非仅生成逼真画面或直接输出开环策略。
以布料操作为例:只有当世界模型将布料的材料属性与几何状态编码进潜空间,学会基于物理本质进行推理预测,而非模仿特定动作,才能真正具备跨任务的泛化性潜力。
编码物理本质而非模仿表面行为,是机器人操作泛化性的基础
将“因对象而异的交互规律”编码进模型隐空间,使模型具备机器人动作对交互对象状态变化的因果推理,实现跨交互场景泛化
同时预测操作行为引发的环境状态变化与交互信息的演化,具备交互理解能力的操作世界模型。
优先进入零售、连锁两大商业服务场景,逐步泛化开放式高交互场景移动操作能力
融资阶段:种子+天使
拟融资金额
❶ 推动重点场景由单点验证走向多场景泛化
❷ 逐步拓展行业客户与应用场景覆盖
❸ 持续完善产品矩阵与生态能力建设
❹ 为后续规模化推广奠定商业基础
全视方案适配高交互场景
紧凑本体 · 适配近人空间
轮式底盘与双臂紧凑集成,统一调度移动与操作,支持双臂协作。机身适配商超、家居、柜口等受限空间,单体完成完整交互任务。
全视冗余 · 消除交互盲区 · 多模态融合 · 鲁棒于环境变化
传感器围绕操作半径布局,360° 覆盖机器人、目标、人与关联物。多视角视觉 + 点云 + 本体状态交叉验证,消除贴身盲区。
完整观测 · 结构化监督数据
从完整交互观测自动产出高质量监督数据,反哺交互世界模型,形成感知—动作—结果全链路数据。
从本体到数据再到模型,贯通真实交互的完整决策回路