TenStep

Works

views

收录典型成果,更多内容见 resume

论文#

2026

ST4VLA: Spatially Guided Training for Vision-Language-Action Models

Conference Accepted
Jinhui Ye * , Fangjing Wang * , Ning Gao * , Junqiu Yu * , Yangkun Zhu , Yilun Chen
*Equal contribution Corresponding author
ICLR 2026 2026

提出 Spatially Guided Training,将 spatial grounding pre-training 与 spatially guided action post-training 串联起来,在 SimplerEnv 上取得显著提升。

InternVLA-A1: Unifying Understanding, Generation and Action for Robotic Manipulation

Preprint Preprint
Junhao Cai , Yang Li , Haoxiang Ma , Jiangmiao Pang , Zherui Qiu , Yang Tian , Jia Zeng , Hongrui Zhu , Yangkun Zhu
Project Leader
ArXiv Preprint 2026

统一 understanding、generation 与 action 的机器人操作模型,以 Mixture-of-Transformers 协同 scene understanding、visual foresight 和 action execution。

2025

InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy

Preprint Preprint
Yilun Chen § , Ning Gao § , Jiangmiao Pang § , Bolun Wang § , Fangjing Wang § , Jinhui Ye § , Junqiu Yu § , Jinyu Zhang § , Yangkun Zhu §
§Core contributor Authors are listed in alphabetical order
ArXiv Technical Report 2025

将空间 grounding 与机器人控制统一到同一框架,通过两阶段 spatially guided 训练提升 instruction following、泛化与长任务鲁棒性。

产品项目#

交警场景大模型
Completed

交警场景大模型

量产 / 大模型 / 展车落地

面向自动驾驶复杂场景中的交警指挥理解,推动公司内部首次 VLM 在自动驾驶场景实现量产级上线,并完成展车部署落地。该任务兼具高场景价值、高理解难度与强用户感知,是少数能够真正拉开智能化体验差距的复杂能力。

出彩点

  • 实现公司内部首次 VLM 在自动驾驶场景的量产级上线,并形成展车可演示成果
  • 在交警指挥关键任务中,将模型 precision 从 GPT-4o 基线约 30% 提升至 95%+
  • 展示效果获得媒体自发传播与正向反馈,成为对外认知度很高的差异化亮点

我的职责

交警算法负责人 5 人小组带队 数据闭环与方案迭代 展车落地
Feishu Wiki
Vision Pro 手眼交互
Completed

Vision Pro 手眼交互

人手重建 / XR 交互 / 展示项目

围绕 Apple Vision Pro 手眼交互能力打造车载展示与实车方案,在高复杂度、多模块强耦合约束下完成车载 15.6 寸屏首发落地,并进一步推进到多应用实车验证。整体交互精度、稳定性与展示效果达到领域首次、领域领先水平。

出彩点

  • 完成车载 15.6 寸屏 Vision Pro 手眼交互首发落地及量产级 Demo 验证
  • 牵头 15 名核心开发并协同 43 人跨团队推进,按车展节点完成高质量交付
  • 空间手势重建与视线协同交互效果显著优于同期方案,并获得客户正向反馈

我的职责

VP 项目负责人 跨团队方案推进 车展展示落地 二期实车验证
Feishu Wiki
指向地图 / 看哪问哪
Completed

指向地图 / 看哪问哪

多模态交互 / 实车展示 / 地图理解

面向车载场景打造“看哪问哪 / 指哪问哪”的人-车-环境联合交互方案,完成业内首次单目 3D 手势交互 Demo,实现从 0 到 1 的实车验证。项目贯通座舱与自动驾驶信息流,是舱驾一体多模态交互方向的代表性成果。

出彩点

  • 完成业内首次单目 3D 手势上车 Demo,首次打通“人-车-环境”联合交互能力
  • 吸引 10+ 主机厂及同行现场观摩与拍摄,具备很强展示性与传播性
  • 理想等客户多轮实车体验,并将相关能力纳入自身 Demo 体系与后续规划

我的职责

指向地图算法模块负责人 0-1 Demo 落地
Feishu Wiki
TOF 遥控
Completed

TOF 遥控

3D 交互 / POC / 客户交付

围绕 TOF 遥控器一期与广汽 POC TOF 两个阶段展开,目标是打造可量产演进的真 3D 控屏能力,并将方案从技术验证推进到客户可感知、可交付的量产级 POC。项目重点解决传统控屏方案易疲劳、稳定性不足和交互维度受限的问题。

出彩点

  • 打造真 3D TOF 控屏能力,并完成面向客户的量产导向 POC 验证
  • 设计“捏合 + 指向”双范式控屏交互,有效降低手势疲劳感并提升稳定性
  • Demo 体验优于市面方案并获得客户高度认可,形成从架构到 SDK 再到对外交付的完整闭环

我的职责

前期架构参与 TOF SDK 项目负责人 量产级 POC 对外交付负责人
Feishu Wiki
车载人手重建 GT 系统
Completed

车载人手重建 GT 系统

数据基建 / GT 系统 / 人手重建

面向车载人手重建建设长期数据基建,围绕 GT 系统打通采集、标注、验证与算法迭代底座,为 TOF、单目、多目等多条技术路线提供统一高质量数据支撑。这类项目不直接面向用户,但决定了后续能力上限与迭代效率。

出彩点

  • 从 0 到 1 搭建车载人手数据采集与标注体系,沉淀长期可复用的数据底座
  • 基于 MANO 与多视角几何约束构建异构多目 4D GT 自动生成能力,显著降低 3D 数据获取成本
  • 支撑 TOF、单目、多目多路线并行迭代,是后续空间交互能力演进的关键基础设施

我的职责

算法负责人 GT 系统建设 数据闭环支撑
Feishu Wiki

开源项目#

InternVLA-M1

具身智能 / VLA / 开源
Completed

面向通用机器人策略的 Vision-Language-Action 开源框架,强调 spatially guided、dual-system 和 dual-supervision 训练范式,将语言理解、空间感知与动作预测统一到同一套框架中。我主要负责 Sys2 pretrain,以及长任务拆解能力相关设计与落地。后续进一步延伸到 StarVLA,形成更模块化、可扩展的 VLA 开发生态。

vllm-omni-internvla-a1

Serving / 多模态部署 / 开源
Active

围绕 vLLM-Omni 的多模态 serving 基座,对 InternVLA-A1 做推理与部署侧适配,使模型更容易接入统一服务框架、接口协议和工程化部署链路。我这里主要负责将 A1 适配到 vLLM 框架。

Quest_Tele

VR / 遥操作 / 机器人工具 / 开源
Completed

基于 Meta Quest 3 的 VR 双手位姿采集与机器人遥操作工具,支持手柄模式与人手追踪模式,通过局域网 HTTP / JSON 实时发送头显、手腕、手柄和 24 关节数据,并提供 Python 侧接收与可视化监控脚本,便于快速接入遥操作与采集流程。

自媒体分享#

分享主题

博客 / 视频 / 分享
Completed

分享描述:在此放文章、视频、公开分享或系列输出。