Resume • TenStep

个人简介#

魔武双修——兼具创新力与组织力，既要在前沿无人区探路，也要把想法落成真实跑在产品上的东西。

7 年车载 AI 算法经验，5 年带队。量产侧，作为 HALO 团队核心成员经历了地平线芯片首次量产，服务十数款车型；研发侧，多次主导大型车展准量产级项目，行业 TOP；科研侧，深度贡献 InternVLA 系列工作，沉淀顶会经验中。

在意技术的天花板，也在意技术的地板。

Scholar

教育背景#

东南大学

985

能源与环境学院 · 能源信息自动化系 · 工程热物理 · 学术硕士

2016.09 — 2019.07

导师：周宾；主攻方向：吸收光谱
涉及方向：光场重建、温度场 / 浓度场重建、声波测量等
最高荣誉：“带师兄毕业”（玩笑向）

南京林业大学

双一流

材料科学与工程学院 · 热能与动力工程系 · 热能与动力工程 · 学士

2012.09 — 2016.07

班主任：钱大师；成绩：专业 TOP 2
集体荣誉：任班长期间获优秀班集体；任党委助理团团长获优秀党小组
个人荣誉：国家励志奖学金、三好学生、优秀毕业生

更多教育经历 ⌄

江苏沛县中学

高中

2009.09 — 2012.07

镇中前 10 指标生入学，从班级倒数第一做到过班级第一
最终高考班级内部排名 Top 3 之内

工作经历#

上海人工智能实验室

具身智能/物理智能中心

2025.03 — 至今上海

参与具身智能方向前沿研究，具体成果见公开发布
荣誉：年度员工（全实验室仅 14 人，中心仅 2 人）

地平线 / 红西瓜半导体（GUA）

HALO 座舱部门 · 行为手势组 TL

2021.02 — 2025.03 南京

兼任职责：PO（项目负责人）· TTL（技术小组组长）· SE（技术架构）· 开发代表 · 算法工程师
主导 VLM/VLA 预研、人手 3D 重建与空间交互方向，多次带队完成大型车展准量产级 Demo，行业 TOP
服务十数款量产车型；年度绩效均 M+（TOP 30%）/ O（TOP 10%）；获“成就客户奖”（公司 TOP 奖之一）

更多工作经历 ⌄

电科云（隶属：中国电科集团）

算法工程师

2020.02 — 2021.02 南京

0-1 搭建边缘智能平台算法框架；配合总体室写本，推动方案中标转重点项目

地平线

研究院 · 助理研究员 / A 班班长 → DMS · 算法工程师

2019.07 — 2020.02 南京

研究院 A 班班长；转 DMS 后负责疲劳检测，支撑地平线首款量产车载芯片 J2 发版

技术技能#

模型方向: VLA VLM Agent Grounding 多模态时序建模长程任务拆解
场景能力: 行为识别场景理解空间推理任务规划 3D 人手重建空间交互
模型与框架: InternVL InternVLA LLaMA Qwen SAM DINO PyTorch
部署与工程: 模型量化 vLLM 车规芯片部署数据飞轮
开发语言: Python C++ Git

项目经历#

InternVLA-M1 项目

重点项目

Sys2（操作大脑）Owner 下游任务算法工程师 2025.03 — 2025.09

公司：上海人工智能实验室项目组：InternVLA-M1 算法组：具身智能 / VLA

Works 开源项目论文

发布 InternVLA-M1，形成具身智能领域的重要基建能力，并衍生 starVLA 等后续项目

M1-VLM 在多个 grounding 榜单达成 SOTA，作为预训练基座显著提升 VLA 下游性能；在 attr、spatial、semantic 等维度实现 10%+ 提升，零样本桌面任务相对 Qwen 提升约 20%

构建 190 万规模多模态数据集并验证 scaling law；长程操作任务成功率提升至 90%，相对 GPT baseline 提升 30%+；Demo 场景测试准确率达 90%+

Insight

VLA 的关键不只是动作生成，而是先把 Sys2 的空间 grounding、任务拆解与长程规划能力做厚，再通过数据飞轮与标准化评测把能力稳定迁移到下游操作任务

S + T

面向具身智能（VLA）能力构建，探索 VLM 知识向 VLA（Sys2）的迁移路径，对 VLM 进行具身领域化预训练（pretrain），并支撑 VLA 在操作任务中的开发、部署与测评，构建从感知理解到行动决策的统一能力基座

VLM → VLA 基座模型构建（M1-VLM）

负责 Sys2（操作大脑）建模，构建 M1-VLM 预训练基座模型，重点增强 freespace、point、bbox、traj 等空间表征能力，在 where2place、roborefit、A0-traj 等 grounding 榜单达成 SOTA，并显著提升下游 M1-VLA 操作性能

数据飞轮与 Scaling 验证

搭建自动化多模态数据生产管线，基于 GenManip 引擎与 14K 仿真物体库生成约 100 万布局图像，并扩展至覆盖多轮对话、指令修正等 17 类任务的 190 万条多模态数据；通过系统性消融验证数据 scaling 对空间推理与语义理解的持续提升（in-domain +10%，out-domain +20%，相对 Qwen）

Grounding 评测与长程任务建模

构建 grounding 评测框架，支持 8 个数据集、15 个评测维度，并集成 10+ 主流多模态 benchmark；同时参考 OneTwo-VLA 与 HIRobot，探索 subtask 分阶段预测与长程任务建模，在三明治、汉堡、抽屉等任务中实现稳定规划，并通过指令重写与人机交互适配持续提升成功率

系统落地与 Demo

推动 M1-VLA 系统落地，完成蒙娜丽莎、传送带等展示场景开发，支撑开发、部署、测评与对外展示闭环

多模态模型（VLM / VLA）

重点项目

行为手势组长风险车辆算法子模块负责人交警指挥算法模块负责人 2023.07 — 2025.03

公司：地平线 / 红西瓜项目组：driveVLM 算法组：行为手势组

Works 交警场景大模型

实现公司内部首次 VLM 在自动驾驶场景的量产级上线，完成复杂场景理解能力部署

在交警指挥等关键任务中，将模型 precision 从 GPT-4o 基线约 30% 提升至 95%+

交警指挥功能在实际展示中获得媒体自发传播与正向反馈，成为具备差异化认知的亮点能力

Insight

大模型时代更强调方案的可扩展性与能力涌现，而不是围绕单一细分场景做局部最优设计

S + T

面向自动驾驶智能化升级，预研 VLM / VLA 在车载场景的落地路径，探索多模态时序大模型在复杂场景理解与决策中的应用，并为芯片设计与下一代自动驾驶方案提供技术牵引

技术路线搭建

组织 VLM / VLA 车载技术路线调研与认知输出，统一团队判断；探索高分辨率建模与时序压缩，构建 GUA-VL-7B 方案（SigLIP + SAM + DINO + LLaMA），补齐 OCR、REC、REG 等视觉能力

场景收敛与任务定义

协同自动驾驶感知、产品与 SE 团队评估落地路径，经过多轮可行性分析，最终聚焦风险车辆识别与交警指挥意图理解两个高价值复杂任务

数据飞轮与模型闭环

构建多模态数据生产与迭代 pipeline，完成数据汇聚、CLIP retrieval 挖掘、数据合成（detail caption、InternViT 分类、开源预刷）与标注对齐；建立“模型 × 推理 × 数据”闭环，提出以障碍物为中心的 COT 框架，基于 InternVL2 设计多图时序建模，并结合规则注入、空间结构化 Prompt 与隐式 CoT 推理提升复杂任务效果

文生图车规芯片部署验证项目

文生图部署算法负责人 2023.12 — 2024.06

公司：地平线 / 红西瓜项目组：AIGC 车规部署验证算法组：行为手势组

实现量化后余弦相似度 99.99%、FID 下降 <10%，在 J6 车规芯片上完成文生图（SDXS-800M）98ms 推理，远超秒级目标；首次验证车规级芯片具备高质量文生图能力，为后续芯片架构优化与 AIGC 场景落地提供关键技术依据

Insight

软硬协同优化是端侧大模型落地的关键路径，通过算法与芯片能力的联合打磨，实现性能与效果的系统性突破

S + T

AIGC 快速发展背景下，验证车规级芯片在扩散模型（文生图）场景下的可行性，评估 J5 芯片算力与架构瓶颈，并为后续芯片设计与优化提供技术牵引路径，目标实现车规芯片首次支持文生图能力

牵头和组员一起完成扩散模型端侧部署方案设计与落地，构建 q-diffuser 伪量化框架，系统性探索量化与加速策略，包括 w8A8 / w8A16 动态量化、q-diffusion 静态量化，以及 per-tensor / per-token 精度控制与算子级细化消融；结合 deepcache、split-concat 等推理优化方法，形成从量化到结构优化的一体化加速方案

在工程侧完成模型压缩、推理图优化与 J6 芯片适配，联合跨团队（工具链、NLP 组等）资源推进端侧部署与性能调优，实现算法与硬件协同优化闭环，在算力受限条件下完成扩散模型高效推理落地

空间交互（手势）TDT 项目

重点项目

项目负责人开发代表行为手势组 TL 2022.09 — 2024.07

公司：地平线 / 红西瓜项目组：空间交互（手势）TDT 算法组：行为手势组

Works Vision Pro 手眼交互指向地图 / 看哪问哪 TOF 遥控车载人手重建 GT 系统

构建车载手势重建技术体系（TOF + 单目 + 多目），打通低成本数据生产与量产级 POC 验证闭环，推动手势交互从识别向空间交互升级，实现接近 VR 级体验的技术演进

24 年北京车展 Vision Pro 手眼交互项目：牵头 15 名核心开发并协同 43 人跨团队推进，在多模块强耦合与高复杂度约束下完成车载 15.6 寸屏手眼交互首发落地及量产级 Demo 验证；实现空间手势重建与视线协同的高精度交互体验，达到领域首次、领域领先水平，显著优于同行（客户反馈）

23 年广汽手势控屏项目：面向 TOF 控屏需求，牵头内部 10+ 人并协同下游公司（金脉）团队，完成多主机厂需求评估、交互设计及 Tier1 赋能；区别于主流方案，设计“捏合 + 指向”双范式控屏交互，有效降低手势疲劳感并提升稳定性，形成量产导向 POC Demo，整体体验优于市面方案并获得客户高度认可

23 年上海车展指哪问哪项目：完成业内车载场景下首次单目 3D 手势交互 Demo，实现 0-1 上车验证；牵头 6 人核心研发落地重建算法，打通“人–车–环境”联合交互能力，使指向车外目标可直接与车机交互。项目吸引 10+ 主机厂及同行观摩与像素级拍摄，理想等客户多轮实车体验并将相关能力纳入自身 Demo 体系

Insight

这是我第一个复杂度最高的项目之一：在高压、短周期与强耦合系统约束下，逐步形成了对复杂度与不确定性的稳定掌控能力，也建立了驾驭复杂系统所需的全局视角与推进韧性

S + T

在完成传统手势识别（2D / 时序）量产交付后，进一步探索基于 3D 手势重建的空间交互范式，突破原有识别方法在表达能力与交互精度上的上限

技术路径构建（端到端闭环）

围绕手势重建方向，牵头构建“数据—模型—系统”三层一体技术路径，贯通需求定义、方案设计到工程落地的全流程，形成面向车载量产场景的闭环能力

数据层（低成本 4D 数据体系）

从 0-1 搭建人手数据采集与标注体系，基于 MANO 与多视角几何约束构建异构多目 4D GT 自动生成能力，实现高一致性伪标注生成，显著降低 3D 数据获取成本，支撑规模化数据生产与模型持续迭代

模型层（多模态解耦建模）

针对 TOF、单目与多目输入设计差异化建模路径：提出 IR-D 两阶段 2+1D 回归架构（TOF）；融合 MegaTrack、UmeTrack、HandOcc、HaMeR 等方法，在轻量化 MANO 框架下引入外参 / root 参数解耦与结构先验约束，提升复杂环境下的重建稳定性与跨设备泛化能力

系统层（车规约束下的统一建模）

面向车规级低分辨率、帧率不稳及安装误差等约束，算法侧引入虚拟相机建模、多目特征融合与鲁棒旋转参数表达，并结合硬件系统协同优化，提升跨模组一致性、系统稳定性与量产适配能力

工程落地（多路线收敛与量产适配）

主导 TOF / 单目 / 多目多技术路线并行探索与收敛，在算力、延迟与稳定性约束下推动核心模块多轮迭代优化，完成车展及客户项目的多轮 Demo 验证与体验打磨，实现从技术原型到量产能力的转化

多模态动静态手势识别

LMT 手势算法负责人 2022.09 — 2022.11

公司：地平线项目组：LMT 座舱交付算法组：行为手势组

接手后 1 个月内完成季度卡点问题收敛，恢复项目推进节奏，核心指标提升 5%+，画圈手势召回率 >96%，支撑量产顺利交付

Insight

避免恋战，及时撤退，不钻牛角尖，始终从业务目标出发平衡投入产出比

S + T

接手原手势组动静态手势任务（季度指标长期卡住），在量产交付周期压力下，快速定位问题并提升召回与系统稳定性，完成交付目标

协同 4 算法 + 3 工程，快速建立问题定位与迭代闭环，推动任务收敛

针对“画圈手势”召回长期低的问题，拆解为时序不连续与关键帧缺失问题，定位瓶颈在采样与序列建模阶段

提出补帧补偿策略（temporal interpolation + 序列对齐），增强关键动作片段连续性

联合时序建模与后处理机制（平滑 / 滞回控制），在响应延迟（latency）与识别稳定性（stability）之间实现工程化平衡

座舱行为识别（PDT / LMT 量产项目）

重点项目

算法工程师 HALO 子领域 SE 2021.02 — 2022.09

公司：地平线项目组：HALO J2 / J3 行为识别算法组：行为组（杨聪 / 王昱）

深度参与 15 辆车量产交付，累计支持 20+ 车型落地；系统稳定性与用户体验显著提升，获得客户积极反馈，并获“2021 年度成就客户奖”

Insight

从系统工程视角建立“多任务联合建模 + 后处理机制 + 时序建模”的协同优化范式，通过端到端任务 Owner 机制打通需求、算法与量产闭环，在算力受限条件下实现“指标 → 体验”的有效对齐

S + T

面向车规量产座舱行为识别（抽烟、打电话、点头 / 摇头等），解决离线指标与用户体感不一致问题，在算力与实时性约束下提升系统级识别稳定性与一致性

端到端任务 Owner，负责点头 / 摇头任务全流程推进（需求筛选、需求评审、方案设计、算法可行性分析、0-1 落地、量产维护），主导跨团队协同与技术方案收敛

参考 RetinaFace 多任务学习思想，针对抽烟 / 打电话等强关联行为，设计“ROI 定位 + 行为分类”联合建模方案（共享 backbone + 多分支 head），通过任务协同与特征复用提升识别精度与鲁棒性

引入“模型 + 后处理”协同机制（时序滤波、状态机、滞回控制），在算力受限条件下显著降低预测抖动与误触发；同时为点头 / 摇头构建轻量时序建模方案，系统性权衡 latency 与 stability

设计帧率扰动模拟机制（frame-rate jitter simulation），提升模型对车端帧率波动的适应能力；搭建场景守护测试方案，定义稳定性、延迟、误触发率等体感相关指标，实现离线指标与真实体验对齐

边缘智能项目

算法工程师 2020.02 — 2021.02

公司：电科云项目组：边缘智能算法组：边缘智能

完成边缘智能算法框架搭建，实现多任务模型在边缘侧部署与运行，支撑情报信息自动化生成与关联分析

Insight

认识到项目本质上是以人为中心的协同系统：既要具备跨角色沟通与资源协调能力，也要建立宏观项目意识，从整体视角推动方案落地

S + T

面向边缘侧多场景智能需求（军衔识别、船舶感知等），从 0-1 构建边缘智能算法框架，解决多任务部署、数据分散及训练流程复杂等问题

设计边缘智能算法体系，集成联邦学习与训练自动化组件，实现分布式数据下模型协同训练；构建多任务视觉模型（军衔识别、船舶感知），并打通数据处理、模型训练与推理部署流程，支持情报信息结构化建模

DMS 驾驶员疲劳监控

算法工程师 2019.11 — 2020.02

公司：地平线项目组：nebula & J2 长安量产算法组：DMS 组（陈正华）

完成模型部署与轻量化展示工具开发，在典型 hard case 场景下识别效果显著提升

Insight

基于典型 hard case 分析与数据闭环迭代，形成面向业务场景的模型优化方法；具备从业务需求出发，将复杂场景问题抽象为可建模算法问题的能力

S + T

面向车规量产 DMS 场景，针对小眼睛、眯眼等疲劳识别难点，优化模型在复杂驾驶状态下的鲁棒性

构建级联推理框架（粗分类 + 细分类），提升细粒度疲劳状态识别能力；搭建实时测试与可视化工具；设计数据清洗流程并沉淀 SOP，明确模型能力边界

细粒度分类项目

算法工程师 A 班班长 2019.07 — 2019.11

公司：地平线项目组：AIoT 电信营业厅工装规范性识别 POC 项目算法组：地平线研究院—王朝（现浙大）小组

工装规范性识别准确率达 95%，独立完成 POC 验证并满足 AIoT 业务落地需求

Insight

通过标签空间扩展（multi-label）与数据规模提升，增强模型对复杂组合类别的表达能力

S + T

承接 AIoT 部门小球机落地需求，在安防监控场景下针对工装识别中的长尾分布、遮挡及大视角变化问题，构建鲁棒细粒度识别模型

基于 VargNet（地平线 J2 平台）构建 multi-label 分类框架（sigmoid + BCE），通过标签空间重构（multi-class → multi-label）及数据增强与类别重加权优化长尾问题

Other

经选拔担任 A 班班长，协助组织 20+ 人训练营学习与评估机制，提升团队协作与项目推进效率