TenStep

Resume

个人简介#

魔武双修——兼具创新力与组织力,既要在前沿无人区探路,也要把想法落成真实跑在产品上的东西。

7 年车载 AI 算法经验,5 年带队。量产侧,作为 HALO 团队核心成员经历了地平线芯片首次量产,服务十数款车型;研发侧,多次主导大型车展准量产级项目,行业 TOP;科研侧,深度贡献 InternVLA 系列工作,沉淀顶会经验中。

在意技术的天花板,也在意技术的地板。

Scholar

教育背景#

东南大学

985

能源与环境学院 · 能源信息自动化系 · 工程热物理 · 学术硕士

2016.09 — 2019.07
  • 导师:周宾;主攻方向:吸收光谱
  • 涉及方向:光场重建、温度场 / 浓度场重建、声波测量等
  • 最高荣誉:“带师兄毕业”(玩笑向)

南京林业大学

双一流

材料科学与工程学院 · 热能与动力工程系 · 热能与动力工程 · 学士

2012.09 — 2016.07
  • 班主任:钱大师;成绩:专业 TOP 2
  • 集体荣誉:任班长期间获优秀班集体;任党委助理团团长获优秀党小组
  • 个人荣誉:国家励志奖学金、三好学生、优秀毕业生
更多教育经历

江苏沛县中学

高中

2009.09 — 2012.07
  • 镇中前 10 指标生入学,从班级倒数第一做到过班级第一
  • 最终高考班级内部排名 Top 3 之内

工作经历#

上海人工智能实验室

具身智能/物理智能中心

2025.03 — 至今 上海
  • 参与具身智能方向前沿研究,具体成果见公开发布
  • 荣誉:年度员工(全实验室仅 14 人,中心仅 2 人)

地平线 / 红西瓜半导体(GUA)

HALO 座舱部门 · 行为手势组 TL

2021.02 — 2025.03 南京
  • 兼任职责:PO(项目负责人)· TTL(技术小组组长)· SE(技术架构)· 开发代表 · 算法工程师
  • 主导 VLM/VLA 预研、人手 3D 重建与空间交互方向,多次带队完成大型车展准量产级 Demo,行业 TOP
  • 服务十数款量产车型;年度绩效均 M+(TOP 30%)/ O(TOP 10%);获“成就客户奖”(公司 TOP 奖之一)
更多工作经历

电科云(隶属:中国电科集团)

算法工程师

2020.02 — 2021.02 南京
  • 0-1 搭建边缘智能平台算法框架;配合总体室写本,推动方案中标转重点项目

地平线

研究院 · 助理研究员 / A 班班长 → DMS · 算法工程师

2019.07 — 2020.02 南京
  • 研究院 A 班班长;转 DMS 后负责疲劳检测,支撑地平线首款量产车载芯片 J2 发版

技术技能#

模型方向
VLA VLM Agent Grounding 多模态时序建模 长程任务拆解
场景能力
行为识别 场景理解 空间推理 任务规划 3D 人手重建 空间交互
模型与框架
InternVL InternVLA LLaMA Qwen SAM DINO PyTorch
部署与工程
模型量化 vLLM 车规芯片部署 数据飞轮
开发语言
Python C++ Git

项目经历#

InternVLA-M1 项目

重点项目
Sys2(操作大脑)Owner 下游任务算法工程师 2025.03 — 2025.09
公司:上海人工智能实验室 项目组:InternVLA-M1 算法组:具身智能 / VLA
R

发布 InternVLA-M1,形成具身智能领域的重要基建能力,并衍生 starVLA 等后续项目

M1-VLM 在多个 grounding 榜单达成 SOTA,作为预训练基座显著提升 VLA 下游性能;在 attr、spatial、semantic 等维度实现 10%+ 提升,零样本桌面任务相对 Qwen 提升约 20%

构建 190 万规模多模态数据集并验证 scaling law;长程操作任务成功率提升至 90%,相对 GPT baseline 提升 30%+;Demo 场景测试准确率达 90%+

Insight

VLA 的关键不只是动作生成,而是先把 Sys2 的空间 grounding、任务拆解与长程规划能力做厚,再通过数据飞轮与标准化评测把能力稳定迁移到下游操作任务

S + T

面向具身智能(VLA)能力构建,探索 VLM 知识向 VLA(Sys2)的迁移路径,对 VLM 进行具身领域化预训练(pretrain),并支撑 VLA 在操作任务中的开发、部署与测评,构建从感知理解到行动决策的统一能力基座

A

VLM → VLA 基座模型构建(M1-VLM)

负责 Sys2(操作大脑)建模,构建 M1-VLM 预训练基座模型,重点增强 freespace、point、bbox、traj 等空间表征能力,在 where2place、roborefit、A0-traj 等 grounding 榜单达成 SOTA,并显著提升下游 M1-VLA 操作性能

数据飞轮与 Scaling 验证

搭建自动化多模态数据生产管线,基于 GenManip 引擎与 14K 仿真物体库生成约 100 万布局图像,并扩展至覆盖多轮对话、指令修正等 17 类任务的 190 万条多模态数据;通过系统性消融验证数据 scaling 对空间推理与语义理解的持续提升(in-domain +10%,out-domain +20%,相对 Qwen)

Grounding 评测与长程任务建模

构建 grounding 评测框架,支持 8 个数据集、15 个评测维度,并集成 10+ 主流多模态 benchmark;同时参考 OneTwo-VLA 与 HIRobot,探索 subtask 分阶段预测与长程任务建模,在三明治、汉堡、抽屉等任务中实现稳定规划,并通过指令重写与人机交互适配持续提升成功率

系统落地与 Demo

推动 M1-VLA 系统落地,完成蒙娜丽莎、传送带等展示场景开发,支撑开发、部署、测评与对外展示闭环

多模态模型(VLM / VLA)

重点项目
行为手势组长 风险车辆算法子模块负责人 交警指挥算法模块负责人 2023.07 — 2025.03
公司:地平线 / 红西瓜 项目组:driveVLM 算法组:行为手势组
R

实现公司内部首次 VLM 在自动驾驶场景的量产级上线,完成复杂场景理解能力部署

在交警指挥等关键任务中,将模型 precision 从 GPT-4o 基线约 30% 提升至 95%+

交警指挥功能在实际展示中获得媒体自发传播与正向反馈,成为具备差异化认知的亮点能力

Insight

大模型时代更强调方案的可扩展性与能力涌现,而不是围绕单一细分场景做局部最优设计

S + T

面向自动驾驶智能化升级,预研 VLM / VLA 在车载场景的落地路径,探索多模态时序大模型在复杂场景理解与决策中的应用,并为芯片设计与下一代自动驾驶方案提供技术牵引

A

技术路线搭建

组织 VLM / VLA 车载技术路线调研与认知输出,统一团队判断;探索高分辨率建模与时序压缩,构建 GUA-VL-7B 方案(SigLIP + SAM + DINO + LLaMA),补齐 OCR、REC、REG 等视觉能力

场景收敛与任务定义

协同自动驾驶感知、产品与 SE 团队评估落地路径,经过多轮可行性分析,最终聚焦风险车辆识别与交警指挥意图理解两个高价值复杂任务

数据飞轮与模型闭环

构建多模态数据生产与迭代 pipeline,完成数据汇聚、CLIP retrieval 挖掘、数据合成(detail caption、InternViT 分类、开源预刷)与标注对齐;建立“模型 × 推理 × 数据”闭环,提出以障碍物为中心的 COT 框架,基于 InternVL2 设计多图时序建模,并结合规则注入、空间结构化 Prompt 与隐式 CoT 推理提升复杂任务效果

文生图车规芯片部署验证项目

文生图部署算法负责人 2023.12 — 2024.06
公司:地平线 / 红西瓜 项目组:AIGC 车规部署验证 算法组:行为手势组
R

实现量化后余弦相似度 99.99%、FID 下降 <10%,在 J6 车规芯片上完成文生图(SDXS-800M)98ms 推理,远超秒级目标;首次验证车规级芯片具备高质量文生图能力,为后续芯片架构优化与 AIGC 场景落地提供关键技术依据

Insight

软硬协同优化是端侧大模型落地的关键路径,通过算法与芯片能力的联合打磨,实现性能与效果的系统性突破

S + T

AIGC 快速发展背景下,验证车规级芯片在扩散模型(文生图)场景下的可行性,评估 J5 芯片算力与架构瓶颈,并为后续芯片设计与优化提供技术牵引路径,目标实现车规芯片首次支持文生图能力

A

牵头和组员一起完成扩散模型端侧部署方案设计与落地,构建 q-diffuser 伪量化框架,系统性探索量化与加速策略,包括 w8A8 / w8A16 动态量化、q-diffusion 静态量化,以及 per-tensor / per-token 精度控制与算子级细化消融;结合 deepcache、split-concat 等推理优化方法,形成从量化到结构优化的一体化加速方案

在工程侧完成模型压缩、推理图优化与 J6 芯片适配,联合跨团队(工具链、NLP 组等)资源推进端侧部署与性能调优,实现算法与硬件协同优化闭环,在算力受限条件下完成扩散模型高效推理落地

空间交互(手势)TDT 项目

重点项目
项目负责人 开发代表 行为手势组 TL 2022.09 — 2024.07
公司:地平线 / 红西瓜 项目组:空间交互(手势)TDT 算法组:行为手势组
R

构建车载手势重建技术体系(TOF + 单目 + 多目),打通低成本数据生产与量产级 POC 验证闭环,推动手势交互从识别向空间交互升级,实现接近 VR 级体验的技术演进

24 年北京车展 Vision Pro 手眼交互项目:牵头 15 名核心开发并协同 43 人跨团队推进,在多模块强耦合与高复杂度约束下完成车载 15.6 寸屏手眼交互首发落地及量产级 Demo 验证;实现空间手势重建与视线协同的高精度交互体验,达到领域首次、领域领先水平显著优于同行(客户反馈)

23 年广汽手势控屏项目:面向 TOF 控屏需求,牵头内部 10+ 人并协同下游公司(金脉)团队,完成多主机厂需求评估、交互设计及 Tier1 赋能;区别于主流方案,设计“捏合 + 指向”双范式控屏交互,有效降低手势疲劳感并提升稳定性,形成量产导向 POC Demo,整体体验优于市面方案并获得客户高度认可

23 年上海车展指哪问哪项目:完成业内车载场景下首次单目 3D 手势交互 Demo,实现 0-1 上车验证;牵头 6 人核心研发落地重建算法,打通“人–车–环境”联合交互能力,使指向车外目标可直接与车机交互。项目吸引 10+ 主机厂及同行观摩与像素级拍摄,理想等客户多轮实车体验并将相关能力纳入自身 Demo 体系

Insight

这是我第一个复杂度最高的项目之一:在高压、短周期与强耦合系统约束下,逐步形成了对复杂度与不确定性的稳定掌控能力,也建立了驾驭复杂系统所需的全局视角与推进韧性

S + T

在完成传统手势识别(2D / 时序)量产交付后,进一步探索基于 3D 手势重建的空间交互范式,突破原有识别方法在表达能力与交互精度上的上限

A

技术路径构建(端到端闭环)

围绕手势重建方向,牵头构建“数据—模型—系统”三层一体技术路径,贯通需求定义、方案设计到工程落地的全流程,形成面向车载量产场景的闭环能力

数据层(低成本 4D 数据体系)

从 0-1 搭建人手数据采集与标注体系,基于 MANO 与多视角几何约束构建异构多目 4D GT 自动生成能力,实现高一致性伪标注生成,显著降低 3D 数据获取成本,支撑规模化数据生产与模型持续迭代

模型层(多模态解耦建模)

针对 TOF、单目与多目输入设计差异化建模路径:提出 IR-D 两阶段 2+1D 回归架构(TOF);融合 MegaTrack、UmeTrack、HandOcc、HaMeR 等方法,在轻量化 MANO 框架下引入外参 / root 参数解耦与结构先验约束,提升复杂环境下的重建稳定性与跨设备泛化能力

系统层(车规约束下的统一建模)

面向车规级低分辨率、帧率不稳及安装误差等约束,算法侧引入虚拟相机建模、多目特征融合与鲁棒旋转参数表达,并结合硬件系统协同优化,提升跨模组一致性、系统稳定性与量产适配能力

工程落地(多路线收敛与量产适配)

主导 TOF / 单目 / 多目多技术路线并行探索与收敛,在算力、延迟与稳定性约束下推动核心模块多轮迭代优化,完成车展及客户项目的多轮 Demo 验证与体验打磨,实现从技术原型到量产能力的转化

多模态动静态手势识别

LMT 手势算法负责人 2022.09 — 2022.11
公司:地平线 项目组:LMT 座舱交付 算法组:行为手势组
R

接手后 1 个月内完成季度卡点问题收敛,恢复项目推进节奏,核心指标提升 5%+,画圈手势召回率 >96%,支撑量产顺利交付

Insight

避免恋战,及时撤退,不钻牛角尖,始终从业务目标出发平衡投入产出比

S + T

接手原手势组动静态手势任务(季度指标长期卡住),在量产交付周期压力下,快速定位问题并提升召回与系统稳定性,完成交付目标

A

协同 4 算法 + 3 工程,快速建立问题定位与迭代闭环,推动任务收敛

针对“画圈手势”召回长期低的问题,拆解为时序不连续与关键帧缺失问题,定位瓶颈在采样与序列建模阶段

提出补帧补偿策略(temporal interpolation + 序列对齐),增强关键动作片段连续性

联合时序建模与后处理机制(平滑 / 滞回控制),在响应延迟(latency)与识别稳定性(stability)之间实现工程化平衡

座舱行为识别(PDT / LMT 量产项目)

重点项目
算法工程师 HALO 子领域 SE 2021.02 — 2022.09
公司:地平线 项目组:HALO J2 / J3 行为识别 算法组:行为组(杨聪 / 王昱)
R

深度参与 15 辆车量产交付,累计支持 20+ 车型落地;系统稳定性与用户体验显著提升,获得客户积极反馈,并获“2021 年度成就客户奖”

Insight

从系统工程视角建立“多任务联合建模 + 后处理机制 + 时序建模”的协同优化范式,通过端到端任务 Owner 机制打通需求、算法与量产闭环,在算力受限条件下实现“指标 → 体验”的有效对齐

S + T

面向车规量产座舱行为识别(抽烟、打电话、点头 / 摇头等),解决离线指标与用户体感不一致问题,在算力与实时性约束下提升系统级识别稳定性与一致性

A

端到端任务 Owner,负责点头 / 摇头任务全流程推进(需求筛选、需求评审、方案设计、算法可行性分析、0-1 落地、量产维护),主导跨团队协同与技术方案收敛

参考 RetinaFace 多任务学习思想,针对抽烟 / 打电话等强关联行为,设计“ROI 定位 + 行为分类”联合建模方案(共享 backbone + 多分支 head),通过任务协同与特征复用提升识别精度与鲁棒性

引入“模型 + 后处理”协同机制(时序滤波、状态机、滞回控制),在算力受限条件下显著降低预测抖动与误触发;同时为点头 / 摇头构建轻量时序建模方案,系统性权衡 latency 与 stability

设计帧率扰动模拟机制(frame-rate jitter simulation),提升模型对车端帧率波动的适应能力;搭建场景守护测试方案,定义稳定性、延迟、误触发率等体感相关指标,实现离线指标与真实体验对齐

边缘智能项目

算法工程师 2020.02 — 2021.02
公司:电科云 项目组:边缘智能 算法组:边缘智能
R

完成边缘智能算法框架搭建,实现多任务模型在边缘侧部署与运行,支撑情报信息自动化生成与关联分析

Insight

认识到项目本质上是以人为中心的协同系统:既要具备跨角色沟通与资源协调能力,也要建立宏观项目意识,从整体视角推动方案落地

S + T

面向边缘侧多场景智能需求(军衔识别、船舶感知等),从 0-1 构建边缘智能算法框架,解决多任务部署、数据分散及训练流程复杂等问题

A

设计边缘智能算法体系,集成联邦学习与训练自动化组件,实现分布式数据下模型协同训练;构建多任务视觉模型(军衔识别、船舶感知),并打通数据处理、模型训练与推理部署流程,支持情报信息结构化建模

DMS 驾驶员疲劳监控

算法工程师 2019.11 — 2020.02
公司:地平线 项目组:nebula & J2 长安量产 算法组:DMS 组(陈正华)
R

完成模型部署与轻量化展示工具开发,在典型 hard case 场景下识别效果显著提升

Insight

基于典型 hard case 分析与数据闭环迭代,形成面向业务场景的模型优化方法;具备从业务需求出发,将复杂场景问题抽象为可建模算法问题的能力

S + T

面向车规量产 DMS 场景,针对小眼睛、眯眼等疲劳识别难点,优化模型在复杂驾驶状态下的鲁棒性

A

构建级联推理框架(粗分类 + 细分类),提升细粒度疲劳状态识别能力;搭建实时测试与可视化工具;设计数据清洗流程并沉淀 SOP,明确模型能力边界

细粒度分类项目

算法工程师 A 班班长 2019.07 — 2019.11
公司:地平线 项目组:AIoT 电信营业厅工装规范性识别 POC 项目 算法组:地平线研究院—王朝(现浙大)小组
R

工装规范性识别准确率达 95%,独立完成 POC 验证并满足 AIoT 业务落地需求

Insight

通过标签空间扩展(multi-label)与数据规模提升,增强模型对复杂组合类别的表达能力

S + T

承接 AIoT 部门小球机落地需求,在安防监控场景下针对工装识别中的长尾分布、遮挡及大视角变化问题,构建鲁棒细粒度识别模型

A

基于 VargNet(地平线 J2 平台)构建 multi-label 分类框架(sigmoid + BCE),通过标签空间重构(multi-class → multi-label)及数据增强与类别重加权优化长尾问题

Other

经选拔担任 A 班班长,协助组织 20+ 人训练营学习与评估机制,提升团队协作与项目推进效率