Resume
个人简介#
魔武双修——兼具创新力与组织力,既要在前沿无人区探路,也要把想法落成真实跑在产品上的东西。
7 年车载 AI 算法经验,5 年带队。量产侧,作为 HALO 团队核心成员经历了地平线芯片首次量产,服务十数款车型;研发侧,多次主导大型车展准量产级项目,行业 TOP;科研侧,深度贡献 InternVLA 系列工作,沉淀顶会经验中。
在意技术的天花板,也在意技术的地板。
教育背景#
东南大学
985能源与环境学院 · 能源信息自动化系 · 工程热物理 · 学术硕士
- 导师:周宾;主攻方向:吸收光谱
- 涉及方向:光场重建、温度场 / 浓度场重建、声波测量等
- 最高荣誉:“带师兄毕业”(玩笑向)
南京林业大学
双一流材料科学与工程学院 · 热能与动力工程系 · 热能与动力工程 · 学士
- 班主任:钱大师;成绩:专业 TOP 2
- 集体荣誉:任班长期间获优秀班集体;任党委助理团团长获优秀党小组
- 个人荣誉:国家励志奖学金、三好学生、优秀毕业生
更多教育经历 ⌄
江苏沛县中学
高中
- 镇中前 10 指标生入学,从班级倒数第一做到过班级第一
- 最终高考班级内部排名 Top 3 之内
工作经历#
上海人工智能实验室
具身智能/物理智能中心
- 参与具身智能方向前沿研究,具体成果见公开发布
- 荣誉:年度员工(全实验室仅 14 人,中心仅 2 人)
地平线 / 红西瓜半导体(GUA)
HALO 座舱部门 · 行为手势组 TL
- 兼任职责:PO(项目负责人)· TTL(技术小组组长)· SE(技术架构)· 开发代表 · 算法工程师
- 主导 VLM/VLA 预研、人手 3D 重建与空间交互方向,多次带队完成大型车展准量产级 Demo,行业 TOP
- 服务十数款量产车型;年度绩效均 M+(TOP 30%)/ O(TOP 10%);获“成就客户奖”(公司 TOP 奖之一)
更多工作经历 ⌄
电科云(隶属:中国电科集团)
算法工程师
- 0-1 搭建边缘智能平台算法框架;配合总体室写本,推动方案中标转重点项目
地平线
研究院 · 助理研究员 / A 班班长 → DMS · 算法工程师
- 研究院 A 班班长;转 DMS 后负责疲劳检测,支撑地平线首款量产车载芯片 J2 发版
技术技能#
- 模型方向
- VLA VLM Agent Grounding 多模态时序建模 长程任务拆解
- 场景能力
- 行为识别 场景理解 空间推理 任务规划 3D 人手重建 空间交互
- 模型与框架
- InternVL InternVLA LLaMA Qwen SAM DINO PyTorch
- 部署与工程
- 模型量化 vLLM 车规芯片部署 数据飞轮
- 开发语言
- Python C++ Git
项目经历#
InternVLA-M1 项目
发布 InternVLA-M1,形成具身智能领域的重要基建能力,并衍生 starVLA 等后续项目
M1-VLM 在多个 grounding 榜单达成 SOTA,作为预训练基座显著提升 VLA 下游性能;在 attr、spatial、semantic 等维度实现 10%+ 提升,零样本桌面任务相对 Qwen 提升约 20%
构建 190 万规模多模态数据集并验证 scaling law;长程操作任务成功率提升至 90%,相对 GPT baseline 提升 30%+;Demo 场景测试准确率达 90%+
VLA 的关键不只是动作生成,而是先把 Sys2 的空间 grounding、任务拆解与长程规划能力做厚,再通过数据飞轮与标准化评测把能力稳定迁移到下游操作任务
面向具身智能(VLA)能力构建,探索 VLM 知识向 VLA(Sys2)的迁移路径,对 VLM 进行具身领域化预训练(pretrain),并支撑 VLA 在操作任务中的开发、部署与测评,构建从感知理解到行动决策的统一能力基座
VLM → VLA 基座模型构建(M1-VLM)
负责 Sys2(操作大脑)建模,构建 M1-VLM 预训练基座模型,重点增强 freespace、point、bbox、traj 等空间表征能力,在 where2place、roborefit、A0-traj 等 grounding 榜单达成 SOTA,并显著提升下游 M1-VLA 操作性能
数据飞轮与 Scaling 验证
搭建自动化多模态数据生产管线,基于 GenManip 引擎与 14K 仿真物体库生成约 100 万布局图像,并扩展至覆盖多轮对话、指令修正等 17 类任务的 190 万条多模态数据;通过系统性消融验证数据 scaling 对空间推理与语义理解的持续提升(in-domain +10%,out-domain +20%,相对 Qwen)
Grounding 评测与长程任务建模
构建 grounding 评测框架,支持 8 个数据集、15 个评测维度,并集成 10+ 主流多模态 benchmark;同时参考 OneTwo-VLA 与 HIRobot,探索 subtask 分阶段预测与长程任务建模,在三明治、汉堡、抽屉等任务中实现稳定规划,并通过指令重写与人机交互适配持续提升成功率
系统落地与 Demo
推动 M1-VLA 系统落地,完成蒙娜丽莎、传送带等展示场景开发,支撑开发、部署、测评与对外展示闭环
多模态模型(VLM / VLA)
实现公司内部首次 VLM 在自动驾驶场景的量产级上线,完成复杂场景理解能力部署
在交警指挥等关键任务中,将模型 precision 从 GPT-4o 基线约 30% 提升至 95%+
交警指挥功能在实际展示中获得媒体自发传播与正向反馈,成为具备差异化认知的亮点能力
大模型时代更强调方案的可扩展性与能力涌现,而不是围绕单一细分场景做局部最优设计
面向自动驾驶智能化升级,预研 VLM / VLA 在车载场景的落地路径,探索多模态时序大模型在复杂场景理解与决策中的应用,并为芯片设计与下一代自动驾驶方案提供技术牵引
技术路线搭建
组织 VLM / VLA 车载技术路线调研与认知输出,统一团队判断;探索高分辨率建模与时序压缩,构建 GUA-VL-7B 方案(SigLIP + SAM + DINO + LLaMA),补齐 OCR、REC、REG 等视觉能力
场景收敛与任务定义
协同自动驾驶感知、产品与 SE 团队评估落地路径,经过多轮可行性分析,最终聚焦风险车辆识别与交警指挥意图理解两个高价值复杂任务
数据飞轮与模型闭环
构建多模态数据生产与迭代 pipeline,完成数据汇聚、CLIP retrieval 挖掘、数据合成(detail caption、InternViT 分类、开源预刷)与标注对齐;建立“模型 × 推理 × 数据”闭环,提出以障碍物为中心的 COT 框架,基于 InternVL2 设计多图时序建模,并结合规则注入、空间结构化 Prompt 与隐式 CoT 推理提升复杂任务效果
文生图车规芯片部署验证项目
实现量化后余弦相似度 99.99%、FID 下降 <10%,在 J6 车规芯片上完成文生图(SDXS-800M)98ms 推理,远超秒级目标;首次验证车规级芯片具备高质量文生图能力,为后续芯片架构优化与 AIGC 场景落地提供关键技术依据
软硬协同优化是端侧大模型落地的关键路径,通过算法与芯片能力的联合打磨,实现性能与效果的系统性突破
AIGC 快速发展背景下,验证车规级芯片在扩散模型(文生图)场景下的可行性,评估 J5 芯片算力与架构瓶颈,并为后续芯片设计与优化提供技术牵引路径,目标实现车规芯片首次支持文生图能力
牵头和组员一起完成扩散模型端侧部署方案设计与落地,构建 q-diffuser 伪量化框架,系统性探索量化与加速策略,包括 w8A8 / w8A16 动态量化、q-diffusion 静态量化,以及 per-tensor / per-token 精度控制与算子级细化消融;结合 deepcache、split-concat 等推理优化方法,形成从量化到结构优化的一体化加速方案
在工程侧完成模型压缩、推理图优化与 J6 芯片适配,联合跨团队(工具链、NLP 组等)资源推进端侧部署与性能调优,实现算法与硬件协同优化闭环,在算力受限条件下完成扩散模型高效推理落地
空间交互(手势)TDT 项目
构建车载手势重建技术体系(TOF + 单目 + 多目),打通低成本数据生产与量产级 POC 验证闭环,推动手势交互从识别向空间交互升级,实现接近 VR 级体验的技术演进
24 年北京车展 Vision Pro 手眼交互项目:牵头 15 名核心开发并协同 43 人跨团队推进,在多模块强耦合与高复杂度约束下完成车载 15.6 寸屏手眼交互首发落地及量产级 Demo 验证;实现空间手势重建与视线协同的高精度交互体验,达到领域首次、领域领先水平,显著优于同行(客户反馈)
23 年广汽手势控屏项目:面向 TOF 控屏需求,牵头内部 10+ 人并协同下游公司(金脉)团队,完成多主机厂需求评估、交互设计及 Tier1 赋能;区别于主流方案,设计“捏合 + 指向”双范式控屏交互,有效降低手势疲劳感并提升稳定性,形成量产导向 POC Demo,整体体验优于市面方案并获得客户高度认可
23 年上海车展指哪问哪项目:完成业内车载场景下首次单目 3D 手势交互 Demo,实现 0-1 上车验证;牵头 6 人核心研发落地重建算法,打通“人–车–环境”联合交互能力,使指向车外目标可直接与车机交互。项目吸引 10+ 主机厂及同行观摩与像素级拍摄,理想等客户多轮实车体验并将相关能力纳入自身 Demo 体系
这是我第一个复杂度最高的项目之一:在高压、短周期与强耦合系统约束下,逐步形成了对复杂度与不确定性的稳定掌控能力,也建立了驾驭复杂系统所需的全局视角与推进韧性
在完成传统手势识别(2D / 时序)量产交付后,进一步探索基于 3D 手势重建的空间交互范式,突破原有识别方法在表达能力与交互精度上的上限
技术路径构建(端到端闭环)
围绕手势重建方向,牵头构建“数据—模型—系统”三层一体技术路径,贯通需求定义、方案设计到工程落地的全流程,形成面向车载量产场景的闭环能力
数据层(低成本 4D 数据体系)
从 0-1 搭建人手数据采集与标注体系,基于 MANO 与多视角几何约束构建异构多目 4D GT 自动生成能力,实现高一致性伪标注生成,显著降低 3D 数据获取成本,支撑规模化数据生产与模型持续迭代
模型层(多模态解耦建模)
针对 TOF、单目与多目输入设计差异化建模路径:提出 IR-D 两阶段 2+1D 回归架构(TOF);融合 MegaTrack、UmeTrack、HandOcc、HaMeR 等方法,在轻量化 MANO 框架下引入外参 / root 参数解耦与结构先验约束,提升复杂环境下的重建稳定性与跨设备泛化能力
系统层(车规约束下的统一建模)
面向车规级低分辨率、帧率不稳及安装误差等约束,算法侧引入虚拟相机建模、多目特征融合与鲁棒旋转参数表达,并结合硬件系统协同优化,提升跨模组一致性、系统稳定性与量产适配能力
工程落地(多路线收敛与量产适配)
主导 TOF / 单目 / 多目多技术路线并行探索与收敛,在算力、延迟与稳定性约束下推动核心模块多轮迭代优化,完成车展及客户项目的多轮 Demo 验证与体验打磨,实现从技术原型到量产能力的转化
多模态动静态手势识别
接手后 1 个月内完成季度卡点问题收敛,恢复项目推进节奏,核心指标提升 5%+,画圈手势召回率 >96%,支撑量产顺利交付
避免恋战,及时撤退,不钻牛角尖,始终从业务目标出发平衡投入产出比
接手原手势组动静态手势任务(季度指标长期卡住),在量产交付周期压力下,快速定位问题并提升召回与系统稳定性,完成交付目标
协同 4 算法 + 3 工程,快速建立问题定位与迭代闭环,推动任务收敛
针对“画圈手势”召回长期低的问题,拆解为时序不连续与关键帧缺失问题,定位瓶颈在采样与序列建模阶段
提出补帧补偿策略(temporal interpolation + 序列对齐),增强关键动作片段连续性
联合时序建模与后处理机制(平滑 / 滞回控制),在响应延迟(latency)与识别稳定性(stability)之间实现工程化平衡
座舱行为识别(PDT / LMT 量产项目)
深度参与 15 辆车量产交付,累计支持 20+ 车型落地;系统稳定性与用户体验显著提升,获得客户积极反馈,并获“2021 年度成就客户奖”
从系统工程视角建立“多任务联合建模 + 后处理机制 + 时序建模”的协同优化范式,通过端到端任务 Owner 机制打通需求、算法与量产闭环,在算力受限条件下实现“指标 → 体验”的有效对齐
面向车规量产座舱行为识别(抽烟、打电话、点头 / 摇头等),解决离线指标与用户体感不一致问题,在算力与实时性约束下提升系统级识别稳定性与一致性
端到端任务 Owner,负责点头 / 摇头任务全流程推进(需求筛选、需求评审、方案设计、算法可行性分析、0-1 落地、量产维护),主导跨团队协同与技术方案收敛
参考 RetinaFace 多任务学习思想,针对抽烟 / 打电话等强关联行为,设计“ROI 定位 + 行为分类”联合建模方案(共享 backbone + 多分支 head),通过任务协同与特征复用提升识别精度与鲁棒性
引入“模型 + 后处理”协同机制(时序滤波、状态机、滞回控制),在算力受限条件下显著降低预测抖动与误触发;同时为点头 / 摇头构建轻量时序建模方案,系统性权衡 latency 与 stability
设计帧率扰动模拟机制(frame-rate jitter simulation),提升模型对车端帧率波动的适应能力;搭建场景守护测试方案,定义稳定性、延迟、误触发率等体感相关指标,实现离线指标与真实体验对齐
边缘智能项目
完成边缘智能算法框架搭建,实现多任务模型在边缘侧部署与运行,支撑情报信息自动化生成与关联分析
认识到项目本质上是以人为中心的协同系统:既要具备跨角色沟通与资源协调能力,也要建立宏观项目意识,从整体视角推动方案落地
面向边缘侧多场景智能需求(军衔识别、船舶感知等),从 0-1 构建边缘智能算法框架,解决多任务部署、数据分散及训练流程复杂等问题
设计边缘智能算法体系,集成联邦学习与训练自动化组件,实现分布式数据下模型协同训练;构建多任务视觉模型(军衔识别、船舶感知),并打通数据处理、模型训练与推理部署流程,支持情报信息结构化建模
DMS 驾驶员疲劳监控
完成模型部署与轻量化展示工具开发,在典型 hard case 场景下识别效果显著提升
基于典型 hard case 分析与数据闭环迭代,形成面向业务场景的模型优化方法;具备从业务需求出发,将复杂场景问题抽象为可建模算法问题的能力
面向车规量产 DMS 场景,针对小眼睛、眯眼等疲劳识别难点,优化模型在复杂驾驶状态下的鲁棒性
构建级联推理框架(粗分类 + 细分类),提升细粒度疲劳状态识别能力;搭建实时测试与可视化工具;设计数据清洗流程并沉淀 SOP,明确模型能力边界
细粒度分类项目
工装规范性识别准确率达 95%,独立完成 POC 验证并满足 AIoT 业务落地需求
通过标签空间扩展(multi-label)与数据规模提升,增强模型对复杂组合类别的表达能力
承接 AIoT 部门小球机落地需求,在安防监控场景下针对工装识别中的长尾分布、遮挡及大视角变化问题,构建鲁棒细粒度识别模型
基于 VargNet(地平线 J2 平台)构建 multi-label 分类框架(sigmoid + BCE),通过标签空间重构(multi-class → multi-label)及数据增强与类别重加权优化长尾问题
经选拔担任 A 班班长,协助组织 20+ 人训练营学习与评估机制,提升团队协作与项目推进效率