Skip to content

feat(data): 盘点数据基建,并提取 2644 个连续不确定性极度遮挡样本#7

Open
JiafuZhang1 wants to merge 4 commits into
xiaomi-research:mainfrom
JiafuZhang1:feat/data-inventory
Open

feat(data): 盘点数据基建,并提取 2644 个连续不确定性极度遮挡样本#7
JiafuZhang1 wants to merge 4 commits into
xiaomi-research:mainfrom
JiafuZhang1:feat/data-inventory

Conversation

@JiafuZhang1

Copy link
Copy Markdown

UniDriveVLA 核心数据盘点与不确定性 (Uncertainty) 规划表

盘点人:JiafuZhang1 (二作 - 数据与预处理负责人)
环境状态:WSL2 + Conda 基建已通,已成功挂载 nuScenes v1.0-mini 验证集。
初步战果:已通过自动化探针脚本,在 5 个场景中成功定位并提取了 2644 个极度模糊/严重遮挡的优质长尾样本。


一、 数据字段全景盘点表

针对 UniDriveVLA 端到端基座的三个专家分支,当前原生数据集 (nuScenes) 的支持状态如下:

模块 核心字段 (Must-have) 字段描述 当前状态 风险/备注
感知 (Per) CAM_FRONT, CAM_BACK... 多视角图像 ✅ 充足 需提取相机内/外参矩阵用于 3D 投影对齐。
感知 (Per) bboxes_3d 3D 标注框 (x, y, z, w, l, h, yaw) ✅ 充足 包含类别(车、人、障碍物等),格式需转为 Tensor。
感知 (Per) map_layers 矢量地图 (Lanes, Crosswalk) ✅ 充足 主要是静态几何信息,需探讨动态路况的补充。
感知 (Per) Visibility / Occlusion 不确定性真值 (Uncertainty) 🔍 重点排查 当前仅提取了 0-40% 粗略遮挡样本 (2644例),下一步需细化为连续值。
理解 (Und) nav_instruction / QA 文本/语义标签 ⚠️ 缺失 nuScenes 原生无文本指令,需考虑挂载 DriveGPT4 等增强包。
规划 (Act) ego_trajectory 车辆底盘轨迹 (未来 6s) ✅ 充足 动作专家的 Ground Truth,需确保时序平滑。
规划 (Act) can_bus 底盘信号 (speed, steer, acc) ✅ 充足 已备好,视一作模型最小版本需求决定是否喂入。

二、 重点可疑字段深度剖析 (坑位预警)

在初步探查中,发现以下三个极易导致端到端模型训练崩溃的“坑”,需要团队重点关注:

  1. 不确定性的真值粒度太粗 (核心课题)
    • 可疑点:nuScenes 原生的可见度 (visibility_token) 是离散分类(如 1: 0-40%),这对训练连续的不确定性分支来说信息量太低。
    • 应对方案 (二作负责):我将编写脚本,利用现已找出的 2644 个极度遮挡样本,通过计算每个 3D 框内部的 LiDAR 点云密度,反向推导出一个 [0, 1] 的“遮挡连续值”,作为更精细的监督信号。
  2. 语义与感知的时戳未严格对齐
    • 可疑点:图像频率(12Hz)和底盘信号频率(100Hz)天然不一致。
    • 风险:在高速转弯场景下,微小的时戳对齐误差会导致轨迹流匹配(Flow Matching)训练失败。需在 DataLoader 中加入时戳插值对齐逻辑。
  3. 地图静态性导致的不确定性缺失
    • 可疑点:原生地图是静态的,但实际驾驶的不确定性往往来自动态路况(如临时修路)。
    • 应对方案:盘点并提取带有 construction (施工) 或 temporary_stop 属性的 Token,单独标记。

三、 场景驱动的数据划分 (Split) 方案 (Draft)

传统的随机洗牌划分无法体现大模型处理“长尾不确定性”的优势。本组数据划分建议采用场景驱动法

  • Train 集 (80%):常规无遮挡、天气良好的标准工况。
  • Uncertainty-Val 集 (10%)
    • 筛选标准:专门筛选包含严重遮挡 (visibility=='1')、雨雾 (Rain/Fog)、夜晚 (Night) 等导致传感器退化的场景。
    • 目的:在此子集上,观察模型的 Aleatoric Uncertainty 指标是否如预期般显著升高。
  • Hard-Test 集 (10%)
    • 筛选标准:切入 (Cut-in)、鬼探头、复杂无信控路口。
    • 目的:验证 Planner 分支在感知不确定性飙升时,是否真的会输出“刹车/减速”等保守轨迹。

四、 待协同与确认事项 (To 一作)

为了加速第一版 Baseline 的收敛,需要你(一作)确认以下关键信息:

  1. “不确定性”的具体落脚点:如果是聚焦“感知不确定性”,我本周全力去算 LiDAR 点云密度并打包;如果是聚焦“规划不确定性”,我需要去补全多模态轨迹真值。
  2. 最小版本的吞吐量:本周出第一版模型调试,建议 DataLoader 只给你喂入 nuScenes 的 v1.0-mini 集(10个场景),以便快速排查 Bug,是否同意?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

1 participant