从单一数据管道多格式导出：JSONL、COCO、YOLO和RAG分块

你已经摄入、清洗、标注和增强了数据集。现在需要导出——下游系统决定格式。

微调语言模型？JSONL。训练目标检测？YOLO或COCO。构建RAG管道？带元数据的分块文本。经典ML分类器？CSV。

各格式要求

JSONL — 每行有效JSON，一致模式，UTF-8。常见问题：未转义引号、内容中的换行。

COCO — 图像元数据、类别定义、标注的单一JSON文件。ID必须唯一且正确交叉引用。

YOLO — 每图一个文本文件，归一化坐标(0-1)，零索引类别ID。

RAG分块 — 适合嵌入模型的块大小（256-512 token），块间重叠，保留源元数据。

CSV — 一致列数，正确转义，一致数据类型。

每种格式单独导出脚本导致：格式bug、数据漂移、验证缺口、维护负担。

源数据 → 统一管道 → 导出模块 → JSONL / COCO / YOLO / RAG分块 / CSV

优势：一个数据模型、一次验证、一致导出、统一审计追踪。

Ertas Data Suite的导出模块从单一项目生成所有主要格式——JSONL、COCO、YOLO、CSV、分块文本和结构化JSON——每次导出包含模式验证、下游兼容性检查和完整审计日志。