Ertas 助力 ML 工程师与微调从业者
ML 工程师可以用统一的可视化流水线替代 CLI 工具、Jupyter 笔记本和手动文件管理的碎片化混乱,同时保留代码优先的逃生通道。Ertas 将数据集整理、实验跟踪、微调、评估和 GGUF 导出连接为一个连贯的工作流。
The Challenge
开源微调生态系统功能强大但严重碎片化。Unsloth 优化了训练速度但没有部署方案。Axolotl 提供灵活的配置但需要手动编写 YAML 且不提供实验跟踪。LLaMA-Factory 提供 Web UI 但将您锁定在其特定抽象中。每个工具都出色地解决了拼图的一块而忽略了其余部分,使 ML 工程师不得不用 shell 脚本、笔记本单元格和命名规范将工作流粘合在一起——当有团队成员加入或项目在两周后恢复时,这些必然会崩溃。GPU 内存约束增加了另一层摩擦——工程师可能花一整天时间找出量化、批大小、梯度累积和序列长度的正确组合,使训练运行适合其可用硬件。
部署差距是大多数微调项目死亡的地方。ML 工程师在笔记本中产生了一组漂亮的适配器权重,达到了强劲的评估指标,然后面临问题:然后呢?转换为 GGUF 需要找到支持该模型架构的正确 llama.cpp 提交。量化到正确的位深需要在 Q4_K_M、Q5_K_M 和 Q6_K 变体之间反复试验。没有标准方法来跟踪哪个实验产生了哪个适配器、使用了哪个数据集版本,或如何跨运行比较评估指标。当利益相关者问「你能复现三周前的模型吗?」诚实的回答通常是「大概可以,如果我能找到正确的笔记本而且训练数据没有被覆盖的话。」这种缺乏可复现性和血统跟踪不是工具上的不便——它是在生产中部署微调模型的根本阻碍。
The Solution
Ertas 提供了 ML 工程师一直在用开源工具拼凑的统一流水线。Studio 的可视化画布让您通过组合模块化块来设计训练流水线——数据加载、预处理、LoRA/QLoRA 配置、训练、评估和导出——同时暴露经验丰富的从业者期望的完整配置面。每个参数都可编辑,每个块都可以用自定义代码替换,整个流水线定义可导出为可复现的配置文件。这不是一个简化的 UI 螺栓拧在训练库上——它是一个真正的工作流编排器,碰巧有可视化界面。
实验跟踪和比较功能完全弥合了可复现性差距。Ertas 中的每次训练运行都自动带有完整血统版本化:使用了 Vault 中的哪个数据集版本、Hub 中的哪个基础模型、设置了什么超参数,以及达到了什么评估指标。并排比较视图让工程师在单一屏幕中评估多个 QLoRA 实验的损失曲线、基准分数和生成质量。当最佳实验被确定后,一键 GGUF 导出处理转换和量化流水线——包括架构感知转换,自动选择正确的 llama.cpp 代码路径。导出的 GGUF 可以部署到 Ollama、llama.cpp、vLLM 或任何其他推理运行时,无需手动转换步骤。从原始数据集到部署生产模型的整个旅程都在一个平台上完成,具有完整的审计追踪。
Key Features
可视化画布与代码优先逃生通道
Studio 的画布界面让您可视化地组合训练流水线,同时保留完全控制。每个块暴露其底层配置,自定义 Python 块可以在流水线的任何点注入。图形化设计您的工作流,然后导出为可复现的配置文件用于 CI/CD 集成或无头执行。
模型比较与基准测试
Hub 不仅仅是一个模型注册中心——它是一个决策工具。跨标准化基准比较 基础模型,按架构和许可证筛选,在提交微调运行前查看社区评估。评估您自己的微调模型时,针对相同基准运行以精确量化您的适配器相比基础模型的改进程度。
托管训练 GPU
Cloud 消除了 GPU 采购瓶颈。在托管的 A100 或 H100 实例上启动微调运行,无需处理云提供商配额、CUDA 驱动不匹配或竞价实例中断。按训练小时付费,具有自动检查点功能确保永不丢失进度——然后将完成的模型部署到任何您想要的地方。
数据集版本管理与实验跟踪
Vault 为每个数据集、适配器和训练工件提供带有完整血统元数据的版本管理。每个实验都链接到产生它的精确数据集版本、基础模型和超参数集。跨损失曲线、评估指标和样本输出并排比较实验。当您需要复现三个月前的结果时,完整的溯源链只需一键。
Example Workflow
一位中期创业公司的 ML 工程师被要求将 GPT-4o 的推理能力蒸馏到用于设备端部署的紧凑模型中。他们首先整理了 50,000 个示例的 GPT-4o 输出数据集,覆盖公司的核心用例——客户查询分类、产品推荐和摘要——将版本化的数据集上传到 Vault。在 Hub 中,他们评估三个候选基础模型:Qwen 2.5 14B、Mistral Nemo 12B 和 LLaMA 3.1 8B,在公司的内部基准套件上进行比较。Qwen 2.5 14B 显示最强的基线性能,因此他们继续使用它。在 Studio 中,工程师配置 5 个 QLoRA 实验,不同的 rank(8、16、32)、学习率调度和序列长度,在 Cloud 上并行启动全部五个。训练完成后,并排比较视图显示 rank-16 配合余弦退火和 4096 序列长度在评估分数(内部基准 91.3%)和适配器大小(48MB)之间产生最佳权衡。工程师深入生成质量标签,抽查所有三个任务类别的输出,确认蒸馏模型在 94% 的测试案例上匹配 GPT-4o 的输出质量。一键将获胜实验导出为 Q5_K_M GGUF 文件,Ertas 自动为 Qwen 架构选择正确的 llama.cpp 转换路径。导出的模型部署到公司 API 网关后面的 vLLM 实例,以 180ms p95 延迟每分钟处理 2,000 个请求。完整的实验历史——全部 5 次运行、其数据集、配置和指标——保存在 Vault 中供将来参考和审计。
Related Resources
Fine-Tuning
GGUF
Inference
LoRA
Model Merging
QLoRA
Ertas Studio vs. Unsloth vs. Axolotl: Fine-Tuning Tools Compared (2026)
How to Fine-Tune an LLM: The Complete 2026 Guide
Fine-Tuning Llama 3: A Practical Guide for Your Use Case
Why We Built a Canvas Interface for Machine Learning
Hugging Face
llama.cpp
Ollama
vLLM
Ertas for SaaS Product Teams
Ertas for Code Generation
Ertas for Data Extraction
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.