
在离线企业环境中运行 Ollama 进行 AI 辅助数据准备
在离线环境中部署 Ollama 进行 AI 辅助数据标注的分步指南——模型传输、离线设置、GPU 配置和常见故障模式。
Ollama 的正常工作流假设有互联网访问:ollama pull mistral 从注册表下载模型权重。在离线环境中,没有互联网。没有注册表访问,没有依赖下载,没有电话回家的遥测。运行所需的一切都必须通过批准的流程物理传输。
这是国防、情报、关键基础设施和高安全金融环境中数据准备项目的现实。在你的笔记本上使用 ollama run 工作的 AI 辅助标注工作流,当目标机器从未见过互联网时需要不同的部署路径。
本指南涵盖完整的离线 Ollama 部署工作流:从联网机器上的模型准备到隔离目标上的验证运行。
前提条件
在开始传输过程前,在离线目标机器上确认以下内容:
操作系统:Linux(Ubuntu 22.04/24.04、RHEL 8/9、Rocky Linux)或 Windows 10/11。
GPU 驱动:NVIDIA 驱动必须已安装并正常工作。运行 nvidia-smi 验证。
CUDA 工具包:GPU 推理必需。
磁盘空间:7B Q4 模型约 4 GB。14B Q4 模型约 8 GB。预算 50-100 GB。
批准的传输介质:USB 驱动器、光学介质或设施信息传输策略允许的任何介质。
步骤 1:在联网机器上准备模型
# 安装 Ollama
curl -fsSL https://ollama.ai/install.sh | sh
# 拉取目标模型
ollama pull mistral:7b-instruct-v0.3-q4_K_M
ollama pull qwen2.5:14b-instruct-q4_K_M
ollama pull phi3:3.8b-mini-instruct-4k-q4_K_M
ollama pull nomic-embed-text
为每个模型运行测试推理以确认它们加载和生成正确。
步骤 2:打包传输
选项 A:复制整个 Ollama 目录
cp -r ~/.ollama/models /media/transfer-drive/ollama-models/
选项 B:选择性模型导出
仅导出需要的模型以减小传输包大小。
选项 C:直接使用 GGUF 文件
GGUF 文件是自包含的——单个文件包含模型权重、分词器和配置。这是离线部署最便携的格式。
计算并记录校验和
sha256sum /media/transfer-drive/ollama-binary/ollama > /media/transfer-drive/checksums.txt
步骤 3:传输到离线机器
遵循组织的信息传输策略。无论传输机制如何,传输后验证校验和。任何校验和不匹配意味着文件在传输期间损坏。不要使用损坏的模型文件继续。
步骤 4:在目标机器上安装和配置
# 安装二进制文件
sudo cp /media/transfer/ollama-binary/ollama /usr/local/bin/
sudo chmod +x /usr/local/bin/ollama
# 设置模型目录
mkdir -p ~/.ollama
cp -r /media/transfer/ollama-models ~/.ollama/models
# 配置环境
export OLLAMA_HOST=127.0.0.1:11434
export OLLAMA_ORIGINS=*
# 启动并验证
ollama serve &
ollama run mistral:7b-instruct-v0.3-q4_K_M "Respond with 'OK' if you are working."
数据准备任务的模型选择
推荐传输包
| 模型 | 量化 | 大小 | 用途 |
|---|---|---|---|
| Mistral 7B Instruct v0.3 | Q4_K_M | 约 4 GB | 主要分类/标注 |
| Mistral 7B Instruct v0.3 | Q8_0 | 约 7.5 GB | 高精度备选 |
| Qwen 2.5 14B Instruct | Q4_K_M | 约 8 GB | 实体提取、生成 |
| Qwen 2.5 14B Instruct | Q5_K_M | 约 10 GB | 高质量生成 |
| Phi-3 Mini 3.8B | Q4_K_M | 约 2.3 GB | 轻量任务 |
| nomic-embed-text | 默认 | 约 275 MB | 嵌入(去重/相似性) |
| 合计 | 约 32 GB |
此包可放入单个 64 GB USB 驱动器。
常见故障模式
缺少 CUDA 库
症状:Ollama 启动但推理在 CPU 上运行(极慢)。
修复:验证 nvidia-smi 和 nvcc --version。确保 CUDA 工具包版本与驱动版本兼容。
传输期间模型权重损坏
症状:模型无法加载,出现关于无效 GGUF 头或张量形状不匹配的错误。 修复:对比原始校验和。重新传输损坏的文件。
VRAM 不足
症状:模型部分加载然后崩溃。
修复:使用更小的模型或更低的量化。减少 OLLAMA_NUM_PARALLEL 为 1。
Ollama 找不到模型
症状:ollama list 不显示模型。
修复:确保 ~/.ollama/models/ 下的目录结构完整。
部署检查清单
-
nvidia-smi显示正确的 GPU -
ollama list显示所有预期模型 - 每个模型推理成功
- 推理期间 GPU 利用率大于 0%
- 推理速度符合预期(消费级 GPU 上 7B Q4 约 30-60 tok/s)
- Ollama 日志中无网络错误
- 所有传输文件的校验和已验证
- 模型输出与暂存环境中的已知正确示例对照验证
在项目团队到达之前完成这些。在离线 SCIF 中调试 GPU 驱动不是任何人想要花费计费时间的方式。
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

On-Premise Runtime Architecture for Enterprise AI Data Preparation
Architectural guide for running AI data preparation on-premise — deployment models, compute tiers, local LLM inference, and storage strategies for enterprise datasets.

Local LLM-Assisted Data Labeling Without Data Egress
How to use local LLMs via Ollama and llama.cpp for AI-assisted data labeling — covering pre-annotation, quality checks, and active learning without sending data off-premise.

Synthetic Data Generation in Air-Gapped Environments for Fine-Tuning
How to generate synthetic training data in air-gapped environments — covering paraphrasing, instruction generation, DPO pairs, and seed expansion using local LLMs only.