在离线企业环境中运行 Ollama 进行 AI 辅助数据准备

Ollama 的正常工作流假设有互联网访问：ollama pull mistral 从注册表下载模型权重。在离线环境中，没有互联网。没有注册表访问，没有依赖下载，没有电话回家的遥测。运行所需的一切都必须通过批准的流程物理传输。

这是国防、情报、关键基础设施和高安全金融环境中数据准备项目的现实。在你的笔记本上使用 ollama run 工作的 AI 辅助标注工作流，当目标机器从未见过互联网时需要不同的部署路径。

本指南涵盖完整的离线 Ollama 部署工作流：从联网机器上的模型准备到隔离目标上的验证运行。

前提条件

在开始传输过程前，在离线目标机器上确认以下内容：

操作系统：Linux（Ubuntu 22.04/24.04、RHEL 8/9、Rocky Linux）或 Windows 10/11。

GPU 驱动：NVIDIA 驱动必须已安装并正常工作。运行 nvidia-smi 验证。

CUDA 工具包：GPU 推理必需。

磁盘空间：7B Q4 模型约 4 GB。14B Q4 模型约 8 GB。预算 50-100 GB。

批准的传输介质：USB 驱动器、光学介质或设施信息传输策略允许的任何介质。

步骤 1：在联网机器上准备模型

# 安装 Ollama
curl -fsSL https://ollama.ai/install.sh | sh

# 拉取目标模型
ollama pull mistral:7b-instruct-v0.3-q4_K_M
ollama pull qwen2.5:14b-instruct-q4_K_M
ollama pull phi3:3.8b-mini-instruct-4k-q4_K_M
ollama pull nomic-embed-text

为每个模型运行测试推理以确认它们加载和生成正确。

步骤 2：打包传输

选项 A：复制整个 Ollama 目录

cp -r ~/.ollama/models /media/transfer-drive/ollama-models/

选项 B：选择性模型导出

仅导出需要的模型以减小传输包大小。

选项 C：直接使用 GGUF 文件

GGUF 文件是自包含的——单个文件包含模型权重、分词器和配置。这是离线部署最便携的格式。

计算并记录校验和

sha256sum /media/transfer-drive/ollama-binary/ollama > /media/transfer-drive/checksums.txt

步骤 3：传输到离线机器

遵循组织的信息传输策略。无论传输机制如何，传输后验证校验和。任何校验和不匹配意味着文件在传输期间损坏。不要使用损坏的模型文件继续。

步骤 4：在目标机器上安装和配置

# 安装二进制文件
sudo cp /media/transfer/ollama-binary/ollama /usr/local/bin/
sudo chmod +x /usr/local/bin/ollama

# 设置模型目录
mkdir -p ~/.ollama
cp -r /media/transfer/ollama-models ~/.ollama/models

# 配置环境
export OLLAMA_HOST=127.0.0.1:11434
export OLLAMA_ORIGINS=*

# 启动并验证
ollama serve &
ollama run mistral:7b-instruct-v0.3-q4_K_M "Respond with 'OK' if you are working."

数据准备任务的模型选择

模型	量化	大小	用途
Mistral 7B Instruct v0.3	Q4_K_M	约 4 GB	主要分类/标注
Mistral 7B Instruct v0.3	Q8_0	约 7.5 GB	高精度备选
Qwen 2.5 14B Instruct	Q4_K_M	约 8 GB	实体提取、生成
Qwen 2.5 14B Instruct	Q5_K_M	约 10 GB	高质量生成
Phi-3 Mini 3.8B	Q4_K_M	约 2.3 GB	轻量任务
nomic-embed-text	默认	约 275 MB	嵌入（去重/相似性）
合计		约 32 GB

常见故障模式

缺少 CUDA 库

症状：Ollama 启动但推理在 CPU 上运行（极慢）。修复：验证 nvidia-smi 和 nvcc --version。确保 CUDA 工具包版本与驱动版本兼容。

传输期间模型权重损坏

症状：模型无法加载，出现关于无效 GGUF 头或张量形状不匹配的错误。修复：对比原始校验和。重新传输损坏的文件。

VRAM 不足

症状：模型部分加载然后崩溃。修复：使用更小的模型或更低的量化。减少 OLLAMA_NUM_PARALLEL 为 1。

Ollama 找不到模型

症状：ollama list 不显示模型。修复：确保 ~/.ollama/models/ 下的目录结构完整。

部署检查清单

nvidia-smi 显示正确的 GPU
ollama list 显示所有预期模型
每个模型推理成功
推理期间 GPU 利用率大于 0%
推理速度符合预期（消费级 GPU 上 7B Q4 约 30-60 tok/s）
Ollama 日志中无网络错误
所有传输文件的校验和已验证
模型输出与暂存环境中的已知正确示例对照验证

在项目团队到达之前完成这些。在离线 SCIF 中调试 GPU 驱动不是任何人想要花费计费时间的方式。