Back to blog
    在离线企业环境中运行 Ollama 进行 AI 辅助数据准备
    ollamaair-gappedon-premiselocal-llmdata-preparationenterprisesecurityofflinesegment:service-provider

    在离线企业环境中运行 Ollama 进行 AI 辅助数据准备

    在离线环境中部署 Ollama 进行 AI 辅助数据标注的分步指南——模型传输、离线设置、GPU 配置和常见故障模式。

    EErtas Team·

    Ollama 的正常工作流假设有互联网访问:ollama pull mistral 从注册表下载模型权重。在离线环境中,没有互联网。没有注册表访问,没有依赖下载,没有电话回家的遥测。运行所需的一切都必须通过批准的流程物理传输。

    这是国防、情报、关键基础设施和高安全金融环境中数据准备项目的现实。在你的笔记本上使用 ollama run 工作的 AI 辅助标注工作流,当目标机器从未见过互联网时需要不同的部署路径。

    本指南涵盖完整的离线 Ollama 部署工作流:从联网机器上的模型准备到隔离目标上的验证运行。


    前提条件

    在开始传输过程前,在离线目标机器上确认以下内容:

    操作系统:Linux(Ubuntu 22.04/24.04、RHEL 8/9、Rocky Linux)或 Windows 10/11。

    GPU 驱动:NVIDIA 驱动必须已安装并正常工作。运行 nvidia-smi 验证。

    CUDA 工具包:GPU 推理必需。

    磁盘空间:7B Q4 模型约 4 GB。14B Q4 模型约 8 GB。预算 50-100 GB。

    批准的传输介质:USB 驱动器、光学介质或设施信息传输策略允许的任何介质。


    步骤 1:在联网机器上准备模型

    # 安装 Ollama
    curl -fsSL https://ollama.ai/install.sh | sh
    
    # 拉取目标模型
    ollama pull mistral:7b-instruct-v0.3-q4_K_M
    ollama pull qwen2.5:14b-instruct-q4_K_M
    ollama pull phi3:3.8b-mini-instruct-4k-q4_K_M
    ollama pull nomic-embed-text

    为每个模型运行测试推理以确认它们加载和生成正确。


    步骤 2:打包传输

    选项 A:复制整个 Ollama 目录

    cp -r ~/.ollama/models /media/transfer-drive/ollama-models/

    选项 B:选择性模型导出

    仅导出需要的模型以减小传输包大小。

    选项 C:直接使用 GGUF 文件

    GGUF 文件是自包含的——单个文件包含模型权重、分词器和配置。这是离线部署最便携的格式。

    计算并记录校验和

    sha256sum /media/transfer-drive/ollama-binary/ollama > /media/transfer-drive/checksums.txt

    步骤 3:传输到离线机器

    遵循组织的信息传输策略。无论传输机制如何,传输后验证校验和。任何校验和不匹配意味着文件在传输期间损坏。不要使用损坏的模型文件继续。


    步骤 4:在目标机器上安装和配置

    # 安装二进制文件
    sudo cp /media/transfer/ollama-binary/ollama /usr/local/bin/
    sudo chmod +x /usr/local/bin/ollama
    
    # 设置模型目录
    mkdir -p ~/.ollama
    cp -r /media/transfer/ollama-models ~/.ollama/models
    
    # 配置环境
    export OLLAMA_HOST=127.0.0.1:11434
    export OLLAMA_ORIGINS=*
    
    # 启动并验证
    ollama serve &
    ollama run mistral:7b-instruct-v0.3-q4_K_M "Respond with 'OK' if you are working."

    数据准备任务的模型选择

    推荐传输包

    模型量化大小用途
    Mistral 7B Instruct v0.3Q4_K_M约 4 GB主要分类/标注
    Mistral 7B Instruct v0.3Q8_0约 7.5 GB高精度备选
    Qwen 2.5 14B InstructQ4_K_M约 8 GB实体提取、生成
    Qwen 2.5 14B InstructQ5_K_M约 10 GB高质量生成
    Phi-3 Mini 3.8BQ4_K_M约 2.3 GB轻量任务
    nomic-embed-text默认约 275 MB嵌入(去重/相似性)
    合计约 32 GB

    此包可放入单个 64 GB USB 驱动器。


    常见故障模式

    缺少 CUDA 库

    症状:Ollama 启动但推理在 CPU 上运行(极慢)。 修复:验证 nvidia-sminvcc --version。确保 CUDA 工具包版本与驱动版本兼容。

    传输期间模型权重损坏

    症状:模型无法加载,出现关于无效 GGUF 头或张量形状不匹配的错误。 修复:对比原始校验和。重新传输损坏的文件。

    VRAM 不足

    症状:模型部分加载然后崩溃。 修复:使用更小的模型或更低的量化。减少 OLLAMA_NUM_PARALLEL 为 1。

    Ollama 找不到模型

    症状ollama list 不显示模型。 修复:确保 ~/.ollama/models/ 下的目录结构完整。


    部署检查清单

    • nvidia-smi 显示正确的 GPU
    • ollama list 显示所有预期模型
    • 每个模型推理成功
    • 推理期间 GPU 利用率大于 0%
    • 推理速度符合预期(消费级 GPU 上 7B Q4 约 30-60 tok/s)
    • Ollama 日志中无网络错误
    • 所有传输文件的校验和已验证
    • 模型输出与暂存环境中的已知正确示例对照验证

    在项目团队到达之前完成这些。在离线 SCIF 中调试 GPU 驱动不是任何人想要花费计费时间的方式。

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading