Back to blog
    本地部署的智能体AI:无需云依赖的企业部署
    智能体AI本地部署企业AIAI智能体数据主权segment:enterprise

    本地部署的智能体AI:无需云依赖的企业部署

    智能体AI系统执行操作而不仅是生成文本——大多数假设云部署。本指南涵盖为什么本地智能体对数据主权、合规和延迟至关重要,以及在本地部署它们的架构和工具。

    EErtas Team·

    智能体AI——执行操作而非仅生成文本的AI系统——是企业AI部署中增长最快的模式。Gartner预测到2028年,33%的企业软件应用将包含智能体AI,而2024年这一比例不到1%。吸引力显而易见:你得到的不是一个回答问题的聊天机器人,而是一个真正做事的系统。它查询数据库、更新记录、起草文档、路由工单、执行多步骤工作流。

    但有一个隐藏的问题。几乎所有智能体AI的内容、工具和框架都假设云部署。LangChain的默认示例调用OpenAI。CrewAI的教程使用GPT-4。AutoGen的文档假设API访问。隐含的信息很明确:智能体在云端。

    对于处理敏感数据、在受监管行业运营或仅仅想控制自己基础设施的企业来说,这个假设是不可接受的。本指南涵盖为什么本地智能体重要、如何构建它们的架构,以及工具生态系统的当前状态。

    为什么本地智能体与本地聊天机器人不同

    在本地运行聊天机器人相对简单。用户发送问题,模型生成回复,回复返回给用户。数据流很简单:文本进,文本出。

    智能体根本不同。智能体:

    • 从企业系统读取 — 数据库、ERP、CRM、文档管理、邮件服务器
    • 做出决策 — 确定调用哪个工具、使用什么参数、是否升级
    • 执行操作 — 写入数据、发送消息、触发工作流、更新记录
    • 链接多个步骤 — 单个用户请求可能涉及5-15个连续工具调用

    这意味着数据流不是文本进、文本出。数据流是:企业数据进入、对该数据进行推理、在企业系统上执行操作。如果智能体在云端运行,你的企业数据在每个步骤都通过云端。

    本地智能体不可妥协的三个原因

    1. 数据流经智能体

    当智能体查询你的CRM以查找客户的合同详情时,这些详情流经智能体的上下文窗口。当它读取患者记录以起草临床摘要时,PHI在智能体的内存中。当它搜索你的法律文档存储以寻找相关先例时,特权信息通过模型。

    如果智能体是云API,它接触的每一条数据都被传输到第三方服务器。数据暴露范围随智能体能力扩展——智能体越有用,它处理的数据越多,你的暴露面越大。

    使用本地智能体,数据永远不离开你的网络。模型在本地运行。工具在本地执行。向量存储是本地的。整个推理链保持在你的安全边界内。

    2. 智能体做出影响受监管流程的决策

    聊天机器人给出建议。智能体采取行动。这种区别在受监管行业中非常重要。

    如果医疗环境中的智能体建议调整药物并且该建议自动输入EHR,那就是临床决策。它必须是可审计的、可追溯的,并符合FDA和HIPAA要求。

    如果金融服务公司的智能体基于市场分析执行交易,该行动属于SEC和FINRA监管。决策链必须是可重建的。"我们将数据发送到云API,它做了决定"不是可接受的审计回复。

    本地部署将整个决策链——输入数据、推理步骤、工具调用、执行的操作——保持在你的合规边界内。

    3. 延迟在智能体步骤中累积

    每个云API调用增加延迟:

    组件云延迟本地延迟
    LLM推理(每步)200-800ms50-200ms
    向量存储查询100-300ms5-20ms
    工具执行50-200ms(网络开销)1-10ms(本地)
    每步总计350-1,300ms56-230ms

    5步智能体工作流使用云API需要1.75-6.5秒。本地完成同样的工作流需要280ms-1.15秒。

    这不仅是性能优化。这是智能体感觉响应迅速还是缓慢的区别。用户放弃慢工具。

    本地智能体架构

    本地智能体栈有四个层:

    第1层:本地LLM

    模型通过Ollama、llama.cpp或vLLM等推理运行时在你的硬件上运行。对于智能体工作负载,你需要具有强指令遵循和工具调用能力的模型。当前7B-14B参数范围的最佳选择:

    • Qwen2.5-7B / 14B — 强工具调用性能
    • Mistral 7B变体 — 良好支持,速度和质量的良好平衡
    • Llama 3.1 8B — 稳固基线,广泛工具支持
    • Phi-3.5 / Phi-4 — 同级别中强推理

    第2层:工具定义

    智能体需要工具——它们可以调用的与企业系统交互的函数。本地工具是连接到你内部系统的本地函数定义:

    tools = [
        {
            "name": "query_customer_database",
            "description": "Look up customer information by ID or name",
            "parameters": {
                "customer_id": {"type": "string", "description": "Customer ID"},
                "fields": {"type": "array", "description": "Fields to return"}
            }
        }
    ]

    工具在本地针对你的内部API、数据库和服务执行。没有数据离开网络。

    第3层:本地向量存储用于RAG

    本地向量存储(Qdrant、Milvus、ChromaDB)保存你企业文档的嵌入表示。智能体决策的质量直接受限于向量存储中数据的质量。

    第4层:审计日志

    每个智能体操作都必须记录。这不是企业部署的可选项——它是问责制的基础。

    本地模型能否真正驱动智能体?

    数据说明了不同的故事。对于工具定义明确、决策空间有界的结构化企业任务

    • 微调7B模型在企业工具调用任务上达到85-92%准确率(在500多个特定工具模式示例上训练时)
    • 微调14B模型在相同任务上达到90-95%准确率
    • 通用(未微调)7B模型只达到40-60%准确率——这就是为什么微调是必需的,不是可选的

    微调教会模型你的特定工具模式、参数格式和业务逻辑。

    数据准备依赖

    这是大多数智能体AI讨论跳过的部分:智能体质量受知识库质量限制

    你可以拥有最好的模型、最好的框架和最好的硬件。如果向量存储中的数据混乱——重复文档、过时政策、糟糕的分块——智能体就会检索错误的信息并产生错误的结果。

    数据准备是基础。做好它,7B模型就能作为企业智能体表现出色。做不好,即使GPT-4也会产生不可靠的结果。

    入门

    本地智能体的实用路径:

    1. 识别一个定义明确的工作流 — 具有清晰输入、工具和预期输出的可重复任务
    2. 准备知识库 — 清洗和分块智能体需要的文档
    3. 微调模型 — 500多个工作流示例,包括工具调用模式
    4. 本地部署 — Ollama + 你选择的向量存储 + 审计日志
    5. 与领域专家测试 — 让目前执行该任务的人评估智能体的输出
    6. 在数据质量上迭代 — 大多数改进来自修复知识库,而不是更换模型

    从一个工作流开始。让它可靠地工作。然后扩展。无论运行一个还是十个智能体,基础设施投资都是相同的——额外智能体的边际成本主要是数据准备和微调,而不是硬件。

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading