技术笔记｜《AI Agent 开发：零基础构建复合智能体》知识梳理

在人工智能从“对话框“走向“行动派“的今天，AI Agent（智能体）正成为大模型落地的核心形态。本文参考梁志远的《AI Agent 开发：零基础构建复合智能体》，依据智能体系统的标准开发范式，从架构设计、核心内核实现到工程化落地三个维度，剖析如何从零构建一个具备感知、决策与执行能力的复合智能体。

第一部分：地基与原理

1.1 智能体系统架构设计

核心问题：什么是 Agent？它和普通的大模型有什么区别？

AI Agent 的本质是感知-认知-执行（Perception-Cognition-Action, PCA）模型在语言智能体领域的具体化。它不再是被动应答的聊天机器人，而是具备主动决策能力的独立实体。

为了支撑这一闭环，典型的系统架构采用分层部署：

基础模型层（底层 LLM、Embedding、多模态）
        ↓
智能体能力层（核心逻辑）
        ↓
应用接口层（交互终端）

在智能体能力层中，五大核心功能模块各司其职：

感知模块（Perception）：连接外部世界的桥梁。负责将非结构化的自然语言（如用户的模糊指令）转换为结构化的意图表示或 JSON 对象。
认知模块（Cognition）：智能体的“大脑“与推理中心。涉及信息整合、逻辑推理、策略选择与任务规划。
执行模块（Action）：任务的“最后一公里“。将认知决策转换为具体动作（如 API 调用、数据库查询）。
记忆模块（Memory）：维持多轮交互与状态保持的关键，存储用户历史与运行中间状态。
接口模块（Interface）：确保系统可嵌入多种运行环境（Web、终端等）。

1.2 大模型的能力边界与限制

模型能做什么？有什么短板？

1. 核心能力（模型能做什么）

大模型是 Agent 的引擎，其推理能力决定了 Agent 的上限：

逻辑与常识推理：基于训练语料中的世界知识，判断命题合理性。
思维链（Chain of Thought）：在面对复杂问题时，生成中间步骤，逐步推导结论。
条件与假设验证：模拟“如果……那么……“的情境，这是任务规划的基础。

2. 短板与应对：上下文窗口限制

模型单次推理能看到的 Token 总量（上下文窗口）是有限的。为了在有限的预算内处理海量信息，必须采用窗口控制策略：

Prompt 压缩与摘要：仅保留核心事实与关键信息片段，对历史对话进行有损压缩。
Token 预算分配：为 System Prompt、用户输入、工具描述预先设定 Token 预算，防止某一部分挤占推理空间。
滑动窗口与截断：分段式输入，保留最近 N 轮对话，较远轮次转入长期记忆或丢弃。

1.3 构建基本流程与任务建模

怎么把用户的需求变成代码任务？

1. 结构化输入

大模型本质是条件生成器，高质量的 Prompt 是任务建模的起点。一个标准的 Prompt 模板应包含：

System Prompt：定义角色边界（如“你是一个资深 DBA“）。
Instruction：明确当前任务目标。
Input Content：提供任务所需的背景信息。
Output Format：强制模型输出 JSON 或特定 XML 标签，以便程序解析。

2. 流程闭环

智能体的运行不是一次性的问答，而是循环：

感知状态 → 规划路径 → 拆解步骤 → 执行反馈 → 感知状态（循环）

动态规划：通过在 Prompt 中嵌入“状态标签“（如任务阶段：规划中），引导模型根据当前上下文决定是继续执行、分支处理还是终止任务。

第二部分：核心组件详解

2.1 四大模块的深度技术细节

每个模块具体怎么写代码？哪四大模块？

1. 感知模块：从文本到结构

感知不仅是“读“，更是“解析“。该模块利用 Prompt 解析器和辅助函数，将自然语言输入转化为系统可理解的结构化意图。

技术点：识别实体要素、抽取任务参数，并处理多模态输入（利用 ViT 等编码器将图像转为统一表示）。

2. 决策模块（认知）：任务链拆解

这是最核心的逻辑单元。认知过程细分为四个步骤：

意图识别与任务分类：确定是查询、生成还是操作。
任务分解：将宏观目标拆解为子步骤序列（DAG 或线性链）。
工具选择：根据子步骤目标，从工具库中匹配最合适的 API。
错误预判：识别潜在失败路径，提前构造容错机制。

3. 行动模块：以工具改变世界

行动模块包含工具注册、调度器与反馈管理。

容错与重试机制：外部 API 极不稳定。行动模块必须具备异常捕获能力。如果工具调用失败（如网络超时、参数错误），应触发自动重试或让模型根据报错信息重新生成参数（Self-Correction），而不是直接崩溃。

4. 记忆模块：短期与长期的协作

短期记忆（Short-term）：存放在 Prompt 或内存变量中，包含最近几轮对话和中间变量。旨在维持语义连续性，解决指代消解问题。
长期记忆（Long-term）：基于向量数据库（Vector DB）如 Chroma 或 FAISS。
- 存：将重要信息 Embedding 后存入库。
- 取：通过语义相似度检索（RAG），随时“捞“出相关历史知识。
- 更新策略：采用滚动更新或基于重要性评分进行记忆剪裁。

2.2 智能体的生命周期管理

一个 Agent 从启动到关闭的全过程

1. 初始化（Initialization）

Agent 启动时需加载模型配置（Temperature, Max Tokens）、注册工具函数表，并加载默认的系统记忆。

2. 运行中：状态追踪（State Tracking）

Session ID：每个会话必须有唯一标识。
断点续传：复杂任务往往跨越长时间周期。系统需周期性将“恢复状态（Resumption State）“持久化存储。一旦中断，可重建 Prompt 上下文，恢复现场继续执行。

3. 注销（Termination）

任务完成后，触发清理操作：释放数据库连接、清除临时缓存、持久化必要的日志，确保系统资源回收。

2.3 与外部系统的集成

Agent 怎么跟外面的世界打交道？

智能体通过以下方式与物理/数字世界交互：

API 调用：将用户指令映射为 RESTful HTTP 请求。技术上常使用 Function Calling 标准，定义函数结构体由模型填充参数。
数据库交互：遵循分层设计：语义解析 → 生成 SQL → 执行查询 → 结果写入记忆。严禁直接让 LLM 无限制操作 DB。
文件系统与沙箱：涉及文件读写或代码执行（Code Interpreter）时，必须在隔离的沙箱环境（Docker 容器或虚拟环境）中运行，防止恶意指令破坏宿主机。

第三部分：工程优化与安全

3.1 API 调用设计模式

怎么调大模型更高效？

1. 流式传输

为了解决大模型推理延迟高的问题，采用流式响应机制（Server-Sent Events）。像打字机一样逐个 Token 输出，让用户在完整结果生成前就能看到进度，通过提升首字响应速度优化体验。

2. 上下文缓存与并发

对高频访问的基础知识进行预处理缓存；在处理非依赖性子任务时，设计并行调用链路以提升吞吐量。

3.2 安全与内容控制

怎么防止 Agent 乱说话或干坏事？

1. 敏感词过滤（红线防御）

静态防御：使用 Aho-Corasick 自动机算法对输入输出进行高效的关键词匹配（违禁词库）。
动态防御：结合语义分析模型，拦截隐晦的违规指令。

2. 防幻觉与可信度评估

置信度打分：对模型生成的 Token 序列进行概率打分，低分内容触发拦截。
一致性校验：对同一问题进行多次不同 Prompt 的询问，对比答案一致性。
引用验证：强制模型在回答中通过 RAG 机制引用知识库来源，若无来源则标记为不可信，进行人工接管。

结语

以上就是基于梁志远老师《AI Agent 开发：零基础构建复合智能体》前两章梳理的核心脉络。从架构设计到工程落地，希望能帮你把 Agent 的内部逻辑理顺。当然，如果想看更底层的代码实现，还是推荐去翻翻原书。

Keyboard shortcuts

AI-Fullstack-Notes