理解 AI Agent 的关键,是先打破一个误解:
LLM 本身 不会真正“调用工具”。
LLM 只是 生成文本。 所谓 Agent 的“工具调用”,其实是 系统把文本解析成工具调用指令,然后执行工具,再把结果返回给 LLM。
所以 Agent 本质是:
LLM
+ Tools
+ Memory
+ Workflow
下面我们从原理到工程实现一步一步拆解。
一、Agent 的本质结构
一个最小的 Agent 系统包含 4 个组件:
用户
↓
LLM(思考)
↓
Tool(执行)
↓
Observation(结果)
↓
LLM(继续思考)
循环直到任务完成。
这个模式最早来自 ReAct 思想。
- ReAct: Synergizing Reasoning and Acting in Language Models
核心思想:
Reasoning + Acting
二、Agent 为什么能调用工具
LLM 实际做的是 生成一个“调用工具的描述”。
例如用户问:
北京现在天气怎么样?
系统提供一个工具:
get_weather(city)
LLM 生成的内容可能是:
{
"tool": "get_weather",
"arguments": {
"city": "北京"
}
}
系统解析 JSON:
调用工具
返回:
{
"temperature": "22C",
"weather": "sunny"
}
再给 LLM:
Observation: 北京天气22C 晴天
LLM 再生成:
北京现在天气晴朗,气温22度。
所以:
LLM 只是在生成工具调用的文本
系统在背后执行。
三、Agent 的循环(核心)
Agent 实际执行流程是一个 循环:
用户问题
↓
LLM 思考
↓
是否调用工具?
↓
调用工具
↓
得到结果
↓
继续思考
↓
输出最终答案
很多框架叫:
Agent Loop
四、Agent Prompt(关键)
Agent 能调用工具,核心是 Prompt 设计。
典型 Agent prompt:
You are an AI assistant.
You have access to the following tools:
1. search
2. calculator
3. weather_api
When you need information, call a tool.
Use this format:
Thought: ...
Action: tool_name
Action Input: ...
Observation: ...
LLM 就会学会输出:
Thought: 我需要天气信息
Action: weather_api
Action Input: 北京
这就是 Agent 的核心机制。
五、Function Calling(现代方式)
现在主流 LLM 都支持:
Function Calling
例如:
- ChatGPT
- Claude
- Qwen
可以直接定义工具:
{
"name": "get_weather",
"description": "Get weather info",
"parameters": {
"type": "object",
"properties": {
"city": {
"type": "string"
}
}
}
}
LLM 会自动返回:
tool_call
系统执行即可。
六、Agent 的三大能力
Agent 能工作的核心是三种能力:
1 Reasoning(推理)
LLM 规划步骤:
先查资料
再计算
最后总结
2 Tool Use(工具)
工具可以是:
API
数据库
搜索引擎
代码执行
例如:
Google search
SQL query
Python interpreter
3 Memory(记忆)
Agent 需要记住:
历史对话
工具结果
任务状态
例如:
Short-term memory
Long-term memory
七、Agent 架构
一个完整 Agent 系统通常包含:
User
↓
Agent Controller
↓
LLM
↓
Tool Router
↓
Tools
↓
Memory
组件:
1 Agent Controller 2 Tool Registry 3 Memory Store 4 LLM
八、Agent 的工具类型
常见工具:
搜索
web search
vector search
数据工具
SQL
API
知识库
执行工具
Python
Shell
Workflow
九、Agent 与 RAG 的关系
很多人分不清:
RAG vs Agent。
区别:
| RAG | Agent |
|---|---|
| 检索知识 | 执行任务 |
| 一次调用 | 多轮调用 |
| 简单架构 | 复杂系统 |
例如:
用户问:
公司年收入是多少?
RAG:
检索财报
用户问:
帮我分析公司财报
Agent:
查财报
计算数据
生成报告
十、Multi-Agent
复杂任务会使用:
多个 Agent
例如:
Research Agent
Coding Agent
Review Agent
代表框架:
- CrewAI
- AutoGPT
- LangGraph
十一、Agent 的最大问题
Agent 目前最大问题是:
不稳定
原因:
1 LLM 推理不确定
可能:
乱调用工具
2 规划能力有限
复杂任务容易:
迷失
3 成本高
多轮推理:
token 消耗大
十二、企业 Agent 的真实模式
大部分企业其实不用:
Auto Agent
而是:
Workflow Agent
结构:
LLM
+
固定流程
例如:
Step1 检索知识
Step2 生成答案
Step3 校验
稳定很多。
十三、Agent 的本质(最重要结论)
Agent 并不是:
LLM 自动完成所有事情
而是:
LLM
+
Tool
+
Workflow
+
Memory
也就是说:
Agent = AI 操作系统
下一步学习建议
如果你已经理解:
- LLM
- Embedding
- RAG
- Agent
下一步最关键的是:
AI 系统架构(AI Platform)
因为真正企业落地需要:
Prompt管理
Agent管理
模型路由
RAG服务
工具管理
这才是 AI 架构师真正要设计的系统。
