AST（Abstract Syntax Tree，抽象语法树）

老马啸西风2026/1/5大约 4 分钟

chat

AST（Abstract Syntax Tree，抽象语法树）

一、AST 是什么（精准定义）

Abstract Syntax Tree（AST） 是：

在语法分析之后，对程序“语义结构”的抽象树形表示，刻意丢弃与语义无关的语法细节，只保留“程序在做什么”。

强调三点：

Abstract（抽象）
去掉括号、分号、关键字冗余、语法糖
Syntax（语法）
仍然是结构化的、可推理的代码结构
Tree（树）
层级明确，天然适合递归、遍历、分析

一句工程化理解：

AST 是“编译器、静态分析、IDE、AI”共同认可的最小语义结构单元。

二、AST 从哪里来？（在编译流程中的位置）

在经典编译流程中：

Source Code
  ↓
Lexer（Token）
  ↓
Parser（CST / Parse Tree）
  ↓
AST   ←—— 我们现在讨论的核心
  ↓
Semantic Analysis
  ↓
IR / Optimization / CodeGen

AST 不是 Parser 的天然产物，而是：

从 CST 中 重写 / 折叠 / 规约 得到
或 Parser 在构建时“直接生成语义节点”

三、AST 与 CST 的根本区别（再次但更深一层）

你前面问过：“AI 都能理解自然语言了，为什么还要语法树？”
AST 就是这个问题的“中间答案”。

对比表（工程视角）

维度	CST	AST
关注点	语法形式	程序语义
是否保留括号/分号	是	否
是否保留注释	通常是	否
是否依赖 Grammar	强	弱
是否稳定	易变	稳定
是否适合语义分析	否	是
是否适合 AI 推理	一般	非常适合

一个极直观的例子

源码：

if ((a + b) * c > 10) {
    foo();
}

CST（简化）：

ifStatement
 ├─ 'if'
 ├─ '('
 ├─ expression
 │   ├─ '('
 │   ├─ expression
 │   │   ├─ identifier(a)
 │   │   ├─ '+'
 │   │   └─ identifier(b)
 │   ├─ ')'
 │   ├─ '*'
 │   └─ identifier(c)
 ├─ ')'
 ├─ '>'
 ├─ literal(10)
 └─ block

AST（简化）：

If
 ├─ Condition: GreaterThan
 │    ├─ Multiply
 │    │    ├─ Add(a, b)
 │    │    └─ c
 │    └─ 10
 └─ Then: Block(foo())

关键差异：
AST 不再描述“括号在哪”，而是描述 “运算关系是什么”。

四、AST 的核心结构设计

1️⃣ AST 节点的典型分类

几乎所有语言的 AST，都可以归纳为几类：

声明类（Declaration）

Program
Package / Module
Class / Interface
Function / Method
VariableDeclaration

语句类（Statement）

If
For / While
Return
Block
Try / Catch

表达式类（Expression）

BinaryExpression
UnaryExpression
CallExpression
Assignment
Literal
Identifier

2️⃣ AST 是“语义层级”的树

重要理解：

AST 的父子关系 = 语义包含关系

例如：

If 节点拥有 Condition
Function 节点拥有 Parameters + Body
CallExpression 节点拥有 Callee + Arguments

这对：

编译器
静态分析
AI 结构理解
都极其关键。

五、AST 构建的核心技术

1️⃣ 两种主流方式

方式一：CST → AST 重写（经典）

Parser 生成 CST
Visitor / Transformer 构建 AST
ANTLR、javac 常用

优点：

语法清晰
可控性强

缺点：

实现复杂
有性能成本

方式二：Parser 直接构建 AST（工业常用）

递归下降 parser
每个产生式返回 AST 节点

优点：

高效
AST 天然干净

缺点：

Grammar 与 AST 强耦合

2️⃣ 典型技术点

Visitor Pattern
Pattern Matching（Rust / Scala）
AST Node Interning
Source Range（AST 节点 → 源码位置）

六、AST 在“语义分析”中的核心地位

没有 AST，就谈不上真正的编译器

AST + 语义分析能做什么？

变量解析（Name Resolution）
类型检查
重载 / 泛型 / trait 解析
控制流构建（CFG）
数据流分析

在这个阶段，AST 通常会被：

Annotate（打标签）
变成 Typed AST

七、AST 在现代工程中的真实用途

1️⃣ 编译器 & 语言实现

javac
clang
rustc

2️⃣ IDE & 静态分析

跳转定义
重构
Lint
Dead code 检测

3️⃣ Code Graph / 程序分析

AST 是构建以下结构的输入：

Call Graph
CFG
Data Flow Graph
Dependency Graph

4️⃣ AI / LLM / RAG（你正在深入的方向）

AST 在 AI 编程中的作用非常现实：

结构化切分（Chunking）
稳定引用（Symbol-level grounding）
减少 prompt 噪音
支撑可解释生成

AST 是“AI 理解代码”的结构锚点

八、AST 的局限性（非常重要）

1️⃣ AST ≠ 程序行为

AST 不知道：

实际执行路径
运行时值
并发行为

2️⃣ AST 不适合直接做优化

优化依赖 CFG / SSA / IR
AST 更偏“结构理解”

3️⃣ AST 不是跨语言通用结构

Java AST ≠ Python AST
只能在“同一语言域”内使用

九、AST / CST / IR 的一句话对照

CST：代码“长什么样”
AST：代码“是什么意思”
IR：代码“怎么执行”

十、站在你这个层级的总结

结合你当前对：

编译器前端
Code Graph
RAG
AI 平台

的整体思考，我给你一个“工程结论级”的总结：

AST 是“人类语言 → 机器语义”的关键桥梁。
没有 AST，AI 只能‘读代码文本’，有了 AST，AI 才是在‘理解程序结构’。

参考资料

https://github.com/tree-sitter/tree-sitter