PageIndex:无向量、基于推理的 RAG
基于推理的 RAG
无需向量数据库
无需分块
类人检索
🔥 发布:
- PageIndex Chat:首个面向专业长文档的类人文档分析 Agent 平台。
📝 文章:
- PageIndex 框架:介绍 PageIndex 框架 —— 一个 Agent 化、基于上下文 的 树形索引,使 LLM 能够在长文档上执行 基于推理、类人检索,无需向量数据库或分块。
🧪 Cookbook:
- Vectorless RAG:一个最小化、可动手实践的示例,展示基于推理的 RAG。
- Vision-based Vectorless RAG:无需 OCR,仅基于视觉的 RAG 工作流,直接处理 PDF 页面图像。
</details>
📑 PageIndex 简介
你是否对向量数据库在处理长专业文档时的检索准确性感到沮丧?传统的基于向量的 RAG 依赖语义“相似性”,而非真正的“相关性”。
但相似性 ≠ 相关性——我们真正需要的是相关性,而这需要推理能力。
在需要领域知识和多步推理的专业文档场景中,相似性搜索往往力不从心。
受 AlphaGo 启发,我们提出 PageIndex —— 一个无向量(vectorless)、基于推理的 RAG 系统。它从长文档中构建一个层级树索引,并利用 LLM 在该索引之上进行推理,实现Agent 化、上下文感知的检索。
它模拟人类专家通过树搜索在复杂文档中导航与提取知识的方式,使 LLM 能够“思考”和“推理”以定位最相关的内容。PageIndex 的检索过程分为两步:
- 生成文档的“目录式”树结构索引
- 通过树搜索执行基于推理的检索
🎯 核心特性
相比传统向量 RAG,PageIndex 具有:
- 无需向量数据库:基于文档结构和 LLM 推理进行检索,而非向量相似度搜索
- 无需分块:按自然结构组织文档,而不是人为切分
- 类人检索:模拟专家阅读复杂文档的方式
- 更强的可解释性与可追溯性:基于推理,支持页码和章节引用,不再是黑盒“向量匹配”
PageIndex 驱动的 RAG 系统在 FinanceBench 上达到了 98.7% 的 SOTA 准确率,显著优于传统向量 RAG。
📍 了解 PageIndex
更多内容请查看:
- PageIndex 框架介绍
- GitHub 源码
- Cookbook / 教程 / 博客
服务形式:
- Chat 平台
- MCP 集成
- API 接入
🛠️ 部署方式
- 本地部署(开源)
- 云服务(Chat / MCP / API)
- 企业版(私有部署 / 本地部署)
🧪 快速上手
- Vectorless RAG notebook
- Vision-based RAG notebook
🌲 PageIndex 树结构
PageIndex 可将长 PDF 转换为语义化树结构,类似“目录”,但针对 LLM 优化。
适用于:
- 财报
- 法规文件
- 学术教材
- 法律/技术文档
示例:
...
{
"title": "Financial Stability",
"node_id": "0006",
"start_index": 21,
"end_index": 22,
"summary": "The Federal Reserve ...",
"nodes": [
{
"title": "Monitoring Financial Vulnerabilities",
"node_id": "0007",
"start_index": 22,
"end_index": 28,
"summary": "The Federal Reserve's monitoring ..."
},
{
"title": "Domestic and International Cooperation and Coordination",
"node_id": "0008",
"start_index": 28,
"end_index": 31,
"summary": "In 2023, the Federal Reserve collaborated ..."
}
]
}
...
⚙️ 使用方法
1. 安装依赖
pip3 install --upgrade -r requirements.txt
2. 设置 API Key
CHATGPT_API_KEY=your_openai_key_here
3. 运行
python3 run_pageindex.py --pdf_path /path/to/your/document.pdf
可选参数
--model
--toc-check-pages
--max-pages-per-node
--max-tokens-per-node
--if-add-node-id
--if-add-node-summary
--if-add-doc-description
Markdown 支持
python3 run_pageindex.py --md_path /path/to/your/document.md
说明:
- 使用
#判断层级 - 不建议直接用 PDF 转 Markdown
- 推荐使用 PageIndex OCR
📈 案例:Finance QA Benchmark
Mafin 2.5 是基于 PageIndex 的金融文档分析 RAG 系统。
- FinanceBench 准确率:98.7%
- 显著优于传统向量 RAG
优势:
- 层级索引
- 推理驱动检索
- 精准定位复杂财报信息
🧭 资源
- Cookbook
- Tutorials
- Blog
- MCP / API 文档
⭐ 支持我们
引用:
Mingtian Zhang, Yu Tang and PageIndex Team,
"PageIndex: Next-Generation Vectorless, Reasoning-based RAG",
PageIndex Blog, Sep 2025.
BibTeX:
@article{zhang2025pageindex,
author = {Mingtian Zhang and Yu Tang and PageIndex Team},
title = {PageIndex: Next-Generation Vectorless, Reasoning-based RAG},
journal = {PageIndex Blog},
year = {2025},
month = {September},
note = {https://pageindex.ai/blog/pageindex-intro},
}
如果你喜欢这个项目,请点一个 Star 🌟
© 2025 Vectify AI
个人理解
这个思想,非常类似于 claude code 得逻辑。
基于 llm 推理===》
