OpenRAG
OpenRAG 是一个全面的、单一软件包的 Retrieval-Augmented Generation(RAG)平台, 构建于以下技术之上:
- Langflow
- Docling
- OpenSearch
该项目旨在提供一个 完整的 RAG 系统实现,使开发者能够快速构建基于知识库的 AI 应用。 ([GitHub][1])
项目概述
OpenRAG 提供一个 开箱即用的 RAG 平台,用于构建基于文档知识的 AI 应用。
其核心目标是:
- 将 文档 → 知识 → AI Agent 搜索系统 的过程自动化
- 提供 统一的 RAG 架构
- 减少开发者构建 RAG 系统时需要处理的复杂基础设施
换句话说:
OpenRAG 将 文档处理、向量检索、工作流编排、AI 推理整合为一个完整平台。
OpenRAG 的核心组件
OpenRAG 将三个主要技术组件整合在一起:
1️⃣ Langflow — 工作流编排
负责:
- AI workflow 编排
- Agent orchestration
- 可视化 RAG pipeline 构建
提供 拖拽式工作流编辑器,用于构建复杂 AI 流程。 ([OpenRAG][2])
2️⃣ Docling — 文档解析
负责:
- 文档解析
- 文本结构化
- 内容提取
Docling 可以处理:
- HTML
- Markdown
- Office 文档
并将其转换为 结构化数据,以便用于向量检索。
3️⃣ OpenSearch — 检索系统
负责:
- 向量存储
- 语义搜索
- 索引管理
OpenSearch 用于:
- 存储 embedding
- 进行语义检索
- 提供企业级搜索能力。
OpenRAG 工作流程
OpenRAG 将 RAG 系统拆分为 三个主要阶段:
1 文档摄取(Ingestion)
上传文档:
PDF
Markdown
HTML
DOCX
Docling 会:
- 解析文档
- 提取文本
- 清洗结构
- 生成语义块(chunks)
2 向量检索(Retrieval)
处理流程:
文本 → Embedding → 向量索引
然后存储在:
OpenSearch
用于:
- 语义搜索
- 向量相似度匹配
- RAG 检索。
3 RAG 编排(Orchestration)
Langflow 用于构建:
- RAG pipeline
- Agent workflow
- 多步骤推理流程
例如:
User Query
↓
Retriever
↓
Re-ranker
↓
LLM
↓
Answer
核心特性(Core Features)
开箱即用的 RAG 平台
OpenRAG 提供:
- 完整 RAG 架构
- 默认配置
- 即刻运行
Agentic RAG 工作流
支持:
- Agent orchestration
- Re-ranking
- 多步骤推理
文档处理能力
支持复杂文档解析:
- 非结构化数据
- 多种文件格式
- 自动内容结构化。
可视化 AI 工作流
通过 Langflow:
- drag-and-drop 构建 RAG pipeline
- 可视化调试
- 快速迭代
企业级搜索能力
通过 OpenSearch 提供:
- 向量搜索
- 语义搜索
- 高可扩展索引
可扩展企业能力
支持:
- 安全
- 监控
- 扩展部署
- 企业级规模。
架构示意
OpenRAG 的典型系统架构:
Frontend (Next.js + TypeScript)
↓
Backend (Python / Starlette)
↓
Langflow Orchestration Layer
↓
Docling Document Processing
↓
OpenSearch Vector Search
↓
LLM Generation
典型使用场景
OpenRAG 可以用于构建:
- 企业知识库问答
- 文档问答系统
- AI 搜索引擎
- AI Copilot
- 内部知识助手
- API 文档助手
- 客服机器人
许可证
OpenRAG 使用:
Apache License 2.0
总结
OpenRAG = 一个完整的 RAG 平台发行版
核心整合:
Langflow → AI workflow orchestration
Docling → 文档解析
OpenSearch → 向量检索
LLM → 生成回答
其目标是:
将构建 RAG 系统的复杂基础设施整合为一个可直接部署的平台。 ([OpenRAG][2])
