OpenRAG

OpenRAG 是一个全面的、单一软件包的 Retrieval-Augmented Generation(RAG)平台, 构建于以下技术之上:

  • Langflow
  • Docling
  • OpenSearch

该项目旨在提供一个 完整的 RAG 系统实现,使开发者能够快速构建基于知识库的 AI 应用。 ([GitHub][1])


项目概述

OpenRAG 提供一个 开箱即用的 RAG 平台,用于构建基于文档知识的 AI 应用。

其核心目标是:

  • 文档 → 知识 → AI Agent 搜索系统 的过程自动化
  • 提供 统一的 RAG 架构
  • 减少开发者构建 RAG 系统时需要处理的复杂基础设施

换句话说:

OpenRAG 将 文档处理、向量检索、工作流编排、AI 推理整合为一个完整平台。


OpenRAG 的核心组件

OpenRAG 将三个主要技术组件整合在一起:

1️⃣ Langflow — 工作流编排

负责:

  • AI workflow 编排
  • Agent orchestration
  • 可视化 RAG pipeline 构建

提供 拖拽式工作流编辑器,用于构建复杂 AI 流程。 ([OpenRAG][2])


2️⃣ Docling — 文档解析

负责:

  • 文档解析
  • 文本结构化
  • 内容提取

Docling 可以处理:

  • PDF
  • HTML
  • Markdown
  • Office 文档

并将其转换为 结构化数据,以便用于向量检索。


3️⃣ OpenSearch — 检索系统

负责:

  • 向量存储
  • 语义搜索
  • 索引管理

OpenSearch 用于:

  • 存储 embedding
  • 进行语义检索
  • 提供企业级搜索能力。

OpenRAG 工作流程

OpenRAG 将 RAG 系统拆分为 三个主要阶段


1 文档摄取(Ingestion)

上传文档:

PDF
Markdown
HTML
DOCX

Docling 会:

  • 解析文档
  • 提取文本
  • 清洗结构
  • 生成语义块(chunks)

2 向量检索(Retrieval)

处理流程:

文本 → Embedding → 向量索引

然后存储在:

OpenSearch

用于:

  • 语义搜索
  • 向量相似度匹配
  • RAG 检索。

3 RAG 编排(Orchestration)

Langflow 用于构建:

  • RAG pipeline
  • Agent workflow
  • 多步骤推理流程

例如:

User Query
   ↓
Retriever
   ↓
Re-ranker
   ↓
LLM
   ↓
Answer

核心特性(Core Features)

开箱即用的 RAG 平台

OpenRAG 提供:

  • 完整 RAG 架构
  • 默认配置
  • 即刻运行

Agentic RAG 工作流

支持:

  • Agent orchestration
  • Re-ranking
  • 多步骤推理

文档处理能力

支持复杂文档解析:

  • 非结构化数据
  • 多种文件格式
  • 自动内容结构化。

可视化 AI 工作流

通过 Langflow:

  • drag-and-drop 构建 RAG pipeline
  • 可视化调试
  • 快速迭代

企业级搜索能力

通过 OpenSearch 提供:

  • 向量搜索
  • 语义搜索
  • 高可扩展索引

可扩展企业能力

支持:

  • 安全
  • 监控
  • 扩展部署
  • 企业级规模。

架构示意

OpenRAG 的典型系统架构:

Frontend (Next.js + TypeScript)
        ↓
Backend (Python / Starlette)
        ↓
Langflow Orchestration Layer
        ↓
Docling Document Processing
        ↓
OpenSearch Vector Search
        ↓
LLM Generation

典型使用场景

OpenRAG 可以用于构建:

  • 企业知识库问答
  • 文档问答系统
  • AI 搜索引擎
  • AI Copilot
  • 内部知识助手
  • API 文档助手
  • 客服机器人

许可证

OpenRAG 使用:

Apache License 2.0

总结

OpenRAG = 一个完整的 RAG 平台发行版

核心整合:

Langflow   → AI workflow orchestration
Docling    → 文档解析
OpenSearch → 向量检索
LLM        → 生成回答

其目标是:

将构建 RAG 系统的复杂基础设施整合为一个可直接部署的平台。 ([OpenRAG][2])

参考资料