CocoIndex

企业级语料库——代码库、Slack、会议记录和文档——通过 CocoIndex 增量同步引擎持续流入生产级 AI 智能体,提供始终新鲜的上下文。每次变更仅重新处理 Δ(增量)。关键词:RAG 管道、智能体记忆、企业检索、AI 智能体上下文、实时索引、检索增强生成、生产级 LLM 应用、流式 ETL、增量摄取。

您的智能体值得拥有新鲜上下文。

给个 Star❤️→ 在 GitHub 上为 CocoIndex 加星——用于 RAG、向量搜索和实时智能体上下文的开源 Python 框架  ·  cocoindex.io——CocoIndex 主页:面向 AI 智能体的增量数据管道  ·  CocoIndex 文档——快速入门、连接器、运维、转换、目标存储、RAG 和知识图谱示例  ·  加入 CocoIndex Discord 社区——帮助、作品展示、发布说明以及与维护者实时聊天

CocoIndex 将代码库、会议记录、收件箱、Slack、PDF 和视频转换为实时、持续新鲜的上下文,供您的 AI 智能体和 LLM 应用有效推理——且只需最少的增量处理。在 10 分钟内让您的生产级 AI 智能体就绪,拥有可靠、持续新鲜的数据——不再有过时批次,不再有上下文鸿沟。

增量 · 仅处理增量  ·  任意规模 · 默认并行  ·  声明式 · Python,5 分钟

[![stars](https://img.shields.io/github/stars/cocoindex-io/cocoindex?style=flat-square&label=stars&color=FB6A76)](https://github.com/cocoindex-io/cocoindex) [![downloads](https://img.shields.io/pepy/dt/cocoindex?style=flat-square&label=downloads&color=16A534)](https://pepy.tech/projects/cocoindex) [![pypi](https://img.shields.io/pypi/v/cocoindex?style=flat-square&label=pypi&color=E59A63)](https://pypi.org/project/cocoindex/) [![python](https://img.shields.io/badge/python-3.10--3.13-3572A5?style=flat-square)](https://www.python.org/) [![rust](https://img.shields.io/badge/rust-core-db6d28?style=flat-square)](https://www.rust-lang.org/) [![license](https://img.shields.io/badge/license-Apache--2.0-5B5BD6?style=flat-square)](https://opensource.org/licenses/Apache-2.0) [![discord](https://img.shields.io/discord/1314801574169673738?style=flat-square&logo=discord&logoColor=white&label=discord&color=5865F2)](https://discord.com/invite/zpA9S2DR7s) [![CI](https://img.shields.io/github/actions/workflow/status/cocoindex-io/cocoindex/CI.yml?event=push&style=flat-square&label=CI)](https://github.com/cocoindex-io/cocoindex/actions/workflows/CI.yml) [![release](https://img.shields.io/github/actions/workflow/status/cocoindex-io/cocoindex/release.yml?event=push&style=flat-square&label=release)](https://github.com/cocoindex-io/cocoindex/actions/workflows/release.yml) [![links](https://img.shields.io/github/actions/workflow/status/cocoindex-io/cocoindex/links.yml?event=push&style=flat-square&label=link%20check)](https://github.com/cocoindex-io/cocoindex/actions/workflows/links.yml)

cocoindex-io/cocoindex | Trendshift


[Deutsch](https://readme-i18n.com/cocoindex-io/cocoindex?lang=de) | [English](https://readme-i18n.com/cocoindex-io/cocoindex?lang=en) | [Español](https://readme-i18n.com/cocoindex-io/cocoindex?lang=es) | [français](https://readme-i18n.com/cocoindex-io/cocoindex?lang=fr) | [日本語](https://readme-i18n.com/cocoindex-io/cocoindex?lang=ja) | [한국어](https://readme-i18n.com/cocoindex-io/cocoindex?lang=ko) | [Português](https://readme-i18n.com/cocoindex-io/cocoindex?lang=pt) | [Русский](https://readme-i18n.com/cocoindex-io/cocoindex?lang=ru) | [中文](https://readme-i18n.com/cocoindex-io/cocoindex?lang=zh)



使用 CocoIndex 构建 ❤️

CocoIndex-code——面向 AI 编码智能体的旗舰 MCP 服务器。AST 感知的增量语义代码索引,每次提交都保持实时调用图、符号、向量和块的新鲜度。每次轮询减少 70% 的 token,重新索引时 80-90% 的缓存命中率,亚秒级新鲜度。支持 Python、TypeScript、Rust 和 Go。特性:仅增量处理、按语义搜索(而非 grep)、调用图和影响半径分析、全局仓库视图用于重复项和架构分析。构建编码智能体(生成、重构)和代码审查智能体(捕获、批准)。一次安装——Claude Code、Cursor 和其他 MCP 感知智能体立即看到您的整个仓库。

查看全部 20+ 示例 · 每周更新 →


开始使用

pip install -U cocoindex

声明您的目标中应该包含什么——CocoIndex 会永远保持同步,仅重新计算 Δ(增量)。

import cocoindex as coco
from cocoindex.connectors import localfs, postgres
from cocoindex.ops.text import RecursiveSplitter

@coco.fn(memo=True)                          # ← 按 hash(输入) + hash(代码) 缓存
async def index_file(file, table):
    for chunk in RecursiveSplitter().split(await file.read_text()):
        table.declare_row(text=chunk.text, embedding=embed(chunk.text))

@coco.fn
async def main(src):
    table = await postgres.mount_table_target(PG, table_name="docs")
    table.declare_vector_index(column="embedding")
    await coco.mount_each(index_file, localfs.walk_dir(src).items(), table)

coco.App(coco.AppConfig(name="docs"), main, src="./docs").update_blocking()

运行一次以回填数据。随时重新运行——仅变更的文件会重新嵌入。

正在使用 AI 编码智能体构建?
放入我们的 CocoIndex skill,让您的智能体编写正确的 v1 代码——概念、API、模式,全部集成在一个文件中。
安装步骤请参阅 与 AI 编码智能体配合使用

完整快速入门——打开书本图标,链接到 CocoIndex 文档快速入门:pip install、声明源和目标、运行增量引擎    学习概念——灯泡图标,链接到 CocoIndex 核心概念指南:源、目标、流、增量引擎和数据血缘

为 cocoindex-io/cocoindex 仓库加星的动画 GitHub Star 按钮:光标点击星星,星星变黄,彩带迸发,星星计数增加,按钮下方显示“如果您喜欢,请给个星!”并带有跳动的红心



React — for data engineering

React——for data engineering。CocoIndex 心智模型:目标 = F(源)。持久状态驱动的数据流,您声明期望的目标状态,引擎以低延迟、低成本永远保持与最新源数据和代码同步。源文件(.py、.md、.pdf、.ts)通过您的 Python 转换 F 流入实时目标点阵索引;每次变更仅重新处理 Δ(增量),每个目标点都可追溯到其确切的源字节。四个核心特性:Python 而非 DAG(天空)、声明目标状态(黄色靶心)、端到端血缘(珊瑚色连接点)、任意规模的增量处理(薄荷绿 Δ+1)。您的代码与一次性版本一样简单——其余工作由引擎完成。

任一侧变更时会发生什么——CocoIndex 跟踪每行来源,因此 Δ 以最小成本传播。一幅图展示两种场景:(顶部)源变更——一个文件(b.md)被编辑,只有一个目标点重新同步(珊瑚色脉冲)。(底部)代码变更——转换函数 F 从 v1 重写为 v2,只有那些输出依赖于变更代码的点会重新运行(琥珀色/黄色脉冲)。左侧是源,中间是 F(Python 代码块),右侧是目标点阵。

查看 React ↔ CocoIndex 心智模型 →



面向长期智能体增量引擎

为任何工程师设计的数据转换,专为 AI 工作负载打造——
配备智能增量引擎,提供始终新鲜、可解释的数据。

学习概念——紫色按钮,带灯泡图标,链接到 CocoIndex 核心概念指南:源、目标、流、增量引擎和数据血缘

CocoIndex 的 Python 原生转换流连接 8 种源类别(代码库、会议记录、Web·API、文件系统·Blob 存储、数据库、消息队列、图像·视频、语音·转录稿),通过增量引擎输出到 6 种目标存储(关系数据库、数据仓库、向量数据库、图数据库、消息队列、特征存储)。flow.py 代码块(@coco.fn · def f(src): · chunks = split(src) · target.row(embed(chunks)))展示了共享管道;仅 Δ 被重新处理——未变更的 src 命中缓存,变更的 src 重新运行 split() 和 Δ → 重新嵌入。



为什么需要增量?

您的智能体有多好,取决于它们看到的数据。
批量管道会逐渐过时。CocoIndex 保持实时——并且只运行 Δ(增量)。

为什么需要增量?——一幅图结合了 CocoIndex 增量引擎的四个核心优势。亚秒级新鲜度(薄荷绿):秒表嘀嗒,源变更在亚秒内传播到目标,智能体看到的与真实世界同步。10 倍性价比(黄色):10,000 行数据块,只有薄薄一层 Δ 0.1% 重新运行,99.9% 保持缓存——跳过其他 99.9%,大幅降低计算、嵌入和 LLM 账单。默认可解释(珊瑚色):血缘线将源字节(handbook.md L42)链接到目标向量。生产级(紫色):带有 Rust 螃蟹标志的盾牌,周围环绕着重试循环、退避点、DLQ 托盘和无数据丢失检查——Rust 核心,带重试、指数退避、死信队列和无数据丢失保证。



您可以构建什么?

查看全部 20+ 示例 · 每周更新 →

来自 examples 目录 的可用入门示例——克隆、接入您的源、交付。

实时代码索引——遍历 git 仓库、用 AST 感知分割器对源文件分块、用 sentence-transformers 嵌入、写入 pgvector/LanceDB,每次提交增量更新。关键词:代码搜索、代码嵌入、语义代码检索、Python。

PDF → RAG 索引——从本地、S3 或 GDrive 摄取 PDF、提取+分块文本、嵌入块、写入 pgvector/LanceDB。经典的检索增强生成栈,增量式。关键词:RAG、文档问答、PDF 搜索、向量数据库。

HN 热门话题——通过 Algolia API 拉取 Hacker News 帖子、递归解析评论、用 Gemini 2.5 Flash LLM 提取主题、按加权命中数排名(帖子=5,评论=1)、存入 Postgres。增量式。关键词:Hacker News、热门话题、LLM 提取、Gemini、Postgres、新闻智能、主题排名。

对话 → 知识图谱——LLM 从转录稿中提取人员、主题、决策、行动项,写入 Neo4j/Kuzu。实时图,增量式。关键词:知识图谱、实体提取、会议智能、智能体记忆。

多仓库摘要——遍历 N 个 git 仓库、提取结构、LLM 对每个仓库做摘要并汇总成组织级摘要,每次推送刷新。关键词:内部平台、开发者体验、monorepo、SDK 文档。

结构化提取——BAML/DSPy 从表单、PDF、接诊单、发票中提取类型化模式字段到 Postgres/数据仓库。增量式。关键词:ETL、LLM 提取、模式优先、患者接诊、发票处理、KYC、合同。

播客 → 知识图谱——转录 YouTube/Spotify 音频并带说话人分离、LLM 提取说话人和陈述、跨集实体解析、存入 SurrealDB/Neo4j。关键词:播客、说话人分离、YouTube、Whisper、SurrealDB、知识图谱、实体解析。

CSV → Kafka 实时——监视 CSV 文件文件夹,通过 CocoIndex 的 Kafka 目标连接器将每行作为 JSON 消息发布到 Kafka 主题。增量、亚秒级、无需生产者循环。关键词:Kafka、CDC、流式、StreamNative、Confluent、CSV 摄取、事件流。


分享您的作品——横幅,底部有微微升起的心形轨迹,邀请 CocoIndex 社区分享用该框架构建的项目

正在用 CocoIndex 构建什么?我们想看到它。
在 X 上标记 @cocoindex_io 或在 Discord 的 #showcase 中分享链接。我们会推广它。🥥



社区

加入 CocoIndex Discord 社区——与维护者和用户实时聊天、展示您的项目、获取构建 RAG 管道和知识图谱的帮助 </tr> 订阅 CocoIndex YouTube 频道——视频教程、实时演示、架构深度解析和 AI 智能体方案 </tr> 阅读 CocoIndex 博客——工程技术深度解析、发布说明、RAG 和知识图谱教程、案例研究 </tr> 在 X(原 Twitter)上关注 @cocoindex_io,获取发布说明、演示、发布和 AI 数据管道更新 </tr> </tr> </table>

我们热爱贡献者——章节标题横幅,带有脉动的珊瑚色心形徽章和奶油色闪光点。每个拼写修正、新连接器和文档调整都让 CocoIndex 变得更好。

我们非常期待认识您。
每个拼写修正、新连接器、文档调整或完整重写都让 CocoIndex 变得更好。
来聊聊吧——大的 PR 和小的 PR,我们都欢迎。

📝 阅读贡献指南  ·  🐛 good first issues  ·  💬 在 Discord 上打招呼



CocoIndex 企业版

CocoIndex 企业版——为企业规模而生。PB 级增量索引的四个头条指标:PB 级语料库增量索引(珊瑚色)、相比全量重新计算减少 10 倍的 LLM 嵌入调用(黄色)、100% 血缘覆盖率,每个字节都可追溯(薄荷绿)、始终仅增量(天空色)。下方是一个宽 50×8 的 400 维点阵矩阵,代表 PB 级存储,其中单个珊瑚色 Δ 切片(8 个点阵)重新运行,其他 99.9% 保持缓存。

大型语料库——为企业规模而生。

增量计算是在不每个周期都重新嵌入的情况下保持大型语料库新鲜的唯一方法。
CocoIndex 从单个仓库扩展到 PB 级存储——默认并行,设计上仅处理增量。


处理一次。永远协调。

当源发生变化时,CocoIndex 识别受影响的记录,跨连接和查找传播变更,
更新目标,并淘汰过时行——
不触碰任何未变更的内容。


构建在Rust 引擎之上。

核心是 Rust——从第零天起就是生产级。
并行分块、尽可能零拷贝转换以及故障隔离,
使得单条坏记录不会阻塞整个流程。



探索 CocoIndex 企业版——亮蓝色药丸按钮,链接到 cocoindex.io/enterprise,面向 AI 智能体的 PB 级增量数据管道



Apache 2.0 · © CocoIndex 贡献者们 🥥

# 参考资料 * any list {:toc}