Qoder 面向代码库感知的代码检索：AI 编码的混合方法

老马啸西风2025年8月26日大约 5 分钟

面向代码库感知的代码检索：AI 编码的混合方法

从通用向量到实时、图驱动的代码库理解

AI 编码工具承诺能够理解开发者的代码库并提供相关建议。
然而，现实中大多数系统依赖 通用嵌入（embedding）API 来索引代码片段和文档。结果往往是体验割裂：

本文介绍了我们的 代码库感知索引系统。

它结合了 服务端向量数据库、代码图（code graph）、预索引的代码库知识库（RepoWiki），为 AI 编码工作流提供精准、安全、实时的上下文。

传统检索流程依赖外部 API 计算嵌入，并通过远程向量数据库搜索相似片段。
这些流程存在问题：

通用嵌入衡量的是文本相似性，但代码库检索往往需要理解结构关系。例如：

仅靠嵌入会遗漏这些关系，导致无关结果，占用宝贵的 Prompt 空间。

我们在后端部署了高性能向量数据库，用于存储代码片段、文档和代码库工件的嵌入。
借助在代码和领域知识上训练的定制 AI 模型，我们生成的嵌入能更好地捕捉语义关系，优先考虑“有用性”而非表面相似性。

服务端持续处理索引请求，能在数秒内摄取新的或修改过的文件。

在客户端，我们构建了一个 代码图（Code Graph），表示函数、类、模块及其关系（如调用图、继承关系、跨语言链接）。

同时，我们预索引 代码库知识（如设计文档、架构图、内部 wiki 页面）。
这种预索引支持 图遍历和概念查询，延迟极低。

当用户发起查询（聊天、补全或代码搜索）时，系统会：

这种混合方法确保：

每位开发者都有一个与其当前工作状态绑定的个人索引。

这种 实时同步 确保 AI 的建议始终反映你代码库的最新状态。

我们的后端专为高吞吐量的软件开发场景设计：

我们的系统从设计之初就内置了隐私保障：

在大型 monorepo 中，Qoder 可能需要理解某个服务如何与下游组件交互。
借助混合检索，Qoder 不仅能找到名称相似的定义，还能通过图遍历和知识预索引，发现相关调用链、配置文件和设计文档。

在系统事故期间，你需要快速识别所有受故障组件影响的代码路径。
混合检索能够同时找到相关的代码模块、测试和 runbook，使排障速度远快于通用搜索。