Milvus 路线图

迈向下一代多模态数据库和数据湖

Milvus 产品路线图

欢迎阅读 Milvus 路线图!

我们正在将 Milvus 带入一个新时代 —— 下一代多模态数据库 —— 从结构化数据到非结构化数据,从实时检索到离线分析,从单集群性能到全球数据湖架构。

本路线图概述了 Milvus v2.6(进行中)、Milvus v3.0(目标是 2026 年底)和 Milvus v3.1(长期开发)的核心目标,以及向量湖(数据湖/Loon)的演进计划。


Milvus v2.6(进行中)

时间表:2025 年中 – 2025 年底
重点:升级数据模型,重构流架构,构建热/冷分层功能,推出向量湖原型(v0.1)。

主要亮点

数据模型升级

  • 引入统一的 Tensor / StructList 数据类型,支持多向量嵌入结构,实现与 ColBERT、CoLQwen、视频和多模态向量的兼容。
  • 添加地理数据支持,包括点、区域和空间索引(基于 libspatial),以扩展 LBS 和 GIS 中的用例。
  • 支持带有时区数据类型的时间戳。

流节点架构重构

  • 重写流式摄取管道,优化增量写入和实时计算。
  • 显著提高并发性能和稳定性,为统一的实时和离线处理奠定基础。
  • 引入新的消息队列引擎:啄木鸟。

热/冷分层与存储架构(StorageV2)

  • 支持双存储格式:Parquet 和 Vortex,提高并发性和内存效率。
  • 通过自动冷热数据分离和智能调度实现分层存储。

向量湖原型(v0.1)

  • 通过 FFI 与 Spark/DuckDB/DataFusion 集成,实现离线 Schema 演进和 KNN 查询。
  • 提供多模式数据可视化和 Spark ETL 示例,建立基础数据湖架构。

Milvus v3.0(目标日期:2026 年末)

时间表:2025 年底 – 2026 年初
重点:全面增强搜索体验、Schema 灵活性和非结构化数据支持,同时发布向量湖(v0.2)。

主要亮点

全面改进搜索体验

  • 引入 More Like This (MLT) 相似性搜索,支持带有位置或负面示例的搜索。
  • 增加语义搜索功能,如突出显示和增强。
  • 支持自定义字典和同义词表,在分析器层实现词汇和语义规则定义。
  • 为查询引入聚合功能。

多租户和资源管理

  • 支持多租户删除、统计和热/冷分层。
  • 改进资源隔离和调度策略,以支持单个集群中的数百万个表。

增强 Schema 和主键功能

  • 实施全局主键重复数据删除(Global PK Dedup)以保证数据的一致性和唯一性。
  • 支持灵活的 Schema 管理(添加/删除列、备份填充)。
  • 允许在向量字段中使用 NULL 值。

扩展的非结构化数据类型(BLOB / 文本)

  • 引入 BLOB 类型,为文件、图像和视频等二进制数据提供本地存储和引用。
  • 引入 TEXT 类型,提供增强的全文和基于内容的搜索功能。

企业级功能

  • 支持基于快照的备份和恢复。
  • 提供端到端跟踪和审计日志。
  • 在多集群部署中实现主/备高可用(Active-Standby High Availability)。

向量湖(v0.2)

  • 支持文本/BLOB 存储和多版本快照管理。
  • 集成 Spark,用于离线索引、聚类、重复数据删除和降维任务。
  • 提供 ChatPDF 冷查询和离线基准示例。

Milvus v3.1(长期愿景)

时间表:2026 年中
重点:用户自定义函数 (UDF)、分布式计算集成、标量查询优化、动态分片以及正式发布向量湖(v1.0)。

主要亮点

用户自定义函数和分布式计算生态系统

  • 支持用户自定义函数(UDF),允许开发人员在检索和计算工作流中注入自定义逻辑。
  • 与 Ray Dataset / Daft 深度集成,用于分布式 UDF 执行和多模态数据处理。

标量查询和本地格式演进

  • 优化标量字段的过滤和聚合性能。
  • 增强表达式评估和索引加速执行。
  • 支持本地文件格式的就地更新。

高级搜索功能

  • 添加以下高级搜索特性:
    • RankBy
    • OrderBy
    • Facet
    • 模糊匹配查询
  • 增强文本检索,支持:
    • match_phrase_prefix
    • Completion Suggester
    • Term Suggester
    • Phrase Suggester

动态分片和可扩展性

  • 启用自动分片和负载平衡,实现无缝扩展。
  • 改进全局索引构建,确保分布式搜索性能。

向量湖 v1.0

  • 与 Ray / Daft / PyTorch 深度集成,支持分布式 UDF 和上下文工程用例。
  • 提供 RAG(检索增强生成)示例,并支持从 Iceberg 表导入数据。

共同构建 Milvus 的未来

Milvus 是一个由全球开发者社区驱动的开源项目。

我们热情邀请所有社区成员帮助打造下一代多模态数据库:

  • 分享反馈:提出新功能或优化建议
  • 报告问题:通过 GitHub Issues 报告错误
  • 贡献代码:提交 PR 并帮助构建核心功能
    • 拉取请求:修复错误、添加功能或改进文档
    • 开发指南:查看贡献者指南以了解代码贡献规范
  • ⭐ 宣传:分享最佳实践和成功案例

GitHub: milvus-io/milvus

参考资料

https://milvus.io/docs/zh/overview.md