Milvus 路线图
迈向下一代多模态数据库和数据湖
Milvus 产品路线图
欢迎阅读 Milvus 路线图!
我们正在将 Milvus 带入一个新时代 —— 下一代多模态数据库 —— 从结构化数据到非结构化数据,从实时检索到离线分析,从单集群性能到全球数据湖架构。
本路线图概述了 Milvus v2.6(进行中)、Milvus v3.0(目标是 2026 年底)和 Milvus v3.1(长期开发)的核心目标,以及向量湖(数据湖/Loon)的演进计划。
Milvus v2.6(进行中)
时间表:2025 年中 – 2025 年底
重点:升级数据模型,重构流架构,构建热/冷分层功能,推出向量湖原型(v0.1)。
主要亮点
数据模型升级
- 引入统一的 Tensor / StructList 数据类型,支持多向量嵌入结构,实现与 ColBERT、CoLQwen、视频和多模态向量的兼容。
- 添加地理数据支持,包括点、区域和空间索引(基于 libspatial),以扩展 LBS 和 GIS 中的用例。
- 支持带有时区数据类型的时间戳。
流节点架构重构
- 重写流式摄取管道,优化增量写入和实时计算。
- 显著提高并发性能和稳定性,为统一的实时和离线处理奠定基础。
- 引入新的消息队列引擎:啄木鸟。
热/冷分层与存储架构(StorageV2)
- 支持双存储格式:Parquet 和 Vortex,提高并发性和内存效率。
- 通过自动冷热数据分离和智能调度实现分层存储。
向量湖原型(v0.1)
- 通过 FFI 与 Spark/DuckDB/DataFusion 集成,实现离线 Schema 演进和 KNN 查询。
- 提供多模式数据可视化和 Spark ETL 示例,建立基础数据湖架构。
Milvus v3.0(目标日期:2026 年末)
时间表:2025 年底 – 2026 年初
重点:全面增强搜索体验、Schema 灵活性和非结构化数据支持,同时发布向量湖(v0.2)。
主要亮点
全面改进搜索体验
- 引入 More Like This (MLT) 相似性搜索,支持带有位置或负面示例的搜索。
- 增加语义搜索功能,如突出显示和增强。
- 支持自定义字典和同义词表,在分析器层实现词汇和语义规则定义。
- 为查询引入聚合功能。
多租户和资源管理
- 支持多租户删除、统计和热/冷分层。
- 改进资源隔离和调度策略,以支持单个集群中的数百万个表。
增强 Schema 和主键功能
- 实施全局主键重复数据删除(Global PK Dedup)以保证数据的一致性和唯一性。
- 支持灵活的 Schema 管理(添加/删除列、备份填充)。
- 允许在向量字段中使用 NULL 值。
扩展的非结构化数据类型(BLOB / 文本)
- 引入 BLOB 类型,为文件、图像和视频等二进制数据提供本地存储和引用。
- 引入 TEXT 类型,提供增强的全文和基于内容的搜索功能。
企业级功能
- 支持基于快照的备份和恢复。
- 提供端到端跟踪和审计日志。
- 在多集群部署中实现主/备高可用(Active-Standby High Availability)。
向量湖(v0.2)
- 支持文本/BLOB 存储和多版本快照管理。
- 集成 Spark,用于离线索引、聚类、重复数据删除和降维任务。
- 提供 ChatPDF 冷查询和离线基准示例。
Milvus v3.1(长期愿景)
时间表:2026 年中
重点:用户自定义函数 (UDF)、分布式计算集成、标量查询优化、动态分片以及正式发布向量湖(v1.0)。
主要亮点
用户自定义函数和分布式计算生态系统
- 支持用户自定义函数(UDF),允许开发人员在检索和计算工作流中注入自定义逻辑。
- 与 Ray Dataset / Daft 深度集成,用于分布式 UDF 执行和多模态数据处理。
标量查询和本地格式演进
- 优化标量字段的过滤和聚合性能。
- 增强表达式评估和索引加速执行。
- 支持本地文件格式的就地更新。
高级搜索功能
- 添加以下高级搜索特性:
- RankBy
- OrderBy
- Facet
- 模糊匹配查询
- 增强文本检索,支持:
match_phrase_prefixCompletion SuggesterTerm SuggesterPhrase Suggester
动态分片和可扩展性
- 启用自动分片和负载平衡,实现无缝扩展。
- 改进全局索引构建,确保分布式搜索性能。
向量湖 v1.0
- 与 Ray / Daft / PyTorch 深度集成,支持分布式 UDF 和上下文工程用例。
- 提供 RAG(检索增强生成)示例,并支持从 Iceberg 表导入数据。
共同构建 Milvus 的未来
Milvus 是一个由全球开发者社区驱动的开源项目。
我们热情邀请所有社区成员帮助打造下一代多模态数据库:
- 分享反馈:提出新功能或优化建议
- 报告问题:通过 GitHub Issues 报告错误
- 贡献代码:提交 PR 并帮助构建核心功能
- 拉取请求:修复错误、添加功能或改进文档
- 开发指南:查看贡献者指南以了解代码贡献规范
- ⭐ 宣传:分享最佳实践和成功案例
GitHub: milvus-io/milvus
参考资料
https://milvus.io/docs/zh/overview.md
