Zilliz @ GAIDC ｜Milvus：探索生产级人工智能数据库

最编程 2024-05-07 19:36:21

...

2月26日，全球人工智能开发者先锋大会— AI 数据与开源论坛在上海举行，Zilliz 主任工程师刘力在现场发表了名为《Milvus：生产级 AI 数据库探索》的演讲。

刘力开篇便提到，Milvus 致力于打造更为完善的 AI 生态体系。随后，刘力从向量数据库的功能、云原生向量数据库 Milvus 2.0、向量数据库的云原生实践以及 Milvus 的进一步规划这四个方面阐明了 Milvus 如何为 AI 赋能。

首先是向量数据库的功能。刘力提到，所有数据中，非结构化数据占比超过了 80%，但其利用率却十分有限。过去人们通过关系型存储检索数据，这种方式无法模糊匹配、无法跨模态检索、缺少对上下文的理解。

例如，用户想要搜索一张图片，关键词为红帽子、25 岁以上、下雨。最终可能搜出《小红帽》的插图。尤其是在数据量越来越大的情况下，结果往往不尽如人意。

在此情况下，训练学习数据的基本特征，利用深度学习模型提取 Embedding 用于数据检索的范式越来越常见。向量检索就是通过找到相似的非结构化数据来充分利用的有效方法。向量数据库是在向量的维度上对数据库进行支持。

其次，Milvus 2.0 是为向量而生的云原生数据库，具备流批一体、可插拔引擎、微服务化设计、云端一体的特性。升级后的 Milvus 不再止于向量检索，不仅加持丰富的数据库功能，同时还具备完善的生态及强大的性能。

“相比于 ElasticSearch，不论是索引构建还是查询，Milvus 在多个数据集都获得超过 10X 以上的性能优势。”刘力表示。

再者，在云原生实践方面，刘力强调“接口即服务”，意为 Milvus 2.0 支持多种部署方式，在云端和开源统一接口，意味着用户可以在不同的部署方式中实现无缝切换。同时，Milvus 2.0 支持和接口分离，避免后续版本迭代带来诸多问题以影响用户体验。此外，Milivus 2.0 还具备多云/混合云的优势。

提及 Milvus 的进一步规划，刘力表示，Milvus 的下一站是 Zilliz Cloud，能有效帮助用户解决在运维、部署、性能等方面的问题，真正做到“忘记复杂，关注业务和数据本身”。

目前，Zilliz Cloud 已经在美东及美西的 AWS 上线，今年晚些时候将在 GCP 上线。值得一提的是，届时 Zilliz Cloud 也会基于阿里云为国内用户提供开箱即用的向量数据库服务。

在随后的圆桌讨论环节，刘力再度贡献了精彩发言：

问题 1：作为人工智能大国的中国，在世界上产生了怎样的影响？作为世界级的开源项目，Milvus 有哪些值得业界学习的经验？

刘力：学习谈不上，简单分享一些我们的经验和看法。

首先，从技术的角度来说，中国与世界领先水平的 AI 技术差距会越来越小。像今天其他演讲嘉宾提到的，国内公司能在短时间内追赶 ChatGPT 这样的大模型，甚至未来能够超越它，这就是一个很明显的信号。

其次， AI 基础设施赛道或许是一个值得探索的方向。以 Milvus 为例，我们其实是业界乃至全世界第一个提出“向量数据库”概念、且将其付诸实践的一群人。或许由于我们的先发优势或者对技术探索的重视，其他同业做出的产品与 Milvus 相比，仍有一定的差距。延续这个思路，在 AI基础设施这个方向发掘新技术点、寻找新机会，会是一个不错的选择。

问题 2：基于您所触及的领域，您所在企业未来的发展方向是怎样的？

刘力：首先我想从开源、闭源的角度来谈。这两者之间的关系是，从闭源上可以更好地实现商业化反哺公司发展；开源帮助我们更好地去建设生态、收集需求和确定方向，它们是相辅相成的。在美国，这条路已经跑得很通，很多公司既做开源又做闭源，且能够很好地维持自身运转，这也是我们今后发展的方向之一。

其次，之前嘉宾提到的一个观点我非常赞同——要用业界第一的方式来思考未来。坦白说，这很符合 Milvus 的现状。我们是“第一个吃螃蟹的人”，目前在向量数据库领域处于领先地位，如何面向新业态、选定新方向、做别人没做过的事情……这些都是 Milvus 现阶段需要忖度的问题。

再者，聚焦到具体的事情上，我们计划提高产品的易用性，包括支持 SQL、支持 GPU 、支持更强大的标量引擎。当然，推广云服务也是我们未来一年的主要发力点。

上一篇：阿里云轻量级应用服务器跨区域迁移至 ECS 并获取 IPV6