欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

Zilliz @ GAIDC |Milvus:探索生产级人工智能数据库

最编程 2024-05-07 19:36:21
...


2月26日,全球人工智能开发者先锋大会— AI 数据与开源论坛在上海举行,Zilliz 主任工程师刘力在现场发表了名为《Milvus:生产级 AI 数据库探索》的演讲。


刘力开篇便提到,Milvus 致力于打造更为完善的 AI 生态体系。随后,刘力从向量数据库的功能、云原生向量数据库 Milvus 2.0、向量数据库的云原生实践以及 Milvus 的进一步规划这四个方面阐明了 Milvus 如何为 AI 赋能。


首先是向量数据库的功能。刘力提到,所有数据中,非结构化数据占比超过了 80%,但其利用率却十分有限。过去人们通过关系型存储检索数据,这种方式无法模糊匹配、无法跨模态检索、缺少对上下文的理解。


例如,用户想要搜索一张图片,关键词为红帽子、25 岁以上、下雨。最终可能搜出《小红帽》的插图。尤其是在数据量越来越大的情况下,结果往往不尽如人意。


在此情况下,训练学习数据的基本特征,利用深度学习模型提取 Embedding 用于数据检索的范式越来越常见。向量检索就是通过找到相似的非结构化数据来充分利用的有效方法。向量数据库是在向量的维度上对数据库进行支持。



其次,Milvus 2.0 是为向量而生的云原生数据库,具备流批一体、可插拔引擎、微服务化设计、云端一体的特性。升级后的 Milvus 不再止于向量检索,不仅加持丰富的数据库功能,同时还具备完善的生态及强大的性能。


“相比于 ElasticSearch,不论是索引构建还是查询,Milvus 在多个数据集都获得超过 10X 以上的性能优势。”刘力表示。


再者,在云原生实践方面,刘力强调“接口即服务”,意为 Milvus 2.0 支持多种部署方式,在云端和开源统一接口,意味着用户可以在不同的部署方式中实现无缝切换。同时,Milvus 2.0 支持和接口分离,避免后续版本迭代带来诸多问题以影响用户体验。此外,Milivus 2.0 还具备多云/混合云的优势。


提及 Milvus 的进一步规划,刘力表示,Milvus 的下一站是 Zilliz Cloud,能有效帮助用户解决在运维、部署、性能等方面的问题,真正做到“忘记复杂,关注业务和数据本身”。


目前,Zilliz Cloud 已经在美东及美西的 AWS 上线,今年晚些时候将在 GCP 上线。值得一提的是,届时 Zilliz Cloud 也会基于阿里云为国内用户提供开箱即用的向量数据库服务。



在随后的圆桌讨论环节,刘力再度贡献了精彩发言:


问题 1:作为人工智能大国的中国,在世界上产生了怎样的影响?作为世界级的开源项目,Milvus 有哪些值得业界学习的经验?


刘力:学习谈不上,简单分享一些我们的经验和看法。


首先,从技术的角度来说,中国与世界领先水平的 AI 技术差距会越来越小。像今天其他演讲嘉宾提到的,国内公司能在短时间内追赶 ChatGPT 这样的大模型,甚至未来能够超越它,这就是一个很明显的信号。


其次, AI 基础设施赛道或许是一个值得探索的方向。以 Milvus 为例,我们其实是业界乃至全世界第一个提出“向量数据库”概念、且将其付诸实践的一群人。或许由于我们的先发优势或者对技术探索的重视,其他同业做出的产品与 Milvus 相比,仍有一定的差距。延续这个思路,在 AI基础设施这个方向发掘新技术点、寻找新机会,会是一个不错的选择。


问题 2:基于您所触及的领域,您所在企业未来的发展方向是怎样的?


刘力:首先我想从开源、闭源的角度来谈。这两者之间的关系是,从闭源上可以更好地实现商业化反哺公司发展;开源帮助我们更好地去建设生态、收集需求和确定方向,它们是相辅相成的。在美国,这条路已经跑得很通,很多公司既做开源又做闭源,且能够很好地维持自身运转,这也是我们今后发展的方向之一。


其次,之前嘉宾提到的一个观点我非常赞同——要用业界第一的方式来思考未来。坦白说,这很符合 Milvus 的现状。我们是“第一个吃螃蟹的人”,目前在向量数据库领域处于领先地位,如何面向新业态、选定新方向、做别人没做过的事情……这些都是 Milvus 现阶段需要忖度的问题。


再者,聚焦到具体的事情上,我们计划提高产品的易用性,包括支持 SQL、支持 GPU 、支持更强大的标量引擎。当然,推广云服务也是我们未来一年的主要发力点。