作为全球最受欢迎的开源向量数据库 Milvus 的创造者,Zilliz 提供面向 AI 应用的新一代数据库技术,帮助企业便捷开发 AI 应用。
以 AI 民主化为使命,Zilliz 致力于简化 AI 数据管理基础设施,通过向量数据库赋能更多企业。
联合创始人郭人通在一次采访中说:向量数据库和大模型的交叉地带主要是知识增强,近一年的主流方案都还是松耦合的形式,即知识库召回的结果填入 prompt 做模型输入的增强。未来会出现一些紧耦合的形式。
一个是大模型会深度参与知识的选择,特别是在 long context 大模型成本持续下降后,背景知识的输入可以大幅增宽,并通过大模型在深度语义层面对知识进行选用。技术角度看,这个知识选取过程有两层,底层由传统索引支撑,上层由 Attention 支撑。新的技术会使得 Attention 所覆盖的面积下移,也意味着效果的提升。
另一个方向是 embedding model 与 LLM 的语义空间融合。这个方向现在看还不那么明朗,但有挺大的想象空间。这两个语义空间融合后,向量数据库内的知识片段表示可以直接参与 Attention 过程。这是一个形态更加自然的「大模型记忆体」,可以支撑动态的知识选择。例如,以模型内部的数据表示作为记忆体的输入,在记忆体中进行扩展的 Attention 动作,召回与当前上下文强相关的内容。当然,这个方向在模型结构和成本上都还有很大的挑战。