以下是利用 AI 打造自己知识库的一些方法和可能用到的软件:
希望以上信息对您有所帮助。
大家好,我是大圣,一个致力于使用AI技术将自己打造为超级个体的程序员。对于知识库大家并不陌生,一系列的信息和知识聚集在一起就可以构成知识库。比如我最心爱的[通往AGI之路](https://waytoagi.feishu.cn/wiki/QPe5w5g7UisbEkkow8XcDmOpn8e)就是一个使用飞书软件搭建的AI知识库。当你需要了解AI某一领域知识的时候,你只需要在AGI的飞书大群中,跟机器人对话就能获取对应的资料。而在我的[大圣:胎教级教程:万字长文带你使用Coze打造企业级知识库](https://waytoagi.feishu.cn/wiki/CT3UwDM8OiVmOOkohPbcV3JCndb)也是以AI时代的知识库作为例子进行了讲解。这篇文章的目的就是帮助非编程人士来理解AI时代的知识库,读完本文你会收获:1.AI时代的知识库的概念、实现原理以及能力边界2.通往AGI之路大群中的通过对话就能获取知识库中资料的原理3.更好的使用Coze等AI Agent平台中的知识库组件,打造更加强大的智能体请允许我自卖自夸:我这篇文章可以说是知识库文章中Coze讲的最好的,讲Coze的文章中知识库讲的最好的。另外做个预告,我正在规划一个关于AI时代你应该具备的编程基础系列,大纲如下:数据库|让Coze拥有了记忆的组件1知识库|让Coze拥有了记忆的组件2变量|让Coze拥有了记忆的组件3JSON|让你更好的使用Coze插件API|外部应用程序该如何接入Coze操作系统与服务器|那些接入了Coze的微机器人都是运行在哪里的Docker|让你用最简单的方式部署微信机器人
如果想要对知识库进行更加灵活的掌控,我们需要一个额外的软件:AnythingLLM。这个软件包含了所有Open WebUI的能力,并且额外支持了以下能力选择文本嵌入模型选择向量数据库[heading2]AnythingLLM安装和配置[content]安装地址:https://useanything.com/download当我们安装完成之后,会进入到其配置页面,这里面主要分为三步1.第一步:选择大模型1.第二步:选择文本嵌入模型1.第三步:选择向量数据库[heading2]构建本地知识库[content]AnythingLLM中有一个Workspace的概念,我们可以创建自己独有的Workspace跟其他的项目数据进行隔离。1.首先创建一个工作空间1.上传文档并且在工作空间中进行文本嵌入1.选择对话模式AnythingLLM提供了两种对话模式:Chat模式:大模型会根据自己的训练数据和我们上传的文档数据综合给出答案Query模式:大模型仅仅会依靠文档中的数据给出答案1.测试对话当上述配置完成之后,我们就可以跟大模型进行对话了[heading1]六、写在最后[content]我非常推崇的一句话送给大家:看十遍不如实操一遍,实操十遍不如分享一遍如果你也对AI Agent技术感兴趣,可以联系我或者加我的免费知识星球(备注AGI知识库)
上面将文本转换成向量(一串数字)能大大节省空间,它不是压缩,可简单理解为索引(Index)。接下来就有意思了。比如我有一个大文本,可以先把它拆分成若干个小文本块(也叫chunk),通过embeddings API将小文本块转换成embeddings向量,这个向量是跟文本块的语义相关。在一个地方(向量储存库)中保存这些embeddings向量和文本块,作为问答的知识库。当用户提出一个问题时,该问题先通过embeddings API转换成问题向量,然后将这问题向量与向量储存库的所有文本块向量比对,查找距离最小的几个向量,把这几个向量对应的文本块提取出来,与原有问题组合成为新的prompt(问题/提示词),发送给GPT API。这样一来就不用一次会话中输入所有领域知识,而是输入了关联度最高的部分知识。一图胜千言,转一张原理图。再举一个极其简单的例子,比如有一篇万字长文,拆分成Chrunks包含:文本块1:本文作者:越山。xxxx。文本块2:公众号越山集的介绍:传播效率方法,分享AI应用,陪伴彼此在成长路上,共同前行。文本块3:《反脆弱》作者塔勒布xxxx。文本块4:“科技爱好者周刊”主编阮一峰会记录每周值得分享的科技内容,周五发布。...文本块n如果提问是”此文作者是谁?“。可以直观的看出上面的文本块1跟这个问题的关联度最高,文本块3次之。通过比较embeddings向量也可以得到这结论。那最后发送给GPT API的问题会类似于”此文作者是谁?从以下信息中获取答案:本文作者:越山。xxxx。《反脆弱》作者塔勒布xxxx。“这样一来,大语言大概率能回答上这个问题。