要搭建一个每个人都能使用的知识库,可以考虑使用 GPT 并借助 embeddings 技术。以下是相关步骤和原理:
例如,对于一篇万字长文,拆分成的 chunks 包含:文本块 1:本文作者:越山。xxxx。文本块 2:公众号越山集的介绍:传播效率方法,分享 AI 应用,陪伴彼此在成长路上,共同前行。文本块 3:《反脆弱》作者塔勒布xxxx。文本块 4:“科技爱好者周刊”主编阮一峰会记录每周值得分享的科技内容,周五发布。如果提问是“此文作者是谁?”,通过比较 embeddings 向量,可以直观地看出文本块 1 跟这个问题的关联度最高,文本块 3 次之。最后发送给 GPT API 的问题会类似于“此文作者是谁?从以下信息中获取答案:本文作者:越山。xxxx。《反脆弱》作者塔勒布xxxx。”这样大语言模型大概率能回答上这个问题。
上面将文本转换成向量(一串数字)能大大节省空间,它不是压缩,可简单理解为索引(Index)。接下来就有意思了。比如我有一个大文本,可以先把它拆分成若干个小文本块(也叫chunk),通过embeddings API将小文本块转换成embeddings向量,这个向量是跟文本块的语义相关。在一个地方(向量储存库)中保存这些embeddings向量和文本块,作为问答的知识库。当用户提出一个问题时,该问题先通过embeddings API转换成问题向量,然后将这问题向量与向量储存库的所有文本块向量比对,查找距离最小的几个向量,把这几个向量对应的文本块提取出来,与原有问题组合成为新的prompt(问题/提示词),发送给GPT API。这样一来就不用一次会话中输入所有领域知识,而是输入了关联度最高的部分知识。一图胜千言,转一张原理图。再举一个极其简单的例子,比如有一篇万字长文,拆分成Chrunks包含:文本块1:本文作者:越山。xxxx。文本块2:公众号越山集的介绍:传播效率方法,分享AI应用,陪伴彼此在成长路上,共同前行。文本块3:《反脆弱》作者塔勒布xxxx。文本块4:“科技爱好者周刊”主编阮一峰会记录每周值得分享的科技内容,周五发布。...文本块n如果提问是”此文作者是谁?“。可以直观的看出上面的文本块1跟这个问题的关联度最高,文本块3次之。通过比较embeddings向量也可以得到这结论。那最后发送给GPT API的问题会类似于”此文作者是谁?从以下信息中获取答案:本文作者:越山。xxxx。《反脆弱》作者塔勒布xxxx。“这样一来,大语言大概率能回答上这个问题。
要搭建基于GPT API的定制化知识库,涉及到给GPT输入(投喂)定制化的知识。但GPT-3.5,也就是当前免费版的ChatGPT一次交互(输入和输出)只支持最高4096个Token,约等于3000个单词或2300个汉字。这点容量对于绝大多数领域知识根本不够。为了使用GPT的语言能力来处理大量的领域知识,OpenAI提供了embedding API解决方案。参考OpenAI embedding documents。[heading2]理解embeddings[content]embeddings(直译为嵌入)是一个浮点数字的向量(列表)。两个向量之间的距离衡量它们的关联性。小距离表示高关联度,大距离表示低关联度。进一步解释:向量(列表):向量是数学中表示大小和方向的一个量,通常用一串数字表示。在计算机科学和数据科学中,向量通常用列表(list)来表示。列表是一种数据结构,它包含一组有序的元素。例如,一个二维向量可以表示为[2,3],这意味着沿着两个轴的分量分别为2和3。在这里,"list"是一种编程术语,意味着一系列有序的数据。向量之间的距离:向量之间的距离是一种度量两个向量相似性的方法。有多种方式可以计算两个向量之间的距离,最常见的是欧几里得距离。欧几里得距离计算方法是将两个向量的对应元素相减,然后取平方和,再开平方。例如,向量A=[1,2]和向量B=[4,6]之间的欧几里得距离为sqrt((4-1)^2+(6-2)^2)=5。较小距离意味着高相关性,因为向量间相似度高。在OpenAI词嵌入中,靠近向量的词语在语义上相似。例如,“猫”和“狗”距离近,它们都是宠物,与“汽车”距离远,相关性低。文档上给了创建embeddings的示例上面的命令访问embeddings API接口,将input语句,转化成下面这一串浮点数字。
1.3入门:GPTs我有超全导航应有尽有1.4入门:AI绘画与视频产品工具与案例实战,开箱即用。1.5入门:AI音乐与数字人每一个人都可以成为知识库的建设者,我们热爱学习,热衷分享,对优质内容如饥似渴。1.6入门:世界模型Sora及其他2.1精选:AI网站和APPSbl YdedWectreer Al"太牛了,可以收录到知识库么"12.2精选:AI产品数据分析Woncer Studio2.3精选:AI研究报告watAC.com写好提示词6大策略2.4精选:资讯与论文Wonar Uymc生成Anae0 30r2.5精选:视频与播客2.6精选:全球AI法规手册2.7精选:Design with AIGC创造交流,不止于学问。o Doeigned by ua3.1案例:AI产品案例严选@Desigred by inkati发起的AI各种各样的线上活动,让知识学习变得更生动,更富有创造力。WaSCEvs byWaytoAGI共赴晨昏,岂日一人之战。wivAG.cn结构化promptANAICOn