要让 AI 就某一问题进行穷尽搜索,一般会涉及以下步骤:
此外,像生物进化中通过自然选择的方式,从特定规则开始逐步改变(可能随机),在每一步保留最有效的规则并丢弃其他,这种方法不是我们通常定义的“人工智能”(更像是“遗传算法”),但在高维规则空间中往往比低维规则空间效果更好,因为维度越多,陷入局部最小值的可能性越小。
同时,给 AI 配备随时更新的“活字典”即知识库是一个好方法。知识库就像 AI 随时可查阅的百科全书,当 AI 遇到不确定问题时,可从知识库中检索相关信息给出更准确回答。比如建立包含最新新闻、科技发展、法律法规等内容的知识库,或者利用整个互联网的实时数据作为知识库,通过搜索引擎获取最新信息。
知识库中的文档也需要被转换成向量形式。这使得文档内容能够在数值级别上与问题向量进行比较。在我们使用知识库工具时,上传文档就会帮助我们完成文档的向量化。这一步就是依靠Embedding Modle完成的。2、知识库检索:根据前一步输出的问题向量,检索器开始在一个庞大的向量空间中搜索与问题相关的内容(既向量距离最接近)。检索器根据问题的关键词和上下文,选出最相关的信息片段。在这一步,检索器从知识库里,检索到了一些和用户问题最相关的内容。检索器具体进行了什么操作呢?(了解即可)1.相似性计算:2.使用一种相似性度量方法(如余弦相似性)来计算问题向量和各个文档向量之间的相似度。这一步是为了找出与问题内容最为接近的文档。3.排序与选择:4.根据相似性得分,所有文档会被排序。系统通常会选择得分最高的几个文档,认为这些文档与问题最相关。5.信息抽取:6.从选定的高相关性文档中抽取具体的信息片段或答案。这可能涉及到进一步的文本处理技术,如命名实体识别、关键短语提取等。③、信息整合阶段:1、信息融合:这里将接收到上一步中检索到的全部信息。然后把这些信息连带用户问题和系统预设,被整合成一个全新的上下文环境,为生成回答提供基础。具体进行了什么操作呢?
OK,but can we do better than exhaustive search?And can we,for example,find a way to figure out what rules to explore without having to look at every rule?One approach is to do something like what happens in biological evolution by natural selection:start,say,from a particular rule,and then incrementally change it(perhaps at random),at every step keeping the rule or rules that do best,and discarding the others.好的,但是我们能做得比穷举搜索更好吗?例如,我们能否找到一种方法来找出要探索的规则,而不必查看每条规则?一种方法是像生物进化中通过自然选择发生的事情一样:从一个特定的规则开始,然后逐步改变它(可能是随机的),在每一步中保留最有效的一个或多个规则,并丢弃其他。This isn’t “AI” as we’ve operationally defined it here(it’s more like a “genetic algorithm”)—though it is a bit like the inner training loop of a neural net.But will it work?Well,that depends on the structure of the rule space —and,as one sees in machine learning —it tends to work better in higher-dimensional rule spaces than lower-dimensional ones.Because with more dimensions there’s less chance one will get “stuck in a local minimum”,unable to find one’s way out to a “better rule”.这不是我们在这里定义的“人工智能”(它更像是“遗传算法”)——尽管它有点像神经网络的内部训练循环。但这会起作用吗?嗯,这取决于规则空间的结构——正如人们在机器学习中看到的那样——它在高维规则空间中往往比在低维规则空间中工作得更好。因为维度越多,“陷入局部最小值”、无法找到“更好规则”的出路的可能性就越小。
活字典是针对知识库一个非常贴切的比喻还记得我们说过AI的知识会"过期"吗?解决这个问题的一个好方法就是给AI配备一个随时更新的"活字典",我们称之为知识库。知识库就像是AI可以随时查阅的百科全书。当AI遇到不确定的问题时,它可以从知识库中检索相关信息,从而给出更新、更准确的回答。比如,我们可以建立一个包含最新新闻、科技发展、法律法规等内容的知识库。这样,即使AI的基础模型没有得到更新,它也能通过查阅知识库来回答有关最新事件的问题。比如很火的AI搜索,其实就是将整个互联网的实时数据作为知识库,每次被询问时都可以通过搜索引擎获取最新的信息。旁白:你很激动,当你听到关于对RAG的解释的时候,你觉得你找到了一条正确的路。RAG也许可以帮你解决每天回答那些重复问题的困扰,你怀着激动的心情开始了RAG学习之旅