要做一个可以智能检索的 AI 工具,用语音直接提问并根据原有知识库回答,以下是一些相关信息:
比如,用户输入:“你好”,“你是谁”,“10的9次方等于多少”之类的问题时,可以不联网检索参考信息,直接用大模型训练好的知识库进行回答。一些数学问题/编程问题/生活常识问题,有标准答案的,就不需要再联网检索。判断是否联网,可以节省一次搜索成本,也能更快速的响应用户提问,提升搜索效率。主要实现方案有两种:第一种是内置问题库,把无需联网的常见问题缓存起来,再跟用户提问做相似度匹配,如果用户提问命中关键词库,就直接大模型回复,不联网检索。第二种是设置提示词,请求大模型判断是否需要联网。第一种方案会有枚举无法穷尽的问题,第二种方案主要问题在于大模型的识别准确度不够高。意图识别另一个关键作用,是对用户提问进行分类,比如可以把用户的搜索意图分为:导航类:用户希望找到特定的网站或网页。例如:搜索“ThinkAny”,是为了打开ThinkAny官网;信息查询类:用户希望找到某个问题的答案或关于某个事物的详细信息。例如:搜索“什么是AI搜索引擎”,是为了了解这类产品或这个行业;
1.文本预处理:2.这包括去除无关字符、标准化文本(例如将所有字符转换为小写)、分词等,以清洁和准备文本数据。3.嵌入表示:4.将预处理后的文本(词或短语)转换为向量。这通常通过使用预训练的嵌入模型来完成,如Word2Vec、GloVe、BERT等。这些模型将每个词或短语映射到一个高维空间中的一个点(即向量)。5.特征提取:6.对于整个问题句子,可能会应用进一步的特征提取技术,比如句子级别的嵌入,或使用深度学习模型(如BERT)直接提取整个句子的表示。这个表示能够捕捉句子的上下文信息,不仅仅是单个词。7.向量优化:8.在某些情况下,问题的向量表示可能会根据具体任务进行优化,例如通过调整模型参数来更好地与检索系统的其他部分协同工作。②、知识库检索阶段:此阶段,首先需要有一个知识库,那么知识库是如何完成制作,并被检索的呢?我们需要先了解一个概念,在大模型的检索中,并不是依靠传统的关键字去搜索。而是依靠问题在空间中的向量位置,去寻找距离这个向量最近的其他词句,然后完成检索。