直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

你好,你的知识库管理采用的大模型流程是什么,请勇mermaid说明一些

回答

以下是关于大模型流程的详细说明:

RAG(Retrieval Augmented Generation,检索增强生成)技术应用于利用大模型能力搭建知识库,其流程主要包括以下 5 个过程:

  1. 文档加载(Document Loading):从多种不同来源加载文档,如 PDF 等非结构化数据、SQL 等结构化数据以及 Python、Java 之类的代码等。LangChain 提供了 100 多种不同的文档加载器。
  2. 文本分割(Splitting):文本分割器把文档切分为指定大小的块,称为“文档块”或者“文档片”。
  3. 存储:
    • 将切分好的文档块进行嵌入(Embedding)转换成向量的形式。
    • 将 Embedding 后的向量数据存储到向量数据库。
  4. 检索(Retrieval):通过某种检索算法从向量数据库中找到与输入问题相似的嵌入片。
  5. 输出(Output):把问题以及检索出来的嵌入片一起提交给 LLM,LLM 会通过问题和检索出来的提示一起来生成更加合理的答案。

从用户提出问题开始,还经历了以下流程:

  1. 用户问题的理解。
  2. 根据用户问题进行路由。
  3. 进行初步的检索。
  4. 对初步检索的结果进行重排序。
  5. 将重排序后的结果和用户的查询意图组合成上下文输入给大模型。
  6. 大模型通过指定的提示词生成输出结果。

需要注意的是,重排序的结果通常不会都被用作大模型的上下文,因为大模型的上下文有限制。可以设置一个阈值进行截断,比如只使用前 3 - 5 个文档;也可以设置一个相关性分数的阈值,只取相关性分数大于某个值的文档。一些先进的 RAG 系统会对选中的文档进行摘要或压缩,以在有限的空间内包含更多相关信息。

在大模型输出结果后还有后置处理,可能包括敏感内容检测和移除、格式化输出等。

LLM 的工作原理可以这样理解:以“我今天吃了狮子头和蔬菜”这句话为例,在 Transformer 中,会由 Attention 层对这句话加入更多的信息来补充,比如补充“狮子头是一道菜”“今天是星期六”等等。这些补充信息,会作为输入给到下一个 Attention 层进行补充。最终层与层之间,哪些信息需要补充,哪些信息需要保留,哪些信息传递,均由模型自主学习完成。总结起来就是大模型以词向量和 Transformer 的模型学习了海量的知识,把知识作为向量空间中的一种关系网进行存储,并在接受输入时,通过向量空间中的一系列匹配进行输出。这就像人脑在阅读学习的过程,记忆的不是点状的知识,而是网状的经验。

内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

手把手教你本地部署大模型以及搭建个人知识库

文本加载器就是将用户提供的文本加载到内存中,便于进行后续的处理

胎教级教程:万字长文带你理解 RAG 全流程

从用户提出问题开始:我们经历了用户问题的理解根据用户问题进行路由进行初步的检索对初步检索的结果进行重排序现在终于要到了生成结果的时候了,这个环节的流程可以简化如下:将重排序后的结果和用户的查询意图组合成上下文输入给大模型大模型通过指定的提示词生成输出结果这个环节理解起来很简单,但是同样有几个需要注意的点重排序的结果通常不会都被用作大模型的上下文,因为大模型的上下文有限制可以设置一个阈值进行截断,比如只使用前3-5个文档可以设置一个相关性分数的阈值,只取相关性分数大于某个值的文档一些先进的RAG系统会对选中的文档进行摘要或压缩,以在有限的空间内包含更多相关信息。[heading3]后置处理[heading3][content]在大模型输出结果后就是一些后置的处理了,这可能包括敏感内容检测和移除格式化输出.....这些不是本文的重点,我们就不再这里展开了至此,关于普通的RAG的原理基本就全部讲完了,非常感谢你能耐心看到这里!这里我再引用智谱清言的一张图给大家复习,看完上述流程,我理解这张图理解起来更容易

Ranger:【AI 大模型】非技术背景,一文读懂大模型(长文)

[title]Ranger:【AI大模型】非技术背景,一文读懂大模型(长文)[heading2]三、理解模型如何运作[heading3]1.LLm工作原理打个比方,“我今天吃了狮子头和蔬菜”这句话,在transformer中,会由attention层对这句话加入更多的信息来补充。比如补充“狮子头是一道菜”“今天是星期六”等等。这些补充信息,会作为输入给到下一个attention层进行补充。当然有些信息可能是不重要的,也会被忽视掉。最终层与层之间,哪些信息需要补充,哪些信息需要保留,哪些信息传递,均由模型自主学习完成。而最终学习的结果就是,模型可以把海量的数据以关系网的形式“消化”掉,并保留其重要的相关性。这些表述可能还不够直观,再打个比方,这些层就好像人在去阅读文章的时候的一个连贯性注意力的过程。就好像我们在去阅读理解一篇文章的时候,脑子里会对输入的内容进行消化然后吸收记忆,而记忆下来的不是点状的知识,而是网状的经验。3)再形象些的比喻llm的原理基本就是这样了,总结起来就是大模型以词向量和transformer的模型学习了海量的知识,把知识作为向量空间中的一种关系网进行存储,并在接受输入时,通过向量空间中的一系列匹配进行输出。这个过程其实大家想一想,是不是就像是人脑在阅读学习的个过程?比如我们在记忆一些资料时,其实记忆的也不可能是逐字逐句去记忆的,也是按照相关性,重要程度,再结合历史经验信息进行记忆的。记忆下来的东西,也不是一个个的文字,而更像是一种感觉,一种“意象”。再比如我们去看红色,会觉得这个代表温暖,代表强烈,这也是因为我们在去记忆这个信息时,同时受到来自生理、社会伦理等的关联记忆,所以一个简单的“红色”在我们的脑海中记忆时,也不仅是一个简单的词语,而是带有了很多的“feature”信息。

其他人在问
用mermaid可以生成流程结构图的ai
以下是关于用 ChatGPT 结合 Mermaid 生成流程结构图的相关内容: 开发方面:可以利用 ChatGPT 来生成各种流程图、时序图等,效果能秒杀 VISIO。生成流程包括确定制作目标、通过自然语法描述逻辑、在线校验测试是否成功。在线测试地址为:。 生成流程图的方式:有可视化拖拽和语法渲染成图形两种。可视化拖拽的代表产品有,优点是只用关注逻辑,文本即图形,方便直接嵌入在 markdown 文件中,具有多样性,不同渲染引擎可渲染成多种样式;缺点是有点抽象。 应用场景示例:如在自动驾驶中,对于 NPC 车辆切入 ego 车辆车道的场景,可按照 BORE 方法,阐述背景、定义任务目标和关键结果,让 ChatGPT 生成相应的 mermaid 时序图代码。
2024-08-10
你的知识库主要容纳哪些能力和知识
以下是关于知识库的能力和知识的介绍: 1. 扣子的知识库功能强大,能够上传和存储外部知识内容,提供多种查找知识的方法。它可以解决大模型有时出现的幻觉或某些专业领域知识不足的问题,让回复更准确。 2. 可以使用多种功能定制 AI Bot,如提示词(设定 Bot 的身份、目标和技能)、插件(通过 API 连接集成各种平台和服务)、工作流(规划和实现复杂功能逻辑)、记忆库(保留和理解对话细节,添加外部知识库)。 3. Coze 的知识库包括两大核心能力:存储和管理外部数据,增强检索能力。支持从多种数据源上传文本和表格数据,自动切分知识内容并允许自定义分片规则,提供多种检索方式高效检索内容片段,生成最终回复内容。 4. 知识库适用于多种应用场景,如创建虚拟形象交流时保存相关语料,客服场景中解答用户常见问题,特定行业应用中提供精确信息等。
2024-11-17
如何创建个人专属知识库
以下是创建个人专属知识库的相关内容: 私人知识库中的内容通常包括从互联网收集的优质信息以及个人日常的思考和分享。 基于私人知识库打造个人专属的 ChatGPT 常见有两种技术方案: 训练专有大模型:可以使用个人知识库训练专有大模型,但此方案并非当下主流,存在高成本、更新难度大等缺陷。 利用 RAG(检索增强生成)技术:先将文本拆分成若干小文本块并转换为 embeddings 向量,保存在向量储存库中。当用户提出问题时,将问题转换为向量与储存库中的向量比对,提取关联度高的文本块与问题组合成新的 prompt 发送给 GPT API。 搭建基于 GPT API 的定制化知识库时,由于 GPT3.5 一次交互支持的 Token 有限,OpenAI 提供了 embedding API 解决方案。embeddings 是一个浮点数字的向量,向量之间的距离衡量关联性,小距离表示高关联度。
2024-11-16
如何创建coze知识库
以下是创建 Coze 知识库的步骤: 1. 来到个人空间,找到知识库导航栏,点击创建知识库。 知识库是共享资源,多个 Bot 可以引用同一个知识库。 选择知识库的格式并填写相关信息。目前(2024.06.08)Coze 支持三种格式:文档、表格(CSV、Excel 等)、图片(上传图片并填写图片文字说明)。格式不重要,重要的是要了解影响 RAG 输出质量的因素。 例如选择本地文档(问答对可选择表格),还可选择自定义的文档切割,数据处理完成后,一个问答对会被切割成一个文档片。 2. 在线知识库: 点击创建知识库,创建一个如画小二课程的 FAQ 知识库。 选择飞书在线文档,每个问题和答案以分割。 选择飞书文档、自定义,输入,可点击编辑修改和删除,然后添加 Bot,并在调试区测试效果。 3. 本地文档: 本地 word 文件要注意拆分内容以提高训练数据准确度,例如对于画小二课程,要先将大章节名称内容放入,再按固定方式细化章节内详细内容。 然后选择创建知识库自定义清洗数据。 4. 发布应用:点击发布,确保在 Bot 商店中能够搜到。 关于使用知识库,您可以查看教程: 。
2024-11-15
你的知识库来源于哪里
我的知识库来源较为广泛,包括以下方面: 符号人工智能的早期成就之一——专家系统,其基于从人类专家提取的知识库,并包含推理引擎进行推理。专家系统包含问题记忆、知识库、推理引擎等部分。 “通往 AGI 之路「WaytoAGI」,这是一个由开发者、学者和有志人士等参与的学习社区和开源的 AI 知识库。 扣子的知识库,功能强大,可上传和存储外部知识内容,并提供多种查找知识的方法,能解决大模型的某些问题,使其回复更准确。
2024-11-13
什么是知识库,以及他的运作原理是什么,请用小白也能理解的语言进行说明
知识库可以用比较通俗的方式来理解: 想象一个大语言模型就像一个非常聪明、读过无数书的人,但对于一些特定的工作场景中的细节,比如见到老板娘过来吃饭要打三折,张梦飞过去吃饭要打骨折,它可能并不清楚。这时候,知识库就像是给这个聪明的人发的一本工作手册。 从更专业的角度来说,知识库的运作原理通常包括以下几个步骤: 1. 文档加载:从各种不同的来源,比如 PDF、SQL 数据、代码等加载相关的文档。 2. 文本分割:把加载的文档分割成指定大小的块,称为“文档块”或“文档片”。 3. 存储:这包括两个环节,一是将分割好的文档块进行嵌入,转换成向量的形式;二是将这些向量数据存储到向量数据库中。 4. 检索:当需要使用数据时,通过某种检索算法从向量数据库中找到与输入问题相似的嵌入片。 5. 输出:把问题以及检索出来的嵌入片一起提交给大语言模型,大语言模型会根据问题和检索出来的提示一起生成更合理的答案。 以车型数据为例,每个知识库的分段中保存了一种车型的基础数据。当用户问宝马 X3 的售价是多少时,就能匹配到对应车型的分段,然后从其中获取到售价信息。 海外官方文档:https://www.coze.com/docs/zh_cn/knowledge.html 国内官方文档:https://www.coze.cn/docs/guides/use_knowledge
2024-11-13
我没有知识库,如何让AI就某一问题穷尽搜索
要让 AI 就某一问题进行穷尽搜索,一般会涉及以下步骤: 1. 文档向量化:知识库中的文档需要被转换成向量形式,以便在数值级别上与问题向量进行比较。使用知识库工具上传文档时,会完成文档的向量化,这依靠 Embedding Model 实现。 2. 知识库检索: 相似性计算:使用相似性度量方法(如余弦相似性)计算问题向量和各个文档向量之间的相似度,以找出与问题内容最接近的文档。 排序与选择:根据相似性得分对所有文档进行排序,通常会选择得分最高的几个文档,认为这些文档与问题最相关。 信息抽取:从选定的高相关性文档中抽取具体的信息片段或答案,可能涉及进一步的文本处理技术,如命名实体识别、关键短语提取等。 3. 信息整合阶段:将检索到的全部信息连同用户问题和系统预设整合成一个全新的上下文环境,为生成回答提供基础。 此外,像生物进化中通过自然选择的方式,从特定规则开始逐步改变(可能随机),在每一步保留最有效的规则并丢弃其他,这种方法不是我们通常定义的“人工智能”(更像是“遗传算法”),但在高维规则空间中往往比低维规则空间效果更好,因为维度越多,陷入局部最小值的可能性越小。 同时,给 AI 配备随时更新的“活字典”即知识库是一个好方法。知识库就像 AI 随时可查阅的百科全书,当 AI 遇到不确定问题时,可从知识库中检索相关信息给出更准确回答。比如建立包含最新新闻、科技发展、法律法规等内容的知识库,或者利用整个互联网的实时数据作为知识库,通过搜索引擎获取最新信息。
2024-11-13
你好我需要一个AI对话总结撰写文字的AI,要求必须超长文本理解,文笔很棒
以下为您推荐两款具备超长文本理解能力且文笔不错的 AI 对话产品: 1. Kimi: 显著特点是拥有超长上下文能力,最初支持 20 万字上下文,现已提升至 200 万字。对于处理长文本或大量信息的任务具有巨大优势,能帮助从事文案工作、处理大量文字或文件的用户更有效地处理和分析信息,提高工作效率,对需要长期记忆或参考大量背景信息的任务尤其有用。 不足之处在于文字生成和语义理解、文字生成质量方面可能不如国内其他产品好,且不支持用户自定义智能体。但仍推荐给刚入门 AI 的朋友。 2. 智谱清言: 其背后的技术源自清华大学研发团队的科研成果转化,模型质量出色。 产品设计对标 ChatGPT,努力打造类似用户体验,是国内首批开放智能体应用的公司之一,在智能体开发和模型优化方面积累了丰富经验和技术,在逻辑推理和处理复杂提示词方面表现出明显优势,处理需要深度思考和分析的任务时表现出色。
2024-10-24
你好,文字生图,常用格式有哪些
文字生图常用格式包括以下方面: 对于文字生成视频: Pika:擅长动画制作,支持视频编辑。 SVD:可作为 Stable Diffusion 的插件,在图片基础上生成视频。 Runway:老牌工具,提供实时涂抹修改视频功能,但收费。 Kaiber:能将原视频转换成各种风格的视频。 Sora:由 OpenAI 开发,可生成长达 1 分钟以上的视频。 更多相关网站可查看: 对于 Stable Diffusion 文生图的提示词: 分为内容型提示词和标准化提示词,内容型提示词主要描述想要的画面。例如:1 个女孩,黑发,长发,校服,向上看,短袖,粉红色的花,户外,白天,蓝色的天空,云,阳光,上身,侧面(使用翻译软件翻译成英文)。 采样迭代步数通常控制在 20 40 之间,步数越高绘画越清晰,但速度越慢。 采样方法常用的有:Euler a;DPM++2S a Karras;DPM++2M Karras;DPM++ SDE Karras;DDIM。有的模型会有指定算法,搭配效果更好。 比例设置为 800:400,注意尺寸并非越大越好,模型练图通常基于 512x512 的框架,高宽比尽量接近此数值。
2024-10-17
你好,介绍一下way to agi
WayToAGI 是一个由一群热爱 AI 的专家和爱好者共同建设的开源知识库和社区。它诞生于 2023 年 4 月 26 日,2024 年的 2050 年将是它的生日庆典。在没有任何推广的情况下,短短一年时间,就拥有超过 70 万用户和超千万次的访问量。它是很多 AI 爱好者知识的源头,社群的口号是让更多的人因 AI 而强大,有很多学社和共学共建的活动。 WayToAGI 不仅是一个普通的技术社区,更是一个汇聚行业顶尖创作者和 KOL 的思想交流平台。社区内有 AI 领域的最新进展、教程、工具和一线实战案例,引领并推广开放共享的知识体系,倡导共学共创等形式,还孵化了 AI 春晚、离谱村等大型共创项目。社区制作的优质作品,多次登上央视首页,广受好评。您可以打开“waytoagi.com”找到这个社群。欢迎您来参与!
2024-09-19
你好,请帮我阐述一下最新的AI技术可以帮我做什么
以下是最新的 AI 技术能为您做的一些事情: 1. 大模型(如 GPT、PaLM 等):能够处理和生成自然语言文本,帮助您进行写作、回答问题、翻译等工作。 2. 多模态 AI(如视觉语言模型 CLIP、Stable Diffusion):实现视觉和语言的交互,例如根据语言描述生成图片,或者理解图片内容并用语言描述。 3. 自监督学习(如自监督预训练、对比学习、掩码语言模型等):提高模型的学习效率和效果。 4. 小样本学习(如元学习、一次学习、提示学习等):在数据有限的情况下也能进行有效的学习和预测。 5. 可解释 AI(如模型可解释性、因果推理、符号推理等):让您更好地理解模型的决策过程和结果。 6. 机器人学(如强化学习、运动规划、人机交互等):助力机器人更智能地完成各种任务,如工业生产、服务等。 7. 量子 AI(如量子机器学习、量子神经网络等):为复杂问题的解决提供新的思路和方法。 8. AI 芯片和硬件加速:提升 AI 计算的速度和效率。 在专利审查领域,AI 技术也得到了广泛应用,它可以通过自动化和智能化的手段,帮助专利审查员更高效地处理大量的专利申请、检索相关文献、评估专利性和创新性等任务。 在教育方面,例如小学课堂,AI 技术也有很多应用。如 2020 年的 GPT3 擅长用电脑写文章和做其他很多语言相关的事情,2022 年的 DALLE 可以根据语言描述画出想象中的图画。现在的 AI 还能够写文章、制作视频、创作音乐,还有像聊天机器人这样可以像朋友一样与您交流的 AI,以及能根据文字描述创造全新图片和视频的 AI。
2024-09-19
你好,你是一位猎头,可以依靠什么ai软件找到人选呢
在招聘领域,依靠以下 AI 软件可能有助于找到人选: 1. 简历相关: Kickresume 的 AI 简历写作器:使用 OpenAI 的 GPT4 语言模型自动生成简历,为简历摘要、工作经验和教育等专业部分编写内容,并保持一致语调。 Rezi:受到超过 200 万用户信任的领先 AI 简历构建平台,使用先进的 AI 技术自动化创建可雇佣简历的每个方面,包括写作、编辑、格式化和优化。 Huntr 的 AI 简历构建器:提供免费的简历模板,以及 AI 生成的总结/技能/成就生成器和 AI 驱动的简历工作匹配。更多 AI 简历产品,还可以查看这里:https://www.waytoagi.com/category/79 。 2. 面试官相关: 用友大易 AI 面试产品:具有强大的技术底座、高度的场景贴合度、招聘全环节集成的解决方案、先进的防作弊技术以及严密的数据安全保障。能帮助企业完成面试,借助人岗匹配模型,自主完成初筛,并对符合企业要求的候选人自动发送面试邀约。 海纳 AI 面试:通过在线方式、无需人为干预完成自动面试、自动评估,精准度高达 98%,面试效率比人工方式提升 5 倍以上。同时候选人体验也得到改善、到面率比之前提升最高达 30%。 InterviewAI:在线平台,提供与面试职位相关的问题和由 AI 生成的推荐答案。候选人可以使用设备上的麦克风回答每个问题,每个问题最多回答三次。对于每个答案,候选人将收到评估、建议和得分。 使用这些产品时,企业需要考虑到数据安全性和隐私保护的问题。
2024-08-25
你好,请问可以给我推荐一下图片编辑的ai软件么
以下为您推荐一些图片编辑的 AI 软件: 1. AVAide Watermark Remover:这是一个在线工具,使用 AI 技术从图片中去除水印。它支持多种图片格式,如 JPG、JPEG、PNG、GIF 等。操作简单,只需上传图片,选择水印区域,然后保存并下载处理后的图片即可。这个工具还提供了其他功能,如去除文本、对象、人物、日期和贴纸等。 2. Vmake:这个工具同样提供 AI 去除图片水印的功能。用户可以上传最多 10 张图片,AI 会自动检测并移除图片上的水印。处理完成后,用户可以选择保存生成的文件。这个工具适合需要快速去除水印的用户,尤其是那些需要在社交媒体上分享图片的用户。 3. AI 改图神器:这个工具提供 AI 智能图片修复去水印的功能,可以一键去除图片中的多余物体、人物或水印,不留任何痕迹。支持直接粘贴图像或上传手机图像,操作简单方便。 此外,还有 ImageEditor.AI ,其官网为:https://imageeditor.ai/ ,这是一个 AI 驱动的平台,简化了图像编辑和创作的过程。通过使用简单的指令,用户可以指导 AI 执行诸如改变颜色、生成图像等任务。 需要注意的是,以上内容由 AI 大模型生成,请仔细甄别。
2024-08-23