Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

你好,你的知识库管理采用的大模型流程是什么,请勇mermaid说明一些

Answer

以下是关于大模型流程的详细说明:

RAG(Retrieval Augmented Generation,检索增强生成)技术应用于利用大模型能力搭建知识库,其流程主要包括以下 5 个过程:

  1. 文档加载(Document Loading):从多种不同来源加载文档,如 PDF 等非结构化数据、SQL 等结构化数据以及 Python、Java 之类的代码等。LangChain 提供了 100 多种不同的文档加载器。
  2. 文本分割(Splitting):文本分割器把文档切分为指定大小的块,称为“文档块”或者“文档片”。
  3. 存储:
    • 将切分好的文档块进行嵌入(Embedding)转换成向量的形式。
    • 将 Embedding 后的向量数据存储到向量数据库。
  4. 检索(Retrieval):通过某种检索算法从向量数据库中找到与输入问题相似的嵌入片。
  5. 输出(Output):把问题以及检索出来的嵌入片一起提交给 LLM,LLM 会通过问题和检索出来的提示一起来生成更加合理的答案。

从用户提出问题开始,还经历了以下流程:

  1. 用户问题的理解。
  2. 根据用户问题进行路由。
  3. 进行初步的检索。
  4. 对初步检索的结果进行重排序。
  5. 将重排序后的结果和用户的查询意图组合成上下文输入给大模型。
  6. 大模型通过指定的提示词生成输出结果。

需要注意的是,重排序的结果通常不会都被用作大模型的上下文,因为大模型的上下文有限制。可以设置一个阈值进行截断,比如只使用前 3 - 5 个文档;也可以设置一个相关性分数的阈值,只取相关性分数大于某个值的文档。一些先进的 RAG 系统会对选中的文档进行摘要或压缩,以在有限的空间内包含更多相关信息。

在大模型输出结果后还有后置处理,可能包括敏感内容检测和移除、格式化输出等。

LLM 的工作原理可以这样理解:以“我今天吃了狮子头和蔬菜”这句话为例,在 Transformer 中,会由 Attention 层对这句话加入更多的信息来补充,比如补充“狮子头是一道菜”“今天是星期六”等等。这些补充信息,会作为输入给到下一个 Attention 层进行补充。最终层与层之间,哪些信息需要补充,哪些信息需要保留,哪些信息传递,均由模型自主学习完成。总结起来就是大模型以词向量和 Transformer 的模型学习了海量的知识,把知识作为向量空间中的一种关系网进行存储,并在接受输入时,通过向量空间中的一系列匹配进行输出。这就像人脑在阅读学习的过程,记忆的不是点状的知识,而是网状的经验。

Content generated by AI large model, please carefully verify (powered by aily)

References

手把手教你本地部署大模型以及搭建个人知识库

文本加载器就是将用户提供的文本加载到内存中,便于进行后续的处理

胎教级教程:万字长文带你理解 RAG 全流程

从用户提出问题开始:我们经历了用户问题的理解根据用户问题进行路由进行初步的检索对初步检索的结果进行重排序现在终于要到了生成结果的时候了,这个环节的流程可以简化如下:将重排序后的结果和用户的查询意图组合成上下文输入给大模型大模型通过指定的提示词生成输出结果这个环节理解起来很简单,但是同样有几个需要注意的点重排序的结果通常不会都被用作大模型的上下文,因为大模型的上下文有限制可以设置一个阈值进行截断,比如只使用前3-5个文档可以设置一个相关性分数的阈值,只取相关性分数大于某个值的文档一些先进的RAG系统会对选中的文档进行摘要或压缩,以在有限的空间内包含更多相关信息。[heading3]后置处理[heading3][content]在大模型输出结果后就是一些后置的处理了,这可能包括敏感内容检测和移除格式化输出.....这些不是本文的重点,我们就不再这里展开了至此,关于普通的RAG的原理基本就全部讲完了,非常感谢你能耐心看到这里!这里我再引用智谱清言的一张图给大家复习,看完上述流程,我理解这张图理解起来更容易

Ranger:【AI 大模型】非技术背景,一文读懂大模型(长文)

[title]Ranger:【AI大模型】非技术背景,一文读懂大模型(长文)[heading2]三、理解模型如何运作[heading3]1.LLm工作原理打个比方,“我今天吃了狮子头和蔬菜”这句话,在transformer中,会由attention层对这句话加入更多的信息来补充。比如补充“狮子头是一道菜”“今天是星期六”等等。这些补充信息,会作为输入给到下一个attention层进行补充。当然有些信息可能是不重要的,也会被忽视掉。最终层与层之间,哪些信息需要补充,哪些信息需要保留,哪些信息传递,均由模型自主学习完成。而最终学习的结果就是,模型可以把海量的数据以关系网的形式“消化”掉,并保留其重要的相关性。这些表述可能还不够直观,再打个比方,这些层就好像人在去阅读文章的时候的一个连贯性注意力的过程。就好像我们在去阅读理解一篇文章的时候,脑子里会对输入的内容进行消化然后吸收记忆,而记忆下来的不是点状的知识,而是网状的经验。3)再形象些的比喻llm的原理基本就是这样了,总结起来就是大模型以词向量和transformer的模型学习了海量的知识,把知识作为向量空间中的一种关系网进行存储,并在接受输入时,通过向量空间中的一系列匹配进行输出。这个过程其实大家想一想,是不是就像是人脑在阅读学习的个过程?比如我们在记忆一些资料时,其实记忆的也不可能是逐字逐句去记忆的,也是按照相关性,重要程度,再结合历史经验信息进行记忆的。记忆下来的东西,也不是一个个的文字,而更像是一种感觉,一种“意象”。再比如我们去看红色,会觉得这个代表温暖,代表强烈,这也是因为我们在去记忆这个信息时,同时受到来自生理、社会伦理等的关联记忆,所以一个简单的“红色”在我们的脑海中记忆时,也不仅是一个简单的词语,而是带有了很多的“feature”信息。

Others are asking
用mermaid可以生成流程结构图的ai
以下是关于用 ChatGPT 结合 Mermaid 生成流程结构图的相关内容: 开发方面:可以利用 ChatGPT 来生成各种流程图、时序图等,效果能秒杀 VISIO。生成流程包括确定制作目标、通过自然语法描述逻辑、在线校验测试是否成功。在线测试地址为:。 生成流程图的方式:有可视化拖拽和语法渲染成图形两种。可视化拖拽的代表产品有,优点是只用关注逻辑,文本即图形,方便直接嵌入在 markdown 文件中,具有多样性,不同渲染引擎可渲染成多种样式;缺点是有点抽象。 应用场景示例:如在自动驾驶中,对于 NPC 车辆切入 ego 车辆车道的场景,可按照 BORE 方法,阐述背景、定义任务目标和关键结果,让 ChatGPT 生成相应的 mermaid 时序图代码。
2024-08-10
有没有一种小模型,语料只是一个知识库,超出范围的无法回答?
以下是关于您问题的回答: 在医疗领域,存在一种智能体,其在提示词中约定回答只能来自于知识库。例如生物医药小助手,为了避免在医疗这个严肃领域出现误导性的回答,其回答被限制在特定的知识库范围内,可能存在问题超出知识库范畴的情况,但尚未发现有医学上不严谨的回答现象。 同时,模型存在一定的局限性。在训练过程中,模型虽接触大量知识,但未完美记忆且不清楚知识边界,可能尝试回答深奥话题并虚构不正确内容,产生幻觉。例如要求模型描述虚构的牙刷产品时,会给出逼真但虚构的描述。在构建应用程序时,可使用一些技术避免这种情况,如要求模型先从文本中找相关引文,再用引文回答问题并追溯源文件,以减少幻觉的发生。 另外,“小模型”在特定任务上表现出色,如专门识别猫或狗的模型,但无法用于其他任务。而“大模型”像多功能基础平台,能处理多种任务,应用范围广泛且有更多通识知识,但大模型的知识来源于有限的训练数据,不能拥有无限知识,且知识库不会自动更新,在某些特定或专业领域知识可能不够全面。
2025-03-05
我是一个ai小白,我该如何使用这个知识库
对于 AI 小白来说,使用这个知识库可以参考以下内容: 1. 了解基本概念: 大语言模型就像一个读过无数书、拥有无穷智慧的人,擅长公共知识、学识技能和日常聊天,但在工作场景下需要提示词来明确角色和专注技能,知识库则相当于给员工的工作手册。 例如设定阿里千问模型为 AI 模型,角色为“美嘉”,知识库为《爱情公寓》全季剧情,从而实现特定场景的问答。 2. 科普资源: 对于对 AI 没太多概念的纯纯小白,可以通过以下资源快速了解: 通识篇:现有常见 AI 工具小白扫盲,文章链接(1 小时 32 分开始)。 通识篇:AI 常见名词、缩写解释,文章链接。 3. 从常见工具开始体验: 工具入门篇(AI Tools):数据工具多维表格小白之旅,文章链接,适用于 Excel 重度使用者、手动数据处理使用者、文件工作者,可满足 80%数据处理需求。 工具入门篇(AI Code):编程工具Cursor 的小白试用反馈,文章链接,适用于 0 编程经验、觉得编程离我们很遥远的小白。 工具入门篇(AI Music):音乐工具Suno 的小白探索笔记,文章链接,适用于 0 乐理知识、觉得作词作曲和我们毫不相关成本巨大的小白。
2025-03-04
怎么用飞书搭建一个人工智能知识库
以下是使用飞书搭建人工智能知识库的相关内容: 1. 参考文章: 《这可能是讲 Coze 的知识库最通俗易懂的文章了》:介绍了一系列关于 AI 知识库的知识,包括“通往 AGI 之路”这个使用飞书软件搭建的 AI 知识库,以及相关文章对 AI 时代知识库的讲解,读完可收获 AI 时代知识库的概念、实现原理、能力边界等内容。 《【智能体】让 Coze 智能体机器人连上微信和微信群详细配置文档》:其中提到创建知识库时可使用手动清洗数据,包括在线知识库和本地文档的处理方式,如在线知识库需创建飞书在线文档,每个问题和答案以“”分割等;还介绍了发布应用时要确保在 Bot 商店中能搜到。 《「AI 学习三步法:实践」用 Coze 免费打造自己的微信 AI 机器人》:提到创建知识库的路径为个人空间知识库创建知识库,文档类型支持本地文档、在线数据、飞书文档、Notion 等,本次使用本地文档,可按照操作指引上传文档、分段设置、确认数据处理,同时提到知识库内容切分粒度的小技巧,如使用特殊分割符“”。 2. 总体步骤: 确定所需的数据清洗方式,如手动或自动清洗。 对于在线知识库,创建飞书在线文档,每个问题和答案以特定方式分割,选择飞书文档、自定义等选项,并可编辑修改和删除。 对于本地文档,注意拆分内容以提高训练数据准确度,按照固定方式进行人工标注和处理。 完成创建后可发布应用,确保在 Bot 商店中能搜到。
2025-03-04
用deepseek打造个人知识库
以下是关于用 DeepSeek 打造个人知识库的相关信息: 可以先将文本拆分成若干小文本块(chunk),通过 embeddings API 将其转换成与语义相关的 embeddings 向量,并在向量储存库中保存这些向量和文本块作为问答的知识库。当用户提出问题时,将问题也转换成向量,与储存库中的向量比对,提取关联度高的文本块,与问题组合成新的 prompt 发送给 GPT API,从而提高回答的准确性和相关性。例如对于“此文作者是谁?”的问题,可以直观或通过比较 embeddings 向量找到关联度最高的文本块,如“本文作者:越山。xxxx。”。 在 RAGFlow 中,可配置本地部署的 DeepSeek 模型。选择 Ollama 并配置相关信息,导入嵌入模型用于文本向量化。设置系统模型后,可创建知识库,导入文件(可设置文件夹)并解析,解析速度取决于本机 GPU 性能。解析完成后进行检索测试,没问题即可进入聊天界面,还可自行设置助理。 此外,AI 编程与炼金术中也涉及 DeepSeek 的相关知识,如在不同章节中的应用,包括给老外起中文名、驱动 Life Coach 等,具体内容可通过相关链接进一步查看。
2025-03-04
你有 AI+知识库应用的架构图吗
以下是 AI+知识库应用的架构图相关内容: 一、问题解析阶段 1. 接收并预处理问题,通过嵌入模型(如 Word2Vec、GloVe、BERT)将问题文本转化为向量,确保问题向量能有效用于后续检索。 二、知识库检索阶段 1. 知识库中的文档同样向量化后,比较问题向量与文档向量,选择最相关的信息片段并抽取传递给下一步骤。 2. 文档向量化:要在向量中进行检索,知识库被转化成一个巨大的向量库。 三、信息整合阶段 1. 接收检索到的信息,与上下文构建形成融合、全面的信息文本。 信息筛选与确认:对检索器提供的信息进行评估,筛选出最相关和最可信的内容,包括对信息的来源、时效性和相关性进行验证。 消除冗余:识别和去除多个文档或数据源中的重复信息。 关系映射:分析不同信息片段之间的逻辑和事实关系,如因果、对比、顺序等。 上下文构建:将筛选和结构化的信息组织成一个连贯的上下文环境,包括对信息进行排序、归类和整合。 语义融合:合并意义相近但表达不同的信息片段,以减少语义上的重复并增强信息的表达力。 预备生成阶段:整合好的上下文信息被编码成适合生成器处理的格式,如将文本转化为适合输入到生成模型的向量形式。 四、大模型生成回答阶段 1. 整合后的信息被转化为向量并输入到 LLM(大语言模型),模型逐词构建回答,最终输出给用户。因为这个上下文包括了检索到的信息,大语言模型相当于同时拿到了问题和参考答案,通过 LLM 的全文理解,最后生成一个准确和连贯的答案。 五、其他预处理阶段 1. 文本预处理:包括去除无关字符、标准化文本(例如将所有字符转换为小写)、分词等,以清洁和准备文本数据。 2. 嵌入表示:将预处理后的文本(词或短语)转换为向量,通常通过使用预训练的嵌入模型来完成。 3. 特征提取:对于整个问题句子,可能会应用进一步的特征提取技术,比如句子级别的嵌入,或使用深度学习模型(如 BERT)直接提取整个句子的表示。 4. 向量优化:问题的向量表示可能会根据具体任务进行优化,例如通过调整模型参数来更好地与检索系统的其他部分协同工作。
2025-03-04
coze构建知识库
构建 Coze 知识库的步骤如下: 1. 手动清洗数据: 在线知识库:点击创建知识库,创建画小二课程的 FAQ 知识库。飞书在线文档中每个问题和答案以“”分割,选择飞书文档、自定义的自定义,输入“”,可编辑修改和删除,添加 Bot 并在调试区测试效果。 本地文档:注意拆分内容以提高训练数据准确度,将海报内容训练到知识库中。例如画小二 80 节课程分为 11 个章节,先放入大章节名称内容,再按固定方式细化处理,然后选择创建知识库自定义清洗数据。 2. 发布应用:点击发布,确保在 Bot 商店中能够搜到。 3. 标准流程搭建产品问答机器人: 收集知识:确认了解知识库支持的数据类型,收集知识通常有三种方式,包括企业或个人沉淀的 Word、PDF 等文档,企业或个人沉淀的云文档(通过链接访问),互联网公开的一些内容(可安装 Coze 提供的插件采集)。 创建知识库:路径为个人空间知识库创建知识库,支持本地文档、在线数据、飞书文档、Notion 等文档类型,本次可使用本地文档,按照操作指引上传文档、分段设置、确认数据处理,可使用特殊分割符“”,分段标识符号选择“自定义”,内容填“”。 希望以上内容对您有所帮助。
2025-03-04
你好,我想用ai将一张图片形式的数字表格转换成excel,应该使用哪款模型?
很抱歉,上述提供的内容中没有直接提及将图片形式的数字表格转换成 Excel 可用的具体模型。但您可以尝试以下几种常见的方法和工具: 1. 一些 OCR(光学字符识别)软件,如 ABBYY FineReader、Adobe Acrobat Pro 等,它们通常具有将图片中的表格转换为可编辑文本的功能,然后您可以将其粘贴到 Excel 中进行整理。 2. 在线 OCR 服务,例如百度 OCR、腾讯 OCR 等,操作相对便捷。 3. 某些专门用于表格处理的 AI 工具,您可以通过在相关的技术论坛、社区或专业的软件评价网站上进一步搜索和了解。
2025-02-26
你好,我想做一个用照片做视频的博主,请帮我构思一套详细的视频号起号的框架、流程、以及每一步骤的详细执行指导
很抱歉,目前没有关于用照片做视频的博主起号的相关内容。但我可以为您提供一个大致的框架和流程,以及每一步骤的简要执行指导供您参考: 框架: 1. 明确视频号定位:确定您的视频号是以何种风格、主题展示照片视频,例如旅行照片集、宠物照片故事等。 2. 内容策划:规划好要发布的照片系列,制定一个长期的内容计划。 3. 品牌塑造:包括起一个吸引人的账号名称、设计独特的头像和封面。 流程: 1. 账号注册与设置:选择一个易记且与主题相关的账号名,完善个人简介,突出您的特色和价值。 2. 素材准备:整理和筛选高质量的照片,并对其进行分类。 3. 视频制作:使用合适的软件将照片制作成精彩的视频,添加音乐、特效等元素增强吸引力。 4. 发布策略:选择合适的时间发布视频,保持一定的发布频率。 每一步骤的详细执行指导: 账号注册与设置: 账号名要简洁、有特色,能反映您的视频主题。 个人简介要清晰地介绍您的视频号定位、能为观众带来什么价值。 素材准备: 从大量照片中挑选出清晰、美观、有故事性的照片。 按照主题或时间顺序对照片进行分类,方便后续制作。 视频制作: 学习并熟练使用视频编辑软件,如剪映等。 选择适合照片风格的音乐,注意版权问题。 适当添加转场效果、文字说明等,提升视频的观赏性。 发布策略: 分析目标受众的活跃时间,例如晚上或周末。 初期可以每周发布 12 个视频,根据反馈逐渐调整频率。 希望以上内容对您有所帮助,祝您成功!
2025-02-08
你好,你是什么模型?
您好,我是一名 AI 知识专家,能够为您提供全面的 AI 知识指导和解答相关问题。 关于模型方面的知识: LoRA 和 LyCORIS 都属于微调模型,常用于控制画风、生成的角色、角色姿势等。它们的后缀均为.safetensors,体积较主模型小,一般在 4M 300M 之间,使用 LoRA 模型较多,LyCORIS 可调节范围更大,现在 SD 已内置。在 WebUl 中使用时,可在 LoRA 菜单中点击使用,也可直接使用 Prompt 调用。 在 Tusiart 中,首页有模型、帖子、排行榜,展示了大手子炼成的模型和图片。生图必需基础模型(Checkpoint),任何生图操作必须选定一个 Checkpoint 模型才能开始,lora 是低阶自适应模型,可有可无,但对细节控制有价值。ControlNet 可控制图片中特定图像,VAE 类似于滤镜调整生图饱和度,选择 840000 即可。Prompt 提示词是想要 AI 生成的内容,负向提示词是想要 AI 避免产生的内容。还有图生图,即上传图片后 SD 会根据相关信息重绘。 如果您想搭建类似的群问答机器人,可以参考以下内容:
2025-01-28
你好,现在外网上面有没有免费的ai视频生成网站
以下是一些外网免费的 AI 视频生成网站: Pika:https://pika.art/ ,可控性强,可以对嘴型,可配音。 SVD:https://stablevideo.com/ ,对于景观生成效果较好。 Kaiber:https://kaiber.ai/ 。 更多的文生视频网站可以查看:https://www.waytoagi.com/category/38 。 此外还有以下网站可供选择: Runway:https://runwayml.com ,有网页有 app 方便,但收费。 即梦:https://dreamina.jianying.com/ ,剪映旗下,生成 3 秒,动作幅度有很大升级,最新 S 模型,P 模型。 Minimax 海螺 AI:https://hailuoai.video/ ,非常听话,语义理解能力非常强。 Kling:kling.kuaishou.com ,支持运动笔刷,1.5 模型可以直出 1080P30 帧视频。 Vidu:https://www.vidu.studio/ 。 haiper:https://app.haiper.ai/ 。 智谱清影:https://chatglm.cn/video ,开源了,可以自己部署 cogvideo 。 PixVerse:https://pixverse.ai/ ,人少不怎么排队,还有换脸功能。 luma:https://lumalabs.ai/ 。 还有一些其他网站,如: Morph Studio:https://app.morphstudio.com/ ,还在内测。 Heygen:https://www.heygen.com/ ,数字人/对口型。 Moonvalley:https://moonvalley.ai/ 。 Mootion:https://discord.gg/AapmuVJqxx ,3d 人物动作转视频。 美图旗下:https://www.miraclevision.com/ 。 Neverends:https://neverends.life/create ,操作傻瓜。 SD:Animatediff SVD deforum ,自己部署。 Leiapix:https://www.leiapix.com/ ,可以把一张照片转动态。 Krea:https://www.krea.ai/ 。 Opusclip:https://www.opus.pro/ ,利用长视频剪成短视频。 Raskai:https://zh.rask.ai/ ,短视频素材直接翻译至多语种。 invideoAI:https://invideo.io/make/aivideogenerator/ ,输入想法>自动生成脚本和分镜描述>生成视频>人工二编>合成长视频。 descript:https://www.descript.com/?ref=feizhuke.com 。 veed.io:https://www.veed.io/ ,自动翻译自动字幕。 clipchamp:https://app.clipchamp.com/ 。 typeframes:https://www.revid.ai/?ref=aibot.cn 。 内容由 AI 大模型生成,请仔细甄别。
2025-01-16
你好,请问,哪家的智能体最适合处理excel表格
目前有以下几种智能体适合处理 Excel 表格: 1. Excel Labs:这是一个 Excel 插件,新增了基于 OpenAI 技术的生成式 AI 功能,可在 Excel 中直接进行数据分析和决策支持。 2. Microsoft 365 Copilot:微软推出的 AI 工具,整合了多种办公软件,能通过聊天形式让用户告知需求,自动完成如数据分析、格式创建等任务。 3. Formula Bot:提供数据分析聊天机器人和公式生成器两大功能,用户可通过自然语言交互式地进行数据分析和生成 Excel 公式。 4. Numerous AI:支持 Excel 和 Google Sheets 的 AI 插件,除公式生成外,还能根据提示生成相关文本内容、执行情感分析、语言翻译等任务。 随着技术发展,未来可能会有更多 AI 功能集成到 Excel 中,进一步提高工作效率和数据处理的智能化水平。但请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-01-02
你好,请问,什么是最强大的excel 表格 分析agi 服务
目前有以下几种可以增强 Excel 表格数据处理和分析能力的 AI 服务: 1. Excel Labs:这是一个 Excel 插件,基于 OpenAI 技术,新增了生成式 AI 功能,能让用户在 Excel 中直接利用 AI 进行数据分析和决策支持。 2. Microsoft 365 Copilot:微软推出的 AI 工具,整合了包括 Excel 在内的多种办公软件,用户通过聊天形式告知需求,Copilot 会自动完成如数据分析、格式创建等任务。 3. Formula Bot:提供数据分析聊天机器人和公式生成器两大功能,用户可通过自然语言交互式地进行数据分析和生成 Excel 公式。 4. Numerous AI:支持 Excel 和 Google Sheets 的 AI 插件,除公式生成外,还能根据提示生成相关文本内容、执行情感分析、语言翻译等任务。 这些工具通过 AI 技术提升了 Excel 的数据处理能力,使用户能更高效地进行数据分析和决策。随着技术发展,未来可能会有更多 AI 功能集成到 Excel 中,进一步提高工作效率和数据处理的智能化水平。请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-01-02