直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

你好,你的知识库管理采用的大模型流程是什么,请勇mermaid说明一些

回答

以下是关于大模型流程的详细说明:

RAG(Retrieval Augmented Generation,检索增强生成)技术应用于利用大模型能力搭建知识库,其流程主要包括以下 5 个过程:

  1. 文档加载(Document Loading):从多种不同来源加载文档,如 PDF 等非结构化数据、SQL 等结构化数据以及 Python、Java 之类的代码等。LangChain 提供了 100 多种不同的文档加载器。
  2. 文本分割(Splitting):文本分割器把文档切分为指定大小的块,称为“文档块”或者“文档片”。
  3. 存储:
    • 将切分好的文档块进行嵌入(Embedding)转换成向量的形式。
    • 将 Embedding 后的向量数据存储到向量数据库。
  4. 检索(Retrieval):通过某种检索算法从向量数据库中找到与输入问题相似的嵌入片。
  5. 输出(Output):把问题以及检索出来的嵌入片一起提交给 LLM,LLM 会通过问题和检索出来的提示一起来生成更加合理的答案。

从用户提出问题开始,还经历了以下流程:

  1. 用户问题的理解。
  2. 根据用户问题进行路由。
  3. 进行初步的检索。
  4. 对初步检索的结果进行重排序。
  5. 将重排序后的结果和用户的查询意图组合成上下文输入给大模型。
  6. 大模型通过指定的提示词生成输出结果。

需要注意的是,重排序的结果通常不会都被用作大模型的上下文,因为大模型的上下文有限制。可以设置一个阈值进行截断,比如只使用前 3 - 5 个文档;也可以设置一个相关性分数的阈值,只取相关性分数大于某个值的文档。一些先进的 RAG 系统会对选中的文档进行摘要或压缩,以在有限的空间内包含更多相关信息。

在大模型输出结果后还有后置处理,可能包括敏感内容检测和移除、格式化输出等。

LLM 的工作原理可以这样理解:以“我今天吃了狮子头和蔬菜”这句话为例,在 Transformer 中,会由 Attention 层对这句话加入更多的信息来补充,比如补充“狮子头是一道菜”“今天是星期六”等等。这些补充信息,会作为输入给到下一个 Attention 层进行补充。最终层与层之间,哪些信息需要补充,哪些信息需要保留,哪些信息传递,均由模型自主学习完成。总结起来就是大模型以词向量和 Transformer 的模型学习了海量的知识,把知识作为向量空间中的一种关系网进行存储,并在接受输入时,通过向量空间中的一系列匹配进行输出。这就像人脑在阅读学习的过程,记忆的不是点状的知识,而是网状的经验。

内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

手把手教你本地部署大模型以及搭建个人知识库

文本加载器就是将用户提供的文本加载到内存中,便于进行后续的处理

胎教级教程:万字长文带你理解 RAG 全流程

从用户提出问题开始:我们经历了用户问题的理解根据用户问题进行路由进行初步的检索对初步检索的结果进行重排序现在终于要到了生成结果的时候了,这个环节的流程可以简化如下:将重排序后的结果和用户的查询意图组合成上下文输入给大模型大模型通过指定的提示词生成输出结果这个环节理解起来很简单,但是同样有几个需要注意的点重排序的结果通常不会都被用作大模型的上下文,因为大模型的上下文有限制可以设置一个阈值进行截断,比如只使用前3-5个文档可以设置一个相关性分数的阈值,只取相关性分数大于某个值的文档一些先进的RAG系统会对选中的文档进行摘要或压缩,以在有限的空间内包含更多相关信息。[heading3]后置处理[heading3][content]在大模型输出结果后就是一些后置的处理了,这可能包括敏感内容检测和移除格式化输出.....这些不是本文的重点,我们就不再这里展开了至此,关于普通的RAG的原理基本就全部讲完了,非常感谢你能耐心看到这里!这里我再引用智谱清言的一张图给大家复习,看完上述流程,我理解这张图理解起来更容易

Ranger:【AI 大模型】非技术背景,一文读懂大模型(长文)

[title]Ranger:【AI大模型】非技术背景,一文读懂大模型(长文)[heading2]三、理解模型如何运作[heading3]1.LLm工作原理打个比方,“我今天吃了狮子头和蔬菜”这句话,在transformer中,会由attention层对这句话加入更多的信息来补充。比如补充“狮子头是一道菜”“今天是星期六”等等。这些补充信息,会作为输入给到下一个attention层进行补充。当然有些信息可能是不重要的,也会被忽视掉。最终层与层之间,哪些信息需要补充,哪些信息需要保留,哪些信息传递,均由模型自主学习完成。而最终学习的结果就是,模型可以把海量的数据以关系网的形式“消化”掉,并保留其重要的相关性。这些表述可能还不够直观,再打个比方,这些层就好像人在去阅读文章的时候的一个连贯性注意力的过程。就好像我们在去阅读理解一篇文章的时候,脑子里会对输入的内容进行消化然后吸收记忆,而记忆下来的不是点状的知识,而是网状的经验。3)再形象些的比喻llm的原理基本就是这样了,总结起来就是大模型以词向量和transformer的模型学习了海量的知识,把知识作为向量空间中的一种关系网进行存储,并在接受输入时,通过向量空间中的一系列匹配进行输出。这个过程其实大家想一想,是不是就像是人脑在阅读学习的个过程?比如我们在记忆一些资料时,其实记忆的也不可能是逐字逐句去记忆的,也是按照相关性,重要程度,再结合历史经验信息进行记忆的。记忆下来的东西,也不是一个个的文字,而更像是一种感觉,一种“意象”。再比如我们去看红色,会觉得这个代表温暖,代表强烈,这也是因为我们在去记忆这个信息时,同时受到来自生理、社会伦理等的关联记忆,所以一个简单的“红色”在我们的脑海中记忆时,也不仅是一个简单的词语,而是带有了很多的“feature”信息。

其他人在问
用mermaid可以生成流程结构图的ai
以下是关于用 ChatGPT 结合 Mermaid 生成流程结构图的相关内容: 开发方面:可以利用 ChatGPT 来生成各种流程图、时序图等,效果能秒杀 VISIO。生成流程包括确定制作目标、通过自然语法描述逻辑、在线校验测试是否成功。在线测试地址为:。 生成流程图的方式:有可视化拖拽和语法渲染成图形两种。可视化拖拽的代表产品有,优点是只用关注逻辑,文本即图形,方便直接嵌入在 markdown 文件中,具有多样性,不同渲染引擎可渲染成多种样式;缺点是有点抽象。 应用场景示例:如在自动驾驶中,对于 NPC 车辆切入 ego 车辆车道的场景,可按照 BORE 方法,阐述背景、定义任务目标和关键结果,让 ChatGPT 生成相应的 mermaid 时序图代码。
2024-08-10
知识库都有哪些提示词框架
以下是一些常见的提示词框架: ICIO 框架:包括 Instruction(指令)、Context(背景信息)、Input Data(输入数据)、Output Indicator(输出引导)。 CRISPE 框架:涵盖 Capacity and Role(能力和角色)、Insight(见解)、Statement(声明)、Personality(个性)、Experiment(实验)。 BROKE 框架:包含 Background(背景)、Role(角色)、Objectives(目标)、Key Result(关键结果)。 TRACE 框架:有 TASK(任务)、REQUEST(请求)、ACTION(行动)、CONTEXT(上下文)、EXAMPLE(示例)。 ERA 框架:包括 EXPECTATION(期望)、ROLE(角色)、ACTION(行动)。 CARE 框架:由 CONTEXT(上下文)、ACTION(行动)、RESULT(结果)、EXAMPLE(示例)组成。 ROSES 框架:包含 ROLE(角色)、OBJECTIVE(目的)、SCENARIO(方案)。 Evolve 框架:包括试验并改进,通过改进输入、改进答案、重新生成等方法。 APE 框架。 COAST 框架:包含 CONTEXT(上下文背景)、OBJECTIVE(目的)、ACTION(行动)、SCENARIO(方案)、TASK(任务)。 TAG 框架:包括 TASK(任务)、ACTION(行动)、GOAL(目标)。 RISE 框架。
2024-10-17
基于飞书的知识库RAG的搭建,需要什么接口进行全文搜索
基于飞书的知识库 RAG 搭建,可用于全文搜索的接口方式主要有以下几种: 1. 语义检索:语义匹配关注查询和文档内容的意义,而非仅仅表面的词汇匹配。通过向量的相似性来判断语义的相似性。 2. 全文检索:这是基于关键词的检索方式。例如,对于句子“猫的饮食习惯包括吃鱼和鸡肉”,输入“猫”“饮食”“猫的饮食习惯”“吃鱼”等关键词可搜索到该句子,但输入“猫喜欢吃什么呀”则无法搜索到。 3. 混合检索:结合了语义匹配和全文检索的优点,通常系统先进行全文检索获取初步结果,然后再对这些结果进行语义匹配和排序。 此外,在本地部署资讯问答机器人实现 RAG 时,会涉及加载所需的库和模块,如 feedparse 用于解析 RSS 订阅源,ollama 用于在 python 程序中跑大模型。还会为文档内容生成向量,如使用文本向量模型 bgem3 等。 在开发 LangChain 应用开发指南中,实现 LangChain 和 RAG 的结合时,需要加载数据、分割文档、转换嵌入并存储到向量存储器、创建检索器以及聊天模型等步骤。
2024-10-17
推荐一些知识库系统
以下为您推荐一些知识库系统: 1. 专家系统: 是符号人工智能的早期成就之一,为充当有限问题领域的专家而设计。 包含从人类专家提取的知识库、推理引擎以及问题记忆。 推理引擎协调问题状态空间的搜索过程,必要时向用户提问。 例如根据动物物理特征判断动物的专家系统,可通过绘制 ANDOR 树或使用规则来表示知识。 2. AI Agent 中的外置知识: 由外部数据库提供,特点是能够动态更新和调整。 涉及多种数据存储和组织方式,包括向量数据库、关系型数据库和知识图谱。 实际应用中常采用 RAG 架构,结合检索和生成,增强模型的生成能力。 3. 知识管理体系: 是组织和管理信息、数据和知识的方法,帮助个人或组织有效捕捉、组织、访问和使用知识,提高效率、创新能力和决策质量。 包括收集信息、整理知识、分享经验、促进学习和创新等流程,以及分类、标签和索引等组织方式。 关键组成部分有知识的捕捉、组织、分享和应用。 创建知识管理体系可提高效率、增强决策能力、促进创新和增强适应能力。
2024-10-16
如何创建知识库?
创建知识库主要有以下两种方式: 1. 创建并上传表格数据: 在页面顶部进入知识库页面,并单击创建知识库。 在弹出的页面配置知识库名称、描述,并单击确认。需注意一个团队内的知识库名称不可重复,必须是唯一的。 在单元页面,单击新增单元。 在弹出的页面,选择表格格式,然后选择一种上传方式完成数据上传。 2. 创建并上传文本内容: 登录。 在左侧导航栏的工作区区域,选择进入指定团队。 在页面顶部进入知识库页面,并单击创建知识库。 在弹出的页面配置知识库名称、描述,并单击确认。同样一个团队内的知识库名称不可重复,必须是唯一的。 在单元页面,单击新增单元。 在弹出的页面选择要上传的数据格式,默认是文本格式,然后选择一种文本内容上传方式完成内容上传。 此外,还可以参考以下文章获取更详细的信息:
2024-10-15
如何通过ollama 搭建本地知识库
以下是通过 Ollama 搭建本地知识库的步骤: 1. 了解背景:本文思路来源于视频号博主黄益贺,旨在分享如何部署本地大模型及搭建个人知识库,让您了解相关核心技术及流程。 2. Ollama 简介:Ollama 是一个开源框架,用于简化本地运行大型语言模型的过程,是轻量级、可扩展的,提供简单 API 和预构建模型库,适合初学者和非技术人员,能推动大型语言模型的发展和应用。 3. 安装 Ollama:官方下载地址为 https://ollama.com/download ,安装完成后可通过访问特定链接判断是否安装成功。 4. 运行本地大模型:安装完成后,在命令行中运行相应命令,模型名称可通过查看,如选择 llama2 大模型,可根据机器配置选择合适参数的模型,运行时 Ollama 会自动下载大模型到本地。 此外,还有关于本地部署资讯问答机器人:Langchain + Ollama + RSSHub 实现 RAG 的相关内容,包括加载所需库和模块、从订阅源获取内容、为文档内容生成向量等步骤。
2024-10-12
请简要介绍WaytoAGI知识库
WaytoAGI 是一个由一群热爱 AI 的专家和爱好者共同建设的开源 AI 知识库。 在短短一年间,靠着口口相传拥有高达数千万的访问量。其知识库内容丰富,涵盖了 AI 绘画、AI 视频、AI 智能体、AI 3D 等多个版块,还包含赛事和活动以促进大家动手实践,有 AI 领域的最新进展、教程、工具和一线实战案例。 WaytoAGI 不仅是一个普通的技术社区,更是一个汇聚行业顶尖创作者和 KOL 的思想交流平台,社区制作的优质作品多次登上央视首页,广受好评。 它还孵化了如离谱村等大型共创项目,离谱村是由 WaytoAGI 孵化的千人共创项目,让大家学习和接触 AI 更容易、更感兴趣。参与者不分年龄层,都可以通过 AI 工具创作出各种各样的作品。 “通往 AGI 之路”的品牌 VI 融合了独特的设计元素,以彩虹色彰显多元性和创新,以鹿的形象象征智慧与优雅,通过非衬线字体展现现代感和清晰性,共同构建了一个充满活力和前瞻性的品牌形象。
2024-10-11
你好,文字生图,常用格式有哪些
文字生图常用格式包括以下方面: 对于文字生成视频: Pika:擅长动画制作,支持视频编辑。 SVD:可作为 Stable Diffusion 的插件,在图片基础上生成视频。 Runway:老牌工具,提供实时涂抹修改视频功能,但收费。 Kaiber:能将原视频转换成各种风格的视频。 Sora:由 OpenAI 开发,可生成长达 1 分钟以上的视频。 更多相关网站可查看: 对于 Stable Diffusion 文生图的提示词: 分为内容型提示词和标准化提示词,内容型提示词主要描述想要的画面。例如:1 个女孩,黑发,长发,校服,向上看,短袖,粉红色的花,户外,白天,蓝色的天空,云,阳光,上身,侧面(使用翻译软件翻译成英文)。 采样迭代步数通常控制在 20 40 之间,步数越高绘画越清晰,但速度越慢。 采样方法常用的有:Euler a;DPM++2S a Karras;DPM++2M Karras;DPM++ SDE Karras;DDIM。有的模型会有指定算法,搭配效果更好。 比例设置为 800:400,注意尺寸并非越大越好,模型练图通常基于 512x512 的框架,高宽比尽量接近此数值。
2024-10-17
你好,介绍一下way to agi
WayToAGI 是一个由一群热爱 AI 的专家和爱好者共同建设的开源知识库和社区。它诞生于 2023 年 4 月 26 日,2024 年的 2050 年将是它的生日庆典。在没有任何推广的情况下,短短一年时间,就拥有超过 70 万用户和超千万次的访问量。它是很多 AI 爱好者知识的源头,社群的口号是让更多的人因 AI 而强大,有很多学社和共学共建的活动。 WayToAGI 不仅是一个普通的技术社区,更是一个汇聚行业顶尖创作者和 KOL 的思想交流平台。社区内有 AI 领域的最新进展、教程、工具和一线实战案例,引领并推广开放共享的知识体系,倡导共学共创等形式,还孵化了 AI 春晚、离谱村等大型共创项目。社区制作的优质作品,多次登上央视首页,广受好评。您可以打开“waytoagi.com”找到这个社群。欢迎您来参与!
2024-09-19
你好,请帮我阐述一下最新的AI技术可以帮我做什么
以下是最新的 AI 技术能为您做的一些事情: 1. 大模型(如 GPT、PaLM 等):能够处理和生成自然语言文本,帮助您进行写作、回答问题、翻译等工作。 2. 多模态 AI(如视觉语言模型 CLIP、Stable Diffusion):实现视觉和语言的交互,例如根据语言描述生成图片,或者理解图片内容并用语言描述。 3. 自监督学习(如自监督预训练、对比学习、掩码语言模型等):提高模型的学习效率和效果。 4. 小样本学习(如元学习、一次学习、提示学习等):在数据有限的情况下也能进行有效的学习和预测。 5. 可解释 AI(如模型可解释性、因果推理、符号推理等):让您更好地理解模型的决策过程和结果。 6. 机器人学(如强化学习、运动规划、人机交互等):助力机器人更智能地完成各种任务,如工业生产、服务等。 7. 量子 AI(如量子机器学习、量子神经网络等):为复杂问题的解决提供新的思路和方法。 8. AI 芯片和硬件加速:提升 AI 计算的速度和效率。 在专利审查领域,AI 技术也得到了广泛应用,它可以通过自动化和智能化的手段,帮助专利审查员更高效地处理大量的专利申请、检索相关文献、评估专利性和创新性等任务。 在教育方面,例如小学课堂,AI 技术也有很多应用。如 2020 年的 GPT3 擅长用电脑写文章和做其他很多语言相关的事情,2022 年的 DALLE 可以根据语言描述画出想象中的图画。现在的 AI 还能够写文章、制作视频、创作音乐,还有像聊天机器人这样可以像朋友一样与您交流的 AI,以及能根据文字描述创造全新图片和视频的 AI。
2024-09-19
你好,你是一位猎头,可以依靠什么ai软件找到人选呢
在招聘领域,依靠以下 AI 软件可能有助于找到人选: 1. 简历相关: Kickresume 的 AI 简历写作器:使用 OpenAI 的 GPT4 语言模型自动生成简历,为简历摘要、工作经验和教育等专业部分编写内容,并保持一致语调。 Rezi:受到超过 200 万用户信任的领先 AI 简历构建平台,使用先进的 AI 技术自动化创建可雇佣简历的每个方面,包括写作、编辑、格式化和优化。 Huntr 的 AI 简历构建器:提供免费的简历模板,以及 AI 生成的总结/技能/成就生成器和 AI 驱动的简历工作匹配。更多 AI 简历产品,还可以查看这里:https://www.waytoagi.com/category/79 。 2. 面试官相关: 用友大易 AI 面试产品:具有强大的技术底座、高度的场景贴合度、招聘全环节集成的解决方案、先进的防作弊技术以及严密的数据安全保障。能帮助企业完成面试,借助人岗匹配模型,自主完成初筛,并对符合企业要求的候选人自动发送面试邀约。 海纳 AI 面试:通过在线方式、无需人为干预完成自动面试、自动评估,精准度高达 98%,面试效率比人工方式提升 5 倍以上。同时候选人体验也得到改善、到面率比之前提升最高达 30%。 InterviewAI:在线平台,提供与面试职位相关的问题和由 AI 生成的推荐答案。候选人可以使用设备上的麦克风回答每个问题,每个问题最多回答三次。对于每个答案,候选人将收到评估、建议和得分。 使用这些产品时,企业需要考虑到数据安全性和隐私保护的问题。
2024-08-25
你好,请问可以给我推荐一下图片编辑的ai软件么
以下为您推荐一些图片编辑的 AI 软件: 1. AVAide Watermark Remover:这是一个在线工具,使用 AI 技术从图片中去除水印。它支持多种图片格式,如 JPG、JPEG、PNG、GIF 等。操作简单,只需上传图片,选择水印区域,然后保存并下载处理后的图片即可。这个工具还提供了其他功能,如去除文本、对象、人物、日期和贴纸等。 2. Vmake:这个工具同样提供 AI 去除图片水印的功能。用户可以上传最多 10 张图片,AI 会自动检测并移除图片上的水印。处理完成后,用户可以选择保存生成的文件。这个工具适合需要快速去除水印的用户,尤其是那些需要在社交媒体上分享图片的用户。 3. AI 改图神器:这个工具提供 AI 智能图片修复去水印的功能,可以一键去除图片中的多余物体、人物或水印,不留任何痕迹。支持直接粘贴图像或上传手机图像,操作简单方便。 此外,还有 ImageEditor.AI ,其官网为:https://imageeditor.ai/ ,这是一个 AI 驱动的平台,简化了图像编辑和创作的过程。通过使用简单的指令,用户可以指导 AI 执行诸如改变颜色、生成图像等任务。 需要注意的是,以上内容由 AI 大模型生成,请仔细甄别。
2024-08-23
你好:哪款AI工具出来的图像,如美女最美,帅哥最帅
目前没有哪一款 AI 工具可以绝对地生成最美的美女图像或最帅的帅哥图像。不同的 AI 绘画工具在生成人物图像方面各有特点,其效果取决于多种因素,如输入的提示词、模型训练数据、算法等。一些常见的 AI 绘画工具包括 DALL·E2、StableDiffusion 等,但它们生成的图像美观程度也会因具体的使用和设置而有所差异。
2024-08-19