Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

有抽象的知识库吗

Answer

以下是关于知识库的相关信息:

  • 扣子的知识库功能提供了简单易用的方式来存储和管理外部数据,将数据上传到知识库后,扣子会自动将文档分割成一个个内容片段进行存储,并通过向量搜索来检索最相关的内容回答用户问题。知识库由大到小可分为:知识库(一整套领域知识,是 Bot 加载的最小单位)、单元(知识库的一部分,可上传的最小内容单位可以是一个.txt、.pdf、.csv 文件或一个网页)、分段(一个单元切分成多个分段,模型查询的最小单位,分段内容的完整度和准确性度会影响模型回答问题的准确性)。
  • 专家系统是符号人工智能的早期成就之一,是为充当某个有限问题领域的专家而设计的计算机系统。它们基于从人类专家那里提取的知识库,并包含推理引擎。专家系统包含问题记忆(与当前要解决的问题有关的知识,如病人的体温或血压、是否有炎症等,也被称为静态知识)、知识库(代表某个问题领域的长期知识,从人类专家那里人工提取,不会因外部的咨询而改变,也被称为动态知识)、推理引擎(协调在问题状态空间中搜索的整个过程,必要时向用户提问,并负责找到适用于每个状态的正确规则)。
  • 生成式人工智能在知识管理应用程序方面的一个新兴应用是将其用作管理组织内基于文本(或可能基于图像或视频)知识的手段。创建结构化知识库所涉及的劳动密集性使得许多大公司难以进行大规模知识管理。但一些研究表明,当模型培训针对组织内特定的基于文本的知识体系进行微调时,生成式人工智能可以有效地管理组织的知识。一些公司正在与领先的商业生成式人工智能提供商一起探索基于生成式人工智能的知识管理理念。
Content generated by AI large model, please carefully verify (powered by aily)

References

创建并使用知识库

[title]创建并使用知识库扣子的知识库功能提供了简单易用的方式来存储和管理外部数据,让你的Bot可以与指定的数据进行交互。将数据上传到知识库后,扣子会自动将你的文档分割成一个个内容片段进行存储,并通过向量搜索来检索最相关的内容来回答用户问题。知识库由大到小可分为:知识库:一整套领域知识,是Bot加载的最小单位。单元:知识库的一部分,可上传的最小内容单位可以是一个.txt、.pdf、.csv文件或一个网页。分段:一个单元切分成多个分段,模型查询的最小单位。分段内容的完整度和准确性度会影响模型回答问题的准确性。

知识表示和专家系统

[title]知识表示和专家系统[heading1]专家系统符号人工智能的早期成就之一是专家系统——为充当某个有限问题领域的专家而设计的计算机系统。它们基于从一个或多个人类专家那里提取的知识库,并包含一个推理引擎,在此基础上进行推理。专家系统就像人类的推理系统一样,包含短期记忆和长期记忆。同样,在以知识为基础的系统中,我们会区分以下几个部分:问题记忆(Problem memory):包含与当前要解决的问题有关的知识,如病人的体温或血压、是否有炎症等。这种知识也被称为静态知识(static knowledge),因为它包含了快照信息,记录着我们在当前状态下对问题的了解——即所谓的问题状态(problem state)。知识库(Knowledge base):代表某个问题领域的长期知识。它是从人类专家那里人工提取的,不会因外部的咨询而改变。由于它允许我们从一个问题状态前往另一个问题状态,因此也被称为动态知识(dynamic knowledge)。推理引擎(Inference engine):协调在问题状态空间中搜索的整个过程,必要时向用户提问。它还负责找到适用于每个状态的正确规则。举例来说,下面这个专家系统是根据动物的物理特征来判断动物的:这种图称为AND-OR树,是一组产生式规则的图形表示。在从人类专家那里提取知识的早期阶段,绘制树形图非常有用。要在计算机中表示知识,使用规则更为方便:你可以注意到,规则左侧的每个条件和操作本质上都是对象-属性-值(OAV)三元组。工作记忆包含与当前要解决的问题相对应的OAV三元组。规则引擎会查找满足条件的规则,并应用这些规则,从而向工作记忆中添加另一个三元组。✅为你喜欢的主题写一个AND-OR树!

生成式人工智能如何改变创意工作

法学硕士的一个新兴应用是将其用作管理组织内基于文本(或可能基于图像或视频)知识的手段。创建结构化知识库所涉及的劳动密集性使得许多大公司难以进行大规模知识管理。然而,[一些研究](https://arxiv.org/abs/1909.01066)表明,当模型培训针对组织内特定的基于文本的知识体系进行微调时,法学硕士可以有效地管理组织的知识。法学硕士中的知识可以通过提示问题来获取。一些公司正在与领先的商业法学硕士提供商一起探索基于法学硕士的知识管理理念。例如,[摩根士丹利](https://news.microsoft.com/wp-content/uploads/prod/2022/10/KEY01-Satya-Nadella.pdf)正在与OpenAI的GPT-3合作,微调财富管理内容的培训,以便财务顾问既可以搜索公司内部的现有知识,又可以轻松地为客户创建量身定制的内容。此类系统的用户可能需要培训或帮助来创建有效的提示,并且法学硕士的知识输出在应用之前可能仍需要编辑或审查。然而,假设这些问题得到解决,法学硕士可以[重新点燃](https://www.wsj.com/articles/BL-CIOB-7428)知识管理领域的火花,并使其更有效地扩展。

Others are asking
知识库的实验数据,AI能关联分析思考吗?
目前的 AI 技术在一定程度上能够对知识库中的实验数据进行关联分析和思考。AI 具备处理和分析大量数据的能力,通过运用机器学习和数据挖掘算法,可以发现数据中的模式、关系和趋势。然而,AI 的分析能力取决于数据的质量、特征工程的有效性以及所采用的算法和模型的适用性。在复杂和不确定的情况下,AI 的分析结果可能存在一定的局限性,需要人类的进一步审查和判断。
2025-01-18
如何准确调用知识库的内容?
要准确调用知识库的内容,可以从以下方面进行: 维护知识库内容: 为提升召回准确率,可删除、新增或修改知识库内容。 在知识库页面,能看到已创建的知识库及每个知识库内的单元数量和创建时间等信息。单击知识库或编辑图标,可进入知识库详情页面。在详情页可进行新增内容、删除内容、更新单元内的分段、开启引用等操作。若不开启引用,即便 Bot 中使用了所属的知识库,该单元内容也不会被召回。 使用知识库: 可以将知识库直接与 Bot 进行关联用于响应用户回复,也可以在工作流中添加知识库节点。 在 Bot 内使用知识库: 1. 登录。 2. 在左侧导航栏的工作区区域,选择进入指定团队。 3. 在 Bots 页面,选择指定 Bot 并进入 Bot 详情页。 4. 在 Bot 编排页面的知识库区域,单击加号图标,添加指定的知识库。 5. (可选)添加知识库后,可在自动调用下拉界面内,调整知识库的配置项,如最大召回数量、最小匹配度、调用方式等。在预览与调试区域调试 Bot 能力时,扩展运行完毕的内容可以查看知识库命中并召回的分片内容。 在工作流内使用 Knowledge 节点: 1. 登录。 2. 在左侧导航栏的工作区区域,选择进入指定团队。 3. 在页面顶部进入工作流页面,并打开指定的工作流。 4. 在左侧基础节点列表内,选择添加 Knowledge 节点。 关于让 AI+知识库回答更准确的示例: 以问答机器人为例,其配置包括 AI 模型、提示词、知识库。大语言模型如同拥有无穷智慧的人,提示词是设定其角色和专注技能,知识库则是工作手册。例如设定 AI 模型为阿里千问模型,提示词角色为“美嘉”,知识库为《爱情公寓》全季剧情,让“美嘉”拥有相关“记忆”。
2025-01-18
知识库目录
以下是知识库的目录内容: 1. 关于我们&致谢 我们是一个开源 AI 社区,坚信人工智能将重新塑造思考和学习方式,为创建知识库的决心提供动力。 特别感谢一路上支持和推荐知识库的伙伴们,使我们有信心持续探索 AGI 的无限可能。 WaytoAGI 是由一群热爱 AI 的专家和爱好者共同建设的开源 AI 知识库,大家贡献并整合各种 AI 资源,方便不同水平的人学习和应用。 2. 元子:WayToAGI 知识库究竟咋用? 知识库起飞指南 把知识库想象成 24 小时在线的 AI 老师、永不嫌烦的知识管家、不断成长的智慧宝库。 里面藏着 AI 工具的“傻瓜式说明书”、大神们的“踩坑经验分享”、实用的“一招制胜”秘籍。 新手探索指南:点击飞书链接()。 知识库界面:左边的导航栏是指南针,上面的搜索框是探宝雷达,中间的内容区是知识的海洋。 3. 信鑫:基于大模型+知识库的 Code Review 实践 实现思路 官方文档知识库(内置) 避免大家将官方文档重复录入、embedding,CR Copilot 内置了官方文档,目录包含: React 官方文档: TypeScript 官方文档: Rspack 官方文档: Garfish: 公司内 Go/Python/Rust 等编程规范等,并通过一个简单的 CURD 来管理内置向量知识库。
2025-01-17
如何部署自己的知识库
以下是部署自己知识库的详细步骤: 一、了解 RAG 技术 因为利用大模型的能力搭建知识库本身就是一个 RAG 技术的应用。在进行本地知识库的搭建实操之前,需要先对 RAG 有大概的了解。 RAG 是指检索增强生成(Retrieval Augmented Generation)。当需要依靠不包含在大模型训练集中的数据时,通过检索外部数据,然后在生成步骤中将这些数据传递给 LLM。一个 RAG 的应用可抽象为 5 个过程: 1. 文档加载(Document Loading):从多种不同来源加载文档,LangChain 提供了 100 多种不同的文档加载器,包括 PDF 在内的非结构化的数据、SQL 在内的结构化的数据,以及 Python、Java 之类的代码等。 2. 文本分割(Splitting):文本分割器把 Documents 切分为指定大小的块,称为“文档块”或者“文档片”。 3. 存储:涉及两个环节,分别是将切分好的文档块进行嵌入(Embedding)转换成向量的形式,以及将 Embedding 后的向量数据存储到向量数据库。 4. 检索:通过某种检索算法找到与输入问题相似的嵌入片。 5. Output(输出):把问题以及检索出来的嵌入片一起提交给 LLM,LLM 会通过问题和检索出来的提示一起来生成更加合理的答案。 二、通过 Open WebUI 使用大模型 1. 首先访问相关网址。打开页面时,使用任意邮箱注册账号。 2. 登陆成功后,Open WebUI 一般有两种使用方式,第一种是聊天对话,第二种是 RAG 能力,可让模型根据文档内容来回答问题,这种能力是构建知识库的基础之一。 三、本地知识库进阶 如果想要对知识库进行更加灵活的掌控,需要一个额外的软件:AnythingLLM。这个软件包含了所有 Open WebUI 的能力,并且额外支持了以下能力:选择文本嵌入模型、选择向量数据库。 安装地址:https://useanything.com/download 。安装完成后,会进入到其配置页面,主要分为三步: 1. 第一步:选择大模型。 2. 第二步:选择文本嵌入模型。 3. 第三步:选择向量数据库。 构建本地知识库: 1. 在 AnythingLLM 中有一个 Workspace 的概念,可以创建自己独有的 Workspace 跟其他的项目数据进行隔离。 2. 首先创建一个工作空间。 3. 上传文档并且在工作空间中进行文本嵌入。 4. 选择对话模式。AnythingLLM 提供了两种对话模式:Chat 模式,大模型会根据自己的训练数据和上传的文档数据综合给出答案;Query 模式,大模型仅仅会依靠文档中的数据给出答案。 5. 测试对话。当上述配置完成之后,就可以跟大模型进行对话了。 四、写在最后 “看十遍不如实操一遍,实操十遍不如分享一遍”。如果对 AI Agent 技术感兴趣,可以联系作者或者加其免费知识星球(备注 AGI 知识库)。
2025-01-17
如果想购建一个自己的知识库,最好的方案是什么?
要构建自己的知识库,以下是一些可行的方案: 1. 基于 GPT API 打造: 给 GPT 输入定制化知识,但需注意 GPT3.5(免费版 ChatGPT)一次交互的 Token 限制。 OpenAI 提供了 embedding API 解决方案,embeddings 是浮点数字的向量,向量间距离衡量关联性,小距离表示高关联度。 可将大文本拆分成小文本块,转换为 embeddings 向量并保存,用户提问时将问题转换为向量与储存库比对,提取关联度高的文本块与问题组合成新 prompt 发送给 GPT API。 2. 本地部署大模型及搭建: 访问特定网址,使用邮箱注册账号。 Open WebUI 一般有聊天对话和 RAG 能力(让模型根据文档内容回答问题)两种使用方式,RAG 能力是构建知识库的基础之一。 若要求不高,已可实现本地大模型通过 Web UI 对话功能。但 ChatGPT 访问速度快、回答效果好,原因在于服务器配置高、训练参数多、数据更优及训练算法更好。若想更灵活掌握知识库,可进一步操作。
2025-01-16
个人知识库与大模型如何结合
个人知识库与大模型的结合是一个关键问题。目前大模型在通用知识方面表现出色,但对专业领域知识了解有限。将两者结合有以下 5 种方法: 1. 重新训练:使用私域数据重新训练大模型。 2. 微调:利用私有数据对大模型进行 finetuning。 3. RAG:将知识库里的知识搜索送进大模型。 4. 关键词工程:写好提示词。 5. 加长 Context:当 Context 能无限长时,理论上可将个人知识和记忆都 prefill 到 Context 里。 对于哪种方法最有希望,学术界存在分歧。做深度学习的人偏向于用 RAG,而以前做过搜索的人则偏向于用 Long Context。有人认为最终会采用仿生的方法,即拥有一个足够长的 Context,例如谷歌的一篇论文 infinite context transform 提到,不需要把 Context 做得太长,可以将以前可能需要被扔掉的 token 深度压缩后依然保存在 Context 里。 此外,运行一个几百亿个参数的大模型,存算一体的架构是最佳选择,因为能避免所有数据的搬运。使用存算一体的方式也是未来 AI 硬件的发展趋势。
2025-01-16
抽象理解用户视角的半监督模式
半监督学习是一种机器学习模式,它结合了有监督学习和无监督学习的特点。在半监督学习中,模型可以同时使用标记数据和未标记数据进行训练。标记数据通常是指已经被人类标注或分类的数据,而未标记数据则是指没有被人类标注或分类的数据。通过使用半监督学习,模型可以利用未标记数据中的信息来提高其性能和泛化能力。 从用户的角度来看,半监督学习可以被视为一种更加灵活和高效的机器学习模式。在传统的有监督学习中,模型需要大量的标记数据来进行训练,这通常需要人类专家进行手动标注,这是一个非常耗时和昂贵的过程。而在半监督学习中,模型可以利用未标记数据来进行训练,这可以减少对标记数据的需求,从而降低了数据标注的成本。此外,半监督学习还可以提高模型的泛化能力,因为模型可以从更多的数据中学习到更多的信息。 半监督学习的另一个优点是,它可以更好地处理现实世界中的数据。在现实世界中,大量的数据通常是未标记的,例如社交媒体数据、图像数据和音频数据等。通过使用半监督学习,模型可以利用这些未标记数据来进行训练,从而更好地处理现实世界中的数据。 总的来说,半监督学习是一种非常有前途的机器学习模式,它可以提高模型的性能和泛化能力,同时减少对标记数据的需求,从而降低了数据标注的成本。从用户的角度来看,半监督学习可以被视为一种更加灵活和高效的机器学习模式,它可以更好地处理现实世界中的数据。
2024-05-06