直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

知识库设计

回答

以下是关于知识库设计的相关内容:

在基于大模型+知识库的 Code Review 实践中:

  • 为什么需要知识库:大模型基座只包含互联网上的公开数据,对公司内部的框架知识和使用文档不了解。例如公司内的框架 Lynx,需要让大模型从内部文档中知道“什么是 Lynx?”“怎么写 Lynx?”,这里的“强化模式”会使用向量数据库,并将匹配的知识库片段和问题生成 Prompt,发送到 LLM 执行。
  • 怎样找到相关度高的知识:通过三个过程,即 Text Embeddings(文本向量化)、Vector Stores(向量存储)、Similarity Search(相似性搜索)。

在「AI 学习三步法:实践」用 Coze 免费打造自己的微信 AI 机器人中:

  • 确定功能范围:
    • 编写【prompt】提示词,设定 Bot 的身份和目标。
    • 创建【知识库】,整理“关键字”与“AI 相关资料链接”的对应关系,并将信息存储起来。创建知识库路径为个人空间-知识库-创建知识库,知识库文档类型支持本地文档、在线数据、飞书文档、Notion 等,本次使用【本地文档】。按照操作指引上传文档、分段设置、确认数据处理。小技巧是在内容中加上特殊分割符“###”以便于自动切分数据,分段标识符号选择“自定义”,内容填“###”。如果内容有误可编辑或删除。
    • 创建【工作流】,告诉 AI 机器人处理信息的流程。创建工作流路径为个人空间-工作流-创建工作流。工作流设计好后先试运行,无误后发布。如果任务和逻辑复杂,可结合“节点”工具,如调用【大模型】总结分析知识库内容、调用【数据库】存储用户输入信息、调用【代码】处理复杂逻辑等。个人建议工作流不必复杂,能实现目的即可,所以在设计 Bot 前“确定目的”和“确定功能范围”很重要。
内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

信鑫:基于大模型 + 知识库的 Code Review 实践

大模型基座只包含互联网上的公开数据,对公司内部的框架知识和使用文档并不了解。举个例子:公司内有个框架叫Lynx,让大模型从内部文档中知道『什么是Lynx?』、『怎么写Lynx?』一图胜千言这里的『强化模式』会使用向量数据库,并将匹配的知识库片段和问题『什么是Lynx?』生成Prompt,发送到LLM执行。[heading3]怎样找到相关度高的知识?[content]有了知识库后,怎样将我们『搜索的问题/代码』在『知识库』中找到『相关度最高的内容』?答案是通过三个过程:1.Text Embeddings(文本向量化)2.Vector Stores(向量存储)3.Similarity Search(相似性搜索)文本相似度匹配流程图,图源Langchain-Chatchat

「AI 学习三步法:实践」用 Coze 免费打造自己的微信 AI 机器人

[heading5]3)创建【知识库】,整理“关键字”与“AI相关资料链接”的对应关系,并将信息存储起来。创建知识库路径:个人空间-知识库-创建知识库知识库文档类型支持:本地文档、在线数据、飞书文档、Notion等,本次使用【本地文档】按照操作指引上传文档、分段设置、确认数据处理。💡小技巧:知识库好不好用,跟内容切分粒度有很大关系,我们可以在内容中加上一些特殊分割符,比如“###”,以便于自动切分数据。分段标识符号要选择“自定义”,内容填“###”。最终的知识库结果如下,同一颜色代表同一个数据段,如果内容有误需要编辑,可以点击具体内容,鼠标右键会看到“编辑”和“删除”按钮,可以编辑或删除。[heading5]4)创建【工作流】,告诉AI机器人应该按什么流程处理信息。[content]创建工作流路径:个人空间-工作流-创建工作流“AI前线”Bot的工作流最终结果如上,本次只用到了“知识库”进行处理。工作流设计好后,先点击右上角“试运行”,测试工作流无误后,就可以点击发布啦。如果任务和逻辑复杂,可以结合左边“节点”工具来实现。比如:可以在工作流中再次调用【大模型】,总结分析知识库内容;可以调用【数据库】存储用户输入的信息;可以调用【代码】来处理复杂逻辑等等;💡个人建议:工作流不必复杂,能实现目的即可,所以在设计Bot前“确定目的”和“确定功能范围”很重要。

「AI 学习三步法:实践」用 Coze 免费打造自己的微信 AI 机器人

[heading5]3)创建【知识库】,整理“关键字”与“AI相关资料链接”的对应关系,并将信息存储起来。创建知识库路径:个人空间-知识库-创建知识库知识库文档类型支持:本地文档、在线数据、飞书文档、Notion等,本次使用【本地文档】按照操作指引上传文档、分段设置、确认数据处理。💡小技巧:知识库好不好用,跟内容切分粒度有很大关系,我们可以在内容中加上一些特殊分割符,比如“###”,以便于自动切分数据。分段标识符号要选择“自定义”,内容填“###”。最终的知识库结果如下,同一颜色代表同一个数据段,如果内容有误需要编辑,可以点击具体内容,鼠标右键会看到“编辑”和“删除”按钮,可以编辑或删除。[heading5]4)创建【工作流】,告诉AI机器人应该按什么流程处理信息。[content]创建工作流路径:个人空间-工作流-创建工作流“AI前线”Bot的工作流最终结果如上,本次只用到了“知识库”进行处理。工作流设计好后,先点击右上角“试运行”,测试工作流无误后,就可以点击发布啦。如果任务和逻辑复杂,可以结合左边“节点”工具来实现。比如:可以在工作流中再次调用【大模型】,总结分析知识库内容;可以调用【数据库】存储用户输入的信息;可以调用【代码】来处理复杂逻辑等等;💡个人建议:工作流不必复杂,能实现目的即可,所以在设计Bot前“确定目的”和“确定功能范围”很重要。

其他人在问
你的知识库来源于哪里
我的知识库来源较为广泛,包括以下方面: 符号人工智能的早期成就之一——专家系统,其基于从人类专家提取的知识库,并包含推理引擎进行推理。专家系统包含问题记忆、知识库、推理引擎等部分。 “通往 AGI 之路「WaytoAGI」,这是一个由开发者、学者和有志人士等参与的学习社区和开源的 AI 知识库。 扣子的知识库,功能强大,可上传和存储外部知识内容,并提供多种查找知识的方法,能解决大模型的某些问题,使其回复更准确。
2024-11-13
什么是知识库,以及他的运作原理是什么,请用小白也能理解的语言进行说明
知识库可以用比较通俗的方式来理解: 想象一个大语言模型就像一个非常聪明、读过无数书的人,但对于一些特定的工作场景中的细节,比如见到老板娘过来吃饭要打三折,张梦飞过去吃饭要打骨折,它可能并不清楚。这时候,知识库就像是给这个聪明的人发的一本工作手册。 从更专业的角度来说,知识库的运作原理通常包括以下几个步骤: 1. 文档加载:从各种不同的来源,比如 PDF、SQL 数据、代码等加载相关的文档。 2. 文本分割:把加载的文档分割成指定大小的块,称为“文档块”或“文档片”。 3. 存储:这包括两个环节,一是将分割好的文档块进行嵌入,转换成向量的形式;二是将这些向量数据存储到向量数据库中。 4. 检索:当需要使用数据时,通过某种检索算法从向量数据库中找到与输入问题相似的嵌入片。 5. 输出:把问题以及检索出来的嵌入片一起提交给大语言模型,大语言模型会根据问题和检索出来的提示一起生成更合理的答案。 以车型数据为例,每个知识库的分段中保存了一种车型的基础数据。当用户问宝马 X3 的售价是多少时,就能匹配到对应车型的分段,然后从其中获取到售价信息。 海外官方文档:https://www.coze.com/docs/zh_cn/knowledge.html 国内官方文档:https://www.coze.cn/docs/guides/use_knowledge
2024-11-13
我没有知识库,如何让AI就某一问题穷尽搜索
要让 AI 就某一问题进行穷尽搜索,一般会涉及以下步骤: 1. 文档向量化:知识库中的文档需要被转换成向量形式,以便在数值级别上与问题向量进行比较。使用知识库工具上传文档时,会完成文档的向量化,这依靠 Embedding Model 实现。 2. 知识库检索: 相似性计算:使用相似性度量方法(如余弦相似性)计算问题向量和各个文档向量之间的相似度,以找出与问题内容最接近的文档。 排序与选择:根据相似性得分对所有文档进行排序,通常会选择得分最高的几个文档,认为这些文档与问题最相关。 信息抽取:从选定的高相关性文档中抽取具体的信息片段或答案,可能涉及进一步的文本处理技术,如命名实体识别、关键短语提取等。 3. 信息整合阶段:将检索到的全部信息连同用户问题和系统预设整合成一个全新的上下文环境,为生成回答提供基础。 此外,像生物进化中通过自然选择的方式,从特定规则开始逐步改变(可能随机),在每一步保留最有效的规则并丢弃其他,这种方法不是我们通常定义的“人工智能”(更像是“遗传算法”),但在高维规则空间中往往比低维规则空间效果更好,因为维度越多,陷入局部最小值的可能性越小。 同时,给 AI 配备随时更新的“活字典”即知识库是一个好方法。知识库就像 AI 随时可查阅的百科全书,当 AI 遇到不确定问题时,可从知识库中检索相关信息给出更准确回答。比如建立包含最新新闻、科技发展、法律法规等内容的知识库,或者利用整个互联网的实时数据作为知识库,通过搜索引擎获取最新信息。
2024-11-13
你的知识库是怎么部署的
部署个人知识库需要考虑硬件配置和相关技术原理。 硬件方面: 生成文字大模型,最低配置为 8G RAM + 4G VRAM,建议配置为 16G RAM + 8G VRAM,理想配置为 32G RAM + 24G VRAM(如果要跑 GPT3.5 差不多性能的大模型)。 生成图片大模型(比如跑 SD),最低配置为 16G RAM + 4G VRAM,建议配置为 32G RAM + 12G VRAM。 生成音频大模型,最低配置为 8G VRAM,建议配置为 24G VRAM。 技术原理方面: 利用大模型的能力搭建知识库本身就是一个 RAG 技术的应用。在这个过程中,首先检索外部数据,然后在生成步骤中将这些数据传递给 LLM。 RAG 应用包括文档加载、文本分割、存储、检索和输出这 5 个过程。 文档加载:从多种不同来源加载文档,LangChain 提供了 100 多种不同的文档加载器。 文本分割:把 Documents 切分为指定大小的块。 存储:涉及将切分好的文档块进行嵌入转换成向量的形式,并将 Embedding 后的向量数据存储到向量数据库。 检索:通过某种检索算法找到与输入问题相似的嵌入片。 输出:把问题以及检索出来的嵌入片一起提交给 LLM,LLM 会通过问题和检索出来的提示一起来生成更加合理的答案。 此外,搭建基于 GPT API 的定制化知识库,涉及给 GPT 输入(投喂)定制化的知识。GPT3.5 一次交互(输入和输出)只支持最高 4096 个 Token。为了处理大量领域知识,OpenAI 提供了 embedding API 解决方案。embeddings 是一个浮点数字的向量(列表),两个向量之间的距离衡量它们的关联性,小距离表示高关联度。
2024-11-11
搭建个人知识库,请推荐的免费人工智能软件
以下为您推荐一些可用于搭建个人知识库的免费人工智能软件: 1. AnythingLLM:包含所有 Open WebUI 的能力,额外支持选择文本嵌入模型和向量数据库。安装地址:https://useanything.com/download 。安装完成后需进行配置,主要分为三步:选择大模型、选择文本嵌入模型、选择向量数据库。在 AnythingLLM 中可创建独有的 Workspace 与其他项目数据隔离,包括创建工作空间、上传文档并进行文本嵌入、选择对话模式(Chat 模式会综合给出答案,Query 模式仅依靠文档数据给出答案),配置完成后可进行测试对话。 2. Coze 或 FastGPT 等工具可搭建知识库,但当下其 RAG 能力仅对问答场景友好,复杂企业级知识库场景可能需要专业团队,收费几万到几十万不等。若想使用专门搭建个人知识库的软件,可参考文章 ,忽略本地部署大模型环节,直接看其中推荐的软件。 此外,还有一些相关工具和方法: 用通义听悟整理录音笔记:https://tingwu.aliyun.com 用 React 实现选中即解释 定义提示语提取有用信息:https://memo.ac/zh/ 开源免费屏幕录制工具 OBS,下载地址:https://obsproject.com/ Mac 用 Downie,Windows 推荐 IDM 淘宝数码荔枝店购买 用 losslessCut 快速切块:https://github.com/mifi/losslesscut 希望这些信息对您有所帮助。
2024-11-11
飞书和notion,在搭建个人知识库方面,各自的优点和缺点是什么
飞书在搭建个人知识库方面的优点: 可以方便地分类和整理知识,例如个人搭建某一领域知识库或企业搭建产品资料知识库。 有相关的分享和直播,能帮助用户轻松打造知识管理体系。 缺点: 随着知识库中信息增多,如果分类不合理,很难找到所需文章。 问题答案可能在文章某一段落,每次都需重新阅读文章才能找到答案。 Notion 在搭建个人知识库方面的优点: 是功能强大的知识管理和项目管理工具,可将各种信息 all in one place。 数据库可定制性高,接近关系型数据库,适合有相关需求的用户。 数据库的每一条记录都是一个页面,页面包含可自定义的属性和丰富内容。 支持的块类型非常丰富。 缺点:暂未提及。 此外,Notion 在创建知识库并上传文本内容方面,有特定的操作步骤,如在文本格式页签下选择 Notion 并进行授权,还可选择自动分段与清洗或自定义分段等方式。
2024-11-11
虚拟形象IP设计
以下是关于虚拟形象 IP 设计的相关内容: 在 Midjourney 商业实战案例的 AI 绘画之 IP 角色篇中: 1. 可爱的花裙小女孩: 关键词:a super cute girl, wearing a floral dress, wearing boots, wearing a hat, holding bag, big watery eyes, full body, looking at viewer, open hands, MD clothing, clothing wrinkles, surprise, clean background, dreamy, pop mart mockup, blind box toy, disney style, fine luster, 3D rendering, OC, front lighting, face shot, best quality, 8K, ultra detailed –ar 3:4 –niji 可以把生成的 IP 扣下来重新排版以获得更好的效果。 2. 调皮的小男孩: 关键词:A handsome boy, dirty braids, trendy wear, a shoes front view, ip pop mart blind box, front view, animation effects, clean background, white background, morale group, movie lighting, light and shade contrast, 8k, best quality, super detail, 3d c4d, oc rendering, ultra high definition, 3d rendering –ar 3:4 –v 5 3. 气泡雨衣女孩: 关键词:whole body!! a cute girl from future cyberpunk, wearing a sliver raincoat and wearing a big goggle, charming pose, floating glass balls, soft pastel gradients, popmart blindbox, clay material, bright background, awardwinning, LED 3d art, depth of field, Pixar trend. surreal, octane rendering, raytracing, complex details, animation lighting, c4d –ar 3:4 在 WaytoAGI 品牌 VI 中: IP 角色是一只全身像的鹿,不仅是“路”的谐音,还象征着尊贵、温和和灵动。在不同文化中,鹿常被看作是好运和长寿的象征,将品牌与这些积极意象相联系。 请注意:以上 logo 品牌信息禁止私自使用,如需使用请联系组织管理员。品牌 LOGO 为本社区独有知识产权,未经正式授权,任何个人或实体不得擅自用于商业目的。我们珍视品牌价值,将坚决维护合法权益。对于侵犯 LOGO 使用权的行为,我们将依法采取措施,追究相关法律责任。
2024-11-13
室内设计的ai软件
以下是一些用于室内设计的 AI 软件: 1. HDAidMaster:这是一款云端工具,在建筑设计、室内设计和景观设计领域表现出色,搭载自主训练的建筑大模型 ArchiMaster,软件 UI 和设计成果颜值在线。 2. Maket.ai:主要面向住宅行业,在户型设计和室内软装设计方面有探索,能根据输入的房间面积需求和土地约束自动生成户型图。 3. ARCHITEChTURES:AI 驱动的三维建筑设计软件,在住宅设计早期阶段可引入相关标准和规范约束设计结果。 4. Fast AI 人工智能审图平台:形成全自动智能审图流程,能将建筑全寿命周期内的信息集成管理。 此外,还有以下相关应用: 1. 酷家乐等设计软件:可快速生成个性化室内设计方案,允许用户上传户型图并通过 AI 生成多种设计方案。 但每个工具都有其特定的应用场景和功能,建议您根据自己的具体需求来选择合适的工具。
2024-11-13
大小模型协同有哪些设计,具体应用有哪些呢?
大小模型协同的设计主要包括以下方面: 1. 大型模型方面: 大型语言模型:专注于处理和生成文本信息,通过分析大量的文本数据来理解和生成自然语言。 大型多模态模型:能够处理包括文本、图片、音频等多种类型的信息,在更多样化的任务中应用。 2. 小型模型方面:通常是被设计来完成特定任务的。 其具体应用包括: 1. 人机协同模式: 模式一:以人为主导,大模型提供建议(copilot 阶段),如同副驾驶,开车时提供建议,决定权在人手中。 模式二:人和大模型协同工作,合作完成同一个工作(embedding 阶段),在实际工作场景中,一些小环节由大模型完成,提高效率。 模式三:人指挥大模型工作(数字员工阶段),但此阶段目前少见,大模型还不能完全独立完成具体工作,可能是工程或大模型能力欠缺导致。 当下努力方向应是从简单使用大模型得到建议,转变为让大模型深度融入工作流,形成有高价值的一套 agent。数字员工阶段尚不成熟,可由其他大厂和学界先多尝试。
2024-11-13
AI如何在平面设计工作流中提高效率,具体的步骤有哪些
以下是 AI 在平面设计工作流中提高效率的具体步骤和相关信息: 1. 工具选择 主要工具:Midjourney 和 Stabel Diffusion。 辅助工具:RUNWAY 和 PS beta 等。 2. 工作流效果 创意多样:设计解决方案更为多样和创新,项目中不同创意概念的提出数量增加了 150%。 执行加速:AI 生成的设计灵感和概念显著缩短了创意阶段所需时间,设计师在创意生成阶段的时间缩短了平均 60%。 整体提效:在整体项目的设计时间减少了 18%。 3. 提升能力的方法 建立针对性的 AI 工作流:使用 lora 模型训练的方式,生成特定的形象及 KV 风格,建立包含品牌形象、风格视觉 DNA 的模型,并根据实用场景进行分类。 实用的模型训练:在营销活动期间,根据市场环境和消费者偏好的变化迅速调整 lora 模型。 AI 设计资产储备:建立和管理 AI 设计资产,沉淀相关知识、技能、工具,促进团队内部的知识积累和提升。 此外,对于建筑设计师审核规划平面图,以下是一些可用的 AI 工具: HDAidMaster:云端工具,在建筑、室内和景观设计领域表现出色,搭载自主训练的建筑大模型 ArchiMaster。 Maket.ai:面向住宅行业,在户型和室内软装设计方面有探索,能根据输入需求自动生成户型图。 ARCHITEChTURES:AI 驱动的三维建筑设计软件,在住宅设计早期可引入标准和规范约束设计结果。 Fast AI 人工智能审图平台:形成全自动智能审图流程,实现数据的汇总与管理。 但每个工具都有其特定应用场景和功能,建议根据具体需求选择合适的工具。
2024-11-12
我有一份PPT,我想对这个PPT进行图像设计等美观化处理,怎么来做?使用哪个工具好?
以下为您介绍一些可用于对 PPT 进行图像设计等美观化处理的工具及相关信息: 1. Gamma:这是一个在线 PPT 制作网站,允许用户通过输入文本和想法提示快速生成幻灯片。它支持嵌入多媒体格式,如 GIF 和视频,以增强演示文稿的吸引力。网址:https://gamma.app/ 2. 美图 AI PPT:由知名图像编辑软件“美图秀秀”的开发团队推出。用户通过输入简单的文本描述来生成专业的 PPT 设计,包含丰富的模板库和设计元素,可根据需求选择不同风格和主题的模板,适用于多种场合。网址:https://www.xdesign.com/ppt/ 3. Mindshow:一款 AI 驱动的 PPT 辅助工具,提供一系列智能设计功能,如自动布局、图像选择和文本优化等,还可能包括互动元素和动画效果。网址:https://www.mindshow.fun/ 4. 讯飞智文:由科大讯飞推出的 AI 辅助文档编辑工具,利用科大讯飞在语音识别和自然语言处理领域的技术优势,提供智能文本生成、语音输入、文档格式化等功能。网址:https://zhiwen.xfyun.cn/ 在对 PPT 进行排版时,工具的选择可根据个人顺手程度决定,对于打工人来说,PPT 是较为熟练的选择。关于尺寸问题,如果想要打印,4:3 的比例比较适合童书绘本的比例,出图时可按此比例,文字可直接排版到画面上;若出图为 16:9 横板,排版时 4:3 可把文字放在图片下面。若要发小红书或者小绿书,竖版更合适,比例选 3:4,出图也选竖版。制作 H5 时,出图选竖版,比例选 9:16。所有排版尺寸在 PPT 里都可以选。另外,PPT 里的删除背景功能对于基础抠图很有用。用 PPT 另存为图片时,直接选 jpg 或 png 格式会降低图片清晰度,可先另存为“增强型 Windows 源文件”格式,再用画图软件打开另存为 JPG 以得到高清图。
2024-11-12
幻海映月字体设计文字生成图片
以下是关于幻海映月字体设计文字生成图片的相关内容: Ideogram 2.0 工具教程: 1. 生成图像设置:将魔法提示设置为“关闭”,使用模型 v2.0。 2. 字体版权问题:Ideogram 的 AI 在生成图像时并非使用真实字体,而是通过学习大量文字图像及其外观和风格来生成类似特定风格或字体的文字。 3. 字体生成错误处理: 多次重新生成提示,看是否得到想要的文本。 使用编辑器修改文本、添加或删除部分,然后重新混合图像。 将较长、较复杂的单词更改为较短的同义词。 上传包含所需文本的图像,作为重新混合创建图像的起点和合成源。 4. 版本选择:使用 0.2 或 1.0 版本可能会更稳定。
2024-11-11