Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

飞书文档如何作为知识库输入到coze平台

Answer

要将飞书文档作为知识库输入到 Coze 平台,主要有以下步骤:

  1. 在线知识库:
    • 点击创建知识库,创建一个画小二课程的 FAQ 知识库。
    • 选择飞书文档,选择自定义的自定义,输入###。
    • 飞书的文档内容会以###区分开来,可以点击编辑修改和删除。
    • 点击添加 Bot,添加好可以在调试区测试效果。
  2. 本地文档:
    • 注意如何拆分内容,提高训练数据准确度,将海报的内容训练的知识库里面。
    • 画小二这个课程 80 节课程,分为了 11 个章节,不能一股脑全部放进去训练。
    • 正确的方法是首先将 11 章的大的章节名称内容放进来,章节内详细内容按固定方式进行人工标注和处理。
    • 然后选择创建知识库自定义清洗数据。
  3. 发布应用:
    • 点击发布,确保在 Bot 商店中能够搜到。

此外,创建知识库并上传文本内容有以下方式:

  1. 在线数据:
    • 自动采集方式:适用于内容量大,需要批量快速导入的场景。
      • 在文本格式页签下,选择在线数据,然后单击下一步。
      • 单击自动采集。
      • 单击新增 URL。在弹出的页面完成输入要上传的网站地址、选择是否需要定期同步网站内容及周期等操作。
      • 当上传完成后单击下一步,系统会自动根据网站的内容进行内容分片。
    • 手动采集方式:适用于需要精准采集网页上指定内容的场景。
      • 安装扩展程序,详情请参考安装 Coze Scraper
      • 在文本格式页签下,选择在线数据,然后单击下一步。
      • 点击手动采集,然后在弹出的页面点击权限授予完成授权。
      • 在弹出的页面输入要采集内容的网址,然后单击确认。
      • 在弹出的页面上,点击页面下方文本标注按钮,开始标注要提取的内容,然后单击文本框上方的文本或链接按钮。
      • 单击查看数据查看已采集的内容,确认无误后再点击完成并采集。

Coze 的知识库功能不仅支持上传和存储外部知识内容,还提供了多样化的检索能力,主要包括两大核心能力:一是能够存储和管理外部数据;二是增强检索能力。Coze 支持从多种数据源,如本地文档、在线数据、Notion、飞书文档等渠道上传文本和表格数据。上传后,系统会自动将知识内容切分成多个片段进行存储,并允许用户自定义内容分片规则。Coze 还提供了多种检索方式来对存储的内容片段进行高效检索,例如全文检索可以通过关键词快速找到相关的内容片段并召回。基于这些召回的内容片段,大模型将生成最终的回复内容。Coze 支持上传文本内容及结构化表格数据,以适应各种使用场景。

Content generated by AI large model, please carefully verify (powered by aily)

References

【智能体】让Coze智能体机器人连上微信和微信群详细配置文档

本次创建知识库使用手动清洗数据,上节课程是自动清洗数据:[【智能体】用Coze在微信里搭建一个机器人,还能挖掘销售线索](https://a1i1hjmvcf0.feishu.cn/docx/JSdDd8ybLo7OHqxmePwcHlbLn3b?from=from_copylink),自动清洗数据会出现目前数据不准的情况,本节视频就尝试使用手动清洗数据,提高数据的准确性。[heading3]3.1在线知识库[content]点击创建知识库,创建一个画小二课程的FAQ知识库知识库的飞书在线文档,其中每个问题和答案以###分割,暂时不要问为什么。选择飞书文档选择自定义的自定义输入###然后他就将飞书的文档内容以###区分开来,这里可以点击编辑修改和删除。点击添加Bot添加好可以在调试区测试效果[heading3]3.2本地文档[content]本地word文件,这里要注意了~~~如何拆分内容,提高训练数据准确度,将海报的内容训练的知识库里面画小二这个课程80节课程,分为了11个章节,那训练数据能不能一股脑全部放进去训练呢。答案是~~不能滴~~~正确的方法,首先将11章的大的章节名称内容放进来,如下图所示。章节内详细内容格式如下如所示,如果你再分节的内容,依次类推细化下去。每个章节都按照这种固定的方式进行人工标注和处理然后选择创建知识库自定义清洗数据,这里不再赘述。[heading3]3.3发布应用[content]点击发布确保在Bot商店中能够搜到,如图所示可以搜索到画小二智能小助手,这个很重要,没有通过发布的获取不到API的。

创建并使用知识库

|上传方式|操作步骤||-|-||在线数据|扣子支持自动抓取指定URL的内容,也支持手动采集指定页面上的内容,上传到数据库。<br>自动采集方式:该方式适用于内容量大,需要批量快速导入的场景。<br>1.在文本格式页签下,选择在线数据,然后单击下一步。<br>2.单击自动采集。<br>3.单击新增URL。在弹出的页面完成以下操作:<br>3.1.输入要上传的网站地址。<br>3.2.选择是否需要定期同步网站内容,如果需要选择内容同步周期。<br>3.3.单击确认。<br>4.当上传完成后单击下一步。<br>系统会自动根据网站的内容进行内容分片。<br>手动采集:该方式适用于需要精准采集网页上指定内容的场景<br>1.安装扩展程序,详情请参考[安装Coze Scraper](https://www.coze.cn/docs/guides/scraper)。<br>2.在文本格式页签下,选择在线数据,然后单击下一步。<br>3.点击手动采集,然后在弹出的页面点击权限授予完成授权。<br>4.在弹出的页面输入要采集内容的网址,然后单击确认。<br>5.在弹出的页面上,点击页面下方文本标注按钮,开始标注要提取的内容,然后单击文本框上方的文本或链接按钮。<br>6.单击查看数据查看已采集的内容,确认无误后再点击完成并采集。<br>|

蓝衣剑客:四万字长文带你通学扣子

详细内容可至Coze官方手册了解:https://www.Coze.cn/docs/guides/knowledge[heading3]3.1知识库[content]Coze的知识库功能不仅支持上传和存储外部知识内容,还提供了多样化的检索能力。这一功能特别设计来解决大模型可能出现的幻觉问题和专业领域知识的不足,显著提升了大模型回复的准确性。Coze的知识库主要包括两大核心能力:一是能够存储和管理外部数据;二是增强检索能力。数据管理与存储Coze支持从多种数据源,如本地文档、在线数据、Notion、飞书文档等渠道上传文本和表格数据。上传后,系统会自动将知识内容切分成多个片段进行存储,并允许用户自定义内容分片规则,比如通过分段标识符或字符长度等方式进行内容分割。增强检索此外,Coze还提供了多种检索方式来对存储的内容片段进行高效检索,例如全文检索可以通过关键词快速找到相关的内容片段并召回。基于这些召回的内容片段,大模型将生成最终的回复内容。应用场景Coze支持上传文本内容及结构化表格数据,以适应各种使用场景。例如,在创建虚拟形象与用户交流时,你可以将相关语料保存在知识库中。后续Bot将通过向量匹配召回最相关语料,并模仿该虚拟形象的语言风格进行回答。在客服场景中,将用户常见问题和产品使用手册等信息上传至Coze知识库中,Bot可以利用这些信息精准地解答用户疑问。对于特定行业应用,如汽车领域,你可以创建包含各种车型详终参数的数据库,在用户查询特定车型信息时,Bot可通过召回相关记录进一步提供精确信息,如百公里油耗等详情。

Others are asking
怎么在飞书加入way to AGI的群聊?
在飞书加入 way to AGI 的群聊有以下几种方式: 1. 您可以在 WaytoAGI 飞书知识库首页找到加入飞书群的链接(下图二维码仅作示意,请在找到最新二维码),然后点击加入,直接@机器人即可。 2. 您可以扫描。 3. 请填写下面问卷进群,群内会分享最新 AI 信息、社区活动。
2025-02-01
怎么把通往AGI之路的网站加入飞书知识库当中?
要将通往 AGI 之路的网站加入飞书知识库,您可以参考以下步骤: 1. 请填写下面问卷进群,群内会分享最新 AI 信息、社区活动。 2. 加入群后,欢迎大家积极分享,我们也会吸收进知识库,因为有您的参与才让知识库更加完善。 3. 飞书群内置 AI 智能机器人,可以回复任何与 AI 相关的问题,欢迎加入。 4. 如果您对「飞书」这款效率工具感兴趣,或者您希望结交各行各业志同道合的朋友和他们交流企业/个人效率的提升,诚邀您访问「飞书官方社区——飞行社」。 5. 如需下载研究报告,我们诚邀您加入知识星球:数百份涵盖 AI 各个方面的报告,并提供内容概要。自 2023 年上半年建立以来,保持长期活跃更新。扫码右侧二维码,加入知识星球。更多合作与咨询,请访问:https://waytoagi.feishu.cn/wiki/Wj77wBWjbi0yUAkyJWdc2TKFnmd 。 此外,关于 WaytoAGI 还有以下相关信息: 我是 WaytoAGI 专属问答机器人,基于 Aily 和云雀大模型。「飞书智能伙伴创建平台」(英文名:Aily)是飞书团队旗下的企业级 AI 应用开发平台,提供了一个简单、安全且高效的环境,帮助企业轻松构建和发布 AI 应用,推动业务创新和效率提升。云雀是一款由字节跳动研发的语言模型,通过便捷的自然语言交互,能够高效的完成互动对话、信息获取、协助创作等任务。 WaytoAGI 知识库就像一位 24 小时在线的 AI 老师、一个永不嫌烦的知识管家、一个不断成长的智慧宝库。里面有 AI 工具的“傻瓜式说明书”、大神们的“踩坑经验分享”、实用的“一招制胜”秘籍等。开启宝藏的步骤:第一步,点击飞书链接(对,就是那个网址啦:)。里面的界面就像一张藏宝图,左边的导航栏是您的指南针,上面的搜索框是您的探宝雷达,中间的内容区是知识的海洋。
2025-02-01
Coze + 飞书 + 飞书多维表格:通过飞书机器人与 Coze 搭建的智能体进行对话,在聊天窗口中完成链接输入和阅读计划输出。由 Coze 调用大模型、插件完成内容的整理、推荐,利用飞书多维表格存储和管理稍后读数据,无需开发任何插件、APP,能实现跨平台的稍后读收集与智能阅读计划的推荐。其设计思路包括简化“收集”,实现跨平台收集和通过输入 URL 完成收集;自动化“整理入库”,自动整理关键信息并支持跨平台查看;智能“选择”推荐,根据收藏记录和用户兴趣生成阅读计划——这个方法具体如何操作?
以下是关于通过飞书机器人与 Coze 搭建的智能体进行对话,并利用飞书多维表格存储和管理稍后读数据,实现跨平台的稍后读收集与智能阅读计划推荐的具体操作方法: 前期准备: 1. 简化“收集”: 实现跨平台收集功能,支持电脑(web 端)、安卓、iOS 多端操作。 输入一个 URL 即可完成收集,借鉴微信文件传输助手的方式,通过聊天窗口完成收集输入。 2. 自动化“整理入库”: 系统在入库时自动整理每条内容的关键信息,包括标题、摘要、作者、发布平台、发布日期、收集时间和阅读状态。 阅读清单支持跨平台查看。 3. 智能“选择”推荐: 根据当前收藏记录和用户阅读兴趣进行相关性匹配,生成阅读计划。 使用飞书·稍后读助手: 1. 设置稍后读存储地址: 首次使用,访问。 点击「更多创建副本」,复制新表格的分享链接。 将新链接发送到智能体对话中。 还可以发送“查询存储位置”、“修改存储位置”来更换飞书多维表格链接,调整稍后读存储位置。 2. 收藏待阅读的页面链接: 在对话中输入需要收藏的页面链接,第一次使用会要求授权共享数据,授权通过后再次输入即可完成收藏。但目前部分页面链接可能小概率保存失败。 3. 智能推荐想看的内容: 在对话中发送“我想看 xx”、“xx 内容”,即可按个人兴趣推荐阅读计划。 至此,专属 AI 稍后读智能体大功告成,您可以尽情享受相关服务。
2025-01-27
如何用飞书搭建自己的智能体详细步骤
以下是用飞书搭建自己的智能体的详细步骤: 1. 了解智能体的基本概念: 智能体大多建立在大模型之上,从基于符号推理的专家系统逐步演进而来。 基于大模型的智能体具有强大的学习能力、灵活性和泛化能力。 提示词的设计对智能体的表现和输出结果有直接影响。 2. 动手实践: 基于公开的大模型应用产品(如 Chat GLM、Chat GPT、Kimi 等)尝试开发。 具体步骤: 点击“浏览 GPTs”按钮。 点击“Create”按钮创建自己的智能体。 使用自然语言对话进行具体设置或手工设置。 开始调试智能体并发布。 3. 利用 Coze + 飞书多维表格搭建: 配置得到两个可用的工作流(整理入库、选择内容)。 编排成为完整的智能体,配置过程包括: 创建 Bot。 填写 Bot 介绍。 切换模型为“通义千问”(测试下来,通义对提示词理解、执行效果最好)。 把配置好的工作流添加到 Bot 中。 新增变量{{app_token}}。 添加外层 bot 提示词(可按需求和实际效果优化调整)。 完成上述步骤后,可在「预览与调试」窗口与 AI 稍后读智能体对话并使用全部功能。
2025-01-26
如何用飞书搭建自己的智能体
以下是用飞书搭建自己的智能体的步骤: 1. 智能体配置: 在“选择智能体配置模式”环节,如果选择“Zion 默认智能体”,系统会自动填充官方 Bot ID、OAuth 应用 ID 以及一对公私钥,并预设头像与昵称。 若要配置自己的 Coze 智能体,需将“准备工作”环节中获取的 Bot ID、OAuth 应用 ID 以及一对公私钥填写进对应输入框并完成配置。 进行用户权限配置,包括新用户注册赠送时长(以分钟为单位)和未登录用户免费体验时长(以分钟为单位),且时长可自行修改。 2. 逐步搭建 AI 智能体: 创建 Bot。 填写 Bot 介绍。 切换模型为“通义千问”,测试表明通义对提示词理解和执行效果较好。 把配置好的工作流添加到 Bot 中。 新增变量{{app_token}}。 添加外层 bot 提示词(可按需求和实际效果优化调整)。完成上述步骤后,在「预览与调试」窗口,即可与 AI 智能体对话并使用全部功能。
2025-01-26
Dify如何调用飞书智能表格
Dify 调用飞书智能表格的方法如下: 1. 部署完成后,可以通过以下方式使用飞书·稍后读助手: 得益于飞书 app 的多平台支持,在电脑、手机端通过飞书机器人与稍后读助手进行对话。 直接在 Coze 商店中与 bot 进行对话。 如果还选择了部署到微信服务号、订阅号,也可以通过这些渠道调用 bot。 2. 设置稍后读存储地址: 首次使用,按以下步骤操作: 访问。 点击「更多创建副本」,然后复制新表格的分享链接。 将新链接发送到智能体对话中。 另外,还可以发送“查询存储位置”、“修改存储位置”,来更换飞书多维表格链接,调整稍后读存储位置。 3. 收藏待阅读的页面链接: 在对话中输入需要收藏的页面链接。如果是第一次使用,会要求授权共享数据。授权通过后,再次输入需要收藏的页面链接,即可完成收藏。 目前部分页面链接可能会小概率保存失败,暂未定位原因。 4. 智能推荐想看的内容: 在对话中发送“我想看 xx”、“xx 内容”,即可按个人兴趣推荐阅读计划。 此外,关于 Dify 在微信上的调用,可参考以下信息: GitHub: https://github.com/zhayujie/chatgptonwechat Gitee: https://gitee.com/zhayujie/chatgptonwechat 这里先暂时不过多介绍 Dify,它跟 AutoGPT、MetaGPT、FastGPT 等都是可以自己构建 Agent、工作流的 LLM 应用开发平台。AM 就是搭建在 Dify 上面的。 说回 LlamaEdge,可以自建一个 API 扩展来实现调用上面的 FLUX.1 API Server(套娃)。 API 扩展说明,可以查看:https://docs.dify.ai/zhhans/guides/extension/apibasedextension,但貌似 0.8.3 的版本不再使用了(dify 里面有不少功能更新缺陷或版本冲突,所以使用时需要自行修改或提交 PR)。 也可以引入项目,在 bot/dify/新建一个 dify_image.py 的程序,将画图程序的调用过程写到 dify bot 中,如用 query“画”开头接提示来触发调用。dify_image.py 后续会更新到代码仓库中。 图片服务器,很简单,分别写一个 Flask app 程序和一个 html: app.py template/index.html 以上代码都可以由 Phind、Copilot、Cursor、Zed + ollama + 一个代码大模型代劳,但架构感觉整复杂了不够优雅,后面整理好打包一个解决方案再提交一个 repo。
2025-01-24
coze
Coze 是由字节跳动推出的具有多种功能和特点的平台: 1. 可以接入抖音评论区,帮用户自动回复评论。 2. 是字节跳动旗下子公司推出的 AI Agent 构建工具,允许用户在无编程知识的基础上,使用自然语言和拖拽等方式构建 Agent,目前可以白嫖海量的大模型免费使用,有丰富的插件生态。 3. 记账管家是基于 Coze 平台的能力搭建的记账应用,用户可以直接告知收入或支出情况,Coze 会自动记账并计算账户余额,且不会丢失记账记录。 4. 作为 AI 聊天机器人和应用程序编辑开发平台,专为开发下一代 AI 聊天机器人而设计,旨在简化 AI 机器人的开发过程,使得无论是开发者还是非技术用户,都能够快速搭建基于 AI 模型的各类问答 Bot,处理从简单问答到复杂逻辑对话的任务。 5. 主要特点包括: 多语言模型支持,如 GPT48K 和 GPT4128K,并提供云雀语言模型等。 集成超过 60 款插件,涵盖资讯阅读、旅游出行、效率办公、图片理解等功能,同时支持用户创建自定义插件。 具有知识库功能,允许用户上传和管理多种格式的数据。 提供数据库功能,允许 Bot 访问会话内存和上下文,持久记住用户对话中的重要参数或内容。 支持通过拖拉拽的方式快速搭建工作流,处理逻辑复杂的任务流,提供大量灵活可组合的节点。 具有多代理模式,在一个机器人中可以运行多个任务,允许添加多个代理。 目前对用户完全免费。 易于发布和分享,用户可以将搭建的 Bot 发布到各类社交平台和通讯软件上。 如果您想了解更多关于 Coze 的详细内容,可以参考以下链接:
2025-02-05
coze中使用搜索插件,是不是无法搜索最新的新闻
Coze 集成了新闻搜索插件,其中的头条新闻插件能够持续更新,让您了解最新的头条新闻和新闻文章。所以在 Coze 中使用搜索插件是可以搜索到最新新闻的。Coze 还提供了多样化的插件库,涵盖了从基础的文本处理到高级的机器学习功能,以及众多符合平民生活化的插件,如天气预报、出行必备、生活便利等方面的插件。
2025-02-04
coze的主要应用
Coze 是由字节跳动推出的 AI 聊天机器人和应用程序编辑开发平台,主要应用包括: 1. 简化 AI 机器人的开发过程,使开发者和非技术用户都能快速搭建基于 AI 模型的各类问答 Bot,处理从简单问答到复杂逻辑对话的任务。 2. 支持多语言模型,如 GPT48K 和 GPT4128K,并提供云雀语言模型等,以支持不同场景下的对话和交互。 3. 集成超过 60 款插件,涵盖资讯阅读、旅游出行、效率办公、图片理解等功能,同时支持用户创建自定义插件,扩展 Bot 的能力。 4. 允许用户上传和管理数据,支持 Bot 与用户数据交互,可上传多种格式的文档,或基于 URL 获取在线内容和 API JSON 数据。 5. 提供数据库功能,允许 Bot 访问会话内存和上下文,持久记住用户对话中的重要参数或内容。 6. 用户可以通过拖拉拽的方式快速搭建工作流,处理逻辑复杂的任务流,提供大量灵活可组合的节点。 7. 支持多代理模式,在一个机器人中运行多个任务,允许添加多个代理,每个代理都能独立执行特定任务。 8. 对用户完全免费。 9. 易于发布和分享,用户可将搭建的 Bot 发布到各类社交平台和通讯软件上。 此外,Coze 在移动端的排名表现出色,如在 TikTok 母公司字节跳动的相关产品中,Coze 首次出现在榜单上,排名第 45 位。
2025-02-04
coze工作流搭建
以下是在 Coze 上搭建工作流的步骤: 1. 进入 Coze ,点击「个人空间 工作流 创建工作流」,打开创建工作流的弹窗。 2. 根据弹窗要求,自定义工作流信息,点击确认完成工作流的新建。 3. 新建完成后,可以看到整个编辑视图与功能。在左侧「选择节点」模块中,根据子任务需要,实际用到的有: 插件:提供一系列能力工具,拓展 Agent 的能力边界。例如本案例中涉及的思维导图、英文音频,因无法通过 LLM 生成,需依赖插件实现。 大模型:调用 LLM ,实现各项文本内容的生成。如本案例中的中文翻译、英文大纲、单词注释等都依赖大模型节点。 代码:支持编写简单的 Python、JS 脚本,对数据进行处理。 4. 编辑面板中的开始节点、结束节点,分别对应分解子任务流程图中的原文输入和结果输出环节。 5. 按照流程图,在编辑面板中拖入对应的 LLM 大模型、插件、代码节点,即可完成工作流框架的搭建。 此外,在“用 Coze 搭建一个神奇宠物诞生器”的工作流中,“定制召唤”工作流是“随机召唤”工作流的变种。对于“定制召唤”工作流,需要修改的节点包括: 开始节点:新增一个输入变量,定义为 keywords ,用于接收用户输入的宠物种类(动物或者植物)。 代码节点:要将特定的宠物种类关键词嵌入到描述 prompt 里。例如,如果召唤师输入“熊猫”,R 属性的宠物描述就要修改为“一个朴素小熊猫宠物,可爱,圆滚滚的,大眼睛,毛茸茸的。画风参考著名动画片《神奇宝贝》”,SR 和 SSR 依次类推。描述 prompt 变成三段字符串相加的情况,即原描述第一段+宠物种类+原描述第二段。其余节点均与“随机召唤工作流一致”。
2025-02-03
coze平台有没有DeepSeek的mml可以调用
在 Coze 平台上,DeepSeek 是可以调用的。以下是相关的具体信息: 效果对比:用 Coze 做了个小测试,大家可以对比看看,相关视频 如何使用: 搜索 www.deepseek.com,点击“开始对话” 将装有提示词的代码发给 Deepseek 认真阅读开场白之后,正式开始对话 设计思路: 将 Agent 封装成 Prompt,将 Prompt 储存在文件,保证最低成本的人人可用的同时,减轻自己的调试负担 通过提示词文件,让 DeepSeek 实现同时使用联网功能和深度思考功能 在模型默认能力的基础上优化输出质量,并通过思考减轻 AI 味,增加可读性 照猫画虎参考大模型的 temperature 设计了阈值系统,但是可能形式大于实质,之后根据反馈可能会修改 用 XML 来进行更为规范的设定,而不是用 Lisp(对您来说有难度)和 Markdown(运行下来似乎不是很稳定) 完整提示词:v 1.3 特别鸣谢:李继刚的【思考的七把武器】在前期为提供了很多思考方向;Thinking Claude 这个项目是现在最喜欢使用的 Claude 提示词,也是设计 HiDeepSeek 的灵感来源;Claude 3.5 Sonnet 是最得力的助手。
2025-02-03
COZE相关内容
以下是关于 Coze 的相关内容: 扣子案例合集:包括智能对话科学防癌 AI 赋能肿瘤防治行动、打造私人播客助手、开发 AI chatbot 短视频爆款案例初探、制作 MidJourney 提示词专家、创建 AI 绘画助手、搓一个乞丐版的秘塔搜索、搞一个简单的安全 AI 助手、手搓英语陪练教师、为开源 AI 社区搞社群运营机器人等案例。 通俗易懂的 Coze 数据库文章:作者大圣致力于使用 AI 技术将自己打造为超级个体的程序员。本文是关于数据库概念的细化,旨在从非编程人士角度讲清数据库概念和基本使用,不会陷入传统教学讲 SQL 语法,而是通过和 Excel 对比让读者了解本质概念,从而更好利用 ChatGPT 等工具。另外作者还预告了关于 AI 时代应具备的编程基础系列大纲。 大圣的胎教级教程:Coze 是新一代一站式 AI Bot 开发平台,无论有无编程基础都可快速搭建各类问答 Bot。字节针对 Coze 部署了国内版和海外版两个站点,国内版使用字节自研的云雀大模型,国内网络可正常访问;海外版使用 GPT4、GPT3.5 等大模型,访问需突破网络限制。Bot 的开发和调试页面布局主要分为提示词和人设区块、Bot 的技能组件、插件、工作流、Bot 的记忆组件(包括知识库、变量、数据库、长记忆、文件盒子)、一些先进的配置(如触发器、开场白、自动建议、声音)等,后续会逐一讲解每个组件的能力及使用方式。
2025-02-02
如何用AI工具做一个个人工作知识库
以下是使用 AI 工具创建个人工作知识库的方法: 1. 使用 AnythingLLM 软件: 安装地址:https://useanything.com/download 。 安装完成后进入配置页面,主要分为三步: 第一步:选择大模型。 第二步:选择文本嵌入模型。 第三步:选择向量数据库。 在 AnythingLLM 中创建自己独有的 Workspace 与其他项目数据隔离。 首先创建一个工作空间,上传文档并在工作空间中进行文本嵌入,选择对话模式。 AnythingLLM 提供了两种对话模式:Chat 模式(大模型会根据自己的训练数据和上传的文档数据综合给出答案)和 Query 模式(大模型仅仅会依靠文档中的数据给出答案)。 完成配置后即可与大模型进行对话。 2. 基于 Coze 免费打造: 确定功能范围,编写 prompt 提示词,设定 Bot 的身份和目标。 创建知识库,整理“关键字”与“AI 相关资料链接”的对应关系,并将信息存储起来。创建知识库路径:个人空间 知识库 创建知识库。知识库文档类型支持本地文档、在线数据、飞书文档、Notion 等,本次使用【本地文档】。按照操作指引上传文档、分段设置、确认数据处理。小技巧:在内容中加上一些特殊分割符,比如“”,以便于自动切分数据。分段标识符号要选择“自定义”,内容填“”。 创建工作流,告诉 AI 机器人应该按什么流程处理信息。创建工作流路径:个人空间 工作流 创建工作流。工作流设计好后,先点击右上角“试运行”,测试工作流无误后,就可以点击发布。如果任务和逻辑复杂,可以结合左边“节点”工具来实现。 私人知识库中的内容一般有两种:日常从互联网收集的优质信息和个人日常的思考以及分享。如果想基于这套知识库打造个人专属的 ChatGPT,常见的有两种技术方案:训练专有大模型和利用 RAG(检索增强生成)技术。训练专有大模型效果虽好,但存在高成本、更新难度大等缺陷,并非当下主流方案。
2025-02-04
lmstudio可以支持联网搜索和本地知识库rag吗?如何实现?
LMStudio 能否支持联网搜索和本地知识库 RAG 以及如何实现的问题如下: 实现本地知识库 RAG 需加载所需的库和模块,如用于解析 RSS 订阅源的 feedparse,用于在 Python 程序中跑大模型的 ollama(使用前需确保 ollama 服务已开启并下载好模型)。 从订阅源获取内容,通过特定函数从指定的 RSS 订阅 URL 提取内容,若需接收多个 URL 稍作改动即可。然后用专门的文本拆分器将长文本拆分成较小的块,并附带相关元数据,最终合并成列表返回用于后续处理或提取。 为文档内容生成向量,可使用文本向量模型 bgem3(从 hf 下载好模型假设放置在某个路径,通过函数利用 FAISS 创建高效的向量存储)。 实现 RAG 包括文档加载(从多种来源加载文档,LangChain 提供 100 多种文档加载器)、文本分割(把 Documents 切分为指定大小的块)、存储(将切分好的文档块嵌入转换成向量形式并存储到向量数据库)、检索(通过检索算法找到与输入问题相似的嵌入片)、Output(把问题及检索出的嵌入片提交给 LLM 生成答案)。 基于用户问题从向量数据库中检索相关段落,根据设定阈值过滤,让模型参考上下文信息回答,从而实现 RAG。 还可创建网页 UI 并进行评测,对于同样的问题和上下文,基于不同模型进行多次测试,其中 GPT4 表现最好,Mixtral 次之,Qwen7b 第三,Gemma 和 Mistral 表现一般。总结来说,本文展示了如何使用 Langchain 和 Ollama 技术栈在本地部署资讯问答机器人,结合 RSSHub 处理和提供资讯,上下文数据质量和大模型性能决定 RAG 系统性能上限,RAG 能提升答案质量和相关性,但不能完全消除大模型幻觉和信息滞后问题。
2025-02-04
如何建立个人领域的个人知识库
以下是建立个人领域个人知识库的方法: 1. 使用 embeddings: 将文本转换成向量(一串数字),可理解为索引,能节省空间。 把大文本拆分成若干小文本块(chunk),通过 embeddings API 将其转换成 embeddings 向量,与文本块语义相关。 在向量储存库保存 embeddings 向量和文本块,作为问答的知识库。 当用户提问时,将问题转换成向量,与向量储存库的向量比对,提取关联度高的文本块,与问题组合成新的 prompt 发送给 GPT API。 例如,对于“此文作者是谁?”的问题,可提取关联度高的文本块,如“本文作者:越山。xxxx。”“《反脆弱》作者塔勒布xxxx。” 2. 理解 embeddings: embeddings 是浮点数字的向量(列表),向量之间的距离衡量关联性,小距离表示高关联度,大距离表示低关联度。 向量是用一串数字表示大小和方向的量,在计算机科学中常用列表表示。 常见的计算向量距离的方法是欧几里得距离。 在 OpenAI 词嵌入中,靠近的向量词语在语义上相似。 3. GPT 模型索引库 LlamaIndex: LlamaIndex 是更高一层 LangChain 的抽象,之前叫 GPT Index。 它简化了 LangChain 对文本分割和查询的接口,提供了更丰富的 Data Connector。 LlamaIndex 只针对 GPT Model 做 Index,而 LangChain 可对接多个 LLMs,可扩展性更强。 需要注意的是,GPT3.5 一次交互支持的 Token 有限,OpenAI 提供了 embedding API 解决方案。随着技术发展,AI 的开发和使用门槛会降低,垂直领域知识库的搭建和优化更多是业务问题。
2025-02-03
构建自己的知识库
构建自己的知识库可以通过以下方式实现: 1. 利用 GPT 打造个人知识库: GPT3.5 免费版的 ChatGPT 一次交互支持的 Token 有限,对于多数领域知识容量不够。 OpenAI 提供了 embedding API 解决方案,embeddings 是浮点数字的向量,向量间距离衡量关联性,小距离表示高关联度。 参考 OpenAI embedding documents 了解更多。 2. 本地部署大模型以及搭建个人知识库: 若要更灵活掌控知识库,可使用额外软件 AnythingLLM,其包含 Open WebUI 的能力,并支持选择文本嵌入模型和向量数据库。 安装地址:https://useanything.com/download 。 安装完成后进入配置页面,主要分为三步:选择大模型、选择文本嵌入模型、选择向量数据库。 在 AnythingLLM 中创建独有的 Workspace 与其他项目数据隔离,包括创建工作空间、上传文档并进行文本嵌入、选择对话模式(Chat 模式综合给出答案,Query 模式仅依靠文档数据给出答案),配置完成后可进行测试对话。 3. 了解 RAG 技术: 利用大模型搭建知识库是 RAG 技术的应用。 在进行本地知识库搭建实操前,需对 RAG 有大概了解。 RAG 应用可抽象为 5 个过程:文档加载(从多种来源加载文档,LangChain 提供 100 多种文档加载器)、文本分割(把 Documents 切分为指定大小的块)、存储(包括将文档块嵌入转换成向量形式和将向量数据存储到向量数据库)、检索(通过检索算法找到与输入问题相似的嵌入片)、输出(把问题及检索出的嵌入片提交给 LLM 生成答案)。 文本加载器是将用户提供的文本加载到内存中以便后续处理。
2025-02-03
大模型搭建知识库的逻辑是什么
大模型搭建知识库的逻辑主要包括以下几个方面: 1. 理解 RAG 技术:利用大模型搭建知识库本质上是 RAG 技术的应用。在大模型训练数据有截止日期或不包含所需数据时,通过检索增强生成(RAG)来解决。RAG 可抽象为 5 个过程: 文档加载:从多种来源加载包括非结构化、结构化和代码等不同类型的文档。 文本分割:把文档切分为指定大小的块。 存储:包括将切分好的文档块嵌入转换成向量形式,并将向量数据存储到向量数据库。 检索:通过检索算法找到与输入问题相似的嵌入片。 输出:把问题及检索出来的嵌入片一起提交给大模型,生成更合理的答案。 2. 构建知识库各个流程: 从用户提出问题开始,经历用户问题的理解、路由、初步检索、重排序等环节,最终将重排序后的结果和用户的查询意图组合成上下文输入给大模型生成输出结果。需要注意重排序结果的使用限制,如设置阈值进行截断或筛选相关性分数等。 后置处理包括敏感内容检测和移除、格式化输出等。 3. 知识库的需求:大模型并非 100%准确,存在数据日期限制和无法感知公司内部私有数据等问题,知识库的出现就是为解决大模型的数据准确性问题。例如在客服系统中,公司将用户问题及答案记录在文档中以知识库形式投喂给大模型,使其能更准确回答用户自然语言询问的问题。
2025-02-03
文档翻译
以下是将英文 PDF 完整翻译成中文的方法: 1. DeepL(网站): 点击页面「翻译文件」按钮,上传 PDF、Word 或 PowerPoint 文件即可。 2. 沉浸式翻译(浏览器插件): 安装插件后,点击插件底部「更多」按钮,选择「制作双语 BPUB 电子书」、「翻译本地 PDF 文件」、「翻译 THML/TXT 文件」、「翻译本地字幕文件」。 3. Calibre(电子书管理应用): 下载并安装 calibre,并安装翻译插件「Ebook Translator」。 4. 谷歌翻译(网页): 使用工具把 PDF 转成 Word,再点击谷歌翻译「Document」按钮,上传 Word 文档。 5. 百度翻译(网页): 点击导航栏「文件翻译」,上传 PDF、Word、Excel、PPT、TXT 等格式的文件,支持选择领域和导出格式(不过进阶功能基本都需要付费)。 6. 彩云小译(App):下载后点击「文档翻译」,可以直接导入 PDF、DOC、DOCX、PPT、PPTX、TXT、epub、srt 等格式的文档并开始翻译(不过有免费次数限制且进阶功能需要付费)。 7. 微信读书(App):下载 App 后将 PDF 文档添加到书架,打开并点击页面上方「切换成电子书」,轻触屏幕唤出翻译按钮。 8. 浏览器自带的翻译功能:如果一些 PDF 太大,翻译工具不支持,除了将 PDF 压缩或者切分外,还可以转成 HTML 格式,然后使用浏览器自带的网页翻译功能。 此外,在文档翻译工程侧方案中: 文件解析:从用户上传的 PDF 等格式的文档中解析出文字,智谱开放平台提供了限时免费的文件解析服务 API。 预处理:提取出的文本可能会包含一些不必要的空格、特殊字符或者格式信息,需要对这些文本进行预处理,清除格式,标准化空格,以便于进行翻译。 片段切分:当页面内容较长时,可以通过切分片段,并通过高并发请求大模型来减少整体耗时。 模型调用:将预处理后的文本拼到 Prompt 模板中请求智谱模型 API。 结果整合:翻译完成后,将翻译后的译文按照期望的样式展示在用户交互界面中。 同一词语在不同行业、场景的含义不同,推荐您以 KV 对的形式进行专有名词的翻译。未来,随着大模型的不断迭代,GLM 等大语言模型将成为多语言翻译的主流核心底层技术,为全球用户带来更加精准、流畅的翻译体验。
2025-01-30
能够翻译长篇英文文档最好的AI是谁?
目前在翻译长篇英文文档方面,没有绝对的“最好”的 AI 。不同的 AI 翻译工具都有其特点和优势,例如谷歌翻译、百度翻译、有道翻译等。它们的翻译质量会受到文档的领域、语言风格、复杂程度等多种因素的影响。您可以根据具体的需求和文档特点,对不同的翻译工具进行尝试和比较,以找到最适合您的那一个。
2025-01-29
免费好用的Ai画布,可用于整理文档、思维导图
以下为您推荐一些免费好用的可用于整理文档、思维导图的 AI 画布工具: 1. Imagen 3: 功能点: 图像生成:根据用户输入的 Prompt 生成图像。 Prompt 智能拆解:能够自动拆解用户输入的 Prompt,并提供下拉框选项。 自动联想:提供自动联想功能,帮助用户选择更合适的词汇。 优势: 无需排队:用户可以直接使用,无需排队。 免费使用:目前 Imagen 3 是免费提供给用户使用的。 交互人性化:提供了人性化的交互设计,如自动联想和下拉框选项。 语义理解:具有较好的语义理解能力,能够根据 Prompt 生成符合描述的图像。 灵活性:用户可以根据自动联想的功能,灵活调整 Prompt 以生成不同的图像。 2. FunBlocks AIFlow: FunBlocks 是一个效率工具集成平台,集成了 AI Graphics(绘图)、AI Mindmap(思维导图)、AI Slides(演示文稿)、AI Youtube Summarizer(视频总结)等等多款 AI 应用。 FunBlocks AIFlow 是平台内一款自由画布类工具,近期更新后变得更加好用了!输入探索主题后,AI 会将其自动拆解成不同模块,并支持每个节点的深度编辑(包括外观设置、节点组合、内容编辑、内容可视化、生成文章等)。而且!FunBlocks AIFlow 还支持自由节点上传链接、图片、视频、笔记、任务列表等多种内容形式,对于多模态交互需求非常友好。 3. Lucidchart: 简介:Lucidchart 是一个强大的在线图表制作工具,集成了 AI 功能,可以自动化绘制流程图、思维导图、网络拓扑图等多种示意图。 功能: 拖放界面,易于使用。 支持团队协作和实时编辑。 丰富的模板库和自动布局功能。 官网:https://www.lucidchart.com/ 4. Microsoft Visio: 简介:Microsoft Visio 是专业的图表绘制工具,适用于复杂的流程图、组织结构图和网络图。其 AI 功能可以帮助自动化布局和优化图表设计。 功能: 集成 Office 365,方便与其他 Office 应用程序协同工作。 丰富的图表类型和模板。 支持自动化和数据驱动的图表更新。 官网:https://www.microsoft.com/enus/microsoft365/visio/flowchartsoftware 5. Diagrams.net: 简介:Diagrams.net 是一个免费且开源的在线图表绘制工具,适用于各种类型的示意图绘制。 功能: 支持本地和云存储(如 Google Drive、Dropbox)。 多种图形和模板,易于创建和分享图表。 可与多种第三方工具集成。 官网:https://www.diagrams.net/
2025-01-26
Ai画布,可用于整理文档、思维导图
以下是一些关于 AI 画布可用于整理文档、思维导图的相关信息: 自由画布类 AIGC 工具: Flowith 2.0:是一款出海应用,在具备 Refly 几乎所有功能的基础上,有很多独特设计。如知识库允许自行上传制作并发布,还能添加或购买他人的知识库;内容编辑器有多种模式;强化了 Agent 功能设计和对话模式;支持团队协作。 FunBlocks AIFlow:是 FunBlocks 效率工具集成平台内的一款自由画布类工具,输入探索主题后,AI 会自动拆解成不同模块,并支持每个节点的深度编辑,还支持多种内容形式的自由节点上传。 AI 画示意图的工具和步骤: 假设创建项目管理流程图,可使用 Lucidchart,步骤如下: 1. 注册并登录: 2. 选择模板:在模板库中搜索“项目管理流程图”。 3. 编辑图表:根据项目需求添加和编辑图形和流程步骤。 4. 优化布局:利用 AI 自动布局功能,优化图表外观。 5. 保存和分享:保存图表并与团队成员分享,或导出为 PDF、PNG 等格式。 绘制示意图的推荐 AI 工具和平台: Lucidchart:强大的在线图表制作工具,集成 AI 功能,可绘制多种示意图,具有拖放界面、支持团队协作和实时编辑、丰富模板库和自动布局功能等。官网: Microsoft Visio:专业的图表绘制工具,适用于复杂图表,AI 功能可帮助自动化布局和优化设计,集成 Office 365,有丰富图表类型和模板,支持自动化和数据驱动的图表更新。官网: Diagrams.net:免费开源的在线图表绘制工具,适用于各种示意图绘制,支持本地和云存储,有多种图形和模板,易于创建和分享图表,可与多种第三方工具集成。官网:
2025-01-26
大模型下文档投喂后,大模型是如何解读文档提取出答案?
大模型在文档投喂后解读文档并提取答案的过程通常包括以下步骤: 1. 问题解析阶段:接收并预处理问题,通过嵌入模型(如 Word2Vec、GloVe、BERT)将问题文本转化为向量,以确保问题向量能有效用于后续检索。 2. 知识库检索阶段:知识库中的文档同样向量化后,比较问题向量与文档向量,选择最相关的信息片段,并抽取相关信息传递给下一步骤。 3. 信息整合阶段:接收检索到的信息,与上下文构建形成融合、全面的信息文本。整合信息准备进入生成阶段。 4. 大模型生成回答:整合后的信息被转化为向量并输入到 LLM(大语言模型),模型逐词构建回答,最终输出给用户。 在这个过程中还包括以下信息处理步骤: 1. 信息筛选与确认:系统会对检索器提供的信息进行评估,筛选出最相关和最可信的内容,同时对信息的来源、时效性和相关性进行验证。 2. 消除冗余:识别和去除多个文档或数据源中可能存在的重复信息,以防在生成回答时出现重复或相互矛盾的信息。 3. 关系映射:分析不同信息片段之间的逻辑和事实关系,如因果、对比、顺序等,构建一个结构化的知识框架,使信息在语义上更加连贯。 4. 上下文构建:将筛选和结构化的信息组织成一个连贯的上下文环境,包括对信息进行排序、归类和整合,形成一个统一的叙述或解答框架。 5. 语义融合:在必要时,合并意义相近但表达不同的信息片段,以减少语义上的重复并增强信息的表达力。 6. 预备生成阶段:整合好的上下文信息被编码成适合生成器处理的格式,如将文本转化为适合输入到生成模型的向量形式。 最终,全新的上下文被一起传递给大语言模型。由于这个上下文包括了检索到的信息,大语言模型相当于同时拿到了问题和参考答案,通过 LLM 的全文理解,最后生成一个准确和连贯的答案。 相关概念: LLM:Large language model 的缩写,即大语言模型。 Prompt:中文译作提示词,是输入给大模型的文本内容,可以理解为和大模型说的话、下达的指令。 Token:大模型语言体系中的最小单元,不同厂商的大模型对中文文本的切分方法不同,通常 1Token≈12 个汉字,大模型的收费计算方法及对输入输出长度的限制通常以 token 为单位计量。 上下文:英文通常翻译为 context,指对话聊天内容前、后的内容信息,上下文长度和上下文窗口都会影响大模型回答的质量。
2025-01-23
根据文档做ppt 的软件有什么
以下是一些根据文档做 PPT 的软件: 1. Gamma:在线 PPT 制作网站,可通过输入文本和想法提示快速生成幻灯片,支持嵌入多媒体格式。网址:https://gamma.app/ 2. 美图 AI PPT:由美图秀秀开发团队推出,通过输入简单文本描述生成专业 PPT 设计,有丰富模板库和设计元素。网址:https://www.xdesign.com/ppt/ 3. Mindshow:AI 驱动的 PPT 辅助工具,提供智能设计功能,如自动布局、图像选择和文本优化等。网址:https://www.mindshow.fun/ 4. 讯飞智文:科大讯飞推出的 AI 辅助文档编辑工具,利用语音识别和自然语言处理技术,提供智能文本生成等功能。网址:https://zhiwen.xfyun.cn/ 5. SlidesAI 6. Decktopus AI 7. Tome 8. MagicSlides 9. Presentations.AI 10. Canva 11. Simplified 12. GlimmerAI 13. Sendsteps 14. Plus AI 15. Microsoft 365 Copilot 16. Canva Magic Design 17. ChatGPT 18. Beautiful.AI 此外,百度文库的橙篇也是综合性 AI Native 产品,集多种功能于一身。部分软件还支持在左侧修改格式和内容,右侧实时预览效果,完成后可下载为 PPTX 或 PDF 格式文件保存。
2025-01-21