以下是创建 Coze 知识库的步骤:
关于使用知识库,您可以查看教程:大圣:胎教级教程:万字长文带你使用 Coze 打造企业级知识库 。
讲了一大堆,终于到了实战的环节了。这里我虽然使用Coze举例子,但是我希望可以帮助你举一反三,未来在接触到FastGPT、Dify等等AI Agent工具的时候都能快速的上手知识库组件。因为你了解了RAG的本质之后,无论什么知识库工具,本质都是一个皮而已!这些也是写这篇文章的目的:让你做到知其然,知其所以然[heading2]创建知识库[content]1.来到个人空间,找到知识库导航栏,点击创建知识库这里我想说明的是,知识库是共享资源,也就是你的多个Bot可以引用同一个知识库1.选择知识库的格式,填写一些信息目前(2024.06.08)Coze支持三种格式文档表格(CSV、Excel等)图片(其实就是上传一张图片,然后填写个图片文字说明)这里格式并不重要,重要的是你要看懂上个章节讲的:影响RAG输出质量的因素1.我这里选择本地文档(问答对可以选择表格)[购买后新人常见问题汇总.txt](https://bytedance.feishu.cn/space/api/box/stream/download/all/FNqobmfgBo5eGHxfZJ1cbOJ9n1H?allow_redirect=1)1.选择自定义的文档切割1.数据处理完成当数据处理完成后,你会发现,一个问答对被切割成一了一个文档片[heading2]使用知识库[content]关于使用知识库,大家可以看这篇教程:[大圣:胎教级教程:万字长文带你使用Coze打造企业级知识库](https://waytoagi.feishu.cn/wiki/CT3UwDM8OiVmOOkohPbcV3JCndb),这篇文章已经讲的很详细了,这里就不再赘述了
本次创建知识库使用手动清洗数据,上节课程是自动清洗数据:[【智能体】用Coze在微信里搭建一个机器人,还能挖掘销售线索](https://a1i1hjmvcf0.feishu.cn/docx/JSdDd8ybLo7OHqxmePwcHlbLn3b?from=from_copylink),自动清洗数据会出现目前数据不准的情况,本节视频就尝试使用手动清洗数据,提高数据的准确性。[heading3]3.1在线知识库[content]点击创建知识库,创建一个画小二课程的FAQ知识库知识库的飞书在线文档,其中每个问题和答案以###分割,暂时不要问为什么。选择飞书文档选择自定义的自定义输入###然后他就将飞书的文档内容以###区分开来,这里可以点击编辑修改和删除。点击添加Bot添加好可以在调试区测试效果[heading3]3.2本地文档[content]本地word文件,这里要注意了~~~如何拆分内容,提高训练数据准确度,将海报的内容训练的知识库里面画小二这个课程80节课程,分为了11个章节,那训练数据能不能一股脑全部放进去训练呢。答案是~~不能滴~~~正确的方法,首先将11章的大的章节名称内容放进来,如下图所示。章节内详细内容格式如下如所示,如果你再分节的内容,依次类推细化下去。每个章节都按照这种固定的方式进行人工标注和处理然后选择创建知识库自定义清洗数据,这里不再赘述。[heading3]3.3发布应用[content]点击发布确保在Bot商店中能够搜到,如图所示可以搜索到画小二智能小助手,这个很重要,没有通过发布的获取不到API的。
网址:Coze.cn2、创建[heading2]2、人设与回复逻辑设置[heading2]3、创建知识库[content]选择文本创建知识库选择飞书,因为我的很多资料都在飞书里面存着[heading3]3.1飞书知识库[content]在飞书里面选择对应的文件夹,一次做多智能选择20个文件(如果文件大于20个可以多建几个知识库)可以选择自动进行数据清洗,数据清洗不是要不数据清楚,而是把数据进行类结构化整理数据清洗进度内容中的图片资料也会保留测试对话,基本反馈正常,目前coze存在不稳定版本,需要不断调试完善。[heading3]3.2 Excel知识库[content]同时也可以增加其他形式的知识库上传表格的知识库不要过于复杂,不要有合并表格情况,同时系统不认不同的Sheet数据处理完成就显示100%进度加工出来的数据,点击添加Bot,就增加到知识库中测试发布测试返回[heading3]3.3网页知识库[content]选择有自动采集和手动采集两种方式,手动采集需要安装插件,操作稍微有点小复杂,等下节课程我们专门分享。这里我们选择批量添加,写入画小二官网的地址https://www.huaxiaoer.com.cn/这里你可以根据需求添加自己的网站然后就将网站所有的页面都扫描出来,点击确认。将全站数据解析并保存到知识库里面按照默认自动清洗数据数据清洗进度将网站所有数据清洗出来将网站添加到知识库里面