知识库搭建主要包括以下几个方面:
"拎得清、看得到、想得起、用得上"是信息管理和知识体系搭建中四个核心的步骤,它们共同构成了一个高效的信息处理和应用流程。1.拎得清:这一步骤强调的是主动选择和判断信息源。首先,你需要识别并选择那些高质量、与你目标相关的信息来源。使用AI搜索引擎来帮助筛选信息,并通过加入优质社群、订阅号等方式建立信息通路。这要求个人具备信息嗅探能力,选择对自己有用的信息源,为后续的信息管理打下基础。2.看得到:在建立了信息通路之后,需要确保所选信息能够频繁且不经意地触达个人。这涉及到信息的可见性和可访问性,如通过浏览器插件、笔记工具等,将信息组织得易于检索和浏览,确保信息能够在需要时被看到。3.想得起:这一步骤强调信息的内化和知识线索的建立。这一步骤是关于信息的索引和关联。当你保存信息时,要考虑到未来如何能快速回忆起它,这要求在存储时做好标记(关键词、tag)、选择合适的存放位置等。推荐使用PARA笔记法、IOTO工作法、点线面体创作法等方法来组织和串联信息,形成易于回忆和应用的知识结构。4.用得上:最终目标是将积累的知识转化为实际行动和成果。当需要解决问题或创造价值时,能够从知识库中调取相应信息,形成解决方案、产品、文章或个人生活指导等。这意味着知识不再是静态的存储,而是动态的应用于具体情境中,实现知识的价值转化。这一步将信息管理的成果落实到具体产出上,体现了知识的实践意义。🏗知识体系搭建:
因为利用大模型的能力搭建知识库本身就是一个RAG技术的应用。所以在进行本地知识库的搭建实操之前,我们需要先对RAG有一个大概的了解。以下内容会有些干,我会尽量用通俗易懂的描述进行讲解。我们都知道大模型的训练数据是有截止日期的,那当我们需要依靠不包含在大模型训练集中的数据时,我们该怎么做呢?实现这一点的主要方法就是通过检索增强生成RAG(Retrieval Augmented Generation)。在这个过程中,首先检索外部数据,然后在生成步骤中将这些数据传递给LLM。我们可以将一个RAG的应用抽象为下图的5个过程:文档加载(Document Loading):从多种不同来源加载文档。LangChain提供了100多种不同的文档加载器,包括PDF在内的非结构化的数据、SQL在内的结构化的数据,以及Python、Java之类的代码等文本分割(Splitting):文本分割器把Documents切分为指定大小的块,我把它们称为“文档块”或者“文档片”存储(Storage):存储涉及到两个环节,分别是:将切分好的文档块进行嵌入(Embedding)转换成向量的形式将Embedding后的向量数据存储到向量数据库检索(Retrieval):一旦数据进入向量数据库,我们仍然需要将数据检索出来,我们会通过某种检索算法找到与输入问题相似的嵌入片Output(输出):把问题以及检索出来的嵌入片一起提交给LLM,LLM会通过问题和检索出来的提示一起来生成更加合理的答案[heading2]文本加载器(Document Loaders)[content]文本加载器就是将用户提供的文本加载到内存中,便于进行后续的处理
本次创建知识库使用手动清洗数据,上节课程是自动清洗数据:[【智能体】用Coze在微信里搭建一个机器人,还能挖掘销售线索](https://a1i1hjmvcf0.feishu.cn/docx/JSdDd8ybLo7OHqxmePwcHlbLn3b?from=from_copylink),自动清洗数据会出现目前数据不准的情况,本节视频就尝试使用手动清洗数据,提高数据的准确性。[heading3]3.1在线知识库[content]点击创建知识库,创建一个画小二课程的FAQ知识库知识库的飞书在线文档,其中每个问题和答案以###分割,暂时不要问为什么。选择飞书文档选择自定义的自定义输入###然后他就将飞书的文档内容以###区分开来,这里可以点击编辑修改和删除。点击添加Bot添加好可以在调试区测试效果[heading3]3.2本地文档[content]本地word文件,这里要注意了~~~如何拆分内容,提高训练数据准确度,将海报的内容训练的知识库里面画小二这个课程80节课程,分为了11个章节,那训练数据能不能一股脑全部放进去训练呢。答案是~~不能滴~~~正确的方法,首先将11章的大的章节名称内容放进来,如下图所示。章节内详细内容格式如下如所示,如果你再分节的内容,依次类推细化下去。每个章节都按照这种固定的方式进行人工标注和处理然后选择创建知识库自定义清洗数据,这里不再赘述。[heading3]3.3发布应用[content]点击发布确保在Bot商店中能够搜到,如图所示可以搜索到画小二智能小助手,这个很重要,没有通过发布的获取不到API的。