在导入前对知识库文档内容进行标注处理,主要有以下要点:
知识库文档标注:为了提升召回准确性,一方面在导入前,先对知识库文档内容进行标注处理,另一方面对于切割后的chunk进行标注,如标注chunk来源哪个文档的哪个段落。
本地word文件,这里要注意了~~~如何拆分内容,提高训练数据准确度,将海报的内容训练的知识库里面画小二这个课程80节课程,分为了11个章节,那训练数据能不能一股脑全部放进去训练呢。答案是~~不能滴~~~正确的方法,首先将11章的大的章节名称内容放进来,如下图所示。章节内详细内容格式如下如所示,如果你再分节的内容,依次类推细化下去。每个章节都按照这种固定的方式进行人工标注和处理然后选择创建知识库自定义清洗数据,这里不再赘述。