构建用于 LLM 训练的林草领域特定数据集可以参考以下方法:
总之,构建特定领域数据集需要根据实际情况选择合适的方法,并注重数据的质量和准确性。
12:09及时的设计允许快速试验和定制。而且由于您没有编写任何复杂的代码,因此您无需成为ML专家即可开始使用。但是制作提示可能很棘手。12:20措辞或词序的微小变化可能会以无法完全预测的方式影响模型结果。而且您无法真正将所有那么多示例放入提示中。12:29即使您确实为您的用例发现了一个好的提示,您可能会注意到模型响应的质量并不完全一致。为了缓解这些问题,我们可以做的一件事是调整模型。12:40那么调音是什么?好吧,您可能熟悉的一个版本是微调。在这种情况下,我们采用在通用数据集上预训练的模型。我们复制了这个模型。12:51然后,以这些学习到的权重为起点,我们在新的特定领域数据集上重新训练模型。这种技术对于许多不同的用例都非常有效。13:01但是当我们尝试微调LLM时,我们遇到了一些挑战。顾名思义,法学硕士是大型的。因此更新每个权重可能需要很长时间的训练工作。13:12将所有这些计算与现在必须为这个巨大模型提供服务的麻烦和成本相结合……因此,微调大型语言模型可能不是您的最佳选择。
制作LLM微调数据集对于以上文本进行如上处理后,下面我们要生成LLM所需的格式。经过以上的过程,我们现在已经得到了文本格式非结构式的数据还有网络式结构式的数据。我的需求现阶段还算比较简单,主要以QA数据集和dialogue数据集为主。对于QA数据集,我的方法主要靠已有的大语言模型生成,根据不同文本设定不同的提示词,进行尽可能地信息量大的获取QA。首先,先得对文件中的文本进行切割,我是将每一大部分放进一个txt文件里,一个txt文件大约200字(私密马赛,我的场景初步阶段还没有那么复杂),然后设定提示词模板。对于公司产品手册:template = f"""你是一个聪明的xxx公司的xxx产品的产品经理。给你一段xxxxx有限公司xx产品相关的文本,你必须依据文本想出十个不同的问题和这十个问题对应的答案。你想出的问题可以被用来测试公司内部xxx职员的专业能力。你想出的问题可以是使用公司产品的用户会想到的问题。你想出的问题和答案必须和所给文本相关。你回答得答案必须可以让使用产品的用户理解。当你想出问题和答案后,你必须用以下格式回复:```[
1.使用金融数据训练LLMs:LLMs目前是在互联网上训练的。金融服务用例将需要使用特定于用例的金融数据来微调这些模型。新进入者可能会开始使用公开的公司财务数据、监管文件和其他易于获取的公开金融数据来优化他们的模型,然后最终在随着时间的推移使用他们自己收集的数据。现有的参与者,如银行或具有金融服务业务的大型平台(例如,Lyft),可以利用他们现有和专有的数据,这可能会给他们带来初步的优势。然而,现有的金融服务公司在接受大型平台转变时往往过于保守。在我们看来,这给了无拖累的新进入者竞争优势。2.模型输出准确性:考虑到金融问题的答案可能对个人、公司和社会产生的影响,这些新的AI模型需要尽可能准确。它们不能产生幻觉或编造错误但听起来自信的答案来回应关于个人税收或财务状况的关键问题,它们需要比流行文化查询或通用高中作文的大致答案更准确。一开始,人类经常会作为AI生成答案的最终验证环节。