Chat with Wiki - 如何构建用于LLM训练的特定领域的数据集，比如林草领域。

Answer

构建用于 LLM 训练的林草领域特定数据集可以参考以下方法：

微调现有模型：采用在通用数据集上预训练的模型，以学习到的权重为起点，在新的特定领域数据集上重新训练模型。但 LLM 规模较大，更新每个权重可能需要很长时间的训练工作，且计算成本较高，可能不是最佳选择。
生成 QA 数据集：对于简单需求，以 QA 数据集和 dialogue 数据集为主。先对文件中的文本进行切割，例如将每一大部分放进一个约 200 字的 txt 文件里，然后设定提示词模板。如对于公司产品手册，可设置类似“你是一个聪明的 xxx 公司的 xxx 产品的产品经理。给你一段 xxxxx 有限公司 xx 产品相关的文本，你必须依据文本想出十个不同的问题和这十个问题对应的答案……”的模板。
针对金融服务领域的经验借鉴：
- 使用特定数据微调模型：新进入者可先使用公开的金融数据优化模型，再用自身收集的数据；现有参与者可利用现有专有数据，但可能过于保守，给新进入者带来竞争优势。
- 保证模型输出准确性：考虑到金融问题的重要性，新的 AI 模型需要尽可能准确，一开始人类常作为最终验证环节。

总之，构建特定领域数据集需要根据实际情况选择合适的方法，并注重数据的质量和准确性。

Content generated by AI large model, please carefully verify (powered by aily)

References

12:09及时的设计允许快速试验和定制。而且由于您没有编写任何复杂的代码，因此您无需成为ML专家即可开始使用。但是制作提示可能很棘手。12:20措辞或词序的微小变化可能会以无法完全预测的方式影响模型结果。而且您无法真正将所有那么多示例放入提示中。12:29即使您确实为您的用例发现了一个好的提示，您可能会注意到模型响应的质量并不完全一致。为了缓解这些问题，我们可以做的一件事是调整模型。12:40那么调音是什么？好吧，您可能熟悉的一个版本是微调。在这种情况下，我们采用在通用数据集上预训练的模型。我们复制了这个模型。12:51然后，以这些学习到的权重为起点，我们在新的特定领域数据集上重新训练模型。这种技术对于许多不同的用例都非常有效。13:01但是当我们尝试微调LLM时，我们遇到了一些挑战。顾名思义，法学硕士是大型的。因此更新每个权重可能需要很长时间的训练工作。13:12将所有这些计算与现在必须为这个巨大模型提供服务的麻烦和成本相结合……因此，微调大型语言模型可能不是您的最佳选择。

巧妇还要种米来炊：怎么准备LLM的数据？很接地气的经验总结

制作LLM微调数据集对于以上文本进行如上处理后，下面我们要生成LLM所需的格式。经过以上的过程，我们现在已经得到了文本格式非结构式的数据还有网络式结构式的数据。我的需求现阶段还算比较简单，主要以QA数据集和dialogue数据集为主。对于QA数据集，我的方法主要靠已有的大语言模型生成，根据不同文本设定不同的提示词，进行尽可能地信息量大的获取QA。首先，先得对文件中的文本进行切割，我是将每一大部分放进一个txt文件里，一个txt文件大约200字（私密马赛，我的场景初步阶段还没有那么复杂），然后设定提示词模板。对于公司产品手册：template = f"""你是一个聪明的xxx公司的xxx产品的产品经理。给你一段xxxxx有限公司xx产品相关的文本，你必须依据文本想出十个不同的问题和这十个问题对应的答案。你想出的问题可以被用来测试公司内部xxx职员的专业能力。你想出的问题可以是使用公司产品的用户会想到的问题。你想出的问题和答案必须和所给文本相关。你回答得答案必须可以让使用产品的用户理解。当你想出问题和答案后，你必须用以下格式回复：```[

金融服务业将比你想象得更快地接纳生成式 AI

1.使用金融数据训练LLMs：LLMs目前是在互联网上训练的。金融服务用例将需要使用特定于用例的金融数据来微调这些模型。新进入者可能会开始使用公开的公司财务数据、监管文件和其他易于获取的公开金融数据来优化他们的模型，然后最终在随着时间的推移使用他们自己收集的数据。现有的参与者，如银行或具有金融服务业务的大型平台（例如，Lyft），可以利用他们现有和专有的数据，这可能会给他们带来初步的优势。然而，现有的金融服务公司在接受大型平台转变时往往过于保守。在我们看来，这给了无拖累的新进入者竞争优势。2.模型输出准确性：考虑到金融问题的答案可能对个人、公司和社会产生的影响，这些新的AI模型需要尽可能准确。它们不能产生幻觉或编造错误但听起来自信的答案来回应关于个人税收或财务状况的关键问题，它们需要比流行文化查询或通用高中作文的大致答案更准确。一开始，人类经常会作为AI生成答案的最终验证环节。