LLM 即大型语言模型(Large Language Model)。以下是一些调优 LLM 的方法:
此外,研究发现 GPT-4 等 LLM 在一些简单的代数问题上存在表现局限性,例如随着 L 的增加,模型更容易犯计算错误,90%的错误是由于在合并相似项时跳过了步骤。这启发了是否有有效方法训练或微调 LLM 以实现更准确计算能力的研究问题。同时,LLM 在计数方面也存在困难,不仅在转换器架构中难以实现,而且数据集中计数示例的稀缺性也加剧了这个问题。
[title]真实性LLM模型有时会生成听起来连贯且令人信服但有时是虚构的回答。改进提示可以帮助提高模型生成更准确/真实的回答,并降低生成不一致和虚构回答的可能性。一些解决方案可能包括:在上下文中提供基本事实(例如相关文章段落或维基百科条目),以减少模型生成虚构文本的可能性。通过降低概率参数并指示模型在不知道答案时承认(例如,“我不知道”)来配置模型以生成更少样式的响应。在提示中提供问题和答案的组合示例,其中可能知道和不知道的问题和答案。让我们看一个简单的例子:提示:输出:我编造了“Neto Beto Roberto”的名字,所以模型在这种情况下是正确的。尝试稍微改变问题,看看是否可以使其正常工作。根据您迄今学到的所有知识,还有不同的方法可以进一步改进它。
[title]9.生成式AI Studio简介[heading2]课程字幕12:29即使您确实为您的用例发现了一个好的提示,您可能会注意到模型响应的质量并不完全一致。为了缓解这些问题,我们可以做的一件事是调整模型。12:40那么调音是什么?好吧,您可能熟悉的一个版本是微调。在这种情况下,我们采用在通用数据集上预训练的模型。我们复制了这个模型。12:51然后,以这些学习到的权重为起点,我们在新的特定领域数据集上重新训练模型。这种技术对于许多不同的用例都非常有效。13:01但是当我们尝试微调LLM时,我们遇到了一些挑战。顾名思义,法学硕士是大型的。因此更新每个权重可能需要很长时间的训练工作。13:12将所有这些计算与现在必须为这个巨大模型提供服务的麻烦和成本相结合……因此,微调大型语言模型可能不是您的最佳选择。13:21但是有一种创新的调优方法称为参数有效调优。这是一个非常令人兴奋的研究领域,旨在通过仅训练一部分参数来减少微调LLM的挑战。13:34这些参数可能是现有模型参数的子集。或者它们可以是一组全新的参数。例如,也许您向模型添加了一些额外的层或额外的嵌入13:45到提示。如果您想了解更多关于参数有效调整和一些不同方法的信息,本课程的阅读列表中包含一篇摘要论文。13:53但如果您只想着手构建,那么让我们转到Generative AI Studio,看看如何开始调优工作。从Generative AI Studio的语言部分,14:02选择调整。为了创建一个调整模型,我们提供了一个名称。然后指向训练数据的本地或Cloud Storage位置。参数有效调整非常适合您拥有“适度”数量的场景14:14训练数据,例如数百或数千个训练示例。您的训练数据应以文本到文本格式构建为受监督的训练数据集。数据中的每条记录或行都将包含输入文本,换句话说,提示,
[title]报告:GPT-4通用人工智能的火花[heading1]10.方向与结论[heading2]10.3到底发生了什么?上面的表格分析了LLMs在一个非常简单的代数问题上的表现。虽然GPT-4的表现比以前的模型有了显著的提高,但我们可以看到,随着L的增加,模型更容易犯计算错误。我们手动检查了100个错误的实例,发现其中90%是由于在合并相似项时跳过了步骤。这指向了模型的重大局限性,并启发了以下研究问题:是否有一种有效的方法来训练或微调LLM,使它们能够将计算分解成较小的步骤,从而实现更准确的计算能力?计数错误:合理地假设LLMs在计数方面存在困难。不仅在转换器架构中难以实现此操作,而且数据集中计数示例的稀缺性只会加剧这个问题。为了系统地评估GPT-4在这方面的能力,我们创建了一个数据集,其中包含形式为A1,A2,…,AL的字符串序列。其中每个Ai都是长度为k的随机数字序列。我们要求模型计算序列中不同元素的数量,答案范围在L/2到L-1之间。这是L = 5,k = 2的示例:我们对模型进行了测试,其中L ∈[5,10,15,25],k = 2,7,12。结果如下: