以下是关于 r1-1.5b、7b、32b、70b 区别的一些信息:
在模型规模方面,不同规模的模型具有不同的特点和应用场景。
从一些访谈和相关介绍来看:
以 Qwen 2 为例,不同规模的模型具有不同的性能和处理能力:
像 baichuan-7B 这样的 70 亿参数模型,在标准的中文和英文权威 benchmark 上均取得同尺寸最好的效果,支持中英双语,上下文窗口长度为 4096。
总之,不同规模的模型在性能、成本、适用场景等方面存在差异,需要根据具体需求来选择合适的模型。
主持人:我对可靠性的看法是,就您的观点而言,它会随着模型规模的增加而增加,而且如果您针对特定用例或实例或数据集进行微调,它也会增加。因此,在尺寸与专业微调与可靠性方面存在权衡。Ilya:关心某些特定应用的人们肯定有充分的动机让最小的模型足够好地工作。我认为这是真的。这是不可否认的。我认为任何关心特定应用程序的人都会想要最小的模型。这是不言而喻的。我确实认为,随着模型不断变得更大、更好,它们就会解锁新的和前所未有的有价值的应用程序。所以,是的,小型模型将在不太有趣的应用中占有一席之地,但它们仍然非常有用。然后更大的模型将交付应用程序。例如,考虑提供良好法律建议的任务。如果你能真正相信答案,那真的很有价值。也许您需要一个更大的模型,但它证明了成本的合理性。主持人:今年,尤其是7b(70亿参数)尺寸的投资非常多,而且还有7b、13b、34b尺寸。您认为在这些规模上继续研究是浪费吗?Ilya:不,当然不。我认为从中期来看,无论如何,按照人工智能的时间尺度,将会出现这种情况。在一个生态系统中,不同的模型大小会有不同的用途。对于很多人来说,最好的7b模型已经足够好了,他们会感到非常兴奋。他们将对此感到极度欣喜。接下来,我们将看到大量令人兴奋和惊奇的应用程序,但这还远远不够。我想,这就是我想说的全部。我认为大模型会比小模型更好,但并非所有应用程序都能证明大模型的成本是合理的。
5种尺寸的预训练和指令调整模型,包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B和Qwen2-72B;(Qwen2-57B-A14B这个模型可以重点看看除英语和中文外,还接受过另外27种语言的数据训练;在大量基准评估中表现出最先进的性能;在大量基准评估中获得SOTA性能。代码和数学性能显著提高,全面超越llama3增大了上下文长度支持,最高达到128K tokens(Qwen2-72B-Instruct)。HF最新榜第一72B和7B可处理128k上下文57B-A14B可处理64k上下文0.5B和1.5B可处理32k上下文相比2月推出的通义千问Qwen1.5,Qwen2实现了整体性能的代际飞跃。在权威模型测评榜单OpenCompass中,此前开源的Qwen1.5-110B已领先于文心4.0等一众中国闭源模型。刚刚开源的Qwen2-72B,整体性能相比Qwen1.5-110B又取得了大幅提升。(图说:在上海人工智能实验室推出的OpenCompass大模型测评榜单上,此前开源的Qwen1.5-110B已领先于文心4.0等一众中国闭源模型)通义千问Qwen2系列模型大幅提升了代码、数学、推理、指令遵循、多语言理解等能力。在MMLU、GPQA、HumanEval、GSM8K、BBH、MT-Bench、Arena Hard、LiveCodeBench等国际权威测评中,Qwen2-72B获十几项世界冠军,超过美国的Llama3。(图说:Qwen2-72B在十多个权威测评中获得冠军,超过美国的Llama3-70B模型)
Aquila地址:[https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila](https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila)简介:由智源研究院发布,Aquila语言大模型在技术上继承了GPT-3、LLaMA等的架构设计优点,替换了一批更高效的底层算子实现、重新设计实现了中英双语的tokenizer,升级了BMTrain并行训练方法,是在中英文高质量语料基础上从0开始训练的,通过数据质量的控制、多种训练的优化方法,实现在更小的数据集、更短的训练时间,获得比其它开源模型更优的性能。也是首个支持中英双语知识、支持商用许可协议、符合国内数据合规需要的大规模开源语言模型。baichuan-7B地址:[https://github.com/baichuan-inc/baichuan-7B](https://github.com/baichuan-inc/baichuan-7B)简介:由百川智能开发的一个开源可商用的大规模预训练语言模型。基于Transformer结构,在大约1.2万亿tokens上训练的70亿参数模型,支持中英双语,上下文窗口长度为4096。在标准的中文和英文权威benchmark(C-EVAL/MMLU)上均取得同尺寸最好的效果。Anima地址:[https://github.com/lyogavin/Anima](https://github.com/lyogavin/Anima)简介:由艾写科技开发的一个开源的基于QLoRA的33B中文大语言模型,该模型基于QLoRA的Guanaco 33B模型使用Chinese-Vicuna项目开放的训练数据集guanaco_belle_merge_v1.0进行finetune训练了10000个step,基于Elo rating tournament评估效果较好。