以下是对国内外大语言模型产品的整理及差异:
国内大语言模型:
国外大语言模型:
时间轴方面:
在工作原理上,大语言模型通常包括训练数据、算力、模型参数等要素。在训练数据一致的情况下,模型参数越大能力越强。Transformer 架构是大语言模型训练的常见架构,具备自我注意力机制能理解上下文和文本关联。同时,大模型可能存在幻觉,即因错误数据导致给出错误答案,优质数据集对其很重要。此外,Prompt 分为 system prompt、user prompt 和 assistant prompt,写好 Prompt 的法则包括清晰说明、指定角色、使用分隔符、提供样本等。还可以基于通用大模型进行 Fine tuning 微调,以适应特定领域的需求。
[heading2]总结大语言模型的介绍与原理国内大模型的分类:国内大模型有通用模型如文心一言、讯飞星火等,处理自然语言;还有垂直模型,专注特定领域如小语种交流、临床医学、AI蛋白质结构预测等。大模型的体验:以‘为什么我爸妈结婚的时候没有邀请我参加婚礼’和‘今天我坐在凳子上’为例,体验了Kimi、通义千问、豆包等大模型的回答和续写能力,发现回复有差异,且大模型基于统计模型预测生成内容。大语言模型的工作原理:大语言模型工作原理包括训练数据、算力、模型参数,在训练数据一致情况下,模型参数越大能力越强,参数用b链形容大小。Transformer架构:Transformer是大语言模型训练架构,17年出现用于翻译,具备自我注意力机制能理解上下文和文本关联,其工作原理是单词预测,通过嵌入、位置编码、自注意力机制生成内容,模型调教中有控制输出的temperature。关于大语言模型的原理、应用及相关概念Transformer模型原理:通过不断检索和匹配来寻找依赖关系,处理词和词之间的位置组合,预测下一个词的概率,是一个偏向概率预测的统计模型。大模型幻觉:大模型通过训练数据猜测下一个输出结果,可能因错误数据导致给出错误答案,优质数据集对其很重要。Prompt的分类和法则:分为system prompt、user prompt和assistant prompt,写好prompt的法则包括清晰说明、指定角色、使用分隔符、提供样本等,核心是与模型好好沟通。Fine tuning微调:基于通用大模型,针对特定领域任务提供数据进行学习和调整,以适应特定领域的需求。RAG概念:未对RAG的具体内容进行详细阐述,仅提出了这个概念。
[heading2]智能章节本章节主要提到一个有意思的活动,可以看到一些出题海报且银海有参与。活动的出题来源是弱智巴的题目,会建微信群让群里bot变为大语言模型回复问题,真人混在机器人中,让人分辨。还提到去年国内大模型回答这些题多失败,今年有很大改进,最后提议用几个大模型产品测试问题反应。[10:48](https://waytoagi.feishu.cn/minutes/obcn8c6pm95g22581ei4p1l4?t=648000)大语言模型的早期特点及通用、垂类模型的介绍本章节主要讲述大语言模型相关内容。提到早期大模型存在缺乏情感、一本正经胡说八道的情况。还介绍了国内去年7月大模型百花齐放,包含通用模型(如文心一言等)和垂直模型,垂直模型针对特定领域,如小语种、临床医学、AI蛋白质结构预测等。[13:38](https://waytoagi.feishu.cn/minutes/obcn8c6pm95g22581ei4p1l4?t=818000)对比不同大模型对趣味问题的回应及续写差异本章节先提出让大家用大模型体验回答“为什么爸妈结婚没邀请我”的问题,展示了Kimi、通义千问的回答情况并期待豆包的回答。还提到让大模型续写“今天我坐在凳子上”,发现各模型回复有差异。最后指出大模型是统计模型,会根据概率预测并返回信息,所以每次续写内容都不同。[17:13](https://waytoagi.feishu.cn/minutes/obcn8c6pm95g22581ei4p1l4?t=1033000)大语言模型工作原理:训练数据、算力GPU、模型参数的作用
文本生成(text generation)涉及使用机器学习(machine learning)模型,根据从现有文本数据中学习的模式生成新的文本。用于文本生成的模型可以是马尔科夫链(Markov Chains)、循环神经网络(RNN)、长短时记忆网络(LSTMs),2AIGC法律风险研究报告以及凭借其延长的注意力广度(attention span)而彻底改变了AI领域的Transformer等。文本生成在自然语言处理、聊天机器人和内容创建领域(自动写作、文本摘要)有许多应用。[heading1]一些具有代表性的海外项目:[content]➢GPT-4(OpenAI):目前最先进的自然语言生成模型,可用于回答问题、撰写文章等。➢Gemini Ultra(Google):多模态人工智能模型,采用神经网络架构,对标GPT-4,可用于回答问题、生成代码、处理文本等。➢Claude 3 Opus(Anthropic):多模态模型,能处理超过1百万token的输入,具有实时聊天、数据处理、分析预测等功能;实现了接近完美的召回率。[heading1]一些具有代表性的国内项目:[content]➢“悟道・天鹰”(北京智源人工智能研究院):“悟道・天鹰”(Aquila)是首个具备中英文双语知识、支持商用许可协议、国内数据合规需求的开源语言大模型。➢文心一言(百度):大语言模型,可用以文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成。