目前较为强大和新的文本模型包括:
需要注意的是,免费使用这些模型可能存在一定限制,部分模型可能需要特定的条件或授权。同时,模型的性能和适用性也会因具体应用场景和需求而有所不同。
最流行的基于Transformer的模型之一BERT,它是“来自Transformer的双向编码器表示”(“Bidirectional Encoder Representations from Transformers”)的缩写。它是谷歌的研究人员在我2018年加入公司前后引入的,很快就进入了几乎所有的NLP项目,包括谷歌搜索。BERT不仅指模型体系结构,还指经过训练的模型本身,您可以[在这里免费下载和使用](https://github.com/google-research/bert)。谷歌的研究人员在一个庞大的文本语料库上对它进行了训练,它已经成为一种用于自然语言处理的通用模型。它可以扩展来解决一系列不同的任务,比如:文本摘要问答分类命名实体识别文本相似度攻击性信息/脏话检测理解用户的查询等等BERT证明,您可以在未标记的数据上建立非常好的语言模型,比如从Wikipedia和Reddit中提取的文本,并且这些大型的“基础”模型可以与特定领域的数据相适应,适用于许多不同的用例。最近,OpenAI创建的模型GPT-3生成真实文本的能力让人们大吃一惊。谷歌搜索去年推出的Meena是一个基于transformer的聊天机器人(akhem,对话代理),几乎可以就任何话题进行引人入胜的对话(其作者曾花了20分钟与Meena争论作为人类意味着什么)。Tansformer也在自然语言处理之外掀起了一股浪潮,例如作曲、根据文本描述生成图像以及预测蛋白质结构。
文本生成(text generation)涉及使用机器学习(machine learning)模型,根据从现有文本数据中学习的模式生成新的文本。用于文本生成的模型可以是马尔科夫链(Markov Chains)、循环神经网络(RNN)、长短时记忆网络(LSTMs),2AIGC法律风险研究报告以及凭借其延长的注意力广度(attention span)而彻底改变了AI领域的Transformer等。文本生成在自然语言处理、聊天机器人和内容创建领域(自动写作、文本摘要)有许多应用。[heading1]一些具有代表性的海外项目:[content]➢GPT-4(OpenAI):目前最先进的自然语言生成模型,可用于回答问题、撰写文章等。➢Gemini Ultra(Google):多模态人工智能模型,采用神经网络架构,对标GPT-4,可用于回答问题、生成代码、处理文本等。➢Claude 3 Opus(Anthropic):多模态模型,能处理超过1百万token的输入,具有实时聊天、数据处理、分析预测等功能;实现了接近完美的召回率。[heading1]一些具有代表性的国内项目:[content]➢“悟道・天鹰”(北京智源人工智能研究院):“悟道・天鹰”(Aquila)是首个具备中英文双语知识、支持商用许可协议、国内数据合规需求的开源语言大模型。➢文心一言(百度):大语言模型,可用以文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成。
好的,现在我要换个话题,我们将讨论语言模型,它们是如何改进的,以及这些改进的进展情况。LLM规模化定律关于大型语言模型空间,要理解的第一个非常重要的事情是我们所说的缩放定律:事实证明,这些大型语言模型在下一个单词预测任务的准确性方面的表现是一个非常平滑、行为良好且可预测的仅两个变量的函数。你需要知道的是网络中的参数数量(n)和你要训练的文本量(d)。仅给出这两个数字,我们就可以非常有信心地预测你在下一个单词预测任务中将达到的准确度。值得注意的是,这些趋势似乎并没有显示出见顶的迹象。因此,如果你在更多文本上训练更大的模型,我们很有信心下一个单词预测任务将会得到改善。因此,算法的进步并非必要。虽然这是一个极佳的奖励,但我们可以通过获取更强大的计算机来免费获得更强大的模型,我们对此充满信心,并且我们有信心能够训练出更大、更复杂的模型。我们对于取得更佳成绩抱有极大的信心。实际上,在当前实践中,我们并不真正关注对下一个单词的预测准确性。然而,根据经验,我们观察到这种预测准确性与我们真正关心的许多评估指标相关联。例如,对于这些大型语言模型,您可以进行多种不同的测试,您会发现,如果您训练一个更大的模型更长时间,比如从GPT系列的3.5升级到4,所有这些测试的准确性都会得到提升。因此,当我们训练更大的模型和更多的数据时,我们期望性能几乎可以免费提升。这正是我们今天在计算领域看到的淘金热的根本驱动力,每个人都在争取获得更大的GPU集群和更多的数据,因为人们对此有很大的信心,相信这样做将会得到一个更好的模型。算法的进步就像是一个额外的奖金,许多组织都在这方面投入了大量资金。但从根本上说,规模化提供了一条有保证的成功之路。工具使用(浏览器、计算器、解释器、DALL-E)