大模型有哪些前沿论文-WayToAGI

回答

以下是一些关于大模型的前沿论文：

2017 年发布的《Attention Is All You Need》，开启了大模型发展的序幕。
2018 年 Google 提出的 BERT（Bidirectional Encoder Representations from Transformers），创新性地采用双向预训练并行获取上下文语义信息及掩码语言建模，参数规模在 110M 到 340M 之间。
2018 年 OpenAI 提出的 GPT（Generative Pre-trained Transformer），开创了仅使用自回归语言建模作为预训练目标的方式，参数规模达 1750 亿。
2021 年 Meta 提出的 Large LAnguage Model Approach（LLAMA），是首个开源模型，为构建更大规模、更通用的语言模型提供了方法与工具，参数规模在十亿到千亿之间。
2024 年苹果公布的《MM1:Methods,Analysis & Insights from Multimodal LLM Pre-training》，这是一个具有高达 30B 参数的多模态 LLM 系列，探讨了不同架构组件和数据选择的重要性。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

这一切的起源是2017年发布的Attention Is All You Need([4])论文，之后基于大量语料的预训练模型百花齐放，比如：BERT(Bidirectional Encoder Representations from Transformers):Google在2018年提出，创新性的双向预训练并行获取上下文语义信息，以及掩码语言建模（MLM）让模型更好地推断语义信息。它开创了预训练语言表示范式，对自然语言处理产生了深远影响。参数规模：110M到340MGPT(Generative Pre-trained Transformer):OpenAI在2018年提出，开创了仅使用自回归语言建模作为预训练目标而无需额外监督信号。它展示了通过无监督大规模预训练获得的语言生成能力,对研究与应用都带来重大影响。参数规模：1750亿Large LAnguage Model Approach（LLAMA）:Meta在2021年提出，首个开源模型。为构建更大规模、更通用的语言模型提供了系统化的方法与工具。参数规模：十亿到千亿

Ranger：【AI 大模型】非技术背景，一文读懂大模型（长文）

这个可能有些同学不怎么听过这个词，但这个是大模型里，我认为最核心的个概念。因为其实经上面的原理讲解，其实大家不难发现，这与目前大模型所表现出来的，仍然对不上啊。为什么只是在计算相关性和概率，就能让大模型表现出难以解释的表达？所以这就是涌现…也就是科学家们认为，当训练的数据到了一定程度后，模型的能力会涌现出很多难以用逻辑去解释的现象。说实话在我看来，因为本身模型的学习就是在一个降维的latentspace中进行的，那我们尝试去用三维世界中的if-else去解释其行为，似乎本身也不靠谱不是么。不过现在倒也有一些论文使用跟踪标注等的的方式来尝试解释大模型内部的行为，这个看看就好了

苹果大模型MM1杀入场：300亿参数、多模态、MoE架构，超半数作者是华人

原创关注大模型的机器之心2024-03-15 12:44北京原文地址：https://mp.weixin.qq.com/s/i9bx6M32uk4Jq2KSRhv4ng机器之心报道机器之心编辑部苹果也在搞自己的大型多模态基础模型，未来会不会基于该模型推出相应的文生图产品呢？我们拭目以待。今年以来，苹果显然已经加大了对生成式人工智能（GenAI）的重视和投入。此前在2024苹果股东大会上，苹果CEO蒂姆・库克表示，今年将在GenAI领域实现重大进展。此外，苹果宣布放弃10年之久的造车项目之后，一部分造车团队成员也开始转向GenAI。如此种种，苹果向外界传达了加注GenAI的决心。目前多模态领域的GenAI技术和产品非常火爆，尤以OpenAI的Sora为代表，苹果当然也想要在该领域有所建树。今日，在一篇由多位作者署名的论文《MM1:Methods,Analysis & Insights from Multimodal LLM Pre-training》中，苹果正式公布自家的多模态大模型研究成果——这是一个具有高达30B参数的多模态LLM系列。论文地址：https://arxiv.org/pdf/2403.09611.pdf该团队在论文中探讨了不同架构组件和数据选择的重要性。并且，通过对图像编码器、视觉语言连接器和各种预训练数据的选择，他们总结出了几条关键的设计准则。具体来讲，本文的贡献主要体现在以下几个方面。首先，研究者在模型架构决策和预训练数据选择上进行小规模消融实验，并发现了几个有趣的趋势。建模设计方面的重要性按以下顺序排列：图像分辨率、视觉编码器损失和容量以及视觉编码器预训练数据。