以下是关于大模型数据发展趋势的总结:
2023 年以来:
对于 2025 年的预测,由于目前的信息有限,难以给出确切的预测。但可能会在现有创新架构的基础上进一步优化和融合,出现更高效、更强大且更具通用性的大模型架构,同时可能在技术应用和行业落地方面取得更显著的成果。
引子:人间一日,AI十年紧接着对于2023年的回顾,我想斗胆做些2024-25年可能发生的事情的预测。写这篇文章的时候正赶上OpenAI Sora、Google Genie、Mistral Large的发布,不少内容也经历了些修改。真是还没等写就都做出来了……作为小作坊创业者,在大模型时代是没有办法拥有底层技术的,技术护城河也更加难;于是,稍微早一点点预判,找到一个没有大鱼的“小水洼”就尤其重要,所以我也愿意花些力气来做做今天这番思考梳理。不过,既然是预测(胡猜),其中不免有不精确、不准确、过于科幻的推演;我也希望可以给大家一些启发,但也可能把人带沟里……不过纠结一番,还是觉得要把这些对于2024的猜想先写下来,立个Flag,一年之后作为笑话来看看也不是坏事。以及,大家也完全可以把这篇文章当作科幻文学作品来看。最后,实在抱歉,没想到两篇文章写着写着就有了2.3万字的篇幅,希望大家专门拿出45分钟来阅读,而不是零碎的看。此外,我强烈建议大家先读我的上篇《[AGI万字长文(上)|2023回顾与反思](https://waytoagi.feishu.cn/wiki/PTGKw9VBGiYRoJk82B9cZlIsnVf)》(我知道你们只看了“太长不看版”);今天的很多观点也是顺承2023年来的。另外,文末我会专门把提到的机会/商业模式总结成《AGI潜在机会点2024》,希望可以有用。(对,就是强迫你们看完)欢迎转载、转发、关注、扩散;以及加微信勾搭。
2017年《Attention Is All You Need》论文发表,Transformer架构问世,并逐渐成为自然语言处理领域主流技术范式。但Transformer并非完美无缺,产学研界也一直存在一种声音:架构领域需要新的突破,来构建强大且高效的新一代基础大模型。谁将革新甚至颠覆Transformer,取而代之?2023年以来,大量创新大模型架构涌现,尝试在保留Transformer优势的同时解决其算力开销太高的问题,有望在性能与效率上实现突破,对Transformer的绝对统治地位形成有力挑战。类循环神经网络模型(以RWKV为代表)状态空间模型(以Mamba为代表)层次化卷积模型(以UniRepLKNet为代表)多尺度保持机制模型(以RetNet为代表)液体神经网络模型(以LFM为代表)……多种有代表性的技术路径,在不同程度保留Transformer架构优势的基础上,结合RNN、CNN等思想所做出的创新发展,这也使得大模型架构呈现出日益明显的混合趋势,更多创新架构具备“博采众家之长”的特点。