NLP 包括的任务有文本分类、情感分析、命名实体识别、信息抽取、机器翻译、问答系统、摘要生成等。目前 GPT-4 在一系列 NLP 任务上表现出色,优于现有的大型语言模型,但不能说已完全覆盖所有 NLP 任务。
CV 包括的任务有图像分类、目标检测、图像分割、图像生成、视频分析等。在 CV 领域,一些常见的网络模型有生成对抗网络(GANs)、变分自编码器(VAEs)、流模型、扩散模型、视觉变压器(ViT)、Swin 变压器等。
在计算机视觉(CV)领域,在深度学习革命之前,传统的图像生成技术依赖于诸如纹理合成[5]和纹理映射[6]等方法,这些方法基于手工制作的特征。然而,这些方法在生成复杂和生动的图像方面的能力是有限的。图3:视觉领域生成式AI的历史。生成对抗网络(GANs)[7]和变分自编码器(VAEs)[8]的引入标志着一个重要的转折点,因为它在各种应用中展现出了非凡的能力。随后的发展,如流模型[9]和扩散模型[10],进一步提高了图像生成的细节和质量。最近在人工智能生成内容(AIGC)技术方面的进展,使内容创作民主化,使用户能够通过简单的文本指令生成所需内容[11]。在过去的十年中,生成式计算机视觉(CV)模型的发展采取了多种路径,如图3所示。这一格局在成功应用变压器架构[12]于自然语言处理(NLP)后开始显著转变,如BERT[13]和GPT[14]所示。在CV中,研究人员通过将变压器架构与视觉组件相结合,将这一概念推向更远,使其能够应用于下游CV任务,如视觉变压器(ViT)[15]和Swin变压器[16]。与变压器的成功平行,扩散模型在图像和视频生成领域也取得了重大进展[10]。扩散模型提供了一个数学上合理的框架,通过U-Nets[17]将噪声转换成图像,其中U-Nets通过学习在每一步预测和减轻噪声来促进这一过程。
🔔Xiaohu.AI日报「1月29日」✨✨✨✨✨✨✨✨1⃣️📘LLMs-from-scratch项目:详细解释LLMs的工作原理。提供创建自己的LLM的逐步指南。适合企业团队、初创公司和教育机构学习。🔗https://github.com/rasbt/LLMs-from-scratch🔗https://x.com/xiaohuggg/status/1751890557805449693?s=202⃣️💡SliceGPT-微软开发的大语言模型压缩方法:在保持高性能的同时大幅减少模型参数。允许在更少的GPU上运行,提高运行速度。显著降低了在消费级GPU上的总计算量。🔗https://arxiv.org/abs/2401.15024🔗https://x.com/xiaohuggg/status/1751880365307011182?s=203⃣️👁️🌐VisualWebArena-自主智能体的视觉网络任务基准测试:评估智能体在网络环境中的规划、推理和执行任务能力。着重于视觉信息的重要性和多模态智能体评估。提供深入的定量和定性分析,揭示LLM智能体的限制。🔗https://arxiv.org/abs/2401.13649🔗https://jykoh.com/vwa🔗https://x.com/dotey/status/1751746302155632925?s=204⃣️🔥百川智能的Baichuan 3模型:中文任务评测表现卓越,超越GPT-4。在医疗领域和中华传统文化理解方面表现突出。引入创新技术,提高训练效率和数据质量。🔗https://x.com/xiaohuggg/status/1751830719222124727?s=205⃣️📱Apple Vision Pro最新宣传片:🔗https://x.com/xiaohuggg/status/1751789758186238100?s=20
我们描述了GPT-4,一个大型多模态模型,在某些困难的专业和学术基准上具有人类水平的表现。GPT-4在一系列NLP任务上的表现优于现有的大型语言模型,并且超过了绝大多数已报告的最先进的系统(这些系统通常包括特定任务的微调)。我们发现,改进后的能力,虽然通常是在英语中测量的,但可以在许多不同的语言中得到证明。我们强调了可预测的扩展是如何让我们对GPT-4的损失和能力做出准确预测的。由于能力的提高,GPT-4带来了新的风险,我们讨论了为了解和提高其安全性和一致性所采取的一些方法和结果。尽管仍有许多工作要做,但GPT-4代表着向广泛有用和安全部署的人工智能系统迈出了重要一步。