以下是一些可以提供论文参考文献的模型相关内容:
[147]A.Awasthi,J.Nizam,S.Zare,S.Ahmad,M.J.Montalvo,N.Varadarajan,B.Roysam,和H.V.Nguyen,“用于凋亡预测的视频扩散模型”,bioRxiv,第2023-11页,2023年。[148]A.Bozorgpour,Y.Sadegheih,A.Kazerouni,R.Azad,和D.Merhof,“Dermosegdiff:用于皮肤病变勾画的边界感知分割扩散模型”,在PRe预测智能医学国际研讨会论文集中,第146-158页,Springer,2023年。[149]A.Flaborea,L.Collorone,G.M.D.di Melendugno,S.D’Arrigo,B.Prenkaj,和F.Galasso,“多模态运动条件扩散模型用于基于骨架的视频异常检测”,在IEEE/CVF国际计算机视觉会议论文集中,第10318-10329页,2023年。[150]J.Wu,R.Fu,H.Fang,Y.Zhang,和Y.Xu,“Medsegdiff-v2:基于扩散的医学图像分割与变压器”,arXiv预印本arXiv:2301.11798,2023年。[151]G.J.Chowdary和Z.Yin,“用于医学图像分割的扩散变换器U-Net”,在国际医学图像计算和计算机辅助干预会议上,第622-631页,Springer,2023年。[152]I.Kapelyukh,V.Vosylius和E.Johns,“Dall-e-bot:将网络规模扩散模型引入机器人技术”,IEEE机器人与自动化信函,2023年。
(注:论文英文名可见原文)[1]OpenAI,“Chatgpt:获取即时答案,寻找创意灵感,学习新事物。”https://openai.com/chatgpt,2022。[2]OpenAI,“Gpt-4技术报告”,2023。[3]OpenAI,“Sora:从文本创建视频。”https://openai.com/sora,2024。[4]W.Peebles和S.Xie,“使用变压器的可扩展扩散模型”,在IEEE/CVF国际计算机视觉会议论文集中,第4195-4205页,2023。[5]A.A.Efros和T.K.Leung,“通过非参数采样的纹理合成”,在第七届IEEE国际计算机视觉会议论文集中,第2卷,第1033-1038页,IEEE,1999。[6]P.S.Heckbert,“纹理映射概述”,IEEE计算机图形学及应用,第6卷,第11期,第56-67页,1986。[7]I.J.Goodfellow,J.Pouget-Abadie,M.Mirza,B.Xu,D.Warde-Farley,S.Ozair,A.Courville,和Y.Bengio,“生成对抗网络”,arXiv,2014。[8]D.P.Kingma和M.Welling,“自动编码变分贝叶斯”,arXiv预印本arXiv:1312.6114,2013。[9]L.Dinh,D.Krueger,和Y.Bengio,“Nice:非线性独立成分估计”,arXiv预印本arXiv:1410.8516,2014。[10]Y.Song和S.Ermon,“通过估计数据分布的梯度进行生成建模”,在神经信息处理系统进展中,第32卷,2019。
在相关报告中已广泛讨论了GPT模型的弱点和限制。在本节中,我们简要地集中于展示我们对未来研究方向的看法。像GPT-1、GPT-2和GPT-3这样的模型主要作为文本输入-文本输出系统,仅能够处理自然语言。GPT-4(无视觉)在文本理解和生成方面展示了无与伦比的能力,而GPT-4V也展示了强大的图像领域理解能力。作为自然发展,LMMs应该能够生成交织的图像-文本内容,例如生成包含文本和图像的生动教程,以实现全面的多模态内容理解和生成。此外,将其他模态(如视频、音频和其他传感器数据)纳入其中,以扩展LMMs的能力将是有益的。关于学习过程,当前的方法主要依赖于组织良好的数据,例如图像标签或图像-文本数据集。然而,更为通用的模型可能能够从各种来源学习,包括在线网络内容甚至现实世界的物理环境,以促进持续的自我进化。致谢我们深深感激OpenAI提供了他们卓越工具的早期访问权限。我们衷心感谢Misha Bilenko的宝贵指导和支持。我们也向我们的微软同事表示衷心的感谢,特别感谢John Montgomery,Marco Casalaina,Gregory Buehrer,Nguyen Bach,Gopi Kumar,Luis Vargas,Kun Wu,Meenaz Merchant,Jianfeng Gao,Matt Lungren,Sheela Agarwal,Yumao Lu,Thomas Soemo,Fisayo Okikiolu,Ce Liu,Michael Zeng,Faisal Ahmed,Ehsan Azarnasab,和Lin Liang为他们的建设性反馈。我们还要感谢Yingkai Yu在GUI导航上创建屏幕截图的帮助。原文链接以及参考文献查看:https://arxiv.org/pdf/2309.17421.pdfOpenAI关于GPT-4V的论文:https://cdn.openai.com/papers/GPTV_System_Card.pdf