Chat with Wiki - 哪些模型可以提供论文参考文献

Answer

以下是一些可以提供论文参考文献的模型相关内容：

Sora 大型视觉模型的相关论文中，参考文献包括：
- A.Awasthi 等人的“用于凋亡预测的视频扩散模型”，2023 年。
- A.Bozorgpour 等人的“Dermosegdiff：用于皮肤病变勾画的边界感知分割扩散模型”，2023 年。
- A.Flaborea 等人的“多模态运动条件扩散模型用于基于骨架的视频异常检测”，2023 年。
- J.Wu 等人的“Medsegdiff-v2：基于扩散的医学图像分割与变压器”，2023 年。
- G.J.Chowdary 和 Z.Yin 的“用于医学图像分割的扩散变换器 U-Net”，2023 年。
- I.Kapelyukh 等人的“Dall-e-bot：将网络规模扩散模型引入机器人技术”，2023 年。
- OpenAI 的“Chatgpt:获取即时答案，寻找创意灵感，学习新事物。”，2022 年。
- OpenAI 的“Gpt-4 技术报告”，2023 年。
- OpenAI 的“Sora:从文本创建视频。”，2024 年。
- W.Peebles 和 S.Xie 的“使用变压器的可扩展扩散模型”，2023 年。
- A.A.Efros 和 T.K.Leung 的“通过非参数采样的纹理合成”，1999 年。
- P.S.Heckbert 的“纹理映射概述”，1986 年。
- I.J.Goodfellow 等人的“生成对抗网络”，2014 年。
- D.P.Kingma 和 M.Welling 的“自动编码变分贝叶斯”，2013 年。
- L.Dinh 等人的“Nice:非线性独立成分估计”，2014 年。
- Y.Song 和 S.Ermon 的“通过估计数据分布的梯度进行生成建模”，2019 年。
解读 GPT-4V《多模态的新时代》的相关内容中，参考文献可通过以下链接查看：
- https://arxiv.org/pdf/2309.17421.pdf
- https://cdn.openai.com/papers/GPTV_System_Card.pdf

Content generated by AI large model, please carefully verify (powered by aily)

References

[147]A.Awasthi,J.Nizam,S.Zare,S.Ahmad,M.J.Montalvo,N.Varadarajan,B.Roysam,和H.V.Nguyen,“用于凋亡预测的视频扩散模型”，bioRxiv，第2023-11页，2023年。[148]A.Bozorgpour,Y.Sadegheih,A.Kazerouni,R.Azad,和D.Merhof,“Dermosegdiff：用于皮肤病变勾画的边界感知分割扩散模型”，在PRe预测智能医学国际研讨会论文集中，第146-158页，Springer，2023年。[149]A.Flaborea,L.Collorone,G.M.D.di Melendugno,S.D’Arrigo,B.Prenkaj,和F.Galasso,“多模态运动条件扩散模型用于基于骨架的视频异常检测”，在IEEE/CVF国际计算机视觉会议论文集中，第10318-10329页，2023年。[150]J.Wu,R.Fu,H.Fang,Y.Zhang,和Y.Xu,“Medsegdiff-v2：基于扩散的医学图像分割与变压器”，arXiv预印本arXiv:2301.11798，2023年。[151]G.J.Chowdary和Z.Yin，“用于医学图像分割的扩散变换器U-Net”，在国际医学图像计算和计算机辅助干预会议上，第622-631页，Springer，2023年。[152]I.Kapelyukh,V.Vosylius和E.Johns，“Dall-e-bot：将网络规模扩散模型引入机器人技术”，IEEE机器人与自动化信函，2023年。

Sora：大型视觉模型的背景、技术、局限性和机遇综述【官方论文】

(注：论文英文名可见原文）[1]OpenAI,“Chatgpt:获取即时答案，寻找创意灵感，学习新事物。”https://openai.com/chatgpt,2022。[2]OpenAI,“Gpt-4技术报告”，2023。[3]OpenAI,“Sora:从文本创建视频。”https://openai.com/sora,2024。[4]W.Peebles和S.Xie,“使用变压器的可扩展扩散模型”，在IEEE/CVF国际计算机视觉会议论文集中，第4195-4205页，2023。[5]A.A.Efros和T.K.Leung,“通过非参数采样的纹理合成”，在第七届IEEE国际计算机视觉会议论文集中，第2卷，第1033-1038页，IEEE，1999。[6]P.S.Heckbert,“纹理映射概述”，IEEE计算机图形学及应用，第6卷，第11期，第56-67页，1986。[7]I.J.Goodfellow,J.Pouget-Abadie,M.Mirza,B.Xu,D.Warde-Farley,S.Ozair,A.Courville,和Y.Bengio,“生成对抗网络”，arXiv，2014。[8]D.P.Kingma和M.Welling,“自动编码变分贝叶斯”，arXiv预印本arXiv:1312.6114，2013。[9]L.Dinh,D.Krueger,和Y.Bengio,“Nice:非线性独立成分估计”，arXiv预印本arXiv:1410.8516，2014。[10]Y.Song和S.Ermon,“通过估计数据分布的梯度进行生成建模”，在神经信息处理系统进展中，第32卷，2019。

解读 GPT-4V 《多模态的新时代》

在相关报告中已广泛讨论了GPT模型的弱点和限制。在本节中，我们简要地集中于展示我们对未来研究方向的看法。像GPT-1、GPT-2和GPT-3这样的模型主要作为文本输入-文本输出系统，仅能够处理自然语言。GPT-4（无视觉）在文本理解和生成方面展示了无与伦比的能力，而GPT-4V也展示了强大的图像领域理解能力。作为自然发展，LMMs应该能够生成交织的图像-文本内容，例如生成包含文本和图像的生动教程，以实现全面的多模态内容理解和生成。此外，将其他模态（如视频、音频和其他传感器数据）纳入其中，以扩展LMMs的能力将是有益的。关于学习过程，当前的方法主要依赖于组织良好的数据，例如图像标签或图像-文本数据集。然而，更为通用的模型可能能够从各种来源学习，包括在线网络内容甚至现实世界的物理环境，以促进持续的自我进化。致谢我们深深感激OpenAI提供了他们卓越工具的早期访问权限。我们衷心感谢Misha Bilenko的宝贵指导和支持。我们也向我们的微软同事表示衷心的感谢，特别感谢John Montgomery,Marco Casalaina,Gregory Buehrer,Nguyen Bach,Gopi Kumar,Luis Vargas,Kun Wu,Meenaz Merchant,Jianfeng Gao,Matt Lungren,Sheela Agarwal,Yumao Lu,Thomas Soemo,Fisayo Okikiolu,Ce Liu,Michael Zeng,Faisal Ahmed,Ehsan Azarnasab,和Lin Liang为他们的建设性反馈。我们还要感谢Yingkai Yu在GUI导航上创建屏幕截图的帮助。原文链接以及参考文献查看：https://arxiv.org/pdf/2309.17421.pdfOpenAI关于GPT-4V的论文：https://cdn.openai.com/papers/GPTV_System_Card.pdf