Chat with Wiki - 知名的视频大模型都有哪些

Answer

以下是一些知名的视频大模型：

InstructBLIP：基于预训练的 BLIP-2 模型进行训练，在 MM IT 期间仅更新 Q-Former。通过引入指令感知的视觉特征提取和相应的指令，能够提取灵活多样的特征。
PandaGPT：是一种开创性的通用模型，能够理解不同模式的指令并根据指令采取行动，包括文本、图像/视频、音频、热、深度和惯性测量单位。
PaLI-X：使用混合 VL 目标和单峰目标进行训练，包括前缀完成和屏蔽令牌完成，对于下游任务结果和在微调设置中实现帕累托前沿有效。
Video-LLaMA：引入了多分支跨模式 PT 框架，使 LLM 能够在与人类对话的同时处理给定视频的视觉和音频内容，使视觉与语言以及音频与语言保持一致。
视频聊天 GPT：专门为视频对话设计的模型，能够通过集成时空视觉表示来生成有关视频的讨论。
Shikra：Chen 等人介绍的一种简单且统一的预训练 MM-LLM，专为参考对话（涉及图像中区域和对象的讨论的任务）而定制，展示了值得称赞的泛化能力，可以有效处理看不见的设置。
DLP：提出 P-Former 来预测理想提示，并在单模态句子数据集上进行训练，展示了单模态训练增强 MM 学习的可行性。
可灵：快手于 2024 年 6 月 6 日发布的视频大模型，能生成超过 120 秒 1080P 视频，模拟真实物理特性，准确建模复杂运动场景，画面连贯，动作流畅，细节真实，支持用户输入控制信息，丰富内容控制能力，采用类 Sora 的 DiT 结构，用 Transformer 代替卷积网络，自研 3D VAE 网络提升视频重建质量。
Flamingo：代表了一系列视觉语言(VL)模型，旨在处理交错的视觉数据和文本，生成自由格式的文本作为输出。
BLIP-2：引入了资源效率更高的框架，包括用于弥补模态差距的轻量级 Q-Former，实现对冻结 LLM 的充分利用，利用 LLM 可以使用自然语言提示进行零样本图像到文本的生成。
LLaVA：率先将 IT 技术应用到 MM 领域，为解决数据稀缺问题，引入了使用 ChatGPT/GPT-4 创建的新型开源 MM 指令跟踪数据集以及 MM 指令跟踪基准 LLaVA-Bench。
MiniGPT-4：提出了一种简化的方法，仅训练一个线性层即可将预训练的视觉编码器与 LLM 对齐，能够复制 GPT-4 所展示的功能。
mPLUG-Owl：提出了一种新颖的 MM-LLMs 模块化训练框架，结合了视觉上下文，包含一个名为 OwlEval 的教学评估数据集。
X-LLM：陈等人扩展到包括音频在内的各种模式，并表现出强大的可扩展性。利用 Q-Former 的语言可迁移性，成功应用于汉藏语境。
VideoChat：开创了一种高效的以聊天为中心的 MM-LLM 用于视频理解对话，为该领域的未来研究制定标准，并为学术界和工业界提供协议。

Content generated by AI large model, please carefully verify (powered by aily)

References

[title]多模态大模型入门指南-长文慎入【持续更新】[heading2]4.多模态大模型总结：[heading3]4.1 26个多模态大模型全面比较：(8)InstructBLIP基于预训练的BLIP-2模型进行训练，在MM IT期间仅更新Q-Former。通过引入指令感知的视觉特征提取和相应的指令，该模型使得能够提取灵活多样的特征。(9)PandaGPT是一种开创性的通用模型，能够理解6不同模式的指令并根据指令采取行动：文本、图像/视频、音频、热、深度和惯性测量单位。(10)PaLI-X使用混合VL目标和单峰目标进行训练，包括前缀完成和屏蔽令牌完成。事实证明，这种方法对于下游任务结果和在微调设置中实现帕累托前沿都是有效的。(11)Video-LLaMA张引入了多分支跨模式PT框架，使LLMs能够在与人类对话的同时同时处理给定视频的视觉和音频内容。该框架使视觉与语言以及音频与语言保持一致。(12)视频聊天GPT Maaz等人。（2023）是专门为视频对话设计的模型，能够通过集成时空视觉表示来生成有关视频的讨论。(13)Shikra Chen等人。(2023d)介绍了一种简单且统一的预训练MM-LLM，专为参考对话（涉及图像中区域和对象的讨论的任务）而定制。该模型展示了值得称赞的泛化能力，可以有效处理看不见的设置。(14)DLP提出P-Former来预测理想提示，并在单模态句子数据集上进行训练。这展示了单模态训练增强MM学习的可行性。

视频模型：可灵

[快手【可灵】大模型介绍PPT](https://waytoagi.feishu.cn/wiki/S1Mswi9PUiV2lskKmutcpzuynfd)生成超过120秒1080P视频模拟真实物理特性（重力、光影反射、液体流动等）准确建模复杂运动场景（高速奔跑的动物、月球行走的宇航员等）画面连贯，动作流畅，细节真实支持用户输入控制信息，丰富内容控制能力类Sora的DiT结构，用Transformer代替卷积网络自研3D VAE网络，提升视频重建质量官网链接https://kling.kuaishou.com/mobile小互报导：🔗 https://xiaohu.ai/p/9119🔗 https://x.om/imxiaohu/status/18040大聪明的技术详解中学生能看懂：快手「可灵」和「Sora」背后DiT技4术https://mp.weixin.qq.com/s/2PrMgNAL0Er_vNjhqSbTHQ

多模态大模型入门指南-长文慎入【持续更新】

[title]多模态大模型入门指南-长文慎入【持续更新】[heading2]4.多模态大模型总结：[heading3]4.1 26个多模态大模型全面比较：如表1所示，对26 SOTA MM-LLMs的架构和训练数据集规模进行了全面比较。随后，简要介绍这些模型的核心贡献并总结了它们的发展趋势。(1)Flamingo。代表了一系列视觉语言(VL)模型，旨在处理交错的视觉数据和文本，生成自由格式的文本作为输出。(2)BLIP-2引入了一个资源效率更高的框架，包括用于弥补模态差距的轻量级Q-Former，实现对冻结LLMs的充分利用。利用LLMs，BLIP-2可以使用自然语言提示进行零样本图像到文本的生成。(3)LLaVA率先将IT技术应用到MM领域。为了解决数据稀缺问题，LLaVA引入了使用ChatGPT/GPT-4创建的新型开源MM指令跟踪数据集以及MM指令跟踪基准LLaVA-Bench。(4)MiniGPT-4提出了一种简化的方法，仅训练一个线性层即可将预训练的视觉编码器与LLM对齐。这种有效的方法能够复制GPT-4所展示的功能。(5)mPLUG-Owl提出了一种新颖的MM-LLMs模块化训练框架，结合了视觉上下文。为了评估不同模型在MM任务中的表现，该框架包含一个名为OwlEval的教学评估数据集。(6)X-LLM陈等人扩展到包括音频在内的各种模式，并表现出强大的可扩展性。利用Q-Former的语言可迁移性，X-LLM成功应用于汉藏语境。(7)VideoChat开创了一种高效的以聊天为中心的MM-LLM用于视频理解对话，为该领域的未来研究制定标准，并为学术界和工业界提供协议。