以下是一些能够提取视频摘要的大模型:
[title]多模态大模型入门指南-长文慎入【持续更新】[heading2]4.多模态大模型总结:[heading3]4.1 26个多模态大模型全面比较:(8)InstructBLIP基于预训练的BLIP-2模型进行训练,在MM IT期间仅更新Q-Former。通过引入指令感知的视觉特征提取和相应的指令,该模型使得能够提取灵活多样的特征。(9)PandaGPT是一种开创性的通用模型,能够理解6不同模式的指令并根据指令采取行动:文本、图像/视频、音频、热、深度和惯性测量单位。(10)PaLI-X使用混合VL目标和单峰目标进行训练,包括前缀完成和屏蔽令牌完成。事实证明,这种方法对于下游任务结果和在微调设置中实现帕累托前沿都是有效的。(11)Video-LLaMA张引入了多分支跨模式PT框架,使LLMs能够在与人类对话的同时同时处理给定视频的视觉和音频内容。该框架使视觉与语言以及音频与语言保持一致。(12)视频聊天GPT Maaz等人。(2023)是专门为视频对话设计的模型,能够通过集成时空视觉表示来生成有关视频的讨论。(13)Shikra Chen等人。(2023d)介绍了一种简单且统一的预训练MM-LLM,专为参考对话(涉及图像中区域和对象的讨论的任务)而定制。该模型展示了值得称赞的泛化能力,可以有效处理看不见的设置。(14)DLP提出P-Former来预测理想提示,并在单模态句子数据集上进行训练。这展示了单模态训练增强MM学习的可行性。
[title]XiaoHu.AI日报[heading2]10月29日集中模式集合后功能大增,有无限想象空间。还支持上传文件,如PDF或数据文件。把一些套壳和插件商直接拍死了🔗[https://x.com/xiaohuggg/status/1718501384105197773?s=20](https://x.com/xiaohuggg/status/1718501384105197773?s=20)6️⃣ 🎥 Pegasus-1:一个真正能读懂视频的大模型:具有约800亿参数,可处理从10秒到数小时的视频内容。不仅识别视频中的人物、物体、场景,还能理解背景音乐、对话等。提供一系列API来满足不同的视频到文本转换需求。🔗[https://x.com/xiaohuggg/status/1718456086150435074?s=20](https://x.com/xiaohuggg/status/1718456086150435074?s=20)历史项目记录:http://xiaohu.ai/
[title]XiaoHu.AI日报[heading2]10月29日集中模式集合后功能大增,有无限想象空间。还支持上传文件,如PDF或数据文件。把一些套壳和插件商直接拍死了🔗[https://x.com/xiaohuggg/status/1718501384105197773?s=20](https://x.com/xiaohuggg/status/1718501384105197773?s=20)6️⃣ 🎥 Pegasus-1:一个真正能读懂视频的大模型:具有约800亿参数,可处理从10秒到数小时的视频内容。不仅识别视频中的人物、物体、场景,还能理解背景音乐、对话等。提供一系列API来满足不同的视频到文本转换需求。🔗[https://x.com/xiaohuggg/status/1718456086150435074?s=20](https://x.com/xiaohuggg/status/1718456086150435074?s=20)历史项目记录:http://xiaohu.ai/