要把视频的内容包括对话文字提取并总结成文字,可以按照以下步骤进行:
此外,还有一个集成的视频理解系统 MM-Vid,它由 Microsoft Azure AI 开发,结合了 GPT-4V 的能力和其他视觉、音频和语音处理工具,能处理和理解长视频和复杂任务,能够自动识别和解释视频中的元素,如人物行为、情感表达、场景变化和对话内容,从而实现对视频故事线的理解,其核心功能是将视频中的多模态信息转录成详细的文本脚本,方便大语言模型理解视频内容。
除了聊天内容之外,我们还能让AI总结整理各种文章(文章不超过2w字,否则就超出token了)例如,我复制了我的一篇文章给它总结:打开后直接全选复制全文,然后粘贴发送给GPTs,它就开始总结了,很方便,GPT4它能识别出哪些部分属于重点内容。[heading3]2、B站视频[content]你可能会疑惑,GPT不是无法处理视频内容吗,这是怎么做到的?答案是视频字幕。我用这个视频举例:https://www.bilibili.com/video/BV1VL411U7MU/?spm_id_from=333.337.search-card.all.click&vd_source=e05ea46c768d112737bc19e721da8967打开这个视频,如果你能在视频栏下面有一个字幕按钮,说明这个视频作者已经上传了字幕或者后台适配了AI字幕。那我们把这些字幕弄下来,再发给AI执行内容总结任务,是不是就达到了总结视频的效果?是的,目前大部分用AI总结视频的工具/插件/应用都是这么干的。那接下来的卡点就是,怎么把字幕文字内容给提取出来,用语音转文字?不,效率太低了。像这种有字幕的视频,我们可以装一个油猴脚本:[Bilibili CC字幕工具](https://greasyfork.org/zh-CN/scripts/378513-bilibili-cc%E5%AD%97%E5%B9%95%E5%B7%A5%E5%85%B7)安装之后,刷新浏览器,点击字幕,你会看到多出一个“下载”按钮点击下载按钮,会弹出下面这个窗口,你可以选择多种字幕格式,带时间的或者不带时间的:接下来,还是老办法,将字文字内容全选复制发送给GPTs即可。当然,总结完视频内容之后你继续向AI提问更多细节内容或者与它探讨视频内容。
对于常见IP角色,基模具备角色知识,通过PE即可实现角色扮演对于非常见IP角色(或背景知识较丰富的小说、影视剧角色),通过RAG检索与对话相关的知识片段,进行更加逼真的角色扮演[heading3]儿童教育陪伴[content]儿童闲聊场景,包括知识科普、讲故事、学英语等场景,需要PE结合长期记忆功能,给孩子陪伴感结合音视频实时互动,可以给儿童更加沉浸的使用体验[heading3]口语陪练[content]通过PE实现英语口语练习,增加特定的topic、评价指标等,让智能体为用户的口语水平进行评价和打分如涉及的知识较多,也可以通过RAG外挂知识库[heading3]智能导览[content]智能眼镜等xr设备双路采集音频和视频画面,通过RTC传输给服务端多模态智能体进行内容理解和语音输出,最终实时渲染在智能硬件终端,完成互动,可应用于虚拟导览等场景[heading2]多模态数据处理案例[heading3]招聘网站[content]对平台上的招聘信息进行内容识别,筛选:违反法律法规、涉及性别/地域歧视、含付费引导、敏感信息等的检测并根据规则对违法违规信息进行改写和二次确认[heading3]安防场景[content]对视频监控进行内容理解,实用简短文字总结监控内容,检测异常情况[heading3]视频内容总结[content]对各类视频平台的长/短视频进行内容总结,并以文字形式输出。
|技术名称|应用场景|技术类型|简介|主要特点|工作原理|其他|官方网站|项目及演示|论文|Github|在线体验|附件|最后更新时间||-|-|-|-|-|-|-|-|-|-|-|-|-|-||MM-Vid:一个集成的视频理解系统,能处理和理解长视频内容并进行问答。|可以想象到的应用场景:<br>1、快速的视频剪辑:只需要输入镜头脚本,提取素材库内容进行拼接。<br>2、快速的图生视频:结合图像识别为基础,根据镜头脚本提取出相同seed值的图片,通过runwayml思路生成3,5s视频,结合comfy ui自动化拼接。<br>3、快速诊断:思路和之前小互发的医疗诊断类似。|AI学习模型|由Microsoft Azure AI开发,结合了GPT-4V的能力和其他视觉、音频和语音处理工具,能处理和理解长视频和复杂任务。<br>能够自动识别和解释视频中的元素,如人物行为、情感表达、场景变化和对话内容,从而实现对视频故事线的理解。<br>其核心功能是将视频中的多模态信息(如视觉图像、音频信号和语言对话)转录成详细的文本脚本,这样大语言模型就能够理解视频内容。<br>这对于多种应用场景都非常有用,比如为视觉障碍人士提供视频内容的音频描述