以下是关于视频内字幕提取的相关内容:
你可能会疑惑,GPT不是无法处理视频内容吗,这是怎么做到的?答案是视频字幕。我用这个视频举例:https://www.bilibili.com/video/BV1VL411U7MU/?spm_id_from=333.337.search-card.all.click&vd_source=e05ea46c768d112737bc19e721da8967打开这个视频,如果你能在视频栏下面有一个字幕按钮,说明这个视频作者已经上传了字幕或者后台适配了AI字幕。那我们把这些字幕弄下来,再发给AI执行内容总结任务,是不是就达到了总结视频的效果?是的,目前大部分用AI总结视频的工具/插件/应用都是这么干的。那接下来的卡点就是,怎么把字幕文字内容给提取出来,用语音转文字?不,效率太低了。像这种有字幕的视频,我们可以装一个油猴脚本:[Bilibili CC字幕工具](https://greasyfork.org/zh-CN/scripts/378513-bilibili-cc%E5%AD%97%E5%B9%95%E5%B7%A5%E5%85%B7)安装之后,刷新浏览器,点击字幕,你会看到多出一个“下载”按钮点击下载按钮,会弹出下面这个窗口,你可以选择多种字幕格式,带时间的或者不带时间的:
SVD专门强调了数据集整编对模型性能的关键作用。他们使用了一个剪辑检测流程来从每段视频获得更多剪辑,然后对其使用三个不同的字幕标注器模型:(1)用于中间帧的CoCa,(2)用于视频字幕的V-BLIP,(3)基于前两个标注使用LLM来进行标注。然后他们还能继续提升视频数据集,其做法包括移除运动更少的视频片段(通过以2 fps速度计算低光流分数进行过滤)、清除过多的文本(使用光学字符识别来识别具有大量文本的视频)、清除看起来不够美的视频(使用CLIP嵌入标注每段视频的第一帧、中间帧和最后帧并计算美学分数和文本-图像相似度)。实验表明,使用经过过滤的更高质量的数据集能得到更好的模型质量,即便这个数据集要小得多。
This notebook demonstrates how to use GPT's visual capabilities with a video.GPT-4 doesn't take videos as input directly,but we can use vision and the new 128K context widnow to describe the static frames of a whole video at once.We'll walk through two examples:这个笔记本演示了如何通过视频使用GPT的视觉功能。GPT-4不直接将视频作为输入,但我们可以使用视觉和新的128 K上下文widnow来同时描述整个视频的静态帧。我们将介绍两个示例:1.Using GPT-4 to get a description of a video使用GPT-4获取视频的描述2.Generating a voiceover for a video with GPT-4 and the TTS API使用GPT-4和TTS API为视频生成画外音1.[1.Using GPT's visual capabilities to get a description of a video](https://cookbook.openai.com/examples/gpt_with_vision_for_video_understanding#1-using-gpts-visual-capabilities-to-get-a-description-of-a-video)[1.使用GPT的视觉功能获取视频的描述](https://cookbook.openai.com/examples/gpt_with_vision_for_video_understanding#1-using-gpts-visual-capabilities-to-get-a-description-of-a-video)First we use OpenCV to extract frames from a nature[video](https://www.youtube.com/watch?v=kQ_7GtE529M)containing bisons and wolves:首先,我们使用OpenCV从包含野牛和狼的自然视频中提取帧:618 frames read.Display frames to make sure we've read them in correctly:显示帧以确保我们已正确读取它们: