视频内字幕提取-WayToAGI

回答

以下是关于视频内字幕提取的相关内容：

对于 B 站有字幕的视频，若在视频栏下面有字幕按钮，说明视频作者已上传字幕或后台适配了 AI 字幕。可安装油猴脚本Bilibili CC 字幕工具，安装后刷新浏览器，点击字幕会多出一个“下载”按钮，点击可选择多种字幕格式，包括带时间的或者不带时间的。
在 Sora 之后，OpenAI Lilian Weng 亲自撰文提到，在设计视频生成扩散模型时，使用了剪辑检测流程从每段视频获得更多剪辑，并对其使用三个不同的字幕标注器模型：用于中间帧的 CoCa、用于视频字幕的 V-BLIP、基于前两个标注使用 LLM 来进行标注。还通过多种方式提升视频数据集，包括移除运动更少的视频片段、清除过多的文本、清除不够美的视频等。
关于使用 GPT 的视觉功能和 TTS API 处理和讲述视频，有相关笔记本演示如何通过视频使用 GPT 的视觉功能，如使用 GPT-4 获取视频的描述、使用 GPT-4 和 TTS API 为视频生成画外音。首先使用 OpenCV 从包含野牛和狼的自然视频中提取帧。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

你可能会疑惑，GPT不是无法处理视频内容吗，这是怎么做到的？答案是视频字幕。我用这个视频举例：https://www.bilibili.com/video/BV1VL411U7MU/?spm_id_from=333.337.search-card.all.click&vd_source=e05ea46c768d112737bc19e721da8967打开这个视频，如果你能在视频栏下面有一个字幕按钮，说明这个视频作者已经上传了字幕或者后台适配了AI字幕。那我们把这些字幕弄下来，再发给AI执行内容总结任务，是不是就达到了总结视频的效果？是的，目前大部分用AI总结视频的工具/插件/应用都是这么干的。那接下来的卡点就是，怎么把字幕文字内容给提取出来，用语音转文字？不，效率太低了。像这种有字幕的视频，我们可以装一个油猴脚本：[Bilibili CC字幕工具](https://greasyfork.org/zh-CN/scripts/378513-bilibili-cc%E5%AD%97%E5%B9%95%E5%B7%A5%E5%85%B7)安装之后，刷新浏览器，点击字幕，你会看到多出一个“下载”按钮点击下载按钮，会弹出下面这个窗口，你可以选择多种字幕格式，带时间的或者不带时间的：

Sora之后，OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型

SVD专门强调了数据集整编对模型性能的关键作用。他们使用了一个剪辑检测流程来从每段视频获得更多剪辑，然后对其使用三个不同的字幕标注器模型：(1)用于中间帧的CoCa，(2)用于视频字幕的V-BLIP，(3)基于前两个标注使用LLM来进行标注。然后他们还能继续提升视频数据集，其做法包括移除运动更少的视频片段（通过以2 fps速度计算低光流分数进行过滤）、清除过多的文本（使用光学字符识别来识别具有大量文本的视频）、清除看起来不够美的视频（使用CLIP嵌入标注每段视频的第一帧、中间帧和最后帧并计算美学分数和文本-图像相似度）。实验表明，使用经过过滤的更高质量的数据集能得到更好的模型质量，即便这个数据集要小得多。

使用GPT的视觉功能和TTS API处理和讲述视频

This notebook demonstrates how to use GPT's visual capabilities with a video.GPT-4 doesn't take videos as input directly,but we can use vision and the new 128K context widnow to describe the static frames of a whole video at once.We'll walk through two examples:这个笔记本演示了如何通过视频使用GPT的视觉功能。GPT-4不直接将视频作为输入，但我们可以使用视觉和新的128 K上下文widnow来同时描述整个视频的静态帧。我们将介绍两个示例：1.Using GPT-4 to get a description of a video使用GPT-4获取视频的描述2.Generating a voiceover for a video with GPT-4 and the TTS API使用GPT-4和TTS API为视频生成画外音1.[1.Using GPT's visual capabilities to get a description of a video](https://cookbook.openai.com/examples/gpt_with_vision_for_video_understanding#1-using-gpts-visual-capabilities-to-get-a-description-of-a-video)[1.使用GPT的视觉功能获取视频的描述](https://cookbook.openai.com/examples/gpt_with_vision_for_video_understanding#1-using-gpts-visual-capabilities-to-get-a-description-of-a-video)First we use OpenCV to extract frames from a nature[video](https://www.youtube.com/watch?v=kQ_7GtE529M)containing bisons and wolves:首先，我们使用OpenCV从包含野牛和狼的自然视频中提取帧：618 frames read.Display frames to make sure we've read them in correctly:显示帧以确保我们已正确读取它们：