Chat with Wiki - 把视频文字提取成文本

Answer

要将视频文字提取成文本，对于有字幕的 B 站视频，可以按照以下步骤操作：

打开视频，如果在视频栏下面有字幕按钮，说明视频作者已上传字幕或后台适配了 AI 字幕。
安装油猴脚本：Bilibili CC 字幕工具。
安装之后刷新浏览器，点击字幕，会看到多出一个“下载”按钮。
点击下载按钮，弹出窗口，可以选择多种字幕格式，带时间的或者不带时间的。
接下来，将字文字内容全选复制发送给 GPTs 即可。

此外，还有一些相关的 AI 技术和项目：

VSP-LLM 能够将视频中唇动转化为文本，实现视觉语音识别和翻译，基于 AV-HuBERT 模型，利用先进技术识别语音信息，智能去除不必要重复信息，提高处理效率。相关链接：https://github.com/facebookresearch/av_hubert 、https://x.com/xiaohuggg/status/1762089975431237938?s=20 。
MIRAGE 是提升医学问答性能的检索增强生成框架，使用最新可信文档辅助 LLMs，减少错误信息，提升回答准确性。MIRAGE 应用 MedRAG，某些模型性能提升至 GPT-4 水平。相关链接：https://teddy-xionggz.github.io/benchmark-medical-rag/ 、https://arxiv.org/abs/2402.13178 、https://x.com/xiaohuggg/status/1762082522417262764?s=20 。
Genie 支持合成图像、真实照片、手绘草图转化成可互动游戏场景，降低创造复杂虚拟环境门槛，加速内容创作和游戏开发。相关链接：https://x.com/xiaohuggg/status/1761981007929176541?s=20 。
Sora 能够生成、编辑、识别、处理、理解视频和图像内容，展现出与 Gemini 1.5 Pro 相似的视频理解能力，能分析长达 1 小时的视频。相关链接：https://x.com/xiaohuggg/status/1761938064421867782?s=20 。

Content generated by AI large model, please carefully verify (powered by aily)

References

除了聊天内容之外，我们还能让AI总结整理各种文章（文章不超过2w字，否则就超出token了）例如，我复制了我的一篇文章给它总结：打开后直接全选复制全文，然后粘贴发送给GPTs，它就开始总结了，很方便，GPT4它能识别出哪些部分属于重点内容。[heading3]2、B站视频[content]你可能会疑惑，GPT不是无法处理视频内容吗，这是怎么做到的？答案是视频字幕。我用这个视频举例：https://www.bilibili.com/video/BV1VL411U7MU/?spm_id_from=333.337.search-card.all.click&vd_source=e05ea46c768d112737bc19e721da8967打开这个视频，如果你能在视频栏下面有一个字幕按钮，说明这个视频作者已经上传了字幕或者后台适配了AI字幕。那我们把这些字幕弄下来，再发给AI执行内容总结任务，是不是就达到了总结视频的效果？是的，目前大部分用AI总结视频的工具/插件/应用都是这么干的。那接下来的卡点就是，怎么把字幕文字内容给提取出来，用语音转文字？不，效率太低了。像这种有字幕的视频，我们可以装一个油猴脚本：[Bilibili CC字幕工具](https://greasyfork.org/zh-CN/scripts/378513-bilibili-cc%E5%AD%97%E5%B9%95%E5%B7%A5%E5%85%B7)安装之后，刷新浏览器，点击字幕，你会看到多出一个“下载”按钮点击下载按钮，会弹出下面这个窗口，你可以选择多种字幕格式，带时间的或者不带时间的：接下来，还是老办法，将字文字内容全选复制发送给GPTs即可。当然，总结完视频内容之后你继续向AI提问更多细节内容或者与它探讨视频内容。

XiaoHu.AI日报

🔔Xiaohu.AI日报「2月26日」✨✨✨✨✨✨✨✨1⃣️👄VSP-LLM：理解和翻译视频中的唇语将视频中唇动转化为文本，实现视觉语音识别和翻译。基于AV-HuBERT模型，利用先进技术识别语音信息。智能去除不必要重复信息，提高处理效率。🔗https://github.com/facebookresearch/av_hubert🔗https://x.com/xiaohuggg/status/1762089975431237938?s=202⃣️🔍MIRAGE：提升医学问答性能的检索增强生成框架使用最新可信文档辅助LLMs，减少错误信息，提升回答准确性。MIRAGE应用MedRAG，某些模型性能提升至GPT-4水平。🔗https://teddy-xionggz.github.io/benchmark-medical-rag/🔗https://arxiv.org/abs/2402.13178🔗https://x.com/xiaohuggg/status/1762082522417262764?s=203⃣️🎮Genie：从单图生成无限可玩游戏场景支持合成图像、真实照片、手绘草图转化成可互动游戏场景。降低创造复杂虚拟环境门槛，加速内容创作和游戏开发。🔗https://x.com/xiaohuggg/status/1761981007929176541?s=204⃣️🌟Sora完整能力曝光：视频和图像的全方位处理与生成生成、编辑、识别、处理、理解视频和图像内容。Sora展现出与Gemini 1.5 Pro相似的视频理解能力，能分析长达1小时的视频。🔗https://x.com/xiaohuggg/status/1761938064421867782?s=20

XiaoHu.AI日报