Chat with Wiki - 视频转录总结

Answer

视频转录是将视频中的音频内容转换为文字的过程。以下是关于视频转录的一些文章片段：

在线工具推荐：https://huggingface.co/spaces/sanchit-gandhi/whisper-jax，这个工具可以高效准确地完成油管视频的转录，并且是免费的。
开源语音识别工具推荐：WhisperX，https://github.com/m-bain/whisperX，它结合 VAD 剪切和合并策略对音频进行预分割，提高了转录质量，并通过批量推理将转录速度提高了 12 倍。
ChatGPT 应用案例：总结 YouTube 视频。ChatGPT 本身无法直接总结 YouTube 视频，但有些免费服务可以帮助转录或下载视频的自动生成字幕。将字幕转化为简洁的要点，可节省时间。
视频转绘注意事项：选择前面模糊的片段点击 DELETE 键或者退格键把这段片段删除；检查视频比例是否标准；对于 4K 的视频进行缩小；对于分辨率模糊的视频进行分辨率提升。

Content generated by AI large model, please carefully verify (powered by aily)

References

https://huggingface.co/spaces/sanchit-gandhi/whisper-jax这个在线工具，完成油管视频转录，效率奇高，还免费。太赞了!!HuggingFace果然也是个大宝藏!!开源语音识别工具推荐：WhisperX，[https://github.com/m-bain/whisperX](https://t.co/zgXz3kFuNM)，70倍速提升这个项目是对论文《WhisperX:Time-Accurate Speech Transcription of Long-Form Audio》的实现，[https://arxiv.org/abs/2303.00747](https://t.co/2N7nF7ynkO)，它结合VAD剪切和合并策略对音频进行预分割，提高了转录质量，并通过批量推理将转录速度提高了12倍，性能大大提升。从项目介绍来看，它使用faster-whisper作为后端，使用wav2vec2用于对齐时间戳，使用pyannote-audio进行说话人区分，并对VAD进行了预处理，可以有效减少幻觉问题。介绍里头说，它利用Whisper Large-v2可以进行70倍转录推理，非常生猛。不过存在一个跟Whisper同样的缺陷，就是不能良好处理重叠的语音，该问题可以考虑使用前面推荐的Diart来处理。

开发视角：《我每天是如何使用 ChatGPT 的（从科学家和开发者的视角）》

我第一次尝试这种方法时非常兴奋。相比之下，YouTube视频中由于充斥着广告和冗长内容，找到需要的信息变得更加困难，不是吗？ChatGPT本身无法直接总结YouTube视频，但有些免费服务可以帮助转录或下载视频的自动生成字幕。这样你就得到了一大段文字，其中不乏“嗯”、“呃”这样的语气词，还有赞助商的广告内容。你可能并不愿意阅读这些。只需保存这些文字，作为文档上传，然后让ChatGPT帮你将YouTube视频的字幕转化为简洁的要点。我用过这个方法几次，尤其是对于那些我已经观看过且包含高技术性内容的视频，比如关于如何操控wavetable的技巧，在[我最喜爱的VST音频合成器](https://kilohearts.com/products/phase_plant)中。我本可以手动记录，一边看视频一边写笔记，暂停，切换窗口，这样可能会浪费一个小时。但借助ChatGPT，我只用了五分钟来弄清楚如何转录视频，接着又用五分钟来编辑笔记，使其符合我的需求。

小田：视频转绘制作视频过程中不可或缺的一环

选择前面模糊的那段片段点击DELETE键或者退格键把这段片段删除。到此我们将视频进行了一些处理点击右上角的导出按钮导出新的视频就可以了，这里注意一下导出的名称最好使用英文。以下是注意事项：1.这一步还有一个作用就是校准。因为有时候我们下载的视频可能不是标准的视频比例这时候我们也需要丢进去剪影处理一下，如果不处理由于SD图片绘制分辨率按照8的倍数增加即使你在绘制的时候分辨率按照原视频的分辨率进行绘制。在最后视频合成的时候还是会报错的。一定要记得检查2.对于你后续老板给你的视频进行缩小，现在很多老板发给你的视频都是4K的我们要知道SD最大只能完成2048*2048的绘制在往上是没办法完成的而且制作的时间也会大幅度上升3.一些分辨率确实很模糊的视频干脆直接拒绝，即使客户要求很强烈那还是有办法补救一下的可以先把视频的分辨率提起来在进行绘制如果还是不行那么直接放弃吧。提升分辨率我推荐使用这个插件（TopazVideoAI）具体怎么操作我会放到后面在说。