以下是一些能够自动提取视频英文字幕的 AI 工具:
Runway在真实影像方面质感是最好的,战争片全景的镜头处理得最好,以及Runway的控件确实目前体验感也比较好,但Runway就是特别爱变色,光影非常不稳定;SVD整体真的略拉垮……唯一能打的就是在风景片的测试,那条测试他是跑得最好的,其他方面就真的还很一般……我在做视频的时候,其实是会根据不同工具对画面的处理能力进行组合使用。举个栗子:Pixverse擅长物体滑行运动,我们就会用Pixverse生成,但这个视频里前面有一部分的飞机变形了,我们就会把Pixverse里生成的视频再放到Pika里面去局部重绘。有手部特殊运动的画面,我们就会用Runway来辅助完成。需要人物表情比较自然的画面我们就会用Pika来生成。总之就是,办法总比困难多,想尽一切招数,解决问题。这里本来可以对应介绍一些视听语言的书,但篇幅实在太长了目前,下次再推荐!第四步,AI声音这次我们尝试使用了一些简短对话的制作。通常在传统影视制作流程里,声音部分的制作会分为现场录音、后期配音、音效音乐制作等多个部分。这里用AI声音来制作对话相当于是后期配音的部分。我们会把中文台词谷歌翻译成英文,但我英语比较拉垮,所以找了非常专业的Azura Ge葛女士进行英文字幕校对与台词润色,形成配音稿。接着使用AI声音软件11labs(官网:https://elevenlabs.io/)进行对白制作,11labs的英文效果比较好,但我们仍然非常头疼地遇到了AI声音没有情绪和情感的问题。
源地址:https://shelled-fold-618.notion.site/AI-045d40b67e2e4c54b8af6b76f9f91dec作者:[亂寫](https://web.okjike.com/u/35A37119-54E2-4CE5-9206-C288807D6A7C)AI确确实实在改变我,让我自己的能力范围在扩大了,可以自行发现需求——产生方案——验证方案——解决需求,这个感觉还蛮棒的。产生这个想法是因为:2023.08.01这个时间点,我看到微博PG的一个博主发了PG播客的生肉视频。我的英语水平,有字幕都看不懂何况没有==[heading1]先写爱看的——最终解决方案[content]最终的解决方案,逻辑其实也很简单:1、用whisper生成原视频的英文字幕;(我预设whisper生成的字幕没问题,whisper的问题不探讨)2、让GPT结合字幕全文翻译,并让他根据原英文字幕的拆分,将译文进行同样行数的拆分;3、将GPT译文拆分的结果插入到原英文字幕文件中形成一个新的双语字幕文件。这个过程中所有的执行脚本都是让GPT写的。GPT的prompt在最后。08.04更新这一节是失败的经历,可以跳过。
浏览器作为“阅读器”,早期主要以新闻资讯为主,如今随着专业长文和视频增加,用户浏览消耗的时间也在逐渐增加。但每个人的时间是有限的,无法做到“一目十行”。用户浏览提效需求迫切,希望浏览器能够把深度文件、长视频自动看一遍,总结核心要点和高潮片段,从而实现学习工作效率提升。今年浏览器的很多功能都被APP取代了,要赋予浏览器新的概念。我们要把浏览器真正变成一个学习工具。官网地址:ai.se.360.cn[heading4]功能1:看长视频,敲黑板划重点[content]很多长视频从头看到尾浪费时间,全部快进又看不到重点。比如网上讲人工智能视频非常多,奥特曼开会、吴文达讲课,都是非常好的视频,但其实每个人的时间都有限。AI浏览器帮你观看B站的字幕视频,短短几秒就能总结概要生成脑图,告诉我们视频的重点和高潮剧情在哪。举例:用360AI浏览器观看《2007年iPhone发布会》,生成内容摘要和思维导图,视频全程20个看点,点击其中任一看点,就能定位到进度条对应位置,直接观看感兴趣的重点内容。还可以对英文字幕进行翻译,帮助用户理解内容。同时可通过AI助手对话,就视频内容进行追问和扩展提问。[heading4]功能2:阅读国内外长论文和著作,自动翻译自动提炼,3分钟get要点[content]PDF论文往往是最困难的阅读场景,长篇著作也需要耗费大量的阅读时间。360AI浏览器目前支持360k长文本阅读。以《三体》为例,360AI浏览器可以呈现《三体》两册完整的故事框架,还支持生成思维导图。这样即便你没时间阅读,也能对书籍核心内容有一个大概的了解,即使没读过《三体》,也能谈论《三体》。