以下是关于提取视频里面声音的相关信息:
Sovits 声音训练及推理:
PixelPlayer:MIT 研究团队的创新工具,可自动识别并分离视频中的声音源,匹配画面位置。为音视频编辑提供强大功能,如独立调整音量、去除或增强特定声音源。其核心功能包括声音源分离、声音定位、多声音源处理。相关链接:http://sound-of-pixels.csail.mit.edu 、https://arxiv.org/abs/1804.03160 、https://x.com/xiaohuggg/status/1759916778229268874?s=20
b站教程:https://www.bilibili.com/video/BV1ga411S7gP/?spm_id_from=333.788.video.desc.click&vd_source=35e62d366d8173e12669705f7aedd122Github链接:https://github.com/Anjok07/ultimatevocalremovergui/百度网盘:https://pan.baidu.com/s/14iK32JKIPvjmf1Kfq21mzg?pwd=hjhj提取码:hjhj这里的模型一定要下载,软件本体只预装了部分模型,模型的安装比较简单,拷贝就行,详情请看网盘里的说明。界面是这个样子,选择好输入输出路径,选择模型,提取人声的最佳模型是mdx-net,然后选择uvr-mdx-netmain提取伴奏用VR,但是训练不需要伴奏,可以忽略这一步,只是顺便提一下,后期合成mv的话,是需要推理后的声音和伴奏剪辑到一起的。提取出来的声音一般来说还需要精细的处理,去掉杂音、和声和混响,达到俗称“干声”的效果这里介绍2个软件来处理声音iZotope RX,用来去掉混响和杂音链接:https://pan.baidu.com/s/1NX-h67SViKm39zT08U7-zg?pwd=kmhd提取码:kmhd安装的时候,记得把vst3和aax勾上,否则后面找不到对应的文件夹
🔔Xiaohu.AI日报「2月20日」 ✨✨✨✨✨✨✨✨1⃣️🔊 PixelPlayer:MIT研究团队的创新自动识别并分离视频中的声音源,匹配画面位置。为音视频编辑提供强大工具:独立调整音量、去除或增强特定声音源。核心功能:声音源分离、声音定位、多声音源处理。🔗 http://sound-of-pixels.csail.mit.edu🔗 https://arxiv.org/abs/1804.03160🔗 https://x.com/xiaohuggg/status/1759916778229268874?s=202⃣️👗 OOTDiffusion:高度可控的虚拟服装试穿工具高质量服装图像生成与融合,支持半身和全身模型。可控试穿参数,自然融合与逼真效果。开源项目,支持在线测试。🔗 https://github.com/levihsu/OOTDiffusion🔗 https://ootd.ibot.cn🔗 https://x.com/xiaohuggg/status/1759876272505942462?s=203⃣️🔄 AnyGPT:跨模态大语言模型从任意模态到任意多模态的理解与生成。支持文本、图像、视频、音频等模态输入和输出。
🔔Xiaohu.AI日报「2月20日」 ✨✨✨✨✨✨✨✨1⃣️🔊 PixelPlayer:MIT研究团队的创新自动识别并分离视频中的声音源,匹配画面位置。为音视频编辑提供强大工具:独立调整音量、去除或增强特定声音源。核心功能:声音源分离、声音定位、多声音源处理。🔗 http://sound-of-pixels.csail.mit.edu🔗 https://arxiv.org/abs/1804.03160🔗 https://x.com/xiaohuggg/status/1759916778229268874?s=202⃣️👗 OOTDiffusion:高度可控的虚拟服装试穿工具高质量服装图像生成与融合,支持半身和全身模型。可控试穿参数,自然融合与逼真效果。开源项目,支持在线测试。🔗 https://github.com/levihsu/OOTDiffusion🔗 https://ootd.ibot.cn🔗 https://x.com/xiaohuggg/status/1759876272505942462?s=203⃣️🔄 AnyGPT:跨模态大语言模型从任意模态到任意多模态的理解与生成。支持文本、图像、视频、音频等模态输入和输出。