Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

项目六 语音合成和音乐生成 6.1语音合成基础知识 6.1.1语⾳合成技术的发展历程 6.1.2新语⾳合成技术的优势 6.2语音合成和音乐生成应用场景 6.2.1语⾳合成技术的发展历程应⽤场景 6.2.2 ⾳乐⽣成在旅游⾏业的应⽤ 6.3语音合成和音乐生成的常用工具 6.3.1语音合成的常用工具 6.3.2音乐生成的常用工具 请根据以上内容生成思维导图

Answer

以下是为您生成的关于语音合成和音乐生成的思维导图:

一、语音合成基础知识

  1. 语音合成技术的发展历程
  2. 新语音合成技术的优势

二、语音合成和音乐生成应用场景

  1. 语音合成技术的发展历程应用场景
  2. 音乐生成在旅游行业的应用

三、语音合成和音乐生成的常用工具

  1. 语音合成的常用工具
    • 11labs(官网:https://elevenlabs.io/)
  2. 音乐生成的常用工具
    • Manglemoose(新工具名称未公布)
    • OpenAI 的 Jukebox(项目地址:https://openai.com/research/jukebox )

希望这个思维导图对您有所帮助!如果您还有其他需求,请随时告诉我。

Content generated by AI large model, please carefully verify (powered by aily)

References

AI 音乐 | 3.4 资讯

链接:https://www.manglemoose.com/en/Manglemoose最近展示了由他们最新开发的音乐生成器制作的视频案例,该工具的名称尚未公布,期待下后续。据了解,Manglemoose集结了五位对媒体音乐和声音设计充满热情的音频技术专家,他们的合作基于各自不同的专业知识,相信这种多元化的才能结合能够将项目提升至新的高度。他们提供从单个配音演员到完整音频包的多种服务,包括现场录音、作曲、声音设计和混音。详情可点击上方链接查看。

前Sora时代我最想做的AI短片——使用Pika、Pixverse、Runway、SVD四大AI视频工具

需要人物表情比较自然的画面我们就会用Pika来生成。总之就是,办法总比困难多,想尽一切招数,解决问题。这里本来可以对应介绍一些视听语言的书,但篇幅实在太长了目前,下次再推荐!第四步,AI声音这次我们尝试使用了一些简短对话的制作。通常在传统影视制作流程里,声音部分的制作会分为现场录音、后期配音、音效音乐制作等多个部分。这里用AI声音来制作对话相当于是后期配音的部分。我们会把中文台词谷歌翻译成英文,但我英语比较拉垮,所以找了非常专业的Azura Ge葛女士进行英文字幕校对与台词润色,形成配音稿。接着使用AI声音软件11labs(官网:https://elevenlabs.io/)进行对白制作,11labs的英文效果比较好,但我们仍然非常头疼地遇到了AI声音没有情绪和情感的问题。跟视频制作类似,需要不断地抽卡(反复生成),因为11labs无法使用语速、情绪调节等控件,我们只能通过标点符号去改变语音效果,比如使用,、……。!等等标点符号,有时会叠加不同标点符号,去试它的语音效果。

XiaoHu.AI日报

🔗 https://x.com/xiaohuggg/status/1763819660779405331?s=204⃣️🎵OpenAI的音乐生成模型:Jukebox3年前推出,即将发布Jukebox 2基于1.2百万首歌曲的数据集训练能根据歌词、艺术家和流派信息生成音乐和人声歌曲🔗演示列表:https://soundcloud.com/openai_audio🔗项目地址:https://openai.com/research/jukebox🔗 https://x.com/xiaohuggg/status/1763775026040590531?s=205⃣️🎮@CSM_ai:文本、图像或草图转换为3D素材直接应用于游戏中,无需后期处理视频演示了在ROBLOX游戏中的应用🔗体验地址:https://cube.csm.ai🔗 https://x.com/xiaohuggg/status/1763758877999587757?s=206⃣️🌍Sailor:东南亚国家定制的语言模型基于Qwen 1.5,覆盖7种语言从0.5B到7B不同大小版本,适应不同需求在SEA语言的多种任务上表现出色🔗项目:https://sailorllm.github.io🔗 https://x.com/xiaohuggg/status/1763753689108627960?s=20

Others are asking
图片合成
以下是关于图片合成的相关介绍: ComfyUI BrushNet: 这个过程类似于小时候的连点成图游戏,现在由电脑在图片上操作。 1. 掩码:像有洞的纸覆盖在图片上,电脑程序通过洞了解需修复部分。 2. 编码器:是电脑的大脑,把需修复图片转换成能理解和处理的信息。 3. 噪声潜在空间:加入随机性让修复部分更自然。 4. BrushNet 和冻结的 UNet:像画家的画笔和调色板,帮助完成修复工作。 5. 去噪和生成图像:去除噪声,创建真实图片部分。 6. 模糊掩码和合成:用特殊技巧将新生成图片和原始图片融合。 Blend叠加: /blend 命令允许快速上传 2 5 张图片,通过对每张图片的概念和美学分析,将它们合并成新图。 与 /imagine 结合多个 。 在输入 /blend 命令后,会提示上传两张照片,可从硬盘拖放或在移动设备从照片库添加。要添加更多图像,选择 optional/options 字段并选 image3、image4 或 image5。 图像叠加默认 1:1 宽高比,可使用可选的 dimensions 字段选择方形(1:1)、肖像(2:3)或横向(3:2)的长宽比。 与其他 /imagine 命令一样,/blend 指令末尾可添加 ,指定在 /blend 命令中的宽高比会覆盖自定义后缀中的宽高比。为获得最佳处理效果,上传与期望结果相同的图像宽高比。
2025-02-10
仿制药合成相关的ai有哪些?
以下是一些与仿制药合成相关的 AI 应用和系统: 1. ChatGPT 引发的范式转移涉及医疗领域,在蛋白质结构预测和合成方面有大量突破。 2. AlphaFold 是由 DeepMind 开发的在蛋白质结构预测方面表现出色的 AI 系统,其预测准确度超过其他系统,为科学家和药物开发提供了巨大帮助。 3. Meta 的蛋白质结构预测 AI 模型 ESMFold,截至目前已经进行了 7 亿次预测。 4. 多伦多大学研究人员开发了一种新的 AI 系统,利用类似 Stable Diffusion、Midjourney 的生成扩散技术创造出自然界中不存在的蛋白质。 5. 华盛顿大学的 David Baker 教授的团队开发了基于 DALLE 的人工智能系统 RF Diffusion,用于根据科学家的需求生成合适的蛋白质结构。 6. 洛桑联邦理工学院的科学家们开发了一种基于神经网络的新工具 PeSTo,可以预测蛋白质如何与其他物质相互作用,速度快、且通用性强。 7. 在 Surrey 大学开发了一种人工智能系统,用于识别个体细胞中的蛋白质模式,这一进展可以用于理解肿瘤的差异并开发药物。 8. 肯特大学的研究团队使用名为 talin 的蛋白质制成凝胶,该凝胶具有吸收冲击的能力,他们的目标是将 talin 蛋白质制成防弹材料。 文献参考: https://www.sciencedaily.com/releases/2023/05/230504121014.htm https://www.wevolver.com/article/pestoanewaitoolforpredictingproteininteractions https://www.sciencedirect.com/science/article/pii/S0958166923000514
2025-02-03
怎么把视频或图片中的人脸进行替换,生产新的合成图片或视频
要把视频或图片中的人脸进行替换,生成新的合成图片或视频,可以参考以下方法: 1. 利用 TecCreative 创意工具箱: 图片换脸:仅需上传原始图片和换脸图片,即可一键实现素材换脸。操作指引为上传原始图片——上传换脸图片——点击开始生成。注意图片大小上限 5M,支持 JPG、PNG 格式。 视频换脸:自动识别视频中的人脸,并将其替换为选择的脸部。操作指引为上传原始视频——上传换脸图片——点击生成。 2. 实战方法: 点击快捷工具中顶部的 JupyterLab,打开这个工具。通过终端输入命令启动 facefusion: 点击顶部的 + 号选项卡,新打开一个终端窗口。 点击终端区域,启动一个终端的选项卡。 在打开的终端窗口中,输入 3 条命令做 3 件事情: 查看文件列表。输入 ls 并按回车,显示当前位置所在目录下的文件列表。 进入 facefusion 目录,输入 cd facefusion 并按回车,进入程序目录。 启动 facefusion。输入:python./run.py executionproviders cuda cpu 启动程序。注意后面的参数 executionproviders cuda cpu 非常重要,如果不加 cuda,则默认不使用 GPU 能力,推理将非常慢。 当出现提示信息时,说明启动成功。 打开 facefusion 软件,需要返回实例列表,点击自定义服务按钮,会打开一个新的浏览器窗口。 在 facefusion 软件界面上,上传准备好的图片、视频后,在右侧可以看到预览效果。点击下方的开始按钮,执行换脸处理。执行完成后,在输出的位置,会出现处理后的视频,输出窗口的右上角有一个下载按钮,点击它可以导出变量后的视频到本地。
2025-02-01
视频合成
视频合成是一个具有一定难度的任务,原因包括: 1. 视频合成需要不同帧之间保持时间一致性,这要求将更多世界知识编码到模型之中。 2. 收集大量高质量、高维度的视频数据,以及配对的文本视频数据更为困难。 如果想用 AI 把小说做成视频,可参考以下制作流程: 1. 小说内容分析:使用 AI 工具(如 ChatGPT)分析小说内容,提取关键场景、角色和情节。 2. 生成角色与场景描述:根据小说内容,使用工具(如 Stable Diffusion 或 Midjourney)生成角色和场景的视觉描述。 3. 图像生成:使用 AI 图像生成工具根据描述创建角色和场景的图像。 4. 视频脚本制作:将提取的关键点和生成的图像组合成视频脚本。 5. 音频制作:利用 AI 配音工具(如 Adobe Firefly)将小说文本转换为语音,添加背景音乐和音效。 6. 视频编辑与合成:使用视频编辑软件(如 Clipfly 或 VEED.IO)将图像、音频和文字合成为视频。 7. 后期处理:对生成的视频进行剪辑、添加特效和转场,以提高视频质量。 8. 审阅与调整:观看生成的视频,根据需要进行调整,比如重新编辑某些场景或调整音频。 9. 输出与分享:完成所有编辑后,输出最终视频,并在所需平台上分享。 请注意,具体的操作步骤和所需工具可能会根据项目的具体需求和个人偏好有所不同。此外,AI 工具的可用性和功能也可能会随时间而变化,建议直接访问上述提供的工具网址获取最新信息和使用指南。
2025-02-01
可以将自己原创清唱配乐合成一首完整作品吗
目前的 AI 技术可以帮助您将自己原创清唱配乐合成一首完整作品。有多种相关的软件和工具可供使用,例如一些专业的音频编辑软件,它们具备音频合成、混音等功能,可以将您的清唱和配乐进行整合和优化。但具体的效果可能会受到您的清唱质量、配乐选择以及操作技巧等因素的影响。
2025-01-26
有两张图,一张是手,一张是戒指,如何将戒指套入手上合成一张图
目前没有相关的知识库内容为您提供将手和戒指合成一张图的具体方法。但一般来说,您可以使用专业的图像编辑软件,如 Adobe Photoshop 等。以下是大致的步骤: 1. 打开软件并导入手和戒指的图片。 2. 选择戒指图片,使用抠图工具将戒指抠出。 3. 将抠出的戒指移动到手的图片上,并调整大小、位置和角度,使其看起来像是套在手上。 4. 对合成后的图片进行细节调整,如颜色、光影等,以使合成效果更加自然。 希望这些信息对您有所帮助。
2025-01-17
如何可以通过ai语音转文字
以下是关于通过 AI 实现语音转文字的相关内容: 可以使用 GVoice 提供的语音录制和识别能力,其中文识别率优秀。语音识别的少量错误,ChatGPT 能正常理解和纠错,衔接较为流畅。 推荐 OpenAI 的 wishper,相关链接:https://huggingface.co/openai/whisperlargev2 。还有一个项目:https://huggingface.co/spaces/sanchitgandhi/whisperjax ,此项目在 JAX 上运行,后端支持 TPU v48,与 A100 GPU 上的 PyTorch 相比,快 70 多倍,是目前最快的 Whisper API。 对于有字幕的 B 站视频,可通过安装油猴脚本获取字幕,然后将字幕文字内容复制发送给 GPTs 进行总结。
2025-02-17
开源文字转语音
以下是为您提供的开源文字转语音相关信息: WhisperSpeech:通过对 OpenAI Whisper 模型的反向工程实现,生成发音准确、自然的语音输出。 相关链接:https://github.com/collabora/WhisperSpeech 、https://x.com/xiaohuggg/status/1748572050271420663?s=20 StyleTTS 2:一个开源的媲美 Elevenlabs 的文本转语音工具,可结合文本角色内容和场景音快速生成有声小说。 主要特点:多样化的语音风格、更自然的语音、高效生成、精确的语音控制、接近真人的语音合成、适应不同说话者。 工作原理:利用风格扩散和与大型语音语言模型(SLM)的对抗性训练来实现接近人类水平的 TTS 合成,通过扩散模型将风格建模为一个潜在的随机变量,以生成最适合文本的风格,而不需要参考语音,实现了高效的潜在扩散,同时受益于扩散模型提供的多样化语音合成。 相关链接:暂无
2025-02-15
自动语音识别加字幕
以下是关于自动语音识别加字幕的相关内容: 制作 AI 数字人视频添加字幕的方法: 在显示区域,拖动背景图的角将其放大到适合尺寸,如覆盖视频窗口,并将数字人拖动到合适位置。点击文本 智能字幕 识别字幕,然后点击开始识别,软件会自动将文字智能分段并形成字幕。至此,数字人视频完成,可点击右上角“导出”按钮导出视频备用。 文旅片添加字幕的方法: 选择朗诵男生或清爽男生的音色进行朗读,点击开始朗读自动生成音频。鼠标右键点击当前音轨,找到识别字幕/歌词,耐心等待生成对应文本字幕。操作复杂的部分可观看录制的视频。若剪映的识别字幕功能需要 VIP,可准备好字幕文件,点击本地字幕并导入文件。 视频自动字幕工具推荐: 1. Reccloud:免费的在线 AI 字幕生成工具,可上传视频精准识别,能翻译字幕并生成双语字幕,处理过 1.2 亿+视频,识别准确率接近 100%。 2. 绘影字幕:一站式专业视频自动字幕编辑器,提供字幕制作和翻译服务,支持 95 种语言,准确率高达 98%,可自定义字幕样式。 3. Arctime:能对视频语音自动识别并转换为字幕,支持自动打轴,支持 Windows 和 Linux 等主流平台及 SRT 和 ASS 等字幕功能。 4. 网易见外:国内知名语音平台,支持视频智能字幕功能,转换正确率较高,支持音频转写功能。 您可根据自身需求选择适合的工具。
2025-02-14
有免费好用的文本转语音工具吗
以下是一些免费好用的文本转语音工具: 1. Eleven Labs:https://elevenlabs.io/ 这是一款功能强大且多功能的 AI 语音软件,能生成逼真、高品质的音频,可高保真地呈现人类语调和语调变化,并能根据上下文调整表达方式。 2. Speechify:https://speechify.com/ 这是一款人工智能驱动的文本转语音工具,可将文本转换为音频文件,能作为 Chrome 扩展、Mac 应用程序、iOS 和 Android 应用程序使用,适用于收听网页、文档、PDF 和有声读物。 3. Azure AI Speech Studio:https://speech.microsoft.com/portal 这是一套服务,赋予应用程序“听懂、理解并与客户进行对话”的能力,提供了支持 100 多种语言和方言的语音转文本和文本转语音功能,还提供了自定义的语音模型。 4. Voicemaker:https://voicemaker.in/ 这一 AI 工具可将文本转换为各种区域语言的语音,并允许创建自定义语音模型,易于使用,适合为视频制作画外音或帮助视障人士。 此外,还有日语文本转语音软件 VOICEVOX,它提供多种语音角色,适用于不同场景,可调整语音的语调、速度、音高,开源且可商用。链接: 内容由 AI 大模型生成,请仔细甄别。
2025-02-12
语音转文字
以下是关于语音转文字的相关信息: 推荐 OpenAI 的 wishper,相关链接:https://huggingface.co/openai/whisperlargev2 。一分钟搞定 23 分钟的音频,相关链接:https://huggingface.co/spaces/sanchitgandhi/whisperjax 。此项目在 JAX 上运行,后端支持 TPU v48,与 A100 GPU 上的 PyTorch 相比,快 70 多倍,是目前最快的 Whisper API。 在声控游戏《神谕》中,使用 GVoice 提供的语音录制和识别能力进行语音转文字,中文识别率优秀。语音识别的少量错误,可被 chatgpt 正常理解和纠错,衔接流畅。 免费的会议语音转文字工具大多有使用时间限制,超过免费时间需付费。推荐工具包括:飞书妙记(https://www.feishu.cn/product/minutes)、通义听悟(https://tingwu.aliyun.com/home)、讯飞听见(https://www.iflyrec.com/)、Otter AI(https://otter.ai/)。更多会议记录工具请访问网站:https://waytoagi.com/sites/category/29 。
2025-02-11
中文语音克隆比较强的有哪些
以下是一些中文语音克隆能力较强的产品: XiaoHu.AI:通过 250,000 小时的中英双语数据训练,仅需 15 秒的声音即可完美克隆,包括音色和情感。基于 LLaMA 模型,支持从文本生成语音,或基于语音提示生成目标语音(保留情感特征)。参数规模有 Llasa1B(轻量级,适合资源受限硬件部署,链接:https://huggingface.co/HKUSTAudio/Llasa1B )和 Llasa3B(更高性能,提供更复杂的语音生成,链接:https://huggingface.co/HKUSTAudio/Llasa3B )。详细介绍:https://www.xiaohu.ai/c/a066c4/llasattsllama3233827b03e5f44a989bf29c06d43d11ce 。 开源产品: GPTSoVITS:https://github.com/RVCBoss/GPTSoVITS ,对中、英、日语言支持良好,需要 10 分钟左右干素材,瞬时 clone 功能未开放。 OpenVoice:https://github.com/myshellai/OpenVoice ,对中文支持较好,主打瞬时 clone,发展势头良好,一个月前测试时中文声音 clone 有英语味道。 商业产品: ElevenLab:https://elevenlabs.io ,支持最多语言种类,支持瞬时 clone,综合效果最好。 Reecho:https://reecho.ai ,中国团队,支持长音频和瞬时声音 clone,据说与火山引擎的声音 clone 技术同源。 自得语音:https://zideai.com ,中国团队,支持瞬时声音 clone 和声音定制,尚未测试。
2025-02-11
ai换脸 常用工具
以下是一些常用的 AI 换脸工具及相关操作方法: 1. facefusion 工具: 云服务解决方案: 选择 AutoDL 平台(官网:https://www.autodl.com/home ),注册后在算力市场中选择能接受价格且 GPU 配置较高的算力服务器。 在算法社区查找 facefusion 镜像,点击右侧合适的镜像(左侧的可能有问题)。 点击右下角的创建实例按钮,创建并启动实例(即启动一台服务器)。 点击快捷工具中顶部的 JupyterLab 打开工具,通过终端输入以下命令: 查看文件列表:输入“ls”并按回车,显示当前位置所在目录下的文件列表。 进入 facefusion 目录:输入“cd facefusion”并按回车,进入程序目录。 启动 facefusion:输入“python./run.pyexecutionproviders cuda cpu”(注意后面的参数“executionproviders cuda cpu”非常重要,如果不加“cuda”,默认不使用 GPU 能力,推理将非常慢)。 当出现提示信息时,说明启动成功。 打开 facefusion 软件,返回实例列表,点击自定义服务按钮,会打开新的浏览器窗口,通过 web 浏览器访问 facefusion 提供的 UI 界面,上传准备好的图片、视频,在右侧可看到预览效果,点击下方的开始按钮执行换脸处理。 本机解决方案: 该软件需要 python 环境及安装视频解码器等多个依赖软件,需要一定编程知识,可参考网站 https://docs.facefusion.io/ 进行本地安装。 由于 facefusion 的运行推理计算速度非常依赖 GPU,若本地计算机没有 GPU 或 GPU 显存较小,执行速度将会非常缓慢。 2. 开源地址:https://github.com/facefusion/facefusion
2025-02-16
中小学AI教育场景 生成式 全息
以下是关于中小学 AI 教育场景生成式的相关内容: 北京市新英才学校在中小学 AI 教育方面进行了积极探索。跨学科项目老师带着学生用 AIGC 做学校地图桌游,英语老师在 AIGC 帮助下备课和授课,生物和信息科技老师合作带着学生训练 AI 模型以识别植物。数字与科学中心 EdTech 跨学科小组组长魏一然深入参与其中。 在英语课上,对于初中以上学生,一开始更多是老师带着使用 AIGC 工具,由学生提出 prompt,老师引导。例如在研究学校食堂食物浪费问题时,老师带着学生与 ChatGPT 对话获取信息,还让 ChatGPT 生成单词解释和例句,加工生词生成题目、游戏或文章帮助学生复习单词。在社交媒体的英语辩论课上,尝试让学生自主使用 AIGC 工具做辩论准备。 教育科技长期以来在有效性和规模之间权衡,而有了 AI 这种状况不再存在。现在可以大规模部署个性化学习计划,为每个用户提供“口袋里的老师”。像 Speak、Quazel、Lingostar 已在做实时交流并给予反馈的语言教学。Photomath、Mathly 指导学生解决数学问题,PeopleAI、Historical Figures 通过模拟与杰出人物聊天教授历史。学生在作业中也利用 Grammarly、Orchard、Lex 等工具提升写作水平,处理其他形式内容的产品如 Tome、Beautiful.ai 协助创建演示文稿。
2025-02-17
推荐一个提示词生成器给我
以下为您推荐一些提示词生成器: 1. Midjourney 提示词生成器:仿照 GPTs 里的 MJ prompt 改了一版提示词,可以用在 coze 或者其他国内的 agent 里。不是很挑模型,基本上都可以用。方便的地方在于如果提示词懒得写全,可以让 agent 直接帮助补全润色,黏贴就可以。 2. 月维推出的提示词生成工具:一个开源的 AIGC(Midjourney)提示词可视化编辑小工具,支持显示英文提示词的中文翻译、输入中文提示词翻译到英文、为提示词进行分类(普通、样式、质量、命令)、轻松的排序、隐藏提示词、把提示词可视化结果导出为图片、常用提示词词典。 3. 图像类 Prompt 网站: MidLibrary:Midjourney 最全面的流派、艺术技巧和艺术家风格库,网址: MidJourney Prompt Tool:类型多样的 promot 书写工具,点击按钮就能生成提示词修饰部分,网址: OPS 可视化提示词:这个网站有 Mid Journey 的图片风格、镜头等写好的词典库,方便您快速可视化生成自己的绘画提示词,网址: AIart 魔法生成器:中文版的艺术作品 Prompt 生成器,网址: IMI Prompt:支持多种风格和形式的详细的 MJ 关键词生成器,网址: Prompt Hero:好用的 Prompt 搜索,Search prompts for Stable Diffusion,ChatGPT&Midjourney,网址: OpenArt:AI 人工智能图像生成器,网址: img2prompt:根据图片提取 Prompt,网址: MidJourney 提示词工具:专门为 MidJourney 做的提示词工具,界面直观易用,网址: PromptBase:Prompt 交易市场,可以购买、使用、销售各种对话、设计 Prompt 模板,网址: AiTuts Prompt:AiTuts Prompt 是一个精心策划的高质量 Midjourney 提示数据库,提供了广泛的不同风格供您选择,网址:
2025-02-17
免费生成ppt的ai工具
以下为您介绍一些免费生成 PPT 的 AI 工具: 1. 歌者 PPT(gezhe.com): 功能: 话题生成:一键生成 PPT 内容。 资料转换:支持多种文件格式转 PPT。 多语言支持:生成多语言 PPT。 模板和案例:海量模板和案例库。 在线编辑和分享:生成结果可自由编辑并在线分享。 增值服务:自定义模板、字体、动效等。 简介:是一款永久免费的智能 PPT 生成工具,用户可轻松将任何主题或资料转化为 PPT,并选择应用大量精美模板,适用于多种场景,操作便捷且智能化。 产品优势: 免费使用:所有功能永久免费。 智能易用:通过 AI 技术简化 PPT 制作流程,易于上手。 海量案例:大量精美模板和优秀案例可供选择和下载。 资料转 PPT 很专业:支持多种文件格式,转换过程中尊重原文内容。 AI 翻译:保持 PPT 原始排版不变,多语言在线即时翻译。 推荐理由: 完全免费,对学生和职场人士是福音。 智能化程度高,通过 AI 技术快速将资料转换成精美 PPT,高效准确。 模板和案例库丰富,总能找到适合的模版或案例。 对多语言支持实用,可一键生成目标语言的 PPT 或翻译。 几乎无需学习成本就能上手使用。 2. 讯飞智文(http://zhiwen.xfyun.cn):免费的 AI 制作 PPT 工具。 目前市面上大多数 AI 生成 PPT 按照如下思路完成设计和制作: 1. AI 生成 PPT 大纲。 2. 手动优化大纲。 3. 导入工具生成 PPT。 4. 优化整体结构。 推荐 2 篇市场分析的文章供参考: 1. 《》 2. 《》 此外,还有一些相关工具,如百度文库,有自动 PPT 功能,分为免费和付费版本。橙篇是百度文库于 2024 年 5 月 30 日发布的综合性 AI Native 产品,集多种功能于一身。
2025-02-17
生成浮世绘风格的提示词
以下是一些生成浮世绘风格的提示词: Ukiyoe:浮世绘的准确翻译。 Flat illustration:保持画面扁平风,避免视觉冲击过度。 Doraemon from Manga Doraemon:漫画《哆啦 A 梦》里的哆啦 A 梦;该句式还原热门动漫形象效果好,把 from 前后继续对应修改即可。 Surfing:冲浪。会自动关联到《神奈川冲浪里》风格。 Block print:木版画。提升纹理质感。 1700s:年代关键词,提升质感。浮世绘源自 17 世纪,实测 1700s 效果较好。 niji 6:该系列创作使用 niji 6 比 V6 出图效果好。 style raw:更贴近描述词本身。“限制 AI 自由发挥”
2025-02-17
如何用ai生成海报和视频
以下是使用 AI 生成海报和视频的方法: 1. 利用飞书多维表格字段插件生成海报: 第一步,用 AI 插件理解图片。上传参考的海报图片,在飞书多维表格中选择字段捷径,于 AI 中心找到智谱 AI 的内容生成插件。配置提示文本,如“详细描述下海报中的内容”,选择上传图片的所在列和模型 glm4v。很快 AI 就能将海报内容整理并填充到对应列中。 第二步,生成视频的指令。用飞书自带的插件总结宣语,生成视频的 prompt 指令。先将海报内容总结为活动宣传语,自定义总结要求为:根据活动海报的描述文案,总结为一句话的活动宣传语,删除日期时间,把活动的品牌统一更换为“智谱 AI”,采用小红书风格,有鲜明记忆点且不超过 50 字。然后使用飞书自带的自定义 AI 插件,输入指令生成视频所需的 prompt 指令,文案引用刚才的总结宣传语,要求画面描述开头包含“卡通风格,镜头从远推进:”,用英文生成,适合模型指令格式且不超过 100 个字。 2. 在 Adobe 产品中生成带有文本提示和图像的视频:在 Advanced 部分,可使用 Seed 选项添加种子编号来控制 AI 创建内容的随机性。若使用相同的种子、提示和控制设置,能重新生成类似的视频剪辑。选择 Generate 进行生成。 3. 关于一些基础通识: 多模态大模型基于大圆模型,能识别页面组件结构和位置绝对值信息,由解码器、backbone、Generator 等部件组成,左侧多模态理解,右侧生成输出。 stable diffusion 模型是生成模型,通过加噪和去噪实现图像的正向扩散和反向还原,可应用于带货商品图生成、模特服装展示、海报生成、装修设计等场景。 吉梦 AI 提供 AI 视频生成等能力,吐司是类似的在线生成平台,二者都可通过输入提示词生成图片。 AI 视频生成原理主要基于 Sara 的整体架构,采用 diffusion Transformer 架构,以扩散模型通过随机造点、加噪和去噪得到连续图像帧。Meta 的视频生成模型能生成视频和声音,可替换视频中的物体和人脸,其把 diffusion 架构换成纯 transformer 架构,基于 LLAMA3 训练。
2025-02-16
影视行业的生成式AI工具有哪些?帮我分一下类
以下是影视行业常见的生成式 AI 工具分类: 视频和图像类:Civitai、Kling AI、Viggle、Hailuo、Hedra、RunPod、Higgsfield、ThinkDiffusion、neural frames、Genmo、fal、LTX Video、CogVideoX、Morph Studio、Domo、Haiper、Pony Diffusion、Leonardo AI、Rubbrband 音频类:ElevenLabs、Hailuo、Cartesia、Sync、Tunes by Freepik 3D 类:Playhouse、Playbook、Tripo AI 故事板类:SAGA 在视频大类的分类下,按场景分,主要有以下几类: 1. 纯 AI 视频生成(RunwayML 等为代表) 2. 数字人(Heygen 等) 3. 营销类视频生成及编辑(生成内容以模板化,商业化内容为主) 4. 视频编辑(全面编辑,长剪短等) 此外,全球最大的生成式 AI 视频竞赛之一 Project Odyssey 第二季已开始,相关信息如下: 赛事官网:https://www.projectodyssey.ai/ 注册地址:https://projectodyssey.myflodesk.com/season2 赛事 Discord:https://discord.com/invite/projectodysseyai 提交地址:https://www.projectodyssey.ai/submission 时间线: 12 月 2 日:Project Odyssey 第二季开放报名 12 月 9 日:比赛规则公布 12 月 16 日:报名用户可解锁免费试用、完整规则正式发布、作品提交正式开启 1 月 16 日:提交截止,进入评审阶段 2 月 14 日:直播颁奖 参赛类别: 叙事类:通过鲜明的角色和深刻的故事情节,讲述能够打动人心的故事。 音乐视频:将视觉效果与原创音乐完美结合,打造震撼体验。 品牌创意:构思创意广告或活动视频,为虚拟品牌注入灵魂。(短于 60 秒) 创意预告片:制作极具吸引力的预告片或片头,为电影或剧集呈现特别概念。(短于 2 分 30 秒)
2025-02-16