直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

有没有输入歌曲,自动生成mv的

回答

目前存在输入歌曲自动生成 MV 的相关方法和案例:

  • 大峰的案例中,先使用 Suno 生成歌曲,选择中国风风格,凭借音乐审美选出中意的歌曲。然后将歌词发给 GPT,让其以英文 AI 绘画提示词的形式提供每句歌词的每个分镜,再将生成的图片丢入 Midjourney 进行图片生成,最后用 Midjourney 生成的图片丢入 Runway 进行图生视频。
  • 专业的歌曲分析师可以根据用户输入的歌词完成基本的歌曲 MV 构思部分。
  • 在爆肝 60 小时的案例中,音乐制作方面一开始想抽三个不同的曲子拼接,但因节拍、风格、情绪不同难以剪辑,最后用了一首完整的曲子。团队成员上传推荐歌曲到多维表格,附上推荐理由,由相关人员审核通过。还有一些技巧,如在前奏部分重复第一句以解决发音不清晰问题。
内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

大峰:AI音乐创作全流程解析《梦回温州》AIMV荣获AI金曲奖并获央视推荐!

接下来我们用Suno生成歌曲,我感觉在填写歌曲风格的时候填写少量的风格词,让AI有更多的发挥空间,会更容易得到好的作品,我通常写1~3个风格词。这首歌的歌曲风格我选用中国风(Chinese Style),我想要周杰伦那种中国风,耐听而且受众广,老少皆宜。当时创作这首歌的时候,用的是测试版的v3,刷了3页(大概60首歌)。接下来就用到了多年来听歌累计的乐感和音乐品味,如果说AI生图最重要的是对图片的审美,那么AI生歌最重要的就是对音乐的审美。要从这些歌中靠你对于音乐的审美选出一首你最中意的歌曲。[heading2]分镜生图:[content]将歌词发给GPT,并将你的想法告诉它,“我要将这首歌做成一个中国风的mv,整个mv保持同样的画风,请以英文AI绘画提示词的形式提供每句歌词的每个分镜,提示词尽量详尽,以确保更接近咱们想要的画面。”接下来GPT会将每句歌词的画面转化成一个对应的AI绘画提示词。咱们直接丢进AI生图平台进行图片生成,我用的是Midjourney,画面真的是美到爆!提示词:A serene riverside scene in Wenzhou,depicted in the style of a Chinese ink painting with hyper-realistic details such as the texture of the willow leaves and the reflection of the ancient city in the water.The artwork should capture the essence of tranquility and the passage of time,blending traditional Chinese artistry with modern realism to evoke a deep emotional connection.[heading2]图生视频:[content]Midjourney生成的图片直接丢入Runway进行图生视频。

Prompt 歌曲分析

专业的歌曲分析师,擅长解读歌词,结合下面的步骤可以完成基本的歌曲MV构思部分。用户输入:如果有歌词的原始创意则提交,如果没有请写:没有用户输入:提交歌词,每句前加序号,比如1.一直都沒來得及说句对不起2.以为分开还能再相遇3.以为再见从没说就算不上结局4.一切还能再未完待续5.後來也有幾個人身邊來又去6.沒有一個能把你代替7.最怕看到劇情像我們的電影8.最怕會遇到誰長得像你哪怕是语气9.看微風輕輕吹過千萬里10.多想把所有的思念寄給你11.你看不到的真理以為會過去12.如今依然還沒有忘記13.看微風輕輕吹過千萬里14.多想也能聽到你回的消息15.你是否還能記起有我的曾經16.還是依然沉醉在风过千里第四步用户:如果不满意,直接输入不满意,请再次输出一版,可明确说明哪里不满意如果满意则输入:第五步用户如果不满意,直接输入不满意,请再次输出一版,可明确说明哪里不满意如果满意则输入:如果有具体需求也可以在其后注明,比如:[歌曲分析师示范.docx](https://bytedance.feishu.cn/space/api/box/stream/download/all/Tvl6bJzfjo7BoYxh7oocF7bfnwe?allow_redirect=1)

爆肝 60 小时,一群小白用 AI 做了一个 MV——万字保姆级复盘攻略

制作思路:音乐一开始想抽三个不同的曲子,拼接成一首,但在曲子的节拍、风格、情绪完全不同的情况下,真的很难剪辑到一起,最后还是用了一首完整的曲子。创作方法:全歌词不加其他描述词,不断抽卡音乐选择过程:团队成员上传推荐歌曲到多维表格附上推荐理由由剪辑老师、导演、音乐老师审核之后通过一些技巧:前两个字甚至第一句话都常常发音不清晰,所以会在前奏部分再重复一遍第一句,这样前面部分可以按需截掉,后面就是完整清晰的音乐最后的定稿音乐:[嘉定时空原生.MP3](https://bytedance.feishu.cn/space/api/box/stream/download/all/EOE8bkLRcoczcQxqhThc5HpqnVf?allow_redirect=1)

其他人在问
如何用大模型做mv
要用大模型做 MV,您可以按照以下步骤进行: 1. 模型下载: 常用的模型网站有: 在 Civitai 网站使用方法: 科学上网(需自行解决)。 点击右上角筛选按钮,找到所需模型类型,如 Checkpoint=大模型、LoRA=Lora 等。 看照片,感兴趣的点进去,点击右边“Download”保存到电脑本地。还可点击左上角“Images”,找到喜欢的图片点进去,查看全部信息,复制图片信息。 2. 模型安装: 下载模型后放置在指定目录: 大模型(Ckpt):放入 models\\Stablediffusion VAE 模型:一些大模型需要配合 vae 使用,对应的 vae 放置在 models\\Stablediffusion 或 models\\VAE 目录,然后在 webui 的设置栏目选择。 Lora/LoHA/LoCon 模型:放入 extensions\\sdwebuiadditionalnetworks\\models\\lora,也可以在 models/Lora 目录 Embedding 模型:放入 embeddings 目录 若不知道下载的模型类型,可使用秋叶的模型解析工具 https://spell.novelai.dev/,将模型拖动到空白处查看模型信息。 不会科学上网的,也可在启动器界面直接下载模型,大模型放在根目录的【……\\models\\Stablediffusion】文件夹,VAE 放在根目录的【……\\models\\VAE】文件夹,Embedding 放在根目录下的 embeddings 文件夹。
2024-11-07
有什么工具可以帮助用户用okr的方式,分解成mvp
将OKR(目标与关键结果)分解成MVP(最小可行产品)的过程需要一些工具和方法来帮助用户进行有效的规划和执行。以下是一些常用的工具和方法,可以帮助用户实现这一目标: 工具 1. Trello: 功能:Trello 是一个基于看板的项目管理工具,可以帮助团队将OKR分解成具体的任务和MVP。 使用方法:创建一个看板,添加列表如“目标(Objectives)”、“关键结果(Key Results)”、“任务(Tasks)”、“MVP”等,将OKR逐步细化为具体的任务和MVP。 2. Asana: 功能:Asana 是一个强大的任务管理和项目管理工具,适合进行OKR到MVP的分解。 使用方法:在Asana中创建项目,设置目标和关键结果,然后将这些目标进一步分解成具体的任务,确定哪些任务构成MVP。 3. Notion: 功能:Notion 提供灵活的笔记、数据库和任务管理功能,可以用来管理OKR和MVP。 使用方法:创建一个数据库用于管理OKR,设置不同的视图(如任务视图、看板视图等)来跟踪目标的进展,并将关键结果细化为可执行的MVP。 4. Jira: 功能:Jira 是一个广泛使用的项目和问题跟踪工具,特别适合软件开发团队。 使用方法:在Jira中创建项目和用户故事,将OKR分解为具体的故事和任务,确定哪些故事构成MVP,使用sprint和看板视图来管理和跟踪进展。 5. Microsoft Planner: 功能:Planner 是微软提供的一个简单易用的任务管理工具,集成在Office 365中。 使用方法:创建计划板,设置OKR和相应的任务,将这些任务分配到团队成员,并标记出构成MVP的关键任务。 方法 1. SMART原则: 描述:确保每个目标都是具体的(Specific)、可衡量的(Measurable)、可实现的(Achievable)、相关的(Relevant)和有时间限制的(Timebound)。 应用:在定义OKR时,使用SMART原则确保目标清晰明确,有助于进一步分解为MVP。 2. 价值流映射: 描述:一种分析和设计流程的方法,旨在识别和减少浪费,提高效率。 应用:绘制从OKR到交付MVP的整个流程图,识别每一步的价值和瓶颈,将OKR有效地转化为MVP。 3. MoSCoW法则: 描述:一种需求优先级排序的方法,将任务分为必须(Must have)、应该(Should have)、可以(Could have)和不会(Won't have)。 应用:在分解OKR时,使用MoSCoW法则来确定哪些任务是MVP的一部分,确保优先完成关键任务。 4. 用户故事映射: 描述:一种用于管理产品功能和用户故事的技术,帮助团队了解和安排产品的工作。 应用:将OKR转化为用户故事,创建故事地图,确定哪些故事和功能构成MVP,确保MVP能实现核心目标。 这些工具和方法可以帮助团队有效地将高层次的OKR分解为具体的MVP,确保目标的实现和产品的快速迭代。
2024-05-28
如何获取歌曲中每句歌词的音高?
获取歌曲中每句歌词音高的方法如下: 1. 利用工具如 Chirp: 可以在输入时强调歌词中某个单词的音高,将其全部大写。 重复一部分歌词,Chirp 可能会认为在唱副歌从而改变旋律。 输入元标签时遵循一定结构,避免混乱。可添加类似“Match vocals at starts,break”这类提示词告知演绎方式。 2. 使用 ACE Studio: 利用其方便的干声转换功能将人声音频转 MIDI,获取初稿。但 AI 识别可能有误差,需修复瑕疵。 完成歌手选择后进行微调: 歌词发音:若 AI 识别发音不准确,双击音符修改拼音。 音准:音高不准时,点击音符按键盘上下键调整,偏差小于 1key 则用音高画笔画出音高线。 节奏:节奏不准可拖动音符对齐节奏线,但人真实演唱会有微小节奏错位,可根据主观审美和作品表达需要决定是否完全对齐。 完成瑕疵修复后,点击文件 导出音频,根据用途选择合适格式,如用于视频选 mp3,用于发行平台选 wav。
2024-10-30
如何获取歌曲中每句歌词的音高?
获取歌曲中每句歌词的音高可以通过以下方法: 1. 利用工具如 Chirp: 可以在输入时强调歌词中某个单词的音高,将其全部大写。 重复一部分歌词,Chirp 可能会认为在唱副歌从而改变旋律。 遵循歌词书写原则有助于在音频延续上保持质量。 在元标签中添加类似“Match vocals at starts,break”这类提示词,告知 Chirp 段落的演绎方式。 注意 Chirp 会优先识别输入的元标签,输入结构不要混乱。 2. 使用 ACE Studio: 利用其非常方便的干声转换功能,将人声音频转 MIDI。但 AI 识别的音高、节奏、发音可能有误差。 完成歌手选择后,进行微调: 歌词发音:若 AI 识别的发音不准确,双击音符修改正确的拼音。 音准:发现音高不准,点击音符按键盘上下键调高或调低。音准偏差小于 1key 时,使用音高画笔画出音符的音高线。 节奏:发现节奏不准,可将音符拖动到对齐节奏线。但人在真实演唱中会有微小节奏错位,这在某些情况下是自然的,取决于主观审美和作品表达需要。 完成发音、音高、节奏的瑕疵修复后,点击文件 导出音频,根据用途选择合适的格式,如用于视频选 mp3,用于发行到 QQ 音乐之类的平台选 wav。
2024-10-30
ai歌曲翻唱
以下是关于 AI 歌曲翻唱的相关信息: 关键技术: 深度伪造技术(deepfakes)是利用 AI 程序和深度学习算法实现音视频模拟和伪造的技术,投入深度学习的内容库越大,合成的视音频真实性越高。 粉丝操作方式: 粉丝们会通过 Stems 音轨分离工具将人声与原始歌曲分离,再使用人声转换模型将人声转换成另一位明星的风格,然后将新的人声轨道与原始作品重新拼接在一起。DiffSVC 是一种流行的用于此目的的语音传输模型。 制作案例: 在《AI 你·南京》AIGC 城市宣传 MV 制作中,先尝试用剪映里预设的 AI 语音进行朗诵配音,效果不佳后改为创作歌曲并制作 MV。将文案复制给 AI 进行歌词改写和歌曲取名,修改 AI 生成的歌词后定稿。 张吃吃分享的 ACE Studio 入门教程中,小白快速上手实操步骤包括:准备音频素材,使用干声转换,分别导入人声干声和伴奏,注意变调等;干声转换时先设置工程 BPM 与歌曲一致,将音频轨道文件拖入空白歌手轨道;选择歌手,长按拖动到歌手轨道的头像处切换。 常用的前期音频素材准备工具包括: TME Studio:腾讯音乐开发的 AI 音频工具箱,常用功能是音频分离,可用于将人声和伴奏从歌曲中提取出来。地址:https://y.qq.com/tme_studio/index.html/editor Vocalremover:包含音频分离、变调、BPM 查询等功能,常用变调和 BPM 查询。建议在准备素材阶段,就将音频调整到所需调,并获取到 BPM。地址:https://vocalremover.org/zh/keybpmfinder
2024-10-29
自己哼唱的歌制作歌曲,歌普ai软件
以下是一些关于将自己哼唱的歌制作成歌曲的相关信息和可用的 AI 软件: 工作流回顾: 只有词和意向风格:先确定最核心情绪所在的段落,以此段落用 AI 生成最好的结果,然后将其作为动机音轨扩展创作,这也是最常见的创作思路。 只有词,和一小段自己哼唱的旋律:可以上传这段自己哼唱的旋律,让 AI 扩展出自己喜欢的风格,然后将这段音轨作为动机音轨继续创作。 已有 midi 作曲:可以简单的挂载音源导出,并在 AI 的帮助下不断丰满这段包含主歌、副歌等主要段落的核心音轨,然后继续扩展出其他段落形成完整歌曲。 已有简单录音小样:可以利用 REMIX 优化音质与编曲结构,并利用 AI 的尝试不同曲风版本,找到自己最喜欢的风格,然后制作成核心音轨,进而完成全曲创作。 能较好的兼容传统音乐制作手段,多种处理手段的应用可以让作品更有个性。 AI 软件: Deepmind 与 YouTube 的 Lyria 音乐生成模型:只要哼唱或者吹口哨就能帮您自动生成交响乐,支持歌词创作和风格控制,能模仿艺术家风格,生成音频带 AI 水印。相关链接:https://deepmind.google/discover/blog/transformingthefutureofmusiccreation/ ,
2024-10-27
生成歌曲的ai工具
AI 生成音乐的工具是利用人工智能技术,特别是机器学习和深度学习算法,来创作、编排和生成音乐的软件平台。它们能够分析大量音乐数据,学习音乐模式和结构,然后根据用户输入或特定指令创作出新的音乐作品。 以下为您推荐一些 AI 音乐生成工具: 1. Udio:由前 Google DeepMind 工程师开发,通过文本提示快速生成符合用户音乐风格喜好的高质量音乐作品。网址:https://www.udio.com/ 2. Suno AI:是一款革命性的人工智能音乐生成工具,通过先进的深度学习技术,能将用户输入转化为富有情感且高质量的音乐作品。网址:https://suno.com/ Suno AI 的详细介绍及使用流程: 简介:被誉为音乐界的 ChatGPT,能根据简单提示创造出从歌词到人声和配器的完整音乐作品,适合音乐新手和资深爱好者。 账号要求:需要拥有 Discord、谷歌或微软中的至少一个账号,并确保网络环境稳定。 订阅信息: 免费用户:每天 50 积分,每首歌消耗 5 积分,每天可创作 10 首歌曲,每次点击生成两首歌曲。若有多个账号,可创作更多音乐作品。 Pro 用户:每个月 2500 点数(大约 500 首歌),按月算每月 10 美元,按年算每月 8 美元,每年 96 美元。 Premier 用户:每个月 10000 点数(大约 2000 首歌),按月算每月 30 美元,按年算每月 24 美元,每年 288 美元。 点击 Create:有默认模式和个性化模式。 默认模式:关闭个性化,可填写歌曲描述、设置乐器开关、选择模型 v3。 个性化模式:开启个性化定制,可填写歌词、设置曲风、标题等。 生成歌词:可使用大模型如 Kimi、GPT、文心一言等来生成。 开始生成:填写好所需内容后点击 Create,等待 2 3 分钟即可。 下载 在最新的分析中,像 Suno 这样的新兴音乐生成工具开始崭露头角,它能够在浏览器中根据文本提示创作原创歌曲,包括歌词,并支持多种风格。Suno 最初在 Discord 平台上提供服务,2023 年 12 月推出了独立网站和 Copilot 扩展插件。一些主流的消费级 AI 产品如 Suno 最初从 Discord 服务器开始,或至今仍主要通过该平台运作。 内容由 AI 大模型生成,请仔细甄别。
2024-10-19
@ 用ai制作优美的歌曲用什么工具软件,详细的使用教程
以下是用 AI 制作优美歌曲的相关工具软件及使用教程: 工具软件: 1. Udio:由前 Google DeepMind 工程师开发,通过文本提示快速生成符合用户音乐风格喜好的高质量音乐作品。网址:https://www.udio.com/ 2. Suno AI:是一款革命性的人工智能音乐生成工具,它通过先进的深度学习技术,能够将用户的输入转化为富有情感且高质量的音乐作品。网址:https://suno.com/ 使用教程: 1. 导出时间轴歌词:使用剪映(剪辑软件),其导出时间轴歌词的功能位置如下图所示。 2. 音乐分轨:可以使用腾讯 QQ 音乐旗下的 TME Studio,支持一键分轨,再将分轨好的音频文件进行全部导出。TME Studio 网站链接:https://y.qq.com/tme_studio/ 3. 音频编辑:对于分轨好的视频,可以导入 Adobe Audition 进行编辑。有编曲经验的同学可以自由发挥,没有编曲经验的小白可以打开电脑的录屏工具,录制歌曲的工程文件,上传提供创作证明。 4. 准备音频素材: 使用干声转换时,在软件中分别导入人声干声和伴奏,放在两个轨道上。干声用于转成 MIDI 做 AI 演唱。 男歌女唱或者女歌男唱时,在导入前先进行变调。常用的工具包括 TME Studio(腾讯音乐开发的 AI 音频工具箱,其中最常用的是音频分离,可用于将人声和伴奏从歌曲中提取出来。地址:https://y.qq.com/tme_studio/index.html/editor)和 Vocalremover(包含音频分离、变调、BPM 查询等功能,使用较多的是变调和 BPM 查询。建议在准备素材阶段,就将音频调整到所需调,并获取到 BPM。地址:https://vocalremover.org/zh/keybpmfinder) 关于申请网易云音乐人和上传音乐,只提供了认证成功的方法和过程,不能确保所有人都能成功,这是一个概率性的问题。此外,根据 AI 创作目前的特殊性,会在平台上声明此音乐为 AI 创作,并且也绝对支持尊重所有原创作品,也希望平台能尽快开辟一个 AI 创作的专区,可以提供一个容纳并保护所有群体的不同板块。
2024-09-17
有什么AI工具可以只做虚拟动画形象,可以根据输入的文本说话
以下是一些可以制作虚拟动画形象并根据输入文本说话的 AI 工具: 动画(视频动画):DID 和 HeyGen 可以使图像“说话”,但目前可供使用的能生成高保真度说话人脸的模型不多。 语音(语音合成):ElevenLabs 可以赋予虚拟形象一种声音,并且能够控制年龄、性别和口音。 此外,用于在视频中为人脸制作动画的工具还有 DiD,从文本创建视频的工具可以选择 Runway v2。
2024-11-18
如何输入图片,根据图片生成流程图
以下是关于输入图片生成流程图的相关内容: “镜子画布”小游戏: 需求分析: 这是一种帮助孩子理解和掌握对称概念的教育类小游戏。 内容需求方面,加入“选择难易度等级”概念,根据不同年龄和等级提供不同玩法。 图片生成:用户选择主题后画出相关内容。 图片处理:对图片以中心点分割,右侧内容进行“橡皮擦”处理,包括完全擦掉、给出辅助线、线条做浅等方式。 用户输入:包括输入主题(关键词)或随机生成主题、所选等级(简单、中等、困难)、描图的辅助线等级(无辅助线、“田字格”辅助线、“描红”辅助线)。 制作个人奥运头像: 需求分析:用自己的图片、照片生成漫画形式的以照片人物为主体的运动员头像图。 输入:先使用 ChatGPT 完成工作,输入奥林匹克项目生成人物描述,结合范例提示词添加中国人、中国运动服和项目场景描述,再使用重绘、垫图等参数调整。 “数独游戏”小游戏: 游戏设计: 答案验证:用户把填写内容以 9×9 矩阵形式输给 GPTs,GPTs 利用 Python 与 solution 矩阵对比,出错留红色“X”标记。 答案:用户可要求直接打印答案页。 做成图片的原因:方便用户理解和打印。
2024-11-08
什么网站可以输入word文档,AI生成简历
以下是一些可以输入 word 文档并由 AI 生成简历的网站: 1. Kickresume 的 AI 简历写作器:使用 OpenAI 的 GPT4 语言模型,能为简历摘要、工作经验和教育等专业部分编写内容,并保持一致语调。 2. Rezi:受到超过 200 万用户信任的领先 AI 简历构建平台,使用先进的 AI 技术自动化创建可雇佣简历的各个方面,包括写作、编辑、格式化和优化。 3. Huntr 的 AI 简历构建器:提供免费的简历模板,以及 AI 生成的总结/技能/成就生成器和 AI 驱动的简历工作匹配。 更多 AI 简历产品,还可以查看这里:https://www.waytoagi.com/category/79 。 以上工具都能帮助您快速、高效地创建出专业的简历,您可以根据自身需要选择最适合的工具。
2024-10-31
输入一段中文,生成饱含情感的中文语音
以下是为您生成饱含情感的中文语音的相关信息: 在制作包含简短对话的 AI 短片时,声音部分通常在传统影视制作中有多个流程,如现场录音、后期配音、音效音乐制作等。对于 AI 声音制作对话,相当于后期配音。比如将中文台词谷歌翻译成英文后,需进行英文字幕校对与台词润色形成配音稿。使用 11labs 进行对白制作时,其英文效果较好,但存在声音没有情绪和情感的问题。只能通过标点符号如,、……。!等来改变语音效果,且常常需要生成十几二十段音频来找到合适的声音。国内可以使用出门问问的魔音工坊,它有情绪调节控件。 另外,阿里云最新开源模型 FunAudioLLM 有情感表达语音生成的功能,例如在 Sad 情感下,有“等你熬过那些孤独无助的时刻,你才会发现,原来自己并没有想象中那么脆弱。原来一个人,也可以活成千军万马的模样。”等表述;在 Happy 情感下,有“小丽抿着嘴,弓着腰,蹑手蹑脚地,一步一步慢慢地靠近它。靠近了,靠近了,又见她悄悄地将右手伸向蝴蝶,张开的两个手指一合,夹住了粉蝶的翅膀。小丽高兴得又蹦又跳。”等表述。 在剪辑方面,对于 13 分钟的短片,剪映更方便;更长篇幅或追求更好效果可能需要使用 PR/FCP/达芬奇等传统剪辑软件。
2024-10-15
创建好的机器人,如果有新的知识,他会学习吗,还是需要人工输入到知识库里
创建好的机器人在学习新知识方面,情况有所不同。以使用 Coze 免费打造微信 AI 机器人为例: 1. 搭建步骤: 开始节点和结束节点会自动生成。 开始节点配置:输入变量名写“Question”,描述为“用户输入的问题”,变量类型选“String”。 知识库配置:将开始节点和知识库左侧节点连接,引用开始节点的变量“Question”,选择之前创建好的知识库,并将知识库右侧节点与结束节点左侧相连。 结束节点配置:用于输出最终结果,回答格式设为“您的问题:{{question}} 问题的答案:{{answer}}”,在输出变量定义“question”引用开始节点的“Question”,“answer”引用知识库节点的输出“output”,回答模式选择使用设定内容直接回答。 试运行测试:点击右上角“试运行”,输入问题如“AIGC 课件”,点击右下角“运行”,可查看工作流每步的详细输入和输出。 2. 知识库创建: 在线知识库:点击创建知识库,创建如画小二课程的 FAQ 知识库。飞书在线文档中每个问题和答案以“”分割,选择飞书文档、自定义,输入“”进行区分,可编辑修改和删除,添加 Bot 后在调试区测试效果。 本地文档:对于如画小二 80 节课程分为 11 个章节的情况,不能一股脑全部放入训练,应先放入大章节名称内容,章节内详细内容按固定方式人工标注和处理,然后创建知识库自定义清洗数据。 发布应用:点击发布,确保在 Bot 商店中能搜到,否则无法获取 API。 但关于创建好的机器人能否自动学习新知识,上述内容未直接提及。一般来说,这取决于机器人的设计和配置,有些需要人工将新知识输入到知识库里,有些则可能具备一定的自动学习能力,但通常也需要人工干预和优化。
2024-10-08
现在的大模型应用都没有记忆能力需要在每次调用时输入上下文?
目前的大模型应用本质上通常没有直接的记忆功能。以 ChatGPT 为例,它能理解用户的交流内容并非因为自身具备记忆能力,而是每次将之前的对话内容作为新的输入重新处理。这种记忆功能实际上是通过在别处进行存储来实现的。 对于大模型的工作原理,在回复时是一个字一个字地推理生成内容,会根据输入的上下文来推测下一个字。但大模型的学习数据规模庞大,若每次计算都带入全量数据,算力难以承受,且仅算字的概率容易受不相干信息干扰,词向量机制和 transformer 模型中的 attention 自注意力机制解决了这些难题。 另外,系统的内存是大模型的上下文窗口,如 Google Gemini 1.5 Pro 实验版已将其提升到一千万。但窗口越大推理越慢,且模型可能失焦降低准确度,研发团队需平衡吞吐量、速度和准确度。在模型外,操作系统的其他部件如文件系统能让模型具备无限记忆的能力,而大模型应用领域常用的方法如 RAG 能让模型用自定义数据生成结果,处理无尽的私有数据。
2024-10-08
如何搭建利用产品原图和模特模板生成商业图的工作流 或者有没有这类ai 应用
以下是关于利用产品原图和模特模板生成商业图的工作流及相关 AI 应用的信息: 美国独立站搭建工作流中,有给模特戴上珠宝饰品的应用。 大淘宝设计部在主题活动页面、超级品类日传播拍摄创意、产品营销视觉、定制模特生成、产品场景生成等方面应用了 AI。例如,七夕主题活动页面通过 AI 生成不受外部拍摄条件限制的素材;在 UI 设计场景中,利用 SD 中 controlnet 生成指定范围内的 ICON、界面皮肤等;通过对 AI 大模型的训练和应用,提升合成模特的真实性和美感,提供定制化线上真人模特体验,如 AI 试衣间、AI 写真等;还能根据商品图和用户自定义输入生成多张场景效果,无需 3D 模型、显卡渲染和线下拍摄。
2024-11-22
有没有免费的好用的ai
以下为一些免费且好用的 AI 工具: 获取信息和学习东西:最佳免费选项为必应(https://www.bing.com/search?q=Bing+AI&showconv=1&FORM=hpcodx)。对于儿童,来自可汗学院的 Khanmigo(https://www.khanacademy.org/khanlabs)提供由 GPT4 驱动的良好的人工智能驱动辅导。 写东西:最佳免费选项为 Bing(https://www.bing.com/search?q=Bing+AI&showconv=1&FORM=hpcodx)和 Claude 2(https://claude.ai/)。 在写代码方面的免费替代品有: Tabnine(https://tabnine.com/):AI assistant that speeds up delivery and keeps your code safe Codeium(https://codeium.com/):Free AI Code Completion & Chat Amazon CodeWhisperer(https://aws.amazon.com/codewhisperer/):Build applications faster and more securely with your AI coding companion SourceGraph Cody(https://cody.sourcegraph.com/):The AI that knows your entire codebase Tabby(https://tabby.dev/):Opensource, selfhosted AI coding assitant fauxpilot/fauxpilot(https://github.com/fauxpilot/fauxpilot):An opensource alternative to GitHub Copilot server 需要注意的是,虽然 ChatGPT 功能强大,但它是收费的且不面向中国。此外,虽然 ChatGPT 的开发者 OpenAI 并不像其名字那样开放,其源码与模型数据不对外开放,但 Meta 在 2023 年 2 月开源了 LLaMA 1,并在 7 月发布了进阶的 Llama 2 且允许商用。
2024-11-21
有没有把外国PPT翻译为中文的工具
以下为您介绍将外国 PPT 翻译为中文的工具及相关方法: 有一种自动 PPT 翻译脚本,其开发过程如下: 1. 前期准备: 翻译需要外接 API,推荐讯飞大模型,新账户免费送 200 万 tokens,有效期 3 个月。 进入 https://xinghuo.xfyun.cn/ ,首页选择 API 接入,然后点服务管理进入控制台。 创建一个新项目,比如“PPT 翻译”,以避免 API 泄露。 点进去,找到左边机器翻译的模型,按提示领取 200 万 tokens 的礼包,然后在主控台看到对应的 id、apikey、api secret 和接入路径。 2. 导入依赖: 大部分依赖是常用的,只有一个 ppt 可能需要装,运行 CMD 输入 pip install pythonpptx,如果还缺的可以按提示安装。 3. 初始化 API 相关信息和文件路径: 先设置对应的 api 信息,其他模型可以对应做替换。 4. 读取并提取 PPT 文本: 根据讯飞的 API 文档配置做请求指令,确保 API 可以正确调用。打印响应数据设置方便监测脚本执行动态,如果碰到报错可以随时做优化。 5. 翻译脚本: 目前只设置了文本翻译,未对表格元素处理,排除了所有 shape,如果要加入表格翻译,可以定义 shape = table 来定义表格,然后翻译表格里的 cell 实现。 接收路径已调好,如果用其他的 API,要在 translated_text = get_result 后面替换成自己的地址。 语言选择,原文件是中文用'cn'表示,英文文档改成‘en’,其他语种对应。 此外,还有 Claude 官方文档提示词工程最佳实践@未来力场编译版(中英对照),源地址 https://docs.anthropic.com/claude/docs ,扫码关注未来力场:AIGC 最佳实践中文互联网搬运工。
2024-11-21
有没有推荐的AI图片生成软件
以下为您推荐一些 AI 图片生成相关的软件: 1. 海报生成工具: Canva(可画):https://www.canva.cn/ ,是一个受欢迎的在线设计工具,提供大量模板和设计元素,AI 功能可辅助选色和字体样式,通过简单拖放操作创建海报。 稿定设计:https://www.gaoding.com/ ,智能设计工具,采用先进人工智能技术,自动分析生成设计方案,稍作调整即可完成设计。 VistaCreate:https://create.vista.com/ ,简单易用的设计平台,提供大量设计模板和元素,可用 AI 工具创建个性化海报,智能建议功能可助用户找合适元素。 Microsoft Designer:https://designer.microsoft.com/ ,通过简单拖放界面,能快速创建演示文稿、社交媒体帖子等视觉内容,集成丰富模板库和自动图像编辑功能。 2. 图生图产品: Artguru AI Art Generator:在线平台,生成逼真图像,为设计师提供灵感,丰富创作过程。 Retrato:AI 工具,将图片转换为非凡肖像,有 500 多种风格选择,适合制作个性头像。 Stable Diffusion Reimagine:新型 AI 工具,通过稳定扩散算法生成精细、具细节的全新视觉作品。 Barbie Selfie Generator:专为喜欢梦幻童话风格的人设计的 AI 工具,将上传照片转换为芭比风格,效果好。 3. 图片生成 3D 建模工具: Tripo AI:VAST 发布的在线 3D 建模平台,能利用文本或图像在几秒钟内生成高质量且可立即使用的 3D 模型,基于数十亿参数级别的 3D 大模型,实现快速 2D 到 3D 转换,提供 AI 驱动的精准度和细节。 Meshy:功能全面,支持文本生成 3D、图片生成 3D 以及 AI 材质生成,用户上传图片并描述材质和风格可生成高质量 3D 模型。 CSM AI:Common Sense Machines 支持从视频和图像创建 3D 模型,Realtime Sketch to 3D 功能支持通过手绘草图实时设计 3D 形象再转换为 3D 模型。 Sudo AI:支持通过文本和图像生成 3D 模型,适用于游戏领域模型生成,用户上传图片或输入文本提示词生成 3D 模型。 VoxCraft:生数科技推出的免费 3D 模型生成工具,能将图像或文本快速转换成 3D 模型,提供图像到 3D、文本到 3D 和文本到纹理等多种功能。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2024-11-20
有没有放一个ppt文档转化成文字的AI软件
目前有一些可以将 PPT 文档转化为文字的方法和相关的 AI 工具: 在将 PPT 转化为网站的尝试中,当遇到困惑时,如组织线下沙龙内容的两页并进行切换没有思路,可选择放手让 AI 给出建议。 市场上好用的 AI 辅助的 PPT 工具包括: Gamma:在线 PPT 制作网站,通过输入文本和想法提示快速生成幻灯片,支持嵌入多媒体格式。网址:https://gamma.app/ 美图 AI PPT:由美图秀秀开发团队推出,通过输入简单文本描述生成专业 PPT 设计,有丰富模板库和设计元素。网址:https://www.xdesign.com/ppt/ Mindshow:AI 驱动的 PPT 辅助工具,提供自动布局、图像选择和文本优化等智能设计功能。网址:https://www.mindshow.fun/ 讯飞智文:由科大讯飞推出的 AI 辅助文档编辑工具,利用语音识别和自然语言处理技术优势,提供智能文本生成、语音输入、文档格式化等功能。网址:https://zhiwen.xfyun.cn/
2024-11-19
有没有语音交互领域的AI Agent的好的思路
以下是关于语音交互领域的 AI Agent 的一些思路: 1. 构建像人一样的 Agent:实现所需的记忆模块、工作流模块和各种工具调用模块,这在工程上具有一定挑战。 2. 驱动躯壳的实现:定义灵魂部分的接口,躯壳部分通过 API 调用,如 HTTP、webSocket 等。要处理好包含情绪的语音表达以及躯壳的口型、表情、动作和语音的同步及匹配,目前主流方案只能做到预设一些表情动作,再做一些逻辑判断来播放预设,语音驱动口型相对成熟但闭源。 3. 保证实时性:由于算法部分组成庞大,几乎不能单机部署,特别是大模型部分,会涉及网络耗时和模型推理耗时,低延时是亟需解决的问题。 4. 实现多元跨模态:不仅要有语音交互,还可根据实际需求加入其他感官,如通过添加摄像头数据获取视觉信息并进行图像解析。 5. 处理拟人化场景:正常与人交流时会有插话、转移话题等情况,需要通过工程手段丝滑处理。 此外,像 AutoGLM 这样的产品,通过模拟人类操作来实现跨应用的控制,展现出了一定的智能理解能力,如能根据用户意图选择合适的应用场景。但仍存在语音识别偏差、操作稳定性需提升、支持平台有限等问题,未来随着多模态理解能力和操作精准度的提高,发展空间较大。
2024-11-19