直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

国内外的文生视频大模型

回答

以下是一些国内外的文生视频大模型:

  • Pika:一款出色的文本生成视频 AI 工具,擅长动画制作,并支持视频编辑。
  • SVD:若熟悉 Stable Diffusion,可安装其最新插件,在图片基础上直接生成视频,由 Stability AI 开源。
  • Runway:老牌 AI 视频生成工具,提供实时涂抹修改视频的功能,但需收费。
  • Kaiber:视频转视频 AI,能够将原视频转换成各种风格的视频。
  • Sora:由 OpenAI 开发,可生成长达 1 分钟以上的视频。

国内的文生视频大模型有:

  • Hidreamai:有免费额度,支持文生视频、图生视频,提示词使用中文、英文均可,文生视频支持正向提示词、反向提示词、运镜控制、运动强度控制,支持多尺寸,可生成 5s 和 15s 的视频,网址:https://hidreamai.com/#/AiVideo 。
  • ETNA:由七火山科技开发,可根据用户简短的文本描述生成相应的视频内容,生成的视频长度在 8 - 15 秒,画质可达 4K,最高 3840*2160,画面细腻逼真,帧率 60fps,支持中文,时空理解,网址:https://etna.7volcanoes.com/ 。

此外,快手文生图大模型可图(Kolors)正式开源。该模型基于数十亿图文对进行训练,支持 256 的上下文 token 数,支持中英双语。相关资源如下:

  • 开源代码:https://github.com/Kwai-Kolors/Kolors
  • 模型权重:https://huggingface.co/Kwai-Kolors/Kolors
  • 官方页面:https://kwai-kolors.github.io/
  • 企业页面:https://kolors.kuaishou.com/

更多的文生视频的网站可以查看:https://www.waytoagi.com/category/38 。请注意,以上内容由 AI 大模型生成,请仔细甄别。

内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

问:文字生成视频的 AI 产品有哪些?

[title]问:文字生成视频的AI产品有哪些?"文生视频"通常指的是使用人工智能技术将文本内容转换成视频的服务。以下是一些国内外提供此类功能的产品推荐:1.Pika:这是一款非常出色的文本生成视频AI工具,擅长动画制作,并支持视频编辑。2.SVD:如果你熟悉Stable Diffusion,可以直接安装这款最新的插件,在图片基础上直接生成视频。这是由Stability AI开源的video model。3.Runway:这是一款老牌AI视频生成工具,提供实时涂抹修改视频的功能,不过需要注意的是,Runway是收费的。4.Kaiber:这是一款视频转视频AI,能够将原视频转换成各种风格的视频。5.Sora:由OpenAI开发,可以生成长达1分钟以上的视频。以上工具均适合于不同的使用场景和需求,您可以根据自己的具体情况进行选择。另外,更多的文生视频的网站可以查看这里:[https://www.waytoagi.com/category/38](https://www.waytoagi.com/category/38)内容由AI大模型生成,请仔细甄别。

小歪:AI视频工具合集

https://hidreamai.com/#/AiVideo支持文生视频、图生视频提示词使用中文、英文都可以文生视频支持正向提示词、反向提示词、运镜控制、运动强度控制,支持多尺寸,可以生成5s和15s的视频相关界面截图:[heading3]ETNA(国内)[content]https://etna.7volcanoes.com/Etna是一款由七火山科技开发的文生视频AI模型,它可以根据用户简短的文本描述生成相应的视频内容。生成的视频长度在8~15秒,画质可达到4K,最高3840*2160,画面细腻逼真,帧率60fps。文生视频,支持中文,时空理解

工具教程:Kolors 开源模型

[title]工具教程:Kolors开源模型原文:[Kolors开源模型知识库](https://x1f3ewlrcf.feishu.cn/wiki/BjJ1waQaLitPB4k7Lbvc0MaVnzb)快手文生图大模型可图(Kolors)正式开源。该模型基于数十亿图文对进行训练,支持256的上下文token数,支持中英双语,以下为可图的详细介绍和部署教程资源清单Kolors:Effective Training of Diffusion Model for Photorealistic Text-to-Image Synthesis开源代码https://github.com/Kwai-Kolors/Kolors模型权重https://huggingface.co/Kwai-Kolors/Kolors官方页面https://kwai-kolors.github.io/企业页面https://kolors.kuaishou.com/

其他人在问
文生图反向推出提示词
在文生图中,反向推出提示词的方式主要有以下几种: 1. 在图生图功能中,除了文本提词框外,还有图片框输入口。随便照一张照片拖入后,文本输入框旁边有两个反推提示词的按钮:CLIP 可以通过图片反推出完整含义的句子;DeepBooru 可以反推出关键词组。例如一张小男孩坐在长凳上的图片,通过 CLIP 反推得到的提示词为“a young boy sitting on a bench with a toy train and a lego train set on the floor next to him,Adam Rex,detailed product photo,a stock photo,lyco art”,通过 DeepBooru 反推得到的提示词为“shoes,solo,hat,orange_background,yellow_background,smile,socks,black_hair,sitting,sneakers”。但这两种方式生成的提示词可能存在瑕疵,需要手动补充信息。补充好提示词后,调整宽度和高度,使红框刚好匹配图片,同时注意两个重要参数:提示词相关性和重绘幅度。 2. 利用上一期活动图片反推工作流,使用唯美港风图片进行反推提示词,在大模型后接一个相关模型。上一期活动链接:。 3. 利用抱脸的 joycaption 图片反推提示词,然后在哩布上跑 flux 文生图工作流。joycaption 链接(需要魔法):https://huggingface.co/spaces/fancyfeast/joycaptionprealpha 。文生图工作流: 。在哩布上跑文生图:https://www.liblib.art/modelinfo/e16a07d8be544e82b1cd14c37e217119?from=personal_page 。 在写文生图的提示词时,例如“”。
2024-11-22
文生图模型性能排行
以下是一些文生图模型的性能排行相关信息: Kolors 是最近开源的文生图模型中表现出色的一个。它具有更强的中文文本编码器、高质量的文本描述、人标的高质量图片、强大的中文渲染能力以及巧妙解决高分辨率图加噪问题的 noise schedule,实测效果不错。 PIKA1.0 是一个全新的模型,文生视频和文生图的质量都有大幅度提升。在文生图方面稳定得令人惊讶,3D 和 2D 的动画效果出色。 为全面比较 Kolors 与其他模型的生成能力,构建了包含人工评估、机器评估的全面评测内容。在 KolorsPrompts 评估集中,Kolors 在整体满意度方面处于最优水平,其中画面质量显著领先其他模型。具体的平均分数如下: AdobeFirefly:整体满意度平均分 3.03,画面质量平均分 3.46,图文相关性平均分 3.84。 Stable Diffusion 3:整体满意度平均分 3.26,画面质量平均分 3.5,图文相关性平均分 4.2。 DALLE 3:整体满意度平均分 3.32,画面质量平均分 3.54,图文相关性平均分 4.22。 Midjourneyv5:整体满意度平均分 3.32,画面质量平均分 3.68,图文相关性平均分 4.02。 Playgroundv2.5:整体满意度平均分 3.37,画面质量平均分 3.73,图文相关性平均分 4.04。 Midjourneyv6:整体满意度平均分 3.58,画面质量平均分 3.92,图文相关性平均分 4.18。 Kolors:整体满意度平均分 3.59,画面质量平均分 3.99,图文相关性平均分 4.17。所有模型结果取自 2024.04 的产品版本。
2024-11-18
用 mj 做文生图,Prompt 模板
以下是使用 MJ 进行文生图的 Prompt 模板: 1. 定主题:明确您需要生成一张什么主题、什么风格、表达什么信息的图。 2. 选择基础模型 Checkpoint:按照主题,找内容贴近的 checkpoint。一般喜欢用模型大佬麦橘、墨幽的系列模型,如麦橘写实、麦橘男团、墨幽人造人等,效果较好。 3. 选择 lora:在想要生成的内容基础上,寻找内容重叠的 lora,以控制图片效果及质量。可多参考广场上好看的帖子中使用的 lora。 4. ControlNet:用于控制图片中特定的图像,如人物姿态、生成特定文字、艺术化二维码等,属于高阶技能,可后续学习。 5. 局部重绘:下篇再教。 6. 设置 VAE:无脑选择 840000 这个即可。 7. Prompt 提示词:用英文写想要 AI 生成的内容,使用单词和短语的组合,不用管语法,单词、短语之间用英文半角逗号隔开。 8. 负向提示词 Negative Prompt:用英文写想要 AI 避免产生的内容,同样不用管语法,只需单词和短语组合,中间用英文半角逗号隔开。 9. 采样算法:较复杂,一般选 DPM++ 2M Karras 较多。最稳妥的是留意 checkpoint 的详情页上模型作者是否有推荐采样器,使用推荐的采样器更有保障。 10. 采样次数:根据采样器特征,选 DPM++ 2M Karras 后,采样次数一般在 30 40 之间,多了意义不大且慢,少了出图效果差。 11. 尺寸:根据个人喜好和需求选择。 另外,使用 Stability AI 基于 Discord 的媒体生成和编辑工具进行文生图时: 1. 点击链接进入官方 DISCORD 服务器:https://discord.com/invite/stablediffusion 。 2. 进入 ARTISAN 频道,任意选择一个频道。 3. 输入/dream 会提示没有权限,点击链接,注册登录,填写信用卡信息以及地址,点击提交,会免费试用三天,三天后开始收费。 4. 输入/dream 提示词,这部分和 MJ 类似。 5. 和 MJ 手工输入参数不同,可选参数有五类: prompt:提示词,正常文字输入,必填项。 negative_prompt:负面提示词,填写负面提示词,选填项。 seed:种子值,可以自己填,选填项。 aspect:长宽比,选填项。 model:模型选择,SD3,Core 两种可选,选填项。 Images:张数,1 4 张,选填项。完成后选择其中一张。 在 MJ 应用篇儿童绘本制作、人物一致性方面: 1. 生成人物图片:确定人物形象,如“a little girl wearing a yellow floral skirt + 人物动作 + 风格词”,在 mj 中生成直到得到满意的人物图像。垫图 URL + “In the forest,a little girl wearing a yellow floral skirt is playing happily,super high details,HDsmooth,by Jon Burgerman,s 400 ar 3:4 niji 5 style expressive iw 2”,iw 取值范围,不填写默认 iw = 1,iw 值越大越接近垫的图像,反之更接近提示词。为确保人物一致性,取 iw 2 。 2. 合成人物和场景,垫图并重新生成:使用 PS 或者 Canva 将人物和场景合成到一张图,若色调不和谐(若画面和谐或 PS 技术足够,也可不用图生图),将合成后的图作为垫图(iw 2),mj 重新生图,如“prompt:垫图 url + Little girl wearing a yellow floral skirt,and her friend brown bear,taking shelter in the cave,rainstorm,super high details,HDsmooth,by Jon Burgerman,s 400 ar 3:4 niji 5 style expressive iw 2”。 3. 绘本展示。
2024-11-15
文生图的 Prompt 模板
以下是关于文生图的 Prompt 模板的相关内容: 通常描述逻辑包括人物及主体特征(如服饰、发型发色、五官、表情、动作),场景特征(如室内室外、大场景、小细节),环境光照(如白天黑夜、特定时段、光、天空),画幅视角(如距离、人物比例、观察视角、镜头类型),画质(如高画质、高分辨率),画风(如插画、二次元、写实)。通过这些详细的提示词,能更精确地控制 Stable Diffusion 的绘图。 对于新手,有功能型辅助网站帮助书写提示词,如 http://www.atoolbox.net/ ,可通过选项卡方式快速填写关键词信息;https://ai.dawnmark.cn/ ,每种参数有缩略图参考,方便直观选择提示词。还可以去 C 站(https://civitai.com/)抄作业,复制每一张图的详细参数并粘贴到正向提示词栏,然后点击生成按钮下的第一个按键,不过要注意图像作者使用的大模型和 LORA,不然即使参数一样,生成的图也会不同,也可只取其中较好的描述词使用。 在 Tusiart 中,文生图的操作流程如下: 定主题:确定要生成的图的主题、风格和表达的信息。 选择基础模型 Checkpoint:找内容贴近主题的 checkpoint,如麦橘、墨幽的系列模型。 选择 lora:寻找内容重叠的 lora 控制图片效果及质量。 ControlNet:控制图片中特定的图像,如人物姿态、特定文字、艺术化二维码等。 设置 VAE:无脑选择 840000 。 Prompt 提示词:用英文写需求,单词和短语组合,用英文半角逗号隔开,不用管语法和长句。 负向提示词 Negative Prompt:用英文写要避免的内容,单词和短语组合,用英文半角逗号隔开。 采样算法:如选 DPM++ 2M Karras,留意 checkpoint 详情页上模型作者推荐的采样器。 采样次数:根据采样器特征,如选 DPM++ 2M Karras 采样次数在 30 40 之间。 尺寸:根据喜好和需求选择。 在一些提示词中,括号和“:1.2”等是用来增加权重的,权重越高在画面中体现越充分,提示词的先后顺序也会影响权重。同时还有反向提示词,告诉 AI 不要的内容。
2024-11-15
请推荐一下文生PPT好用的免费软件
以下为您推荐几款文生 PPT 好用的免费软件: 1. 歌者 PPT(gezhe.com): 功能:话题生成(一键生成 PPT 内容)、资料转换(支持多种文件格式转 PPT)、多语言支持(生成多语言 PPT)、模板和案例(海量模板和案例库)、在线编辑和分享(生成结果可自由编辑并在线分享)、增值服务(自定义模板、字体、动效等)。 产品优势:免费使用(所有功能永久免费)、智能易用(通过 AI 技术简化 PPT 制作流程,易于上手)、海量案例(大量精美模板和优秀案例可供选择和下载)、资料转 PPT 很专业(支持多种文件格式,转换过程中尊重原文内容)、AI 翻译(保持 PPT 原始排版不变,多语言在线即时翻译)。 推荐理由:完全免费,智能化程度高,模板和案例库丰富,对多语言支持好,适合不太擅长制作 PPT 或者时间紧张的人群。 2. Gamma: 作为在各种交流群中频繁推荐的产品,以其卓越的性能和用户体验赢得广泛认可。免费版本也能生成质量非常高的 PPT,随着不断优化和改进,能满足大多数用户的需求。个人使用体验良好,生成效果令人满意,在内容组织、设计美观度和整体专业感方面表现出色。 目前市面上大多数 AI 生成 PPT 按照以下思路完成设计和制作: 1. AI 生成 PPT 大纲 2. 手动优化大纲 3. 导入工具生成 PPT 4. 优化整体结构 推荐 2 篇市场分析的文章供参考: 1. 《》 2. 《》 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2024-11-13
论文全文生成摘要
以下是关于您问题的回答: “Chain of Density”(CoD)是一种通过建立一系列相互关联的紧密提示来指导 AI 生成具体和连续输出的方法。它由美国哥伦比亚大学、麻省理工和 Salesforce 公司的研究人员共同发表。具体来说,是使用 GPT4 生成初始的稀疏摘要,然后通过迭代加入缺失的重要内容,在不增加摘要长度的情况下,添加更多实体信息,让摘要更具细节和丰富性、可读性及抽象性。这些提示相互链接,形成一个“密度链”,更有针对性地引导 AI 达到预期的输出。论文以“如何从文章提炼萃取出最合适的摘要”为重点,发布后有网友实测将 CoD 提示法用于翻译,翻译质量有飞跃提升。 在论文写作方面,有以下常用的 AI 工具和平台: 1. 文献管理和搜索: Zotero:结合 AI 技术,自动提取文献信息,帮助管理和整理参考文献。 Semantic Scholar:AI 驱动的学术搜索引擎,提供文献推荐和引用分析。 2. 内容生成和辅助写作: Grammarly:提供文本校对、语法修正和写作风格建议,提高语言质量。 Quillbot:基于 AI 的重写和摘要工具,精简和优化内容。 3. 研究和数据分析: Google Colab:提供云的 Jupyter 笔记本环境,支持 AI 和机器学习研究,便于数据分析和可视化。 Knitro:用于数学建模和优化,进行复杂数据分析和模型构建。 4. 论文结构和格式: LaTeX:结合自动化和模板,处理论文格式和数学公式。 Overleaf:在线 LaTeX 编辑器,提供模板库和协作功能,简化编写过程。 5. 研究伦理和抄袭检测: Turnitin:广泛使用的抄袭检测工具,确保论文原创性。 Crossref Similarity Check:检测潜在抄袭问题。 使用这些工具时,要结合自身写作风格和需求,选择最合适的辅助工具。需注意,内容由 AI 大模型生成,请仔细甄别。
2024-11-12
如果选择一个最需要的AI工具,你会建议我学什么?比如视频剪辑?
如果要选择一个最需要学习的 AI 工具用于视频剪辑,以下是一些相关建议: 工具选择: 剪映是一个较为方便的选择,它具有很多人性化设计和简单的音效库、小特效。但也存在一些不足,如无法协同工作和导出工程文件,难以与其他软件进行工程联通,影响视频的商业化效果。 剪辑流程: 1. 视频粗剪:先确定画面逻辑,声音可作部分参考,快速对片子全貌有整体把握,把素材放上,再进行细节调整和画面替换。画面不需要精美,重点是把握整体。 2. 视频定剪:将画面素材调整和替换到满意效果。 3. 音效/音乐:以剪映为例,有简单音效库,复杂音效可能需另外制作。使用商用音乐要注意版权。 4. 特效:以剪映为例,可适当添加一些光的效果。 5. 包装(如字幕):字幕最后上,剪映可智能匹配字幕再修改。 故事创作: 除了工具,故事也很重要。故事来源有两条路径: 1. 原创(直接经验):自身或周围人的经历、做过的梦、想象的故事等。 2. 改编(间接经验):经典 IP、名著改编、新闻改编、二创等。 剧本写作: 编剧有一定门槛,不能仅套剧作理论和模版,要多写多实践,再结合看书总结经验。短片创作可从自身或朋友经历改编入手,或对触动自己的短篇故事进行改编。多与他人讨论故事,有助于修改和进步。 声音制作: 在传统影视制作中,声音部分包括现场录音、后期配音、音效音乐制作等。对于 AI 声音制作对话,如使用 11labs 进行英文对白制作,效果较好但存在没有情绪和情感的问题,需通过标点符号改变语音效果,不断抽卡调试。国内可使用魔音工坊,其有情绪调节控件。 剪辑软件: 对于 13 分钟的短片,剪映较方便;更长篇幅或追求更好效果,可能需使用 PR/FCP/达芬奇等传统剪辑软件。
2024-11-22
中国国产最好用的免费视频AI是哪个呢
以下是一些中国国产好用的免费视频 AI 工具: Hidreamai(国内,有免费额度):https://hidreamai.com//AiVideo 。支持文生视频、图生视频,提示词使用中文、英文都可以,文生视频支持正向提示词、反向提示词、运镜控制、运动强度控制,支持多尺寸,可以生成 5s 和 15s 的视频。 ETNA(国内):https://etna.7volcanoes.com/ 。是一款由七火山科技开发的文生视频 AI 模型,能根据用户简短的文本描述生成相应的视频内容。生成的视频长度在 8 15 秒,画质可达 4K,最高 38402160,画面细腻逼真,帧率 60fps。 Dreamina(国内内测,有免费额度):https://jimeng.jianying.com/aitool/video/generate 。支持文生视频、图生视频、视频生视频,支持图生视频首尾帧功能,提示词使用中文、英文都可以。 可灵(免费):https://klingai.kuaishou.com/ 。支持文生视频、图生视频,支持图生视频首尾帧功能,提示词可使用中文。 此外,还有一些其他的相关工具: Leiapix:https://www.leiapix.com/ ,免费,可把一张照片转动态。 Krea:https://www.krea.ai/ ,12 月 13 日免费公测。 luma: ,30 次免费。 hailuoai:https://hailuoai.video/ ,新账号 3 天免费,过后每天 100 分,语义理解能力强。 Opusclip:https://www.opus.pro/ ,可利用长视频剪成短视频。 Raskai:https://zh.rask.ai/ ,短视频素材可直接翻译至多语种。 invideoAI:https://invideo.io/make/aivideogenerator/ ,输入想法生成脚本和分镜描述,生成视频后可人工二编合成长视频。 descript:https://www.descript.com/?ref=feizhuke.com 。 veed.io:https://www.veed.io/ ,有一次免费体验,可自动翻译自动字幕。 clipchamp:https://app.clipchamp.com/ ,免费,高级功能付费。 typeframes:https://www.revid.ai/?ref=aibot.cn ,有免费额度。
2024-11-22
推荐一款国内不错的AI视频生成软件
以下为您推荐几款国内不错的 AI 视频生成软件: 1. 可灵:在 AI 视频生成领域表现出色,具有以下优势: 卓越的视频生成质量,与国际顶级模型相当,能满足普通用户和专业创作者的需求。 生成速度快,处理效率高于国外同类产品,提升用户工作效率。 对国内用户可访问性强,提供便捷、稳定的使用体验。 2. Hidreamai:有免费额度,支持文生视频、图生视频,提示词使用中文、英文均可,文生视频支持多种控制,可生成 5s 和 15s 的视频。网址:https://hidreamai.com//AiVideo 3. ETNA:由七火山科技开发,可根据简短文本描述生成相应视频内容,生成视频长度 8 15 秒,画质可达 4K,最高 38402160,画面细腻逼真,帧率 60fps,支持中文,时空理解。网址:https://etna.7volcanoes.com/ 此外,还有 Pika、SVD、Runway、Kaiber、Sora 等国内外提供此类功能的产品,您可以根据自己的具体情况进行选择。更多的文生视频网站可查看: 需注意,以上内容由 AI 大模型生成,请仔细甄别。
2024-11-22
如何做一个我自己的AI数字人进行短视频出镜主播
以下是制作您自己的 AI 数字人进行短视频出镜主播的方法: 一、准备视频内容 1. 准备一段视频中播放的文字内容,可以是产品介绍、课程讲解、游戏攻略等。您也可以利用 AI 来生成这段文字。 2. 使用剪映 App 对视频进行处理。电脑端打开剪映 App,点击“开始创作”。选择顶部工具栏中的“文本”,并点击默认文本右下角的“+”号,为视频添加一个文字内容的轨道,然后将准备好的文字内容替换默认文本内容。这将为数字人提供语音播放的内容以及生成相对应的口型。 二、生成数字人 1. 在剪映右侧窗口顶部,打开“数字人”选项,选取一位免费且适合的数字人形象,例如“婉婉青春”。选择数字人形象时,软件会播放其声音,您可判断是否需要,点击右下角的“添加数字人”,将其添加到当前视频中。 2. 剪映 App 会根据提供的内容生成对应音视频,并添加到当前视频文件的轨道中。左下角会提示渲染完成时间,您可点击预览按钮查看生成的数字人效果。 三、增加背景图片 1. 直接删除先前导入的文本内容,因为视频中的音频已包含文字内容。 2. 为视频增加背景图片。点击左上角的“媒体”菜单,并点击“导入”按钮,选择本地的一张图片上传。 3. 点击图片右下角的加号,将图片添加到视频的轨道上(会覆盖数字人)。 4. 点击轨道最右侧的竖线,向右拖拽直到与视频对齐。 5. 选中背景图片所在的轨道,在显示区域拖动背景图的一个角,将图片放大到适合尺寸,并将数字人拖动到合适位置。 另外,您还可以通过以下网站生成虚拟数字人短视频: 1. 打开网站(要科学):https://studio.did.com/editor 2. 输入内容选项,在右侧的文字框里面输入从 ChatGPT 产生的内容,还可以更换想要的头像,选择不同的国家和声音。 3. 内容和人像都选择好之后,点击右上角的 Create Video,等待一段时间生成。生成好数字人视频后,结合产品做讲解即可发布去做视频带货。
2024-11-22
现在哪几家的大模型支持通过手机视频多模态实时交流?
以下几家的大模型支持通过手机视频多模态实时交流: 1. PandaGPT:能够理解不同模式的指令并根据指令采取行动,包括文本、图像/视频、音频、热、深度和惯性测量单位。 2. VideoLLaMA:引入了多分支跨模式 PT 框架,使语言模型能够在与人类对话的同时处理给定视频的视觉和音频内容。 3. 视频聊天 GPT:专门为视频对话设计,能够通过集成时空视觉表示来生成有关视频的讨论。 4. NExTGPT:端到端、通用的 anytoany 多模态语言模型,支持图像、视频、音频、文本的自由输入输出。
2024-11-22
我想要能够爬取我想要的视频的工作流有吗
以下为您提供两种关于视频爬取工作流的信息: 1. Stable Video Diffusion 模型的 ComfyUI 部署实战: 完成准备工作后运行 ComfyUI。 安装 ComfyUI Manager 插件。 下载工作流,使用 ComfyUI 菜单的 load 功能加载。 点击菜单栏「Queue Prompt」开始视频生成,可通过工作流上的绿色框查看运行进度。 生成的视频可在 ComfyUI 目录下的 output 文件夹查看。若出现显存溢出问题,请另行处理。工作流可关注公众号「魔方 AI 空间」,回复【SVD】获取。 2. 来来的 AI 视频短片工作流: 完整文档: 工作流概述: 概念设定:MJ 剧本+分镜:ChatGPT AI 出图:MJ,SD,D3 AI 视频:Runway,pika,PixVerse,Morph Studio 对白+旁白:11labs,睿声 音效+音乐:SUNO,UDIO,AUDIOGEN 视频高清化:Topaz Video 字幕+剪辑:CapCut,剪映 直播回放:
2024-11-21
学习大模型的路径
学习大模型的路径主要包括以下几个步骤: 1. 收集海量数据:就像教孩子成为博学多才的人需要让其阅读大量书籍、观看纪录片、与人交谈一样,对于大模型,要收集互联网上的文章、书籍、维基百科条目、社交媒体帖子等各种文本数据。 2. 预处理数据:如同为孩子整理学习资料,AI 研究人员需要清理和组织收集到的数据,包括删除垃圾信息、纠正拼写错误、将文本分割成易于处理的片段。 3. 设计模型架构:如同为孩子设计学习计划,研究人员要设计大模型的“大脑”结构,通常是一个复杂的神经网络,例如 Transformer 架构,这种架构擅长处理序列数据如文本。 4. 训练模型:如同孩子开始阅读和学习,大模型开始“阅读”提供的数据,通过反复尝试预测句子中的下一个词,不断重复这个过程,逐渐学会理解和生成人类语言。 此外,关于大模型的底层原理,计算机科学家/工程师以大脑神经元细胞结构为灵感,在计算机上利用概览模型实现对人脑结构的模仿,不过计算机的神经元节点更为简单,本质上只是进行一些加法和乘法运算而后输出。大模型内部如同人类大脑是一个混沌系统,即使是 OpenAI 的科学家也无法解释其微观细节。
2024-11-22
siri是不是使用大模型技术
Siri 目前并非使用大模型技术。苹果公司的 Siri 概念虽好,但由于技术限制,其表现未达到人工智能的水平,常被称为“人工智障”。不过,随着技术发展,未来可能会用大模型重新改造 Siri,将手机上的所有功能控制起来,使其成为真正的智能助理。例如,苹果公司在手机算力的芯片发展到能够支撑大模型上手机的情况下,可能会推出大模型的小数据量、专业的版本来替代 Siri。同时,苹果公司若 All in 手机,其大模型可能会是本地化的,以重视个人数据保护和隐私。
2024-11-21
sairi是不是使用大模型技术
Sora 是使用大模型技术的。周鸿祎认为 Open AI 训练这个模型会阅读大量视频,大模型加上 Diffusion 技术需要对世界进一步了解,学习样本以视频和摄像头捕捉到的画面为主。Sora 在训练数据上采用在原始尺寸上进行训练的策略,避免了传统 AI 对人为抽象的依赖。此外,Sora 还采用了一些数据预处理技术,如将视觉图块压缩成低维潜在表示,并将其排列成序列,注入噪声后输入扩散变换器的输入层,同时采用时空分块化来降低后续对时间信息建模的复杂性。这种对原始视频和图像特征的细腻处理标志着生成模型领域的重大进步。
2024-11-21
模型微调怎么解决多轮对话容易受到上轮对话的影响问题
在解决模型微调中多轮对话容易受到上轮对话影响的问题时: 对于多轮对话,现实中常伴随指代问题,如使用“它”“他们”“我们”等代词。若仅依据原始提问检索知识片段,可能导致结果不精确或无法检索到信息。同时,对模型回复内容的限制可能影响多轮对话流畅性甚至中断。 为提升对话系统性能和用户体验,需开发提示词解决多轮对话中的指代消解问题,确保模型能在连续交流中提供准确连贯回答。但由于“指代消解”需多轮对话完成,单次交互无法达成,所以要转换测试形式,先解决“指代消解”问题再进行下一轮答复。 首先准备指代消解所需提示词,这里使用的“指代消解”提示词是用 CoT 写出的思维链,列举不同推理情景,让模型适应并推理出需消解的代词,再根据结果重新组织问题。 接着复现指代消解步骤,如进行第一轮对话,提出问题“尼罗河是什么?”,系统召回相关知识片段并回复,然后开始指代消解。 另外,聊天模型通过一串聊天对话输入并返回生成消息输出。聊天格式虽为多轮对话设计,但对单轮任务也有用。会话通过 messages 参数输入,包含不同角色和内容的消息对象数组。通常会话先有系统消息设定助手行为,再交替使用用户和助手消息。当指令涉及之前消息时,包含聊天历史记录有帮助,若超出模型限制需缩减会话。
2024-11-21
企业做自己的小模型,需要用到的工具及工具背后的公司都有哪些?
企业做自己的小模型,可能会用到以下工具及背后的公司: 1. 在编排(Orchestration)方面,涉及的公司如 DUST、FIAVIE、LangChain 等,其提供的工具可帮助管理和协调各部分及任务,确保系统流畅运行。 2. 部署、可扩展性和预训练(Deployment, Scalability, & PreTraining)类别中,像 UWA mosaicm、NMAREL、anyscale 等公司提供的工具,有助于部署模型、保证可扩展性及进行预训练。 3. 处理上下文和嵌入(Context & Embeddings)的工具,相关公司有 TRUDO、Llamalndex、BerriAI 等,能帮助模型处理和理解语言上下文,并将词语和句子转化为计算机可理解的形式。 4. 质量保证和可观察性(QA & Observability)方面,例如 Pinecone、drant、Vald 等公司提供的工具,可确保模型表现并监控其性能和状态。 此外,还有以下工具和相关公司: 1. 图片生成 3D 建模工具,如 Tripo AI(由 VAST 发布)、Meshy、CSM AI(Common Sense Machines)、Sudo AI、VoxCraft(由生数科技推出)等。 企业还可能涉及具身智能、3D 眼镜、AI 绘本、AI 图书、学习机、飞书的多维表格、蚂蚁的智能体、Coze 的智能体、Zeabur 等云平台、0 编码平台、大模型(通义、智谱、kimi、deepseek 等)、编程辅助、文生图(可灵、即梦等)等方面,可能需要相应资质。
2024-11-20
像midjournal这样的国内外AI绘画社区
以下是为您介绍的像 Midjourney 这样的国内外 AI 绘画社区相关内容: Midjourney 是 AI 绘图领域家喻户晓的产品。其优点在于模型强大,能生成高质量图像,且支持充分的个性化设置。但使用过程不太便捷,需要通过 Discord 应用加入其频道或创建自己的频道并邀请 Midjourney 机器人才能生成图片。从学习难度来看,它的学习曲线较陡峭,在用户体验和易用性方面有待改进。 在“学社说明”中提到,大家一起收集和测试 AI 绘画提示词中的核心关键词,让新手规避无效探索,为相关从业人员节省时间。招募有 Midjourney 账号且喜欢 AI 绘画的人员,扫飞书二维码进群。根据关键词做创意,收录不错的作品。 在“AI 线上绘画教程”中提到,工作中需要大量图片时,AI 生图是高效的解决办法。主流的 Midjourney 付费成本高,Stable Diffusion 硬件门槛不低,但有像这样的免费在线 SD 工具网站。本教程旨在让入门玩家在半个小时内自由上手创作绘图。
2024-11-12
类似堆友,吐司这样的国内外AI生图
以下是为您整理的类似堆友、吐司的国内外 AI 生图产品: 国内: 阿里堆友 AI 反应堆:图像生成类产品。 图怪兽:资源类,4 月访问量 48.3 万 Visit,相对 3 月变化 0.299 。 美图秀秀 Meitu:图像编辑类,4 月访问量 47.9 万 Visit,相对 3 月变化 0.061 。 AI 抠图 pixian.ai:图像编辑类,4 月访问量 44 万 Visit,相对 3 月变化 0.176 。 佐糖:图像编辑类,4 月访问量 43.3 万 Visit,相对 3 月变化 0.071 。 我图网:图像生成类,4 月访问量 41.8 万 Visit,相对 3 月变化 0.012 。 文心一格:图像生成类,4 月访问量 41.5 万 Visit,相对 3 月变化 0.086 。 标智客 Ai Logo:图像生成类,4 月访问量 37.8 万 Visit,相对 3 月变化 1 。 可灵:由快手团队开发,主要用于生成高质量的图像和视频,图像质量高,最初采用内测邀请制,现向所有用户开放,价格相对较高,重度用户年费最高可达几千元,临时或轻度使用有免费点数和较便宜包月选项。 通义万相:在中文理解和处理方面表现出色,可从多种艺术和图像风格中选择,生成图像质量高、细节丰富,操作界面简洁直观,用户友好度高,可与阿里其他产品和服务无缝整合,目前免费,每天签到获取灵感值,但存在一定局限性,如某些类型图像因国内监管要求无法生成,处理非中文语言或国际化内容可能不够出色,处理多元文化内容可能存在偏差。 国外:暂无相关具体产品信息。
2024-11-12
国内外大预言模型对比
以下是国内外大语言模型的对比情况: 1. 工具使用能力: 在工具使用的测评中,GPT4 Turbo 取得满分。 国内大模型中智谱清言表现不俗,取得 83.78 的高分,排名国内第一。文心一言 4.0、通义千问 2.0、Yi34BChat、AndesGPT 均有超过 70 分的表现。超过 GPT3.5 的国内模型有 12 个。 开源模型中,Baichuan213BChat、Xverse13B2Caht 表现可圈可点,均超过 GPT3.5 以及众多闭源模型。总体来看,国内大模型在工具使用能力上表现优异,这与国内大模型厂商积极落地应用密不可分。 2. 主观和客观对比: 通过对比模型在主观简答题 OPEN 和客观选择题 OPT 上的不同表现,国内大模型多数擅长做选择题,普遍选择题分数高于简答题分数。文心一言 4.0 和智谱清言表现相对稳定。 GPT4 Turbo 的表现最为稳定。 客观题相对主观题更容易通过题库形式进行训练和提升,同时由于客观题中包含中文特性问题,中文模型有一定优势,应综合来看模型的评测效果。 在本次测评中,国外的代表性大模型如 GPT4 的不同版本、Claude2、Llama2 都有很好的稳定性表现,值得国内大模型进一步分析研究。 3. 总体表现: GPT 4 Turbo 总分 90.63 分遥遥领先,高于其他国内大模型及国外大模型。国内最好模型文心一言 4.0有 4.9 分的差距。 过去 1 年国内大模型有长足进步,综合能力超过 GPT 3.5 和 GeminiPro 的模型有 11 个。 在 SuperCLUE 测评中,国外模型的平均成绩为 69.42 分,国内模型平均成绩为 65.95 分,差距在 4 分左右。国内外的平均水平差距在缩小,11 月差距在 10 分左右。 国内开源模型在中文上表现好于国外开源模型,如百川智能的 Baichuan213BChat、阿里云的 Qwen72B、Yi 34BCha t 均优于 Llama213BChat。
2024-11-12
请问现在国内外AI都已实现什么功能?在金融行业都有什么应用?
目前国内外 AI 已经实现了众多功能,以下为您列举部分主要功能及在金融行业的应用: 主要功能: 1. 医疗保健:包括医学影像分析、药物研发、个性化医疗、机器人辅助手术等。 2. 金融服务:涵盖风控和反欺诈、信用评估、投资分析、客户服务等。 3. 零售和电子商务:有产品推荐、搜索和个性化、动态定价、聊天机器人等。 4. 制造业:包含预测性维护、质量控制、供应链管理、机器人自动化等。 5. 交通运输:例如自动驾驶等。 在金融行业的应用: 1. 风控和反欺诈:利用 AI 识别和阻止欺诈行为,降低金融机构的风险。 2. 信用评估:通过 AI 评估借款人的信用风险,辅助金融机构做出更优的贷款决策。 3. 投资分析:借助 AI 分析市场数据,帮助投资者做出更明智的投资决策。 4. 客户服务:使用 AI 提供 24/7 的客户服务,并回答常见问题。 此外,还有一些具体的应用案例,如东方财富网的投资分析工具利用 AI 技术分析金融市场数据,为投资者提供投资建议和决策支持;金融风险预警软件利用 AI 分析金融市场数据,提前预警可能出现的风险,如股市下跌、汇率波动等。
2024-10-23
请问现在国内外AI都已实现什么功能?在金融行业都有什么应用?
国内外 AI 已经实现了众多功能,以下为您列举一些主要的应用场景: 1. 医疗保健: 医学影像分析:用于分析医学图像,辅助诊断疾病。 药物研发:加速药物研发过程,识别潜在药物候选物和设计新治疗方法。 个性化医疗:分析患者数据,提供个性化治疗方案。 机器人辅助手术:控制手术机器人,提高手术精度和安全性。 2. 金融服务: 风控和反欺诈:识别和阻止欺诈行为,降低金融机构风险。 信用评估:评估借款人信用风险,帮助金融机构做出贷款决策。 投资分析:分析市场数据,辅助投资者做出投资决策。 客户服务:提供 24/7 客户服务,回答常见问题。 3. 零售和电子商务: 产品推荐:分析客户数据,推荐可能感兴趣的产品。 搜索和个性化:改善搜索结果,提供个性化购物体验。 动态定价:根据市场需求调整产品价格。 聊天机器人:回答客户问题,解决问题。 4. 制造业: 预测性维护:预测机器故障,避免停机。 质量控制:检测产品缺陷,提高产品质量。 供应链管理:优化供应链,提高效率和降低成本。 机器人自动化:控制工业机器人,提高生产效率。 5. 交通运输:暂未在您提供的知识库中找到相关具体应用。 在金融行业,AI 的应用包括: 1. 网易云音乐音乐人平台:利用 AI 技术为音乐创作者提供作品发布、推广、版权管理等服务。 2. 好好住 APP:利用 AI 技术根据用户的家居风格、需求和预算,为用户推荐适合的家居用品。 3. 东方财富网投资分析工具:利用 AI 技术分析金融市场数据,为投资者提供投资建议和决策支持。 4. 马蜂窝景点评价功能:利用 AI 技术对游客的评价进行分析和整理,为其他游客提供参考。 5. AI 摄影参数调整助手:一些摄影 APP 利用 AI 分析拍摄场景,自动调整相机参数。 6. AI 音乐情感分析平台:分析音乐的情感表达。 7. AI 家居智能照明系统:利用 AI 和物联网技术,根据用户的习惯和环境变化自动调整灯光亮度和颜色。 8. AI 金融风险预警平台:分析金融市场数据,提前预警可能出现的风险。 9. AI 旅游路线优化平台:根据用户的时间、预算、兴趣等因素,利用 AI 优化旅游路线。
2024-10-23
请问现在国内外AI都已实现什么功能?在金融行业都有什么应用?
国内外 AI 已经实现了众多功能,以下为您列举一些主要的应用场景: 1. 医疗保健: 医学影像分析:用于分析医学图像,辅助诊断疾病。 药物研发:加速药物研发过程,识别潜在药物候选物和设计新治疗方法。 个性化医疗:分析患者数据,提供个性化治疗方案。 机器人辅助手术:控制手术机器人,提高手术精度和安全性。 2. 金融服务: 风控和反欺诈:识别和阻止欺诈行为,降低金融机构风险。 信用评估:评估借款人信用风险,帮助金融机构做出贷款决策。 投资分析:分析市场数据,辅助投资者做出投资决策。 客户服务:提供 24/7 客户服务,回答常见问题。 3. 零售和电子商务: 产品推荐:分析客户数据,推荐可能感兴趣的产品。 搜索和个性化:改善搜索结果,提供个性化购物体验。 动态定价:根据市场需求调整产品价格。 聊天机器人:回答客户问题,解决问题。 4. 制造业: 预测性维护:预测机器故障,避免停机。 质量控制:检测产品缺陷,提高产品质量。 供应链管理:优化供应链,提高效率和降低成本。 机器人自动化:控制工业机器人,提高生产效率。 5. 交通运输:暂未在您提供的知识库内容中提及。 在金融行业,AI 的应用包括: 网易云音乐音乐人平台:利用 AI 技术为音乐创作者提供作品发布、推广、版权管理等服务。 好好住 APP:利用 AI 技术根据用户的家居风格、需求和预算,为用户推荐适合的家居用品。 东方财富网投资分析工具:利用 AI 技术分析金融市场数据,为投资者提供投资建议和决策支持。 小米智能照明系统:利用 AI 和物联网技术,根据用户的习惯和环境变化自动调整灯光亮度和颜色。 金融风险预警软件:利用 AI 分析金融市场数据,提前预警可能出现的风险,如股市下跌、汇率波动等。
2024-10-23