直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

最新视频生成模型和网址

回答

以下是一些最新的视频生成模型和相关网址:

  • 谷歌的视频模型 Veo:您现在可以加入@labs.google 的候补名单,Google 最新图像模型 Imagen 3 和视频模型 Veo 的 waitlist 申请地址:https://aitestkitchen.withgoogle.com/tools/video-fx
  • Vidu:Web 端访问:https://www.vidu.studio/
  • MiniMAX 发布的视频生成模型:https://hailuoai.com/video
  • Civitai 新开的 Civita Green 站点(只有安全的图片和模型,没有色情内容):https://civitai.green/models
  • Runway Gen3 视频生成模型(支持视频延长功能):https://x.com/runwayml/status/1829591480664768993
内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

谷歌I/O大会

提示:"一个宁静山景的平移镜头,镜头慢慢展现出白雪皑皑的山峰、花岗岩石和倒映着天空的清澈湖水"。Prompt:“A golden retriever walks on a winding mountain trail,its tail wagging excitedly as it explores the sights and scents of the wilderness.”提示:"一只金毛猎犬走在蜿蜒的山间小路上,兴奋地摇着尾巴,探索着荒野的景色和气味"。这些视频未经编辑,是Veo的原始输出。您现在可以加入@labs.google的候补名单,Google最新图像模型Imagen 3和视频模型Veo的 waitlist申请地址:https://aitestkitchen.withgoogle.com/tools/video-fx

视频模型:Vidu

[title]视频模型:Vidu🌎 Vidu全球上线|注册即刻体验🔍 Web端访问:https://www.vidu.studio/⚡️极速生成,实测30秒最快推理速度🤩动漫风格,万物皆可二次元💃🏻角色可控,任意场景、任何动作,角色保持一致🎥精准理解,镜头、文字、动作,理解更准、生成更稳🎬大片质感,影视级画面和特效一键直出🦄 Vidu一下,想象跃然眼前~我们希望Vidu的无限可能,可以帮助实现您的个人艺术创想。为了保证更好地画面效果,丰富而准确的提示词对于将要创作的视频至关重要。本指南提供了基本示例结构、关键词以及风格化提示技巧,以帮助您更好地呈现创意灵感。请谨记,这些示例仅仅只是起点,您可以自由探索和创新,发挥自己天马行空的想象。

AIGC Weekly #87

MiniMAX发布[视频生成模型](https://hailuoai.com/video),目前只支持文生视频,免费使用,我的[测试在这里](https://x.com/op7418/status/1829814872563204327)。海外最大的图像模型分享网站Civitai新开了一个[Civita Green](https://civitai.green/models)站点,里面只有安全的图片和模型,没有色情内容。Runway Gen3视频生成模型现在[支持视频延长功能](https://x.com/runwayml/status/1829591480664768993),最多可以延长到40秒。AI电话营销平台Bland AI获得了[2200万美元融资](https://x.com/usebland/status/1828882563588612233)。支持用任何语言或声音交谈、通过Agents自定义自己的客服机器人、可以同时处理数百万的通话。Midjourney[开始研发硬件](https://x.com/midjourney/status/1828839444130214208),开始招人,去年就挖了一个在苹果做VisionPro的人入职。谷歌Gemini更新了类似GPTs和Cluade projects的[功能Gem](https://blog.google/products/gemini/google-gemini-update-august-2024/),现在也支持使用Imagen 3生成图片了。

其他人在问
请根据提供的AI工具网址,搜索常用的AI工具,实际操作AI工具,记录使用过程中的感受和发现,提交一份体验报告,描述工具的使用过程和个人感受,并就AI相关的热点话题,AI伦理、AI与就业等简要发表自己的看法。
以下是一份关于常用 AI 工具的体验报告: 一、AI 工具使用过程和感受 1. 超级简历优化助手 使用过程:用户上传简历,工具分析内容并提供优化建议。 个人感受:对于求职者来说,能够针对性地提升简历质量,提高求职成功率,操作简单易懂。 2. 酷家乐等设计软件 使用过程:用户上传户型图,软件通过 AI 生成多种室内设计方案。 个人感受:为室内设计提供了便捷和丰富的创意,节省了设计时间和精力。 3. Amper Music 使用过程:用户提出需求,工具生成旋律和编曲。 个人感受:对音乐创作者有很大的辅助作用,激发创作灵感。 4. 松果倾诉智能助手 使用过程:通过文字或语音与用户交流,提供情感咨询。 个人感受:在情感支持方面提供了及时的帮助和建议。 5. 小佩宠物智能设备 使用过程:实时监测宠物的活动、饮食等状况,提供健康预警。 个人感受:让宠物主人能更方便地关注宠物健康。 6. 马蜂窝智能行程规划 使用过程:根据用户输入的目的地、时间等因素定制旅游路线。 个人感受:为旅行规划提供了个性化的方案,节省了规划时间。 7. 作业帮智能辅导 使用过程:根据学生的学习情况提供针对性的学习方案。 个人感受:有助于学生获得更贴合自身需求的学习辅导。 8. AI 游戏道具推荐系统 使用过程:在游戏中分析玩家风格和进度,推荐合适道具。 个人感受:提升了游戏体验,使玩家能更有效地获取所需道具。 9. AI 天气预报分时服务 使用过程:利用彩云天气提供每小时的天气预报。 个人感受:为出行和活动安排提供了更精准的参考。 10. AI 医疗病历分析平台 使用过程:分析医疗病历中的症状、检查结果等信息,为医生提供辅助诊断建议。 个人感受:有助于提高医疗诊断的准确性和效率。 11. AI 会议发言总结工具 使用过程:在会议中自动总结发言者的主要观点和重点内容。 个人感受:方便会议记录和回顾,提高工作效率。 12. AI 书法作品临摹辅助工具 使用过程:识别书法作品的笔画和结构,为用户提供临摹指导和评价。 个人感受:对书法爱好者的临摹学习有一定的帮助。 二、关于 AI 相关热点话题的看法 1. AI 伦理 随着 AI 技术的广泛应用,数据隐私、算法偏见等伦理问题日益凸显。需要建立健全的法律法规和伦理准则,确保 AI 的发展符合人类的价值观和利益。 2. AI 与就业 AI 的发展可能会导致一些传统岗位的减少,但同时也会创造新的就业机会,如 AI 开发、维护和管理等。重要的是通过教育和培训,提升劳动者的技能,以适应新的就业需求。 三、健身的 AI 产品 1. Keep:中国最大的健身平台,提供全面的健身解决方案,帮助用户实现健身目标。 2. Fiture:沸彻魔镜集硬件、丰富课程内容、明星教练和社区于一体。 3. Fitness AI:利用人工智能进行锻炼,增强力量和速度。 4. Planfit:健身房家庭训练与 AI 健身计划,AI 教练使用大量文本数据和 ChatGPT 实时提供指导。
2024-11-11
免费的图片转3D网站,给出具体网址
以下为您提供一些免费的图片转 3D 网站及相关信息: 1. Polycam:您只需上传至少 20 张图片或至少 20 秒的视频,Polycam 自动处理并构建一个 3D 模型。生成后还可以编辑模型,支持 12 种以上的格式导出到流行的 3D 软件中,如 Blender、SketchUp、Unreal、Unity 等。可以在网站以及 iOS 和 Android 应用中来创建、编辑和存储 3D 模型,完全免费。 2. Tripo AI:VAST 发布的在线 3D 建模平台,能够利用文本或图像在几秒钟内生成高质量且可立即使用的 3D 模型。 3. Meshy:功能全面,不仅支持文本生成 3D,还支持图片生成 3D 以及 AI 材质生成。 4. CSM AI:支持从视频和图像创建 3D 模型,其 Realtime Sketch to 3D 功能支持通过手绘草图实时设计 3D 形象,再转换为 3D 模型。 5. Sudo AI:支持通过文本和图像生成 3D 模型,特别适用于游戏领域的模型生成。 6. VoxCraft:由生数科技推出的免费 3D 模型生成工具,能够将图像或文本快速转换成 3D 模型,并提供了图像到 3D、文本到 3D 和文本到纹理等多种功能。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2024-10-25
寻找可以对电脑桌面打开的PDF文档、网址进行总结的ai
以下是一些可以对电脑桌面打开的 PDF 文档、网址进行总结的 AI 工具: 1. DeepL(网站):点击页面「翻译文件」按钮,上传 PDF、Word 或 PowerPoint 文件即可。 2. 沉浸式翻译(浏览器插件):安装插件后,点击插件底部「更多」按钮,选择「制作双语 BPUB 电子书」、「翻译本地 PDF 文件」、「翻译 THML / TXT 文件」、「翻译本地字幕文件」。 3. Calibre(电子书管理应用):下载并安装 calibre,并安装翻译插件「Ebook Translator」。 4. 谷歌翻译(网页):使用工具把 PDF 转成 Word,再点击谷歌翻译「Document」按钮,上传 Word 文档。 5. 百度翻译(网页):点击导航栏「文件翻译」,上传 PDF、Word、Excel、PPT、TXT 等格式的文件,支持选择领域和导出格式(不过进阶功能基本都需要付费了)。 6. 彩云小译(App):下载后点击「文档翻译」,可以直接导入 PDF、DOC、DOCX、PPT、PPTX、TXT、epub、srt 等格式的文档并开始翻译(不过有免费次数限制且进阶功能需要付费)。 7. 微信读书(App):下载 App 后将 PDF 文档添加到书架,打开并点击页面上方「切换成电子书」,轻触屏幕唤出翻译按钮。 此外,还有一些相关的工具和网站: 1. AI PDF(与免费帐户。它消除了重复上传文件的需要。PRO 版本可以搜索 1000 个 PDF 和 OCR 文档,为冗长的文档提供上级摘要。 2. TXYZ 网站:是一个帮助大家搜索、查询专业文献并可以进行对话的 AI 工具,提供从搜索获取、查询对话获取知识再到管理知识的一站式服务。它是唯一和预印本文库官方合作的 AI 工具,ArXiv 的每篇论文下面都有直达 TXYZ 的按钮。用户可以自己上传 PDF 论文或者链接,通过它来在专业文献中迅速找到自己想要的答案和内容。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2024-10-24
飞书 通往 AGI 之路 网址多少
通往 AGI 之路的网址是 waytoagi.com 。WayToAGI 诞生于 2023 年 4 月 26 日,在没有任何推广的情况下,一年时间已有超过 70 万用户和超千万次的访问量,是很多 AI 爱好者知识的源头。社群的 Slogan 是让更多的人因 AI 而强大,有很多学社和共学共建的活动。此外,还有相关的公众号、B 站、小红书、X(Twitter)等渠道可以获取更多信息。公众号:通往 AGI 之路;B 站:https://space.bilibili.com/259768893;小红书:https://www.xiaohongshu.com/user/profile/6457d2e4000000001f030dbe;X(Twitter):https://twitter.com/WaytoAGI 。
2024-10-18
AI图片生成免费网址
以下为一些 AI 图片生成的免费网址: 无界 AI:https://www.wujieai.cc/(新用户扫码注册可领取积分) 此外,还有一些与 AI 相关的内容: Butterflies AI 是一款人类与 AI 共存的社交软件,具有独特的体验。 以下是一些优秀的 AI 标志生成器:Logomaster.ai、Free Logo Design、Logo AI、Looka logo maker、Brandmark、DesignEvo、Tailor Brands、Designhill
2024-10-14
AI图片生成网址
以下为一些 AI 图片生成的网址: 无界 AI:https://www.wujieai.cc/(新用户扫码注册可领取积分) Adobe firefly:图像生成类,4 月访问量 30250 万 Visit,相对 3 月变化 0.013 Freepik:图像生成类,4 月访问量 8643 万 Visit,相对 3 月变化 0.063 Civitai:图像生成类,4 月访问量 2315 万 Visit,相对 3 月变化 0.013 Midjourney:图像生成类,4 月访问量 1704 万 Visit,相对 3 月变化 0.078 Yodayo:图像生成类,4 月访问量 1578 万 Visit,相对 3 月变化 0.106 Picsart Al:图像生成类,4 月访问量 1078 万 Visit,相对 3 月变化 0.038 Sea Art AI:图像生成类,4 月访问量 981 万 Visit,相对 3 月变化 0.07 Playground:图像生成类,4 月访问量 853 万 Visit,相对 3 月变化 0.168 PixAI:图像生成类,4 月访问量 834 万 Visit,相对 3 月变化 0.01 Ideogram:图像生成类,4 月访问量 804 万 Visit,相对 3 月变化 0.084 Vidnoz headshot generator:图像生成类,4 月访问量 663 万 Visit,相对 3 月变化 0.109 Media.io:图像生成类,4 月访问量 612 万 Visit,相对 3 月变化 0.021 NightCafe Studio:图像生成类,4 月访问量 581 万 Visit,相对 3 月变化 0.103 kittl:图像生成类,4 月访问量 270 万 Visit,相对 3 月变化 0.149 Artguru AI Art Generator:图像生成类,4 月访问量 262 万 Visit,相对 3 月变化 0.129 pornpen.ai:图像生成类,4 月访问量 259 万 Visit,相对 3 月变化 0.32 Venngage:图像生成类,4 月访问量 241 万 Visit,相对 3 月变化 0.066
2024-10-14
如果选择一个最需要的AI工具,你会建议我学什么?比如视频剪辑?
如果要选择一个最需要学习的 AI 工具用于视频剪辑,以下是一些相关建议: 工具选择: 剪映是一个较为方便的选择,它具有很多人性化设计和简单的音效库、小特效。但也存在一些不足,如无法协同工作和导出工程文件,难以与其他软件进行工程联通,影响视频的商业化效果。 剪辑流程: 1. 视频粗剪:先确定画面逻辑,声音可作部分参考,快速对片子全貌有整体把握,把素材放上,再进行细节调整和画面替换。画面不需要精美,重点是把握整体。 2. 视频定剪:将画面素材调整和替换到满意效果。 3. 音效/音乐:以剪映为例,有简单音效库,复杂音效可能需另外制作。使用商用音乐要注意版权。 4. 特效:以剪映为例,可适当添加一些光的效果。 5. 包装(如字幕):字幕最后上,剪映可智能匹配字幕再修改。 故事创作: 除了工具,故事也很重要。故事来源有两条路径: 1. 原创(直接经验):自身或周围人的经历、做过的梦、想象的故事等。 2. 改编(间接经验):经典 IP、名著改编、新闻改编、二创等。 剧本写作: 编剧有一定门槛,不能仅套剧作理论和模版,要多写多实践,再结合看书总结经验。短片创作可从自身或朋友经历改编入手,或对触动自己的短篇故事进行改编。多与他人讨论故事,有助于修改和进步。 声音制作: 在传统影视制作中,声音部分包括现场录音、后期配音、音效音乐制作等。对于 AI 声音制作对话,如使用 11labs 进行英文对白制作,效果较好但存在没有情绪和情感的问题,需通过标点符号改变语音效果,不断抽卡调试。国内可使用魔音工坊,其有情绪调节控件。 剪辑软件: 对于 13 分钟的短片,剪映较方便;更长篇幅或追求更好效果,可能需使用 PR/FCP/达芬奇等传统剪辑软件。
2024-11-22
中国国产最好用的免费视频AI是哪个呢
以下是一些中国国产好用的免费视频 AI 工具: Hidreamai(国内,有免费额度):https://hidreamai.com//AiVideo 。支持文生视频、图生视频,提示词使用中文、英文都可以,文生视频支持正向提示词、反向提示词、运镜控制、运动强度控制,支持多尺寸,可以生成 5s 和 15s 的视频。 ETNA(国内):https://etna.7volcanoes.com/ 。是一款由七火山科技开发的文生视频 AI 模型,能根据用户简短的文本描述生成相应的视频内容。生成的视频长度在 8 15 秒,画质可达 4K,最高 38402160,画面细腻逼真,帧率 60fps。 Dreamina(国内内测,有免费额度):https://jimeng.jianying.com/aitool/video/generate 。支持文生视频、图生视频、视频生视频,支持图生视频首尾帧功能,提示词使用中文、英文都可以。 可灵(免费):https://klingai.kuaishou.com/ 。支持文生视频、图生视频,支持图生视频首尾帧功能,提示词可使用中文。 此外,还有一些其他的相关工具: Leiapix:https://www.leiapix.com/ ,免费,可把一张照片转动态。 Krea:https://www.krea.ai/ ,12 月 13 日免费公测。 luma: ,30 次免费。 hailuoai:https://hailuoai.video/ ,新账号 3 天免费,过后每天 100 分,语义理解能力强。 Opusclip:https://www.opus.pro/ ,可利用长视频剪成短视频。 Raskai:https://zh.rask.ai/ ,短视频素材可直接翻译至多语种。 invideoAI:https://invideo.io/make/aivideogenerator/ ,输入想法生成脚本和分镜描述,生成视频后可人工二编合成长视频。 descript:https://www.descript.com/?ref=feizhuke.com 。 veed.io:https://www.veed.io/ ,有一次免费体验,可自动翻译自动字幕。 clipchamp:https://app.clipchamp.com/ ,免费,高级功能付费。 typeframes:https://www.revid.ai/?ref=aibot.cn ,有免费额度。
2024-11-22
推荐一款国内不错的AI视频生成软件
以下为您推荐几款国内不错的 AI 视频生成软件: 1. 可灵:在 AI 视频生成领域表现出色,具有以下优势: 卓越的视频生成质量,与国际顶级模型相当,能满足普通用户和专业创作者的需求。 生成速度快,处理效率高于国外同类产品,提升用户工作效率。 对国内用户可访问性强,提供便捷、稳定的使用体验。 2. Hidreamai:有免费额度,支持文生视频、图生视频,提示词使用中文、英文均可,文生视频支持多种控制,可生成 5s 和 15s 的视频。网址:https://hidreamai.com//AiVideo 3. ETNA:由七火山科技开发,可根据简短文本描述生成相应视频内容,生成视频长度 8 15 秒,画质可达 4K,最高 38402160,画面细腻逼真,帧率 60fps,支持中文,时空理解。网址:https://etna.7volcanoes.com/ 此外,还有 Pika、SVD、Runway、Kaiber、Sora 等国内外提供此类功能的产品,您可以根据自己的具体情况进行选择。更多的文生视频网站可查看: 需注意,以上内容由 AI 大模型生成,请仔细甄别。
2024-11-22
如何做一个我自己的AI数字人进行短视频出镜主播
以下是制作您自己的 AI 数字人进行短视频出镜主播的方法: 一、准备视频内容 1. 准备一段视频中播放的文字内容,可以是产品介绍、课程讲解、游戏攻略等。您也可以利用 AI 来生成这段文字。 2. 使用剪映 App 对视频进行处理。电脑端打开剪映 App,点击“开始创作”。选择顶部工具栏中的“文本”,并点击默认文本右下角的“+”号,为视频添加一个文字内容的轨道,然后将准备好的文字内容替换默认文本内容。这将为数字人提供语音播放的内容以及生成相对应的口型。 二、生成数字人 1. 在剪映右侧窗口顶部,打开“数字人”选项,选取一位免费且适合的数字人形象,例如“婉婉青春”。选择数字人形象时,软件会播放其声音,您可判断是否需要,点击右下角的“添加数字人”,将其添加到当前视频中。 2. 剪映 App 会根据提供的内容生成对应音视频,并添加到当前视频文件的轨道中。左下角会提示渲染完成时间,您可点击预览按钮查看生成的数字人效果。 三、增加背景图片 1. 直接删除先前导入的文本内容,因为视频中的音频已包含文字内容。 2. 为视频增加背景图片。点击左上角的“媒体”菜单,并点击“导入”按钮,选择本地的一张图片上传。 3. 点击图片右下角的加号,将图片添加到视频的轨道上(会覆盖数字人)。 4. 点击轨道最右侧的竖线,向右拖拽直到与视频对齐。 5. 选中背景图片所在的轨道,在显示区域拖动背景图的一个角,将图片放大到适合尺寸,并将数字人拖动到合适位置。 另外,您还可以通过以下网站生成虚拟数字人短视频: 1. 打开网站(要科学):https://studio.did.com/editor 2. 输入内容选项,在右侧的文字框里面输入从 ChatGPT 产生的内容,还可以更换想要的头像,选择不同的国家和声音。 3. 内容和人像都选择好之后,点击右上角的 Create Video,等待一段时间生成。生成好数字人视频后,结合产品做讲解即可发布去做视频带货。
2024-11-22
现在哪几家的大模型支持通过手机视频多模态实时交流?
以下几家的大模型支持通过手机视频多模态实时交流: 1. PandaGPT:能够理解不同模式的指令并根据指令采取行动,包括文本、图像/视频、音频、热、深度和惯性测量单位。 2. VideoLLaMA:引入了多分支跨模式 PT 框架,使语言模型能够在与人类对话的同时处理给定视频的视觉和音频内容。 3. 视频聊天 GPT:专门为视频对话设计,能够通过集成时空视觉表示来生成有关视频的讨论。 4. NExTGPT:端到端、通用的 anytoany 多模态语言模型,支持图像、视频、音频、文本的自由输入输出。
2024-11-22
我想要能够爬取我想要的视频的工作流有吗
以下为您提供两种关于视频爬取工作流的信息: 1. Stable Video Diffusion 模型的 ComfyUI 部署实战: 完成准备工作后运行 ComfyUI。 安装 ComfyUI Manager 插件。 下载工作流,使用 ComfyUI 菜单的 load 功能加载。 点击菜单栏「Queue Prompt」开始视频生成,可通过工作流上的绿色框查看运行进度。 生成的视频可在 ComfyUI 目录下的 output 文件夹查看。若出现显存溢出问题,请另行处理。工作流可关注公众号「魔方 AI 空间」,回复【SVD】获取。 2. 来来的 AI 视频短片工作流: 完整文档: 工作流概述: 概念设定:MJ 剧本+分镜:ChatGPT AI 出图:MJ,SD,D3 AI 视频:Runway,pika,PixVerse,Morph Studio 对白+旁白:11labs,睿声 音效+音乐:SUNO,UDIO,AUDIOGEN 视频高清化:Topaz Video 字幕+剪辑:CapCut,剪映 直播回放:
2024-11-21
学习大模型的路径
学习大模型的路径主要包括以下几个步骤: 1. 收集海量数据:就像教孩子成为博学多才的人需要让其阅读大量书籍、观看纪录片、与人交谈一样,对于大模型,要收集互联网上的文章、书籍、维基百科条目、社交媒体帖子等各种文本数据。 2. 预处理数据:如同为孩子整理学习资料,AI 研究人员需要清理和组织收集到的数据,包括删除垃圾信息、纠正拼写错误、将文本分割成易于处理的片段。 3. 设计模型架构:如同为孩子设计学习计划,研究人员要设计大模型的“大脑”结构,通常是一个复杂的神经网络,例如 Transformer 架构,这种架构擅长处理序列数据如文本。 4. 训练模型:如同孩子开始阅读和学习,大模型开始“阅读”提供的数据,通过反复尝试预测句子中的下一个词,不断重复这个过程,逐渐学会理解和生成人类语言。 此外,关于大模型的底层原理,计算机科学家/工程师以大脑神经元细胞结构为灵感,在计算机上利用概览模型实现对人脑结构的模仿,不过计算机的神经元节点更为简单,本质上只是进行一些加法和乘法运算而后输出。大模型内部如同人类大脑是一个混沌系统,即使是 OpenAI 的科学家也无法解释其微观细节。
2024-11-22
siri是不是使用大模型技术
Siri 目前并非使用大模型技术。苹果公司的 Siri 概念虽好,但由于技术限制,其表现未达到人工智能的水平,常被称为“人工智障”。不过,随着技术发展,未来可能会用大模型重新改造 Siri,将手机上的所有功能控制起来,使其成为真正的智能助理。例如,苹果公司在手机算力的芯片发展到能够支撑大模型上手机的情况下,可能会推出大模型的小数据量、专业的版本来替代 Siri。同时,苹果公司若 All in 手机,其大模型可能会是本地化的,以重视个人数据保护和隐私。
2024-11-21
sairi是不是使用大模型技术
Sora 是使用大模型技术的。周鸿祎认为 Open AI 训练这个模型会阅读大量视频,大模型加上 Diffusion 技术需要对世界进一步了解,学习样本以视频和摄像头捕捉到的画面为主。Sora 在训练数据上采用在原始尺寸上进行训练的策略,避免了传统 AI 对人为抽象的依赖。此外,Sora 还采用了一些数据预处理技术,如将视觉图块压缩成低维潜在表示,并将其排列成序列,注入噪声后输入扩散变换器的输入层,同时采用时空分块化来降低后续对时间信息建模的复杂性。这种对原始视频和图像特征的细腻处理标志着生成模型领域的重大进步。
2024-11-21
模型微调怎么解决多轮对话容易受到上轮对话的影响问题
在解决模型微调中多轮对话容易受到上轮对话影响的问题时: 对于多轮对话,现实中常伴随指代问题,如使用“它”“他们”“我们”等代词。若仅依据原始提问检索知识片段,可能导致结果不精确或无法检索到信息。同时,对模型回复内容的限制可能影响多轮对话流畅性甚至中断。 为提升对话系统性能和用户体验,需开发提示词解决多轮对话中的指代消解问题,确保模型能在连续交流中提供准确连贯回答。但由于“指代消解”需多轮对话完成,单次交互无法达成,所以要转换测试形式,先解决“指代消解”问题再进行下一轮答复。 首先准备指代消解所需提示词,这里使用的“指代消解”提示词是用 CoT 写出的思维链,列举不同推理情景,让模型适应并推理出需消解的代词,再根据结果重新组织问题。 接着复现指代消解步骤,如进行第一轮对话,提出问题“尼罗河是什么?”,系统召回相关知识片段并回复,然后开始指代消解。 另外,聊天模型通过一串聊天对话输入并返回生成消息输出。聊天格式虽为多轮对话设计,但对单轮任务也有用。会话通过 messages 参数输入,包含不同角色和内容的消息对象数组。通常会话先有系统消息设定助手行为,再交替使用用户和助手消息。当指令涉及之前消息时,包含聊天历史记录有帮助,若超出模型限制需缩减会话。
2024-11-21
企业做自己的小模型,需要用到的工具及工具背后的公司都有哪些?
企业做自己的小模型,可能会用到以下工具及背后的公司: 1. 在编排(Orchestration)方面,涉及的公司如 DUST、FIAVIE、LangChain 等,其提供的工具可帮助管理和协调各部分及任务,确保系统流畅运行。 2. 部署、可扩展性和预训练(Deployment, Scalability, & PreTraining)类别中,像 UWA mosaicm、NMAREL、anyscale 等公司提供的工具,有助于部署模型、保证可扩展性及进行预训练。 3. 处理上下文和嵌入(Context & Embeddings)的工具,相关公司有 TRUDO、Llamalndex、BerriAI 等,能帮助模型处理和理解语言上下文,并将词语和句子转化为计算机可理解的形式。 4. 质量保证和可观察性(QA & Observability)方面,例如 Pinecone、drant、Vald 等公司提供的工具,可确保模型表现并监控其性能和状态。 此外,还有以下工具和相关公司: 1. 图片生成 3D 建模工具,如 Tripo AI(由 VAST 发布)、Meshy、CSM AI(Common Sense Machines)、Sudo AI、VoxCraft(由生数科技推出)等。 企业还可能涉及具身智能、3D 眼镜、AI 绘本、AI 图书、学习机、飞书的多维表格、蚂蚁的智能体、Coze 的智能体、Zeabur 等云平台、0 编码平台、大模型(通义、智谱、kimi、deepseek 等)、编程辅助、文生图(可灵、即梦等)等方面,可能需要相应资质。
2024-11-20
可以根据照片生成人物的AI软件
以下是一些可以根据照片生成人物的 AI 软件: PhotoMaker:可以根据文字描述生成人物照片,能混合不同人物特征创造新形象,还能改变照片中人物的性别、年龄。访问链接:https://photomaker.github.io ,https://x.com/xiaohuggg/status/1746861045027869072?s=20 HeyGen:通过上传照片或文字提示,即可生成个性化 AI 数字形象视频。支持自定义肢体动作、服装、背景、年龄、性别等特征。仅需 1 分钟即可生成包含脚本、声音和情感表达的数字人视频。访问链接:https://x.com/imxiaohu/status/1852317866038809035
2024-11-22
可以生成原生动漫人物的AI软件
以下是一些可以生成原生动漫人物的 AI 软件: 1. 数字人的躯壳构建方面: 2D 引擎:风格偏向二次元,亲和力强,定制化成本低,代表软件是 Live2D Cubism。 3D 引擎:风格偏向超写实的人物建模,拟真程度高,定制化成本高,代表有 UE、Unity,虚幻引擎 MetaHuman 等。个人学习在电脑配置和学习难度上有一定门槛。 AIGC:虽然省去了建模流程,直接生成数字人的展示图片,但算法生成的数字人在 ID 一致性和帧与帧的连贯性上存在弊端。典型的项目有 wav2lip等。AIGC 还有一个方向是直接生成 2D/3D 引擎的模型,但该方向还在探索中。 2. 生成式 AI 在艺术创作方面: Lensa 可以生成肖像画等内容。 3. 其他相关软件: 百川智能 BaichuanNPC 可以定制游戏角色和动漫人物,并融合角色知识库和多轮记忆,提供 Lite 和 Turbo 两种版本。 阿里巴巴 FaceChainFACT 支持零样本肖像生成,秒级速度,支持百余种定制模板,兼容 ControlNet 和 LoRA 插件。 BakedAvatar 可以从视频创建逼真 3D 头部模型,实时渲染和多视角查看,兼容多种设备,可交互性编辑。 DragNUWA 能够基于文本、图像和轨迹生成视频,用户绘制轨迹即可动态生成。
2024-11-22
可以根据照片,生成漫画人物的AI软件
以下是一些可以根据照片生成漫画人物的 AI 软件和相关信息: HeyGen 推出了基于照片生成数字人的新功能,您可以上传照片或输入文字提示来生成个性化的 AI 数字人形象。能选择性别、年龄、种族,定制肢体动作、服装、姿势和背景,支持脚本编辑,提供多种声音和情感表达,一分钟即可生成视频。详情链接: 在使用过程中,如果生成了自己比较满意的图,一定要记得存起来。下次想要同种类型的就可以直接拿来喂图,效果要比重新找的好很多。
2024-11-22
可以生成人物的AI软件
以下是一些可以生成人物的 AI 软件: 1. HeyGen:这是一个 AI 驱动的平台,能创建逼真的数字人脸和角色。它运用深度学习算法生成高质量的肖像和角色模型,适用于游戏、电影和虚拟现实等应用。 2. Synthesia:这是一个 AI 视频制作平台,允许用户创建虚拟角色并进行语音和口型同步,支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。 3. DID:这是一家提供 AI 拟真人视频产品服务和开发的公司,只需上传人像照片和输入要说的内容,平台提供的 AI 语音机器人将自动转换成语音,然后合成逼真的会开口说话的视频。 更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。 在剪映中生成数字人的步骤如下: 在剪映右侧窗口顶部,打开“数字人”选项,选取一位免费且适合的数字人形象,比如“婉婉青春”。选择数字人形象时,软件会播放其声音,可判断是否需要,点击右下角“添加数字人”将其添加到当前视频中,剪映 App 会生成对应音视频并添加到轨道中。左下角会提示渲染完成时间,可点击预览查看效果。 关于数字人的相关算法开源代码仓库有: 1. ASR 语音识别: openai 的 whisper:https://github.com/openai/whisper wenet:https://github.com/wenete2e/wenet speech_recognition:https://github.com/Uberi/speech_recognition 2. AI Agent: 大模型包括 ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等。 Agent 部分可使用 LangChain 的模块去做自定义,基本包含了 Agent 实现的几个组件 3. TTS: 微软的 edgetts:https://github.com/rany2/edgetts,只能使用里面预设的人物声音,目前接口免费。 VITS:https://github.com/jaywalnut310/vits,还有很多分支版本。 sovitssvc:https://github.com/svcdevelopteam/sovitssvc,专注于唱歌。 除了算法,人物建模模型可通过手动建模(音频驱动)或者 AIGC 的方式生成人物的动态效果(例如 wav2lip 模型)实现。但这种简单的构建方式还存在一些问题,比如如何生成指定人物的声音、TTS 生成的音频如何精确驱动数字人口型以及做出相应动作、数字人如何使用知识库做出某个领域的专业性回答等。 请注意,这些工具的具体功能和可用性可能会随时间和技术发展而变化。在使用这些工具时,请确保遵守相关的使用条款和隐私政策,并注意保持对生成内容的版权和伦理责任。
2024-11-22
人物生成的AI
以下是关于人物生成的 AI 相关内容: 一、7 大方向快速生成合心意的 AI 人物形象 在工作中,为完成 Banner 设计常涉及人物素材,作者对 Midjourney 进行 AI 人物生成的相关测试并分享经验。 刚开始使用 Midjourney 时,生成人物图片存在人物位置、大小和视角无法保证,固定动作需垫相同动作图片等问题,后通过摄影知识和咨询 ChatGPT 确定了 7 个生成方向并进行实验: 1. 人物构图的视角选择:视角可分为正面、背面和侧面等,还可根据需求选择更多角度。测试未加关键词时生成的图片默认偏欧美风,人物视角多为正面和侧面。增加正视角关键词“Front view”后,生成的人物偏正面;增加后视角关键词“Back view angle & Back angle”可营造神秘氛围。 2. 人物角度的选择 3. 人物距离的选择 4. 人物表情的选择 5. 人物氛围感的选择 6. 人物服装的选择 7. 人物风格的选择 二、生成式 AI 在游戏领域的机会(市场假设+预测) 市场生态概述: 1. 许多创业公司尝试创造人工智能生成的音乐,如 Soundful、Musico 等,虽目前部分工具如 Open AI 的 Jukebox 不能实时运行,但初始模型建立后有望实现。 2. 众多公司致力于为游戏人物创造逼真声音,如 Sonantic、Coqui 等。生成式人工智能用于语音有多种优势,包括即时对话生成、角色扮演、控制音效、本地化等。在即时对话生成方面,角色可对玩家行为充分反应;在角色扮演中,与玩家化身匹配的生成声音可保持幻想;控制音效时能调节声音细微差别;本地化可方便翻译和国外推广。涉及到 NPC 和玩家角色等方面。
2024-11-22
AI自动生成当日新闻提要
以下是 11 月 7 日的 AI 新闻提要: 马斯克 xAI 公司宣布推出 PromptIDE 开发工具。 阿里云 A100 服务器业务暂停出租,算力价格飞涨。 微软发布 7 款针对对话优化的 AI 语音,更加逼真自然。 谷歌正测试 2 项 AI 功能,以改善 YouTube 观看体验。 微软将 AI 引入 Xbox,可生成 AI 角色、故事剧情等。 英国一学校启用人工智能担任校长,帮助教师解学生。 百度虚拟数字人「度晓晓」携文心一言入驻淘宝。 美团推出 AI 产品 Wow 定位 AI 朋友社区。 以下是一些好用的 AI 新闻写作工具推荐: 1. Copy.ai:是一款功能强大的 AI 写作助手,提供丰富的新闻写作模板和功能,可快速生成新闻标题、摘要、正文等内容,节省写作时间并提高效率。 2. Writesonic:专注于写作的 AI 工具,提供新闻稿件生成、标题生成、摘要提取等功能,智能算法能根据用户信息快速生成高质量新闻内容,适合新闻写作和编辑人员使用。 3. Jasper AI:人工智能写作助手,虽主打博客和营销文案,但也可用于生成新闻类内容,写作质量较高,支持多种语言。 需要注意的是,这些内容由 AI 大模型生成,请仔细甄别。
2024-11-22