Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

免费数字人模型

Answer

以下为您推荐免费数字人模型及相关制作方法:

开源且适合小白用户的数字人工具

  • 特点:具有一键安装包,无需配置环境,简单易用。
  • 功能:能够生成数字人视频,支持语音合成和声音克隆,操作界面中英文可选。
  • 系统兼容:支持 Windows、Linux、macOS。
  • 模型支持:MuseTalk(文本到语音)、CosyVoice(语音克隆)。
  • 使用步骤:下载 8G+3G 语音模型包,启动模型即可。
  • GitHub 链接:https://github.com/modstart-lib/aigcpanel
  • 官网:https://aigcpanel.com

在剪映中生成数字人的方法

  • 在剪映右侧窗口顶部,打开“数字人”选项,选取一位免费且适合的数字人形象,如“婉婉-青春”。选择数字人形象时,软件会播放其声音,可判断是否需要,点击右下角“添加数字人”将其添加到当前视频中。剪映会根据提供的内容生成对应音视频并添加到视频轨道中,左下角会提示渲染完成时间,可点击预览按钮查看效果。
  • 为使视频更美观,可增加背景图片。删除先前导入的文本内容,点击左上角“媒体”菜单并点击“导入”按钮选择本地图片上传,将图片添加到视频轨道上(会覆盖数字人),可通过拖动轨道右侧竖线使其与视频对齐,选中背景图片轨道,在显示区域拖动图片角放大到适合尺寸,并将数字人拖动到合适位置。
Content generated by AI large model, please carefully verify (powered by aily)

References

XiaoHu.AI日报

🔔Xiaohu.AI日报「12月29日」✨✨✨✨✨✨✨✨1⃣️🛠️数字人工具推荐:开源且适合小白用户特点:一键安装包,无需配置环境,简单易用。功能:生成数字人视频,支持语音合成和声音克隆,操作界面中英文可选。系统兼容:支持Windows、Linux、macOS。模型支持:MuseTalk(文本到语音)、CosyVoice(语音克隆)。使用步骤:下载8G+3G语音模型包,启动模型即可。🔗GitHub:[https://github.com/modstart-lib/aigcpanel](https://github.com/modstart-lib/aigcpanel)🔗官网:[https://aigcpanel.com](https://aigcpanel.com)🔗[https://x.com/imxiaohu/status/1872852432549765195](https://x.com/imxiaohu/status/1872852432549765195)2⃣️🎥Google Veo 2:AI生成逼真的Vlog视频效果:生成的视频接近真实,几乎难以分辨。应用:适合创作和内容制作。🔗[https://x.com/imxiaohu/status/1872984285634019476](https://x.com/imxiaohu/status/1872984285634019476)

XiaoHu.AI日报

🔔Xiaohu.AI日报「12月29日」✨✨✨✨✨✨✨✨1⃣️🛠️数字人工具推荐:开源且适合小白用户特点:一键安装包,无需配置环境,简单易用。功能:生成数字人视频,支持语音合成和声音克隆,操作界面中英文可选。系统兼容:支持Windows、Linux、macOS。模型支持:MuseTalk(文本到语音)、CosyVoice(语音克隆)。使用步骤:下载8G+3G语音模型包,启动模型即可。🔗GitHub:[https://github.com/modstart-lib/aigcpanel](https://github.com/modstart-lib/aigcpanel)🔗官网:[https://aigcpanel.com](https://aigcpanel.com)🔗[https://x.com/imxiaohu/status/1872852432549765195](https://x.com/imxiaohu/status/1872852432549765195)2⃣️🎥Google Veo 2:AI生成逼真的Vlog视频效果:生成的视频接近真实,几乎难以分辨。应用:适合创作和内容制作。🔗[https://x.com/imxiaohu/status/1872984285634019476](https://x.com/imxiaohu/status/1872984285634019476)

实战: 每个人都可以用10分钟轻松制作AI换脸、AI数字人视频的方法!

3.1生成数字人在剪映右侧窗口顶部,我们打开“数字人”选项,选取一位免费的、适合的数字人形象,这里我选择“婉婉-青春”。当你选择一个数字人形象时,软件会马上播放出该数字人的声音。你可以判断是否是你需要的,点击右下角的“添加数字人”,就会将选择的数字人添加到当前视频中。剪映App将会根据之前提供的内容,来生成对应音视频,并添加到当前视频文件的轨道中。左下角会提示你渲染何时完成。然后你可以点击预览按钮,查看生成的数字人效果。3.2增加背景图片接下来,可以直接删除先前导入的文本内容。这是因为视频中的音频中已经包含文字内容了。鼠标点击下方代表文字的轨道,或者点击软件中间文字内容,按删除键删去文字:为了让视频更美观,我们为视频增加背景图片。当然你可以增加多个背景图片,为简化演示,这里增加1张图片。点击左上角的“媒体”菜单,并点击“导入”按钮,来选择本地的一张图片上传:我选择一张书架图片上传,然后像添加文字内容一样,点击图片右下角的加号,将这个图片添加到视频的轨道上(会覆盖数字人):此时,书架图片就会在视频轨道的下面,添加一条新轨道:为了让图片在整个视频播放的时候都显示,可以点击这个轨道最右侧的竖线,向右拖拽,直到视频的最后,也就是和视频对齐:此时,背景图片所在的轨道是选中状态。如果没选中,鼠标点击一下这个规定即可。在显示区域,拖动背景图的一个角,将图片放大到适合的尺寸,比如覆盖视频窗口。并将数字人拖动到合适的位置:

Others are asking
视频换脸有哪些免费好用的工具
以下为一些免费好用的视频换脸工具: 1. viggle: 网址:http://viggle.ai 有免费额度。 功能包括图片+动作视频转视频、图片+文字动作描述转视频、文字转视频,可完成视频换脸。 操作方式: /mix:将角色图像混合到动态视频中,上传一张字符清晰的图片和一段清晰运动的视频。 /animate:使用文本运动提示为静态角色设置动画,上传一张字符清晰的图片并描述想让角色做的动作(也可从https://viggle.ai/prompt 中复制动作提示词)。 /ideate:纯粹从文本创建角色视频,描述想要创造的角色和希望角色执行的动作(或从https://viggle.ai/prompt 中复制动作提示词)。 /character:通过文本提示创建角色并将其动画化,描述想要创造的角色,从四个结果中选择一个图像,描述希望角色执行的动作(或从 https://viggle.ai/prompt 中复制动作提示词)。 /stylize:使用文本提示符重新设计角色的样式并将其动画化,上传一张字符清晰的图片,描述想改变角色的任何地方来重新塑造它,从四个结果中选择一个图像,描述想要角色做的动作(或者从 https://viggle.ai/prompt 中复制动作提示词)。 官方提供了多种动作提示词可供参考,提示词地址:https://viggle.ai/prompt 2. Swapface: 网址:https://swapface.org//home 有免费额度,需要下载电脑客户端使用,没有在线版,可以通过邀请好友、点评软件获取积分。 支持图片换脸、视频换脸,直播实时换脸,能识别图片、视频里的多张脸进行替换。 视频换脸可上传视频或者 gif 图。 3. 插件 ADetailer: 一般用于修复脸,换脸效果也不错。 原理是识别面部对面部进行扩散,里面可以增加 controlnet 去控制。 操作方式: 打开 Adetailer,选择模型是关于脸部修复的,选择最常用的模型,在对应的正向提示词中添加一些面部的修饰词,也可以加 lora。 在检测一栏基本上维持默认不变,效果不好适当拉高阈值。 在蒙版处理维持默认不变。 在重绘选项卡中,关注重绘使用的模型、VAE、采样方式,局部重绘制强度(推荐 0.5 左右),以及 controlnet 等参数。
2025-01-12
免费数字人平台
以下为您介绍一些免费的数字人平台: 1. HEYGEN: 优点:人物灵活,五官自然,视频生成很快。 缺点:中文的人声选择较少。 使用方法: 1. 点击网址注册后,进入数字人制作,选择Photo Avatar上传自己的照片。 2. 上传后效果如图所示,My Avatar处显示上传的照片。 3. 点开大图后,点击Create with AI Studio,进入数字人制作。 4. 写上视频文案并选择配音音色,也可以自行上传音频。 5. 最后点击Submit,就可以得到一段数字人视频。 2. DID: 优点:制作简单,人物灵活。 缺点:为了防止侵权,免费版下载后有水印。 使用方法: 1. 点击上面的网址,点击右上角的Create vedio。 2. 选择人物形象,可以点击ADD添加您的照片,或者使用DID给出的人物形象。 3. 配音时,可以选择提供文字选择音色,或者直接上传一段音频。 4. 最后,点击Generate vedio就可以生成一段视频。 5. 打开自己生成的视频,可以下载或者直接分享给朋友。 3. KreadoAI: 优点:免费(对于普通娱乐玩家很重要),功能齐全。 缺点:音色很AI。 使用方法: 1. 点击上面的网址,注册后获得120免费k币,这里选择“照片数字人口播”的功能。 2. 点击开始创作,选择自定义照片。 3. 配音时,可以选择提供文字选择音色,或者直接上传一段音频。 4. 打开绿幕按钮,点击背景,可以添加背景图。 5. 最后,点击生成视频。 此外,还有关于剪映数字人“个性化”的方案: 1. 数字人“私有化”:尽管剪映已经有很多公模数字人,但是私模数字人更受欢迎。可以用AI换脸软件来完成最后一步。需要谷歌账号(淘宝或者在我们账号解决平台“”就可以直接购买)。 步骤: 1. 第一步打开谷歌浏览器,点击链接https://github.com/facefusion/facefusioncolab 并点击open colab就进到程序主要运行界面。在右上角点击“代码执行程序”选择“全部运行”就行,无需安装,无需付费。点击红框对应的URL就会打开操作界面。 2. 第二步,点击“source”上传自己的照片和“target”上传之前的剪映数字人视频,保持默认参数,点击“START”就能生成。 3. 第三步:等着自己专属的数字人视频出炉。 2. 剪映做数字人的优势:剪映作为字节跳动旗下的产品,在抖音平台上被广泛应用,海外版CapCut也很受欢迎。其六大AI功能解决了用数字人做视频的痛点。 制作流程: 1. 首先打开剪映,然后添加一个文本到文字轨道,并修改好需要朗读的文字。 2. 然后点击朗读,并进行声音克隆,剪映的声音克隆现在只用念一句话就可以完成克隆。 3. 克隆完成后,选择喜欢的数字人形象,并把自己的克隆音色换上去。 4. 最后,一键智能生成字幕,再自行调整文字样式并校准。 剪映下载地址: 。有关数字人使用上的问题,欢迎在底部评论区留言,一起交流。同时如果对数字人课程感兴趣的话,欢迎查看通往AGI之路X AI沃茨的《克隆你自己》课程!在线观看第一节:https://www.bilibili.com/video/BV1yw411E7Rt/?spm_id_from=333.999.0.0 。
2025-01-11
免费数字人
以下是关于免费数字人的相关内容: 使用剪映生成免费数字人的方法: 1. 打开剪映右侧窗口顶部的“数字人”选项,选取免费且适合的数字人形象,如“婉婉青春”。选择后软件会播放数字人的声音,可判断是否需要,点击右下角“添加数字人”将其添加到当前视频中,左下角会提示渲染完成时间,完成后可点击预览查看效果。 2. 为让视频更美观,可删除先前导入的文本内容,为视频增加背景图片。点击左上角“媒体”菜单并“导入”本地图片,将图片添加到视频轨道上(会覆盖数字人),将轨道最右侧竖线向右拖拽使其与视频对齐,选中轨道后在显示区域拖动图片角放大到适合尺寸,并将数字人拖动到合适位置。 剪映做数字人的优势: 剪映是字节跳动旗下产品,在抖音平台广泛应用于短视频创作和编辑。其海外版 CapCut 登顶过美国 App Store,全球安装总量超 2.5 亿次,在美国市场安装总量近 950 万次。它具有六大 AI 功能,解决了用数字人做视频的痛点,能在编辑器里完成脚本生成、语音克隆、数字人口播等环节。 剪映数字人的制作流程: 1. 打开剪映,添加文本到文字轨道并修改需朗读的文字。 2. 点击朗读并进行声音克隆,剪映声音克隆念一句话即可完成。 3. 克隆完成后,选择喜欢的数字人形象并换上克隆音色,最后一键智能生成字幕,自行调整文字样式并校准。 数字人“私有化”: 尽管剪映有很多公模数字人,但私模数字人更受欢迎。可使用 AI 换脸软件完成最后一步。 1. 第一步,打开谷歌浏览器,点击链接 https://github.com/facefusion/facefusioncolab 并点击 open colab 进入程序主要运行界面,在右上角点击“代码执行程序”选择“全部运行”,点击红框对应的 URL 打开操作界面。 2. 第二步,点击“source”上传自己的照片和“target”上传之前的剪映数字人视频,保持默认参数,点击“START”生成。 3. 第三步,等待专属数字人视频出炉。 有关数字人使用问题,欢迎在底部评论区留言交流。对数字人课程感兴趣,欢迎查看通往 AGI 之路 X AI 沃茨的《克隆你自己》课程。 在线观看第一节:https://www.bilibili.com/video/BV1yw411E7Rt/?spm_id_from=333.999.0.0 。 课程内容: 。 剪映下载地址: 1. 2.
2025-01-11
国内有哪些免费的AI工具
以下是国内一些免费的 AI 工具: 1. 思维导图相关: GitMind:免费的跨平台 AI 思维导图软件,支持多种模式,可通过 AI 自动生成思维导图。 ProcessOn:国内思维导图+AIGC 的工具,能利用 AI 生成思维导图。 AmyMind:轻量级在线 AI 思维导图工具,无需注册登录,支持自动生成节点。 Xmind Copilot:Xmind 推出的基于 GPT 的 AI 思维导图助手,可一键拓展思路,生成文章大纲。 TreeMind:“AI 人工智能”思维导图工具,输入需求由 AI 自动完成思维导图生成。 EdrawMind:提供一系列 AI 工具,包括 AI 驱动的头脑风暴功能。 2. 编程相关: 通义灵码:阿里巴巴团队推出,提供多种编程辅助能力。 CodeGeeX:智谱 AI 推出的开源免费 AI 编程助手,基于 130 亿参数的预训练大模型。 CodeFuse:蚂蚁集团支付宝团队为国内开发者提供的免费 AI 代码助手。 3. 大模型 APP: Kimi 智能助手:Moonshot AI 出品,能读长篇小说、上网冲浪。 文心一言:百度出品的 AI 对话产品,定位为智能伙伴。 通义千问:阿里云开发的聊天机器人,能交互、回答问题及协作创作。 需要注意的是,以上内容由 AI 大模型生成,请仔细甄别。
2025-01-11
提供所有类型的国内可用的免费AI工具
以下是国内可用的免费 AI 工具: 视频类: Hidreamai:有免费额度,支持文生视频、图生视频,提示词使用中文、英文都可以,文生视频支持多种控制,可生成不同时长和尺寸的视频,网址:https://hidreamai.com//AiVideo 。 ETNA:由七火山科技开发的文生视频 AI 模型,可根据文本描述生成相应视频内容,画质可达 4K,最高 38402160,帧率 60fps,支持中文,时空理解,网址:https://etna.7volcanoes.com/ 。 图像类: 可灵:由快手团队开发,用于生成高质量的图像和视频,图像质量高,但价格相对较高,有不同的收费选项,最初采用内测邀请制,现向所有用户开放。 通义万相:在中文理解和处理方面表现出色,可选择多种艺术和图像风格,操作界面简洁直观,用户友好度高,重点是现在免费,每天签到获取灵感值即可,但存在一些局限性,如某些类型图像无法生成等。 编程类: 通义灵码:阿里巴巴团队推出,提供多种编程辅助能力。 CodeGeeX:智谱 AI 推出的开源免费 AI 编程助手,基于 130 亿参数的预训练大模型,可快速生成代码。 CodeFuse:蚂蚁集团支付宝团队为国内开发者提供智能研发服务的免费 AI 代码助手。 更多辅助编程 AI 产品,还可以查看这里:https://www.waytoagi.com/category/65 。每个工具的功能和适用场景可能不同,您可以根据自身需求选择最适合的工具。
2025-01-10
国内可用免费AI工具
以下是国内可用的免费 AI 工具: 辅助编程方面: GitHub Copilot:由 GitHub 联合 OpenAI 和微软 Azure 团队推出,支持多种语言和 IDE,能为程序员快速提供代码建议。 通义灵码:阿里巴巴团队推出,提供多种编程相关能力。 CodeWhisperer:亚马逊 AWS 团队推出,由机器学习技术驱动,为开发人员实时提供代码建议。 CodeGeeX:智谱 AI 推出的开源免费编程助手,基于 130 亿参数的预训练大模型。 Cody:代码搜索平台 Sourcegraph 推出,借助强大的代码语义索引和分析能力了解开发者的整个代码库。 CodeFuse:蚂蚁集团支付宝团队为国内开发者提供的免费 AI 代码助手。 Codeium:一个由 AI 驱动的编程助手工具,提高编程效率和准确性。 更多辅助编程 AI 产品,可查看:https://www.waytoagi.com/category/65 思维导图方面: GitMind:免费跨平台,可通过 AI 自动生成思维导图,支持多种模式。 ProcessOn:国内思维导图+AIGC 工具,可利用 AI 生成思维导图。 AmyMind:轻量级在线,无需注册登录,支持自动生成节点。 Xmind Copilot:Xmind 推出的基于 GPT 的 AI 思维导图助手,可一键拓展思路,生成文章大纲。 TreeMind:“AI 人工智能”思维导图工具,可输入需求由 AI 自动完成生成。 EdrawMind:提供一系列 AI 工具,包括 AI 驱动的头脑风暴功能。 图像类方面: 通义万相:在中文理解和处理方面表现出色,可从多种艺术风格和图像风格中选择,操作界面简洁直观,用户友好度高,重点是现在免费,每天签到获取灵感值即可。但为符合国内监管要求,某些类型图像无法生成,处理非中文语言或国际化内容可能不够出色,处理多元文化内容时可能存在偏差。
2025-01-10
给大模型喂养的知识库哪里有
以下是一些获取给大模型喂养的知识库的途径和相关信息: 1. 在 Coze 中,大模型存在不准确和数据限制的问题,因此知识库的出现是为解决数据准确性。典型应用如客服系统,公司可将用户问题及答案记录在文档中作为知识库投喂给大模型,以实现更准确的回答。 2. 在阿里云百炼中,为 AI 助手增加私有知识的步骤包括:上传文件,在百炼控制台的中设置,打开知识检索增强开关、选择目标知识库并发布。 3. 在探讨大模型的 Brain 模块时,知识分为两大类,其中内置知识又可细分为常识知识、专业知识和语言知识。常识知识涵盖日常生活的事实和逻辑规则,专业知识涉及特定领域的详细信息,语言知识包括语法规则、句型结构、语境含义等。
2025-01-12
大模型应用解决方案
以下是关于大模型应用解决方案的相关内容: 零跑汽车基于百炼实现大模型落地零跑座舱 客户介绍:零跑汽车成立于 2015 年 12 月 24 日,是一家创新型的智能电动汽车品牌,拥有智能电动汽车完整自主研发能力,2023 年已位列新能源品牌销量前三。从 2017 年起,零跑汽车便与阿里云展开深度合作。近日,零跑汽车已对 OTA 功能完成大规模升级,携手阿里云首次在座舱场景中增加“语音大模型”功能,用于聊天、基础知识问答、文生图等场景,提升用户驾驶体验。 阿里云的解决方案: 接入通义大模型实现开放式语音交互:改变了传统的固定形式的问答模式,支持用户与零跑智能座舱进行开放式语音交互(闲聊场景),进行自然、连贯的多轮对话,可秒级响应,同时结合企业知识库和互联网知识库,满足用户多元化的需求。 基于语音调用通义万相实现秒级作图:零跑采用语音助手调用云端通义系列大模型,帮助用户通用语音调用通义万相实现文生图换壁纸,实现秒级作图,提升娱乐互动;支持语音查找如何使用汽车功能、规划路径等功能,丰富用户操作体验;知识库内容覆盖了零跑全系汽车知识和其他汽车品牌开放领域的信息。 基于百炼构建大模型应用架构:基于百炼平台,零跑汽车构建了开放、可扩展的大模型应用架构,基于统一的大模型底座,实现了零跑座舱大模型应用场景的快速扩展与迭代,降低大模型应用的创新门槛与成本。 RAG 提示工程(一):基础概念 大语言模型应用于实际业务场景存在的问题: 知识的局限性:模型自身的知识完全源于训练数据,对于实时性、非公开或离线的数据无法获取。 幻觉问题:大模型基于数学概率的文字预测,存在提供虚假、过时或通用信息等问题。 数据安全性:企业担心数据泄露,不愿将私域数据上传第三方平台训练。 RAG 的优势:可以让大模型从权威、预先确定的知识来源中检索、组织相关信息,更好地控制生成的文本输出,用户可深入了解 LLM 生成结果的过程。并且,RAG 可以和微调结合使用,两者并不冲突。 七大行业的商业化应用 企业解决大模型落地难问题: 算力方面:国产芯片在软件适配度、稳定性方面不足,与英伟达显卡解耦能力弱。可以从协同化、模型小型化、再训练、融合计算四方面来解决算力矛盾问题。 价格方面:训练成本高、数据筛选难度大,千亿参数模型报价高昂,让很多客户望而却步。垂直大模型的数据生成规模小、场景易用、Chat 思维能力高。
2025-01-12
大模型应用架构
大模型应用架构主要包括以下几个方面: 1. 零跑汽车案例: 客户介绍:零跑汽车成立于 2015 年 12 月 24 日,是一家创新型的智能电动汽车品牌,坚持核心技术自主研发,位列新能源品牌销量前三,自 2017 年起与阿里云展开深度合作。 阿里云的解决方案:通过百炼平台实现大模型落地零跑座舱,接入通义大模型实现开放式语音交互,基于语音调用通义万相实现秒级作图,基于百炼构建开放、可扩展的大模型应用架构,降低创新门槛与成本。 2. 整体架构分层: 基础层:为大模型提供硬件支撑和数据支持,如 A100、数据服务器等。 数据层:包括静态的知识库和动态的三方数据集。 模型层:有 LLm(大语言模型,如 GPT,一般使用 transformer 算法实现)和多模态模型(如文生图、图生图等模型)。 平台层:如大模型的评测体系或 langchain 平台等,提供模型与应用间的组成部分。 表现层:即应用层,是用户实际看到的地方。 3. 基于多模态大模型的应用: 前言:随着 ChatGPT 的发展,多模态技术突飞猛进,呈现出一统计算机视觉(CV)和自然语言处理(NLP)的势头。 应用介绍:介绍了一款基于多模态大型模型的应用,能够实时分析当前地区新春的流行趋势。后端采用 llama.cpp 挂载 LLaVA 模型提供推理服务,部署 Flask 应用用于数据前处理和后处理,提供 Stream 流服务,前端页面采用 HTML5 采集画面和用户输入。
2025-01-12
你的大数据模型更新到什么时候?
以下是关于大数据模型更新的相关信息: 随着 GPT3.5Turbo 的发布,一些模型正在不断更新。为减少模型更改意外影响用户的可能性,还提供将在 3 个月内保持静态的模型版本。同时,人们能够贡献评估以帮助针对不同用例改进模型。如有兴趣,可查看存储库。以下模型是将在指定日期弃用的临时快照。若想使用最新的模型版本,请使用标准模型名称,如 GPT4 或 GPT3.5Turbo。 Midjourney 会定期发布新版本模型来提高效率、整体连贯性和质量。默认是最新的模型,可使用version 参数,其可选值为 1、2、3、4 和 5,该参数可缩写为v。Midjourney V5 模型是最新和最先进的模型,于 2023 年 3 月 15 日发布。要使用此模型,可在提示的末尾添加v 5 参数,或使用/settings 命令并选择 5️⃣MJ Version 5。 就在昨天,WebUI 的 ControlNet1.1.4 版本终于更新,这次的更新支持了 SDXL1.0 的模型。此次总共出了四种控制类型,分别是 Canny、Depth、Sketch 和 Openpose。可来到 Hugging Face 的网址:https://huggingface.co/lllyasviel/sd_control_collection/tree/main 查看相关模型。
2025-01-11
如何微调大模型
微调大模型主要包括以下几个方面: 1. 理解大模型:大模型是通过输入大量语料,让计算机获得类似人类的“思考”能力,能够进行文本生成、推理问答、对话、文档摘要等工作。可以用“上学参加工作”来类比大模型的训练和使用过程,包括找学校(需要大量 GPU 进行训练)、确定教材(需要大量数据)、找老师(选择合适算法)、就业指导(微调)和搬砖(推导)。 2. 准备数据集:数据集是让大模型重新学习的知识。例如,对于 Llama3 的微调,可以参考相关文档获取和了解数据集,如下载数据集。 3. 选择微调方式:从参数规模的角度,大模型的微调分成两条技术路线,全量微调 FFT(Full Fine Tuning)对全量的模型参数进行全量训练,PEFT(ParameterEfficient Fine Tuning)只对部分模型参数进行训练。从成本和效果综合考虑,PEFT 是目前业界较流行的微调方案。 4. 进行微调操作:有了数据集后,将其上传到服务器,编写微调代码并执行,大概 15 分钟左右可完成微调。 5. 参考资源:OpenAI 官方微调教程 。 微调的好处包括提高模型在特定任务中的性能和提高模型效率。经过微调的模型可能会失去一些通用性,但对于特定任务会有更好的表现,同时还能实现更低的延迟和成本。
2025-01-10
如何把多个大模型接入一个智能体?
要将多个大模型接入一个智能体,可以参考以下步骤: 1. 理解相关概念: 统辖:是一种广义的包含关系,指普遍性理念或法则对个别事物的包容或管辖。 抽象:从具体事物中提取共同特性,形成概念。 演绎:通过逻辑推理从已知推导出新知识。 反应:对外界刺激或输入的回应或改变。 2. 统辖 prompt:在 prompt 工作流中设置普遍性、统一性或支配性原则,影响其他 prompt 的状态或行为,例如设置统一监督者角色评判其他模块,让大模型注意力集中在特定话题上以提高推理能力。 3. 利用阿里云百炼: 步骤一:创建智能体应用 进入百炼控制台中“我的应用”,单击新增应用,在智能体应用页签,单击直接创建。若之前已创建过应用,则单击右上角的新增应用。控制台页面链接:https://bailian.console.aliyun.com/?spm=5176.29619931.J__Z58Z6CX7MY__Ll8p1ZOR.1.2f3e59fciQnmL7/home 进入智能体应用管理界面后,选择大模型并进行参数配置,例如选择通义千问Max,可根据需求配置模型参数。 测试智能体应用:选择大模型后,可输入问题进行测试。 4. 在网站上增加一个 AI 助手: 创建大模型问答应用:通过创建百炼应用获取大模型的推理 API 服务。 进入百炼控制台的,在页面右侧点击新增应用,选择智能体应用并创建。在应用设置页面,模型选择通义千问Plus,其他参数保持默认,也可输入一些 Prompt 设定人设。在页面右侧提问验证模型效果,点击右上角发布。 获取调用 API 所需的凭证:在我的应用>应用列表中查看所有百炼应用 ID 并保存,在顶部导航栏右侧点击人型图标,点击 APIKEY 进入我的 APIKEY 页面,创建新 APIKEY 并保存。
2025-01-10
我想生成一个al数字人 你帮我生成一些指令 我命令al出一些内容
以下是一些生成 AI 数字人的指令建议: 1. 即使是简单的提示,如“请为我生成一个 AI 数字人”,也能获得可用的结果。但如果提示更精确,例如指定数字人的风格、面向的受众、详细程度等,效果可能会更好。比如,可以要求生成一个风格非常逼真、面向年轻人、描述详细的 AI 数字人。 2. 明确您希望数字人的特征,比如外貌、性格、动作等。例如,如果您要说“请为我生成一个外貌酷似某位明星、性格开朗、动作优雅的 AI 数字人”。 3. 您还可以指定数字人的应用场景,比如用于新闻报道、娱乐节目等。 4. 如果希望数字人有特定的语言表达风格,比如像专业主持人那样,或者更像日常交流,也需要明确指示。 5. 对于数字人的字幕生成,可以点击文本智能字幕识别字幕,点击开始识别,软件会自动将文字智能分段并形成字幕。完成后点击右上角的“导出”按钮,导出视频以作备用。如果希望数字人换成特定的面孔,需要使用另一个工具来进行换脸。
2025-01-12
开源数字人
以下是关于开源数字人的相关信息: 数字人组合方案: 第一步:先剪出音频,可使用 https://elevenlabs.io/speechsynthesis 或使用 GPTsovits克隆声音,做出文案的音频。 第二步:使用 wav2lip 整合包,导入视频和音频,对口型得到视频。基础 wav2lip+高清修复整合包下载地址:https://github.com/Rudrabha/Wav2Lip 。 构建高质量的 AI 数字人: 建好的模型可以使用 web 前端页面(Live2D 就提供了 web 端的 SDK)或者 Native 的可执行程序进行部署,最后呈现在用户面前的是一个 GUI。 开源数字人项目(项目地址:https://github.com/wanh/awesomedigitalhumanlive2d)选择了 live2d 作为数字人躯壳,因为这类 SDK 的驱动方式相比现在的 AI 生成式的方式更加可控和自然,相比虚幻引擎这些驱动方式又更加轻量和简单;另外超写实的数字人风格在目前的技术能力下,处理不好一致性问题,容易带来虚假的感觉或者产生恐怖谷效应,而卡通二次元的形象给人的接受度更高。关于 live2d 的 SDK 驱动方式可以参考官方示例:https://github.com/Live2D 。
2025-01-11
元宇宙推动教育的全面数字化转型
元宇宙对教育的全面数字化转型具有重要推动作用。 在当前的数字化时代,数字化正在重塑我们的生活,从依赖物理资源的稀缺经济转向以数字资源为基础的富足经济。AI 的发展进一步加强了这一趋势,而元宇宙代表着物理世界的数字化。 在教育领域,存在多种与元宇宙和数字化转型相关的情况和探索。例如: 1. 智慧课程培育建设和人工智能赋能教学创新工作坊,涉及多种工具推荐,如 Bot.360.com 多模型竞技选取最佳答案、用 heyGen 定制“数字分身”等。 2. 教育工作坊涵盖了 AI 助力教学设计、生成式 AI 对课件制作和微课生成的变革、学情分析与作业测评等多个方面。 3. 对于教师而言,面临着如 AI 教师是否会代替人类教师等问题,同时也有诸如 AI 导师一对一、人机协同教育生态等新的模式和理念。 总之,元宇宙和相关技术为教育的数字化转型带来了众多可能性,包括大规模自适应学习、工作场景模拟等,也促使教育不断探索新的模式和方法,以适应时代的发展。
2025-01-11
数字人
数字人是运用数字技术创造出来的人,虽现阶段不能如科幻作品中的人型机器人般高度智能,但已在各类生活场景中常见,且随着 AI 技术发展正迎来应用爆发。目前业界对其尚无准确定义,一般可根据技术栈分为真人驱动和算法驱动两类。 真人驱动的数字人重在通过动捕设备或视觉算法还原真人动作表情,主要用于影视行业及直播带货,其表现质量与手动建模精细度及动捕设备精密程度直接相关,不过视觉算法进步使在无昂贵动捕设备时,通过摄像头捕捉人体骨骼和人脸关键点信息也能有不错效果。 制作数字人的工具主要有: 1. HeyGen:AI 驱动的平台,能创建逼真数字人脸和角色,使用深度学习算法生成高质量肖像和角色模型,适用于游戏、电影和虚拟现实等。 2. Synthesia:AI 视频制作平台,允许创建虚拟角色并进行语音和口型同步,支持多种语言,用于教育视频、营销内容和虚拟助手等场景。 3. DID:提供 AI 拟真人视频产品服务和开发,上传人像照片和输入内容,平台的 AI 语音机器人自动转换成语音并合成逼真会说话的视频。 更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。使用这些工具时,请遵守相关使用条款和隐私政策,注意生成内容的版权和伦理责任。 以下是一些包含数字人的节目单示例: 1. 猜真人:魔术互动类表演,2 个、8 个数字分身,猜测哪个是真正的我,需求技术为 AI 数字人。 2. 亲情的应用场景(逝者):女儿打扫房间扫到去世父亲的二维码再次对话,涉及 AI 分身的积累准备。 3. AI 转绘:经典电影混剪,涉及短片素材、AI 转绘、Lora 技术。 4. AI 贺岁:晚会中场致谢,包括共创团队记录、新年祝福等。 5. 打工人共情:涉及 AI 素材、共情脚本、炫技视频剪辑。
2025-01-10