直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

免费的AI数字人模型。

回答

以下为您介绍一些免费的 AI 数字人模型及相关生成方法:

  • 算法开源代码仓库:
    • ASR 语音识别:
      • openai 的 whisper:https://github.com/openai/whisper
      • wenet:https://github.com/wenet-e2e/wenet
      • speech_recognition(这是一个语音识别的接口集合,里面有不同实现的语音识别的接口):https://github.com/Uberi/speech_recognition
    • TTS:
      • 微软的 edge-tts:https://github.com/rany2/edge-tts,只能使用里面预设的人物声音,目前接口免费。
      • VITS:https://github.com/jaywalnut310/vits,还有很多的分支版本,可以去搜索一下,vits 系列可以自己训练出想要的人声。
      • so-vits-svc:https://github.com/svc-develop-team/so-vits-svc,专注到唱歌上面,前段时间很火的 AI 孙燕姿。
    • 大模型:包括 ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等等。
    • Agent 部分可以使用 LangChain 的模块去做自定义,里面基本包含了 Agent 实现的几个组件(https://www.langchain.com/)
  • 在剪映中生成数字人:
    • 在剪映右侧窗口顶部,打开“数字人”选项,选取一位免费的、适合的数字人形象,如“婉婉-青春”。选择数字人形象时,软件会播放其声音,可判断是否需要,点击右下角的“添加数字人”将其添加到当前视频中。剪映 App 会根据提供的内容生成对应音视频并添加到轨道中,左下角会提示渲染完成时间,之后可点击预览按钮查看效果。
    • 为让视频更美观,可增加背景图片。点击左上角的“媒体”菜单并点击“导入”按钮,选择本地图片上传,将图片添加到视频轨道上,可调整图片位置和大小。
  • 数字人“私有化”:
    • 打开谷歌浏览器,点击链接 https://github.com/facefusion/facefusion-colab 并点击 open colab 进到程序主要运行界面,在右上角点击“代码执行程序”选择“全部运行”,无需安装和付费。点击红框对应的 URL 打开操作界面。
    • 点击“source”上传自己的照片和“target”上传之前的剪映数字人视频,保持默认参数,点击“START”生成。
内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

AI 数字人-定义数字世界中的你

[title]AI数字人-定义数字世界中的你[heading2]一、数字人简介[heading4]1.2算法驱动的数字人上述算法开源的代码有很多,这里列出一些仓库供大家参考:ASR语音识别openai的whisper:https://github.com/openai/whisperwenet:https://github.com/wenet-e2e/wenetspeech_recognition(这是一个语音识别的接口集合,里面有不同实现的语音识别的接口):https://github.com/Uberi/speech_recognitionAI Agent大模型部分就比较多了,包括ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等等。Agent部分可以使用LangChain的模块去做自定义,里面基本包含了Agent实现的几个组件(https://www.langchain.com/)TTS微软的edge-tts:https://github.com/rany2/edge-tts,只能使用里面预设的人物声音,目前接口免费。VITS:https://github.com/jaywalnut310/vits,还有很多的分支版本,可以去搜索一下,vits系列可以自己训练出想要的人声。so-vits-svc:https://github.com/svc-develop-team/so-vits-svc,专注到唱歌上面,前段时间很火的AI孙燕姿。除了算法,人物建模模型可以通过手动建模(音频驱动)或者AIGC的方式生成人物的动态效果(例如wav2lip模型)实现,这样就完成了一个最简单的数字人。当然这种简单的构建方式还存在很多的问题,例如:如何生成指定人物的声音?TTS生成的音频如何精确驱动数字人口型以及做出相应的动作?数字人如何使用知识库,做出某个领域的专业性回答?

实战: 每个人都可以用10分钟轻松制作AI换脸、AI数字人视频的方法!

[title]实战:每个人都可以用10分钟轻松制作AI换脸、AI数字人视频的方法![heading1]三、生成数字人3.1生成数字人在剪映右侧窗口顶部,我们打开“数字人”选项,选取一位免费的、适合的数字人形象,这里我选择“婉婉-青春”。当你选择一个数字人形象时,软件会马上播放出该数字人的声音。你可以判断是否是你需要的,点击右下角的“添加数字人”,就会将选择的数字人添加到当前视频中。剪映App将会根据之前提供的内容,来生成对应音视频,并添加到当前视频文件的轨道中。左下角会提示你渲染何时完成。然后你可以点击预览按钮,查看生成的数字人效果。3.2增加背景图片接下来,可以直接删除先前导入的文本内容。这是因为视频中的音频中已经包含文字内容了。鼠标点击下方代表文字的轨道,或者点击软件中间文字内容,按删除键删去文字:为了让视频更美观,我们为视频增加背景图片。当然你可以增加多个背景图片,为简化演示,这里增加1张图片。点击左上角的“媒体”菜单,并点击“导入”按钮,来选择本地的一张图片上传:我选择一张书架图片上传,然后像添加文字内容一样,点击图片右下角的加号,将这个图片添加到视频的轨道上(会覆盖数字人):此时,书架图片就会在视频轨道的下面,添加一条新轨道:为了让图片在整个视频播放的时候都显示,可以点击这个轨道最右侧的竖线,向右拖拽,直到视频的最后,也就是和视频对齐:此时,背景图片所在的轨道是选中状态。如果没选中,鼠标点击一下这个规定即可。在显示区域,拖动背景图的一个角,将图片放大到适合的尺寸,比如覆盖视频窗口。并将数字人拖动到合适的位置:

方案:剪映数字人“个性化“—无限免费私模数字人

尽管剪映已经有很多公模数字人,但是从抖音上大火的数字人账号上看,私模数字人更受欢迎所以这里我将教大家用AI换脸软件来完成最后一步。📍注意:需要谷歌账号(淘宝或者在我们账号解决平台“[有号](https://www.learnprompt.pro/aiMarket)”就可以直接购买)1.第一步打开谷歌浏览器,点击链接https://github.com/facefusion/facefusion-colab并点击open colab就进到程序主要运行界面.在右上角点击“代码执行程序”选择“全部运行”就行,无需安装,无需付费。点击红框对应的URL就会打开操作界面2.第二步,点击“source”上传自己的照片和“target”上传之前的剪映数字人视频,保持默认参数,点击“START”就能生成!反复调试后给大家选出了最佳参数!1.第三步:等着自己专属的数字人视频出炉!有关数字人使用上的问题,欢迎在底部评论区留言,一起交流~同时如果对数字人课程感兴趣的话,欢迎查看通往AGI之路X AI沃茨的《克隆你自己》课程!📌课程内容:[实战课程:数字人课程](https://waytoagi.feishu.cn/wiki/JOWjwM0qfi2rYVkUIwychk9MnSh)🎉在线观看第一节:https://www.bilibili.com/video/BV1yw411E7Rt/?spm_id_from=333.999.0.0 🌍:aiwarts101

其他人在问
结合知识库的商业项目, 给我100个ai创业的落地方案
很抱歉,目前知识库中没有为您提供 100 个 AI 创业的落地方案。但以下为您列举一些常见的 AI 创业方向供您参考: 1. 开发基于 AI 的智能客服系统,为企业提供高效的客户服务解决方案。 2. 利用 AI 技术进行精准营销,通过数据分析和预测为企业制定个性化的营销策略。 3. 打造 AI 驱动的医疗诊断辅助工具,帮助医生更准确地诊断疾病。 4. 研发 AI 教育软件,实现个性化学习和智能辅导。 5. 构建 AI 智能家居系统,实现家居设备的自动化控制和智能化管理。 6. 开发 AI 图像识别技术,应用于安防、交通等领域。 7. 推出 AI 金融风险评估模型,为金融机构提供更准确的风险评估。 8. 打造 AI 内容创作平台,生成文章、视频脚本等。 9. 研发 AI 人力资源管理工具,进行人才筛选和绩效评估。 10. 构建 AI 物流优化系统,提高物流效率和降低成本。 您可以根据自身的资源和优势,进一步细化和拓展这些方向,形成具体的创业方案。
2024-10-18
除了生成式ai还有什么ai
以下是除生成式 AI 之外的一些常见的 AI 类型: 1. 监督学习型 AI:使用标记的数据进行训练,以预测未来的值。 2. 无监督学习型 AI:专注于在原始数据中发现模式。 3. 深度学习型 AI:使用人工神经网络处理复杂模式,可使用标记和未标记的数据进行半监督学习。 4. 强化学习型 AI:通过与环境的交互和奖励机制来学习最优策略。 在游戏领域,早期的游戏中的计算机控制对手是简单脚本程序,而现在由于更快的微处理器和云技术,能够构建大型神经网络,在高度复杂的领域中识别模式和表示。未来,多代理系统可能会成为建模推理和社会学习过程的主流方式。在生成式 AI 的下一个阶段,推理研发成果将渗透到应用层,特定领域中获取真实世界数据和构建特定认知架构仍是挑战。
2024-10-18
有没有好用的辅助做笔记的ai工具和指令?
以下为您推荐一些好用的辅助做笔记的 AI 工具: Vowel:https://www.vowel.com/ Augment:https://www.augment.co/?ref=superhuman1_mar23&utm_source=superhuman.beehiiv.com&utm_medium=newsletter&utm_campaign=thisaicanhackinterviews Noty:https://noty.ai/ Sembly AI:https://www.sembly.ai/ Briefly:https://chrome.google.com/webstore/detail/brieflyaimeetingsummar/bjmgcelbpkgmofiogkmleblcmecflldk Fireflies.ai:https://app.fireflies.ai/ Noota:https://chrome.google.com/webstore/detail/nootascreenrecordermee/eilpgeiadholnidgjpgkijfcpaoncchh Read:https://app.read.ai/analytics/meetings 、https://app.read.ai/analytics/settings/workspace/new 相关文章参考: 此外,还有一些 AI 工具在其他相关领域也表现出色,例如: 在制作 PPT 方面,有 Gamma(https://gamma.app/)、美图 AI PPT(https://www.xdesign.com/ppt/)、Mindshow(https://www.mindshow.fun/)、讯飞智文(https://zhiwen.xfyun.cn/)等。
2024-10-18
ai视频
以下是关于 AI 视频的相关内容: 从生成方式分类: 1. 文生视频、图生视频:Runway、Pika labs、SD + Deforum、SD + Infinite zoom、SD + AnimateDiff、Warpfusion、Stability Animation。 2. 视频生视频: 逐帧生成:SD + Mov2Mov。 关键帧+补帧:SD + Ebsynth、Rerender A Video。 动态捕捉:Deep motion、Move AI、Wonder Dynamics。 视频修复:Topaz Video AI。 3. AI Avatar+语音生成:Synthesia、HeyGen AI、DID。 4. 长视频生短视频:Opus Clip。 5. 脚本生成+视频匹配:Invideo AI。 6. 剧情生成:Showrunner AI。 从产品阶段和可用维度分类: 1. Opusclip:利用长视频剪成短视频。 2. Raskai:短视频素材直接翻译至多语种。 3. invideoAI:输入想法>自动生成脚本和分镜描述>生成视频>人工二编>合成长视频。 4. descript:屏幕/播客录制>PPT 方式做视频。 5. veed.io:自动翻译自动字幕。 6. clipchamp:微软的 AI 版剪映。 7. typeframes:类似 invideoAI,内容呈现文本主体比重更多。 部分 AI 视频软件汇总及相关信息: |网站名|网址|费用|优势/劣势|教程| |||||| |Runway|https://runwayml.com| |有网页有 app 方便|| |haiper|https://app.haiper.ai/|免费| | | |SVD|https://stablevideo.com/|有免费额度|对于景观更好用|| |Pika|https://pika.art/|收费 https://discord.gg/pika|可控性强,可以对嘴型,可配音|| |PixVerse|https://pixverse.ai/|免费|人少不怎么排队,还有换脸功能|| |Dreamina|https://dreamina.jianying.com/|剪映旗下|生成 3 秒,动作幅度有很大升级|| |Morph Studio|https://app.morphstudio.com/| |还在内测| | |Heygen|https://www.heygen.com/| |数字人/对口型| | |Kaiber|https://kaiber.ai/| | | | |Moonvalley|https://moonvalley.ai/| | | | |Mootion|https://discord.gg/AapmuVJqxx| |3d 人物动作转视频| | |美图旗下|https://www.miraclevision.com/| | | | |Neverends|https://neverends.life/create|2 次免费体验|操作傻瓜| | |SD|Animatediff SVD deforum|免费|自己部署| | |Leiapix|https://www.leiapix.com/|免费|可以把一张照片转动态| | |Krea|https://www.krea.ai/|12 月 13 日免费公测了| | | |luma||30 次免费| | | |Kling|kling.kuaishou.com| | ||
2024-10-18
0基础学习AI应该从哪里开始入手呢
对于 0 基础学习 AI,您可以从以下几个方面入手: 1. 了解 AI 基本概念: 建议阅读「」部分,熟悉 AI 的术语和基础概念。了解什么是人工智能,它的主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。 浏览入门文章,这些文章通常会介绍 AI 的历史、当前的应用和未来的发展趋势。 2. 开始 AI 学习之旅: 在「」中,您将找到一系列为初学者设计的课程。这些课程将引导您了解生成式 AI 等基础知识,特别推荐李宏毅老师的课程。 通过在线教育平台(如 Coursera、edX、Udacity)上的课程,您可以按照自己的节奏学习,并有机会获得证书。 3. 选择感兴趣的模块深入学习: AI 领域广泛(比如图像、音乐、视频等),您可以根据自己的兴趣选择特定的模块进行深入学习。 建议您一定要掌握提示词的技巧,它上手容易且很有用。 4. 实践和尝试: 理论学习之后,实践是巩固知识的关键,尝试使用各种产品做出您的作品。 在知识库提供了很多大家实践后的作品、文章分享,欢迎您实践后的分享。 5. 体验 AI 产品: 与现有的 AI 产品进行互动是学习 AI 的另一种有效方式。尝试使用如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人,了解它们的工作原理和交互方式。 通过与这些 AI 产品的对话,您可以获得对 AI 在实际应用中表现的第一手体验,并激发您对 AI 潜力的认识。 记住,学习 AI 是一个长期的过程,需要耐心和持续的努力。不要害怕犯错,每个挑战都是成长的机会。随着时间的推移,您将逐渐建立起自己的 AI 知识体系,并能够在这一领域取得自己的成就。完整的学习路径建议参考「通往 AGI 之路」的布鲁姆分类法,设计自己的学习路径。 对于中学生学习 AI,还可以: 1. 从编程语言入手学习: 可以从 Python、JavaScript 等编程语言开始学习,这些是 AI 和机器学习的基础。 学习编程语法、数据结构、算法等基础知识,为后续的 AI 学习打下基础。 2. 尝试使用 AI 工具和平台: 可以使用 ChatGPT、Midjourney 等 AI 生成工具,体验 AI 的应用场景。 探索一些面向中学生的 AI 教育平台,如百度的“文心智能体平台”、Coze 智能体平台等。 3. 学习 AI 基础知识: 了解 AI 的基本概念、发展历程、主要技术如机器学习、深度学习等。 学习 AI 在教育、医疗、金融等领域的应用案例。 4. 参与 AI 相关的实践项目: 可以参加学校或社区组织的 AI 编程竞赛、创意设计大赛等活动。 尝试利用 AI 技术解决生活中的实际问题,培养动手能力。 5. 关注 AI 发展的前沿动态: 关注 AI 领域的权威媒体和学者,了解 AI 技术的最新进展。 思考 AI 技术对未来社会的影响,培养对 AI 的思考和判断能力。 总之,中学生可以从编程基础、工具体验、知识学习、实践项目等多个方面入手,全面系统地学习 AI 知识和技能,为未来的 AI 发展做好准备。但请注意,以上内容由 AI 大模型生成,请仔细甄别。
2024-10-18
ai建站推荐
以下为您推荐一些 AI 建站工具: 1. 即时设计:https://js.design/ 这是一款可在线使用的「专业 UI 设计工具」,为设计师提供更加本土化的功能和服务,相较于其他传统设计工具,更注重云端文件管理、团队协作,并将设计工具与更多平台整合,一站搞定全流程工作。 2. V0.dev:https://v0.dev/ Vercel Labs 推出的 AI 生成式用户界面系统。每个人都能通过文本或图像生成代码化的用户界面。它基于 Shadcn UI 和 Tailwind CSS 生成复制粘贴友好的 React 代码。 3. Wix:https://wix.com/ Wix 是一款用户友好的 AI 工具,可让您在没有任何编码知识的情况下轻松创建和自定义自己的网站,提供广泛的模板和设计供您选择,以及移动优化和集成电子商务功能等功能。Wix 建站工具通过拖放编辑、优秀模板和 250 多种 app,能帮助不同领域的用户创建所有种类的网站。 4. Dora:https://www.dora.run/ 使用 Dora AI,可以通过一个 prompt,借助 AI 3D 动画,生成强大网站。支持文字转网站,生成式 3D 互动,高级 AI 动画。 在选择 AI 网站制作工具时,您可以考虑以下因素: 1. 目标和需求:确定您的网站目标(例如个人博客、商业网站、在线商店)和功能需求。 2. 预算:有些工具提供免费计划或试用版,但高级功能可能需要付费订阅。 3. 易用性:选择一个符合您技术水平的工具,确保您能够轻松使用和管理网站。 4. 自定义选项:检查工具是否提供足够的自定义选项,以满足您的设计和功能需求。 5. 支持和资源:查看是否有足够的客户支持和学习资源(如教程、社区论坛),帮助您解决问题。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2024-10-18
免费文案生成视频的AI
以下是一些免费文案生成视频的 AI 工具: 1. Pika:一款出色的文本生成视频 AI 工具,擅长动画制作,支持视频编辑,目前推出 Beta 版本,支持免费、不限次数地文生视频、图生视频,会带上官方水印。官方 Twitter:https://twitter.com/pika_labs 。 2. SVD:如果熟悉 Stable Diffusion,可以直接安装这款最新的插件,在图片基础上直接生成视频,由 Stability AI 开源。 3. Kaiber:这是一款视频转视频 AI,能够将原视频转换成各种风格的视频。 4. Sora:由 OpenAI 开发,可以生成长达 1 分钟以上的视频。 更多的文生视频的网站可以查看这里:https://www.waytoagi.com/category/38 。 此外,以下是一些常用于营销领域的 AI 工具,部分也具备文案生成视频的功能: 1. Synthesia:允许用户创建由 AI 生成的高质量视频,包括数字人视频。提供多种定价计划,从免费到商业级不等,可用于制作营销视频、产品演示等。 2. HeyGen:基于云的 AI 视频制作平台,用户可从 100 多个 AI 头像库中选择,并通过输入文本生成数字人视频。适合制作营销视频和虚拟主持人等。 3. Jasper AI:人工智能写作助手,可用于生成营销文案、博客内容、电子邮件等。 4. Copy.ai:AI 营销文案生成工具,可快速生成广告文案、社交媒体帖子、电子邮件等营销内容。有免费和付费两种计划。 5. Writesonic:AI 写作助手,专注于营销内容创作,如博客文章、产品描述、视频脚本等。提供多种语气和行业定制选项。 更多的营销产品可以查看 WaytoAGI 网站:https://www.waytoagi.com/sites?tag=8 。 需要注意的是,以上内容由 AI 大模型生成,请仔细甄别。
2024-10-17
推荐一个免费ai生成视频软件
以下为您推荐一些免费的 AI 生成视频软件: haiper:网址为 https://app.haiper.ai/ 。 PixVerse:网址为 https://pixverse.ai/ ,人少不怎么排队,还有换脸功能。 Leiapix:网址为 https://www.leiapix.com/ ,可以把一张照片转动态。 此外,还有一些其他相关的 AI 生成视频软件: Runway:网址为 https://runwayml.com ,有网页有 app 方便,但收费。 SVD:网址为 https://stablevideo.com/ ,有免费额度,对于景观更好用。 Pika:网址为 https://pika.art/ ,可控性强,可以对嘴型,可配音。 Dreamina:网址为 https://dreamina.jianying.com/ ,剪映旗下,生成 3 秒,动作幅度有很大升级。 Neverends:网址为 https://neverends.life/create ,有 2 次免费体验,操作傻瓜。 可灵:网址为 https://klingai.kuaishou.com/ 。 更多的文生视频的网站可以查看这里:https://www.waytoagi.com/category/38 。请注意,以上内容由 AI 大模型生成,请仔细甄别。
2024-10-17
请推荐一些国内免费可以调教的语言大模型
以下是一些国内免费可以调教的语言大模型: 1. Aquila:由智源研究院发布,在技术上继承了 GPT3、LLaMA 等的架构设计优点,替换了一批更高效的底层算子实现、重新设计实现了中英双语的 tokenizer,升级了 BMTrain 并行训练方法,是在中英文高质量语料基础上从 0 开始训练的,通过数据质量的控制、多种训练的优化方法,实现在更小的数据集、更短的训练时间,获得比其它开源模型更优的性能。也是首个支持中英双语知识、支持商用许可协议、符合国内数据合规需要的大规模开源语言模型。地址: 2. baichuan7B:由百川智能开发的一个开源可商用的大规模预训练语言模型。基于 Transformer 结构,在大约 1.2 万亿 tokens 上训练的 70 亿参数模型,支持中英双语,上下文窗口长度为 4096。在标准的中文和英文权威 benchmark(CEVAL/MMLU)上均取得同尺寸最好的效果。地址: 3. Anima:由艾写科技开发的一个开源的基于 QLoRA 的 33B 中文大语言模型,该模型基于 QLoRA 的 Guanaco 33B 模型使用 ChineseVicuna 项目开放的训练数据集 guanaco_belle_merge_v1.0 进行 finetune 训练了 10000 个 step,基于 Elo rating tournament 评估效果较好。地址:
2024-10-16
有哪些免费的Ai工具可以用在信息技术学科教学中
以下是一些可用于信息技术学科教学的免费 AI 工具: 1. 讯飞智文:http://zhiwen.xfyun.cn ,可用于内容自动生成。 2. draw.io(现在称为 diagrams.net):免费的在线图表软件,支持创建逻辑视图和部署视图等。 在软件架构设计方面,以下工具可用于绘制逻辑视图、功能视图、部署视图: 1. Lucidchart:流行的在线绘图工具,支持多种图表创建。 2. Visual Paradigm:全面的 UML 工具,提供多种架构视图创建功能。 3. ArchiMate:开源建模语言,与 Archi 工具配合使用可创建逻辑视图。 4. Enterprise Architect:强大的建模、设计和生成代码工具,支持多种架构视图创建。 5. Microsoft Visio:广泛使用的图表和矢量图形应用程序,提供丰富模板。 6. draw.io(现在称为 diagrams.net):免费在线图表软件,支持多种类型图表创建。 7. PlantUML:文本到 UML 转换工具,可通过描述文本自动生成相关视图。 8. Gliffy:基于云的绘图工具,支持创建架构图。 9. Archi:免费开源工具,支持逻辑视图创建。 10. Rational Rose:IBM 的 UML 工具,支持多种视图创建。
2024-10-16
有哪些免费的PPT制作AI工具
以下是一些免费的 PPT 制作 AI 工具: 1. 讯飞智文:http://zhiwen.xfyun.cn 。 2. Gamma:这是一个在线 PPT 制作网站,允许用户通过输入文本和想法提示快速生成幻灯片。支持嵌入多媒体格式,如 GIF 和视频,以增强演示文稿的吸引力。网址:https://gamma.app/ 。 目前市面上大多数 AI 生成 PPT 按照如下思路完成设计和制作: 1. AI 生成 PPT 大纲。 2. 手动优化大纲。 3. 导入工具生成 PPT。 4. 优化整体结构。 推荐 2 篇市场分析的文章供参考: 1. 《》 2. 《》 另外,美图 AI PPT 是由知名图像编辑软件“美图秀秀”的开发团队推出的 AI PPT 工具,网址:https://www.xdesign.com/ppt/ 。Mindshow 是一款 AI 驱动的 PPT 辅助工具,网址:https://www.mindshow.fun/ 。
2024-10-16
我想找一个免费生成数字人的软件
以下为您介绍几款免费生成数字人的软件及使用方法: 剪映:在剪映右侧窗口顶部,打开“数字人”选项,选取免费且适合的数字人形象,如“婉婉青春”。选择数字人形象时会播放其声音,可判断是否需要,点击右下角“添加数字人”将其添加到当前视频中。左下角会提示渲染完成时间,可点击预览查看效果。还可为视频增加背景图片,删除先前导入的文本内容,点击左上角“媒体”菜单并“导入”本地图片,将图片添加到视频轨道上,调整图片位置和大小。 HEYGEN:优点是人物灵活、五官自然、视频生成快;缺点是中文人声选择较少。使用方法为点击网址注册后,进入数字人制作,选择Photo Avatar上传自己的照片,上传后效果在My Avatar处显示,点开大图后点击Create with AI Studio进入制作,写上视频文案并选择配音音色或自行上传音频,最后点击Submit得到数字人视频。 DID:优点是制作简单、人物灵活;缺点是免费版下载后有水印。使用方法为点击网址,点击右上角Create vedio,选择人物形象,可点击ADD添加照片或使用给出的人物形象,配音时可选择提供文字选择音色或直接上传音频,最后点击Generate vedio生成视频,打开生成的视频可下载或分享。 KreadoAI:优点是免费、功能齐全;缺点是音色较AI。使用方法为点击网址注册后获得120免费k币,选择“照片数字人口播”功能,点击开始创作,选择自定义照片,配音时可选择提供文字选择音色或直接上传音频,打开绿幕按钮,点击背景添加背景图,最后点击生成视频。 此外,还有通过AI换脸软件完成数字人“私有化”的方法:需要谷歌账号(可在淘宝或“”购买)。第一步打开谷歌浏览器,点击链接https://github.com/facefusion/facefusioncolab 并点击open colab进到程序主要运行界面,在右上角点击“代码执行程序”选择“全部运行”,点击红框对应的URL打开操作界面;第二步,点击“source”上传自己的照片和“target”上传之前的剪映数字人视频,保持默认参数,点击“START”生成;第三步等待专属数字人视频出炉。有关数字人使用问题可在评论区留言交流,对数字人课程感兴趣可查看通往AGI之路X AI沃茨的《克隆你自己》课程。在线观看第一节:https://www.bilibili.com/video/BV1yw411E7Rt/?spm_id_from=333.999.0.0 。
2024-10-16
个人使用可以通过对话微调的大模型
大模型是指输入大量语料,使计算机获得类似人类的“思考”能力,能够进行文本生成、推理问答、对话、文档摘要等工作。可以用“上学参加工作”来类比大模型的训练和使用过程: 1. 找学校:训练大模型需要大量计算,GPU 更合适,只有购买得起大量 GPU 的才有资本训练。 2. 确定教材:大模型需要的数据量特别多,几千亿序列(Token)的输入基本是标配。 3. 找老师:用合适的算法让大模型更好理解 Token 之间的关系。 4. 就业指导:为让大模型更好胜任某一行业,需要进行微调(fine tuning)指导。 5. 搬砖:完成就业指导后,进行如翻译、问答等工作,在大模型里称为推导(infer)。 在 LLM 中,Token 被视为模型处理和生成的文本单位,能代表单个字符、单词、子单词等,具体取决于分词方法。将输入分词时会数字化形成词汇表。 个人动手实验方面: macOS 系统可采用 GGML 量化后的模型。有名的项目如 ggerganov/llama.cpp:Port of Facebook's LLaMA model in C/C++ ,首先编译,利用 Metal 的 GPU 用相应命令编译,然后去下载模型,还提供了 WebUI,启动 server 后默认监听 8080 端口,打开浏览器可对话。 Whisper 与 llama 类似,用 make 命令编译,去指定地址下载量化好的模型,转换音频,目前只接受 wav 格式,可用 ffmpeg 转化。 张梦飞的教程《用聊天记录克隆自己的 AI 分身》全程本地操作,目标是把微信聊天记录导出,用其微调模型,最终接入微信替你回复消息。
2024-10-18
国内能通过对话微调的语言大模型
以下是国内一些能通过对话微调的语言大模型: 教育领域:桃李(Taoli) 地址: 简介:在国际中文教育领域数据上进行了额外训练的模型,基于国际中文教育教材等构建资源库和问答数据集,并利用数据进行指令微调,让模型习得将知识应用到具体场景中的能力。 数学领域:chatglmmaths 地址: 简介:基于 chatglm6b 微调/LORA/PPO/推理的数学题解题大模型,样本为自动生成的整数/小数加减乘除运算,可 gpu/cpu 部署,开源了训练数据集等。 文化领域:Firefly 地址: 简介:中文对话式大语言模型,构造了许多与中华文化相关的数据,如对联、作诗、文言文翻译、散文、金庸小说等,以提升模型在这方面的表现。 金融领域: Cornucopia(聚宝盆) 地址: 简介:开源了经过中文金融知识指令精调/指令微调的 LLaMA7B 模型。通过中文金融公开数据+爬取的金融数据构建指令数据集,并在此基础上对 LLaMA 进行了指令微调,提高了 LLaMA 在金融领域的问答效果。基于相同的数据,后期还会利用 GPT3.5 API 构建高质量的数据集,另在中文知识图谱金融上进一步扩充高质量的指令数据集。 BBTFinCUGEApplications 地址: 简介:开源了中文金融领域开源语料库 BBTFinCorpus,中文金融领域知识增强型预训练语言模型 BBTFinT5 及中文金融领域自然语言处理评测基准 CFLEB。 XuanYuan(轩辕) 地址: 简介:国内首个开源的千亿级中文对话大模型,同时也是首个针对中文金融领域优化的千亿级开源对话大模型。在 BLOOM176B 的基础上针对中文通用领域和金融领域进行了针对性的预训练与微调,不仅可以应对通用领域的问题,也可以解答金融相关的各类问题,为用户提供准确、全面的金融信息和建议。
2024-10-18
我的app应用想要对接大语言模型,结合APP用户自身的数据,实现更精准的对话,是否有行业比较成功的案例可以借鉴
以下是一些在 APP 应用对接大语言模型方面比较成功的案例,可供您借鉴: 1. Poe: 由 Quora 开发,有 APP 版本,支持跨端使用。 集成了 Chat GPT、GPT4、Claude+、Claude、Dragonfly 等模型,同时支持用户自建 Chatbot。 不同语言模型回复效果有差异,适合需要调用多种大语言模型的用户。 Dragonfly 擅长给出较短的回答,并擅长在输入中给出示例时遵循指示。 Claude 更擅长创造性回复,配合 Poe 中的提问引导,非常适合在查阅资料时使用。 支持分享用户和模型的对话内容,但 GPT4、Claude+产品需要付费订阅使用。 访问地址: Poe 中的提问引导真的能够启发到用户,midjourney prompt 扩写 Chatbot 能力很惊人。 2. Perplexity.ai: 本质是个可联网的搜索引擎,完全免费,支持网页版、APP(目前支持 iOS,安卓即将推出)、Chrome 插件。 网页版能力全面,能够根据提问从互联网上搜寻信息并给出总结后的答案。 很多 Chat GPT 中调用插件才能解决的事情(联网查询、旅行、住宿、商品推荐)靠 Perplexity 就可以解决。 能给出信息来源网址,并根据搜索内容给出继续对话的问题建议。 最新推出的 Copilot 能力支持根据搜索内容进行信息补充,每 4h 内使用 5 次,调用 GPT4。 支持分享聊天内容到多渠道。 首页推荐当下流行的新闻、搜索内容。 支持筛选 Academic(包含不同领域的学术研究论文)、Wolfram|Alpha(包含数学、科学、经济学、语言学、工程学、社会科学、文化等领域的知识库)、Wikipedia(维基百科)、Youtube、Reddit(娱乐、社交和新闻网站)、News 进行搜索。 Chrome 插件可针对当前页面给出即时摘要。 访问地址:
2024-10-18
大模型合规
大模型的安全问题包括以下方面: 1. 对齐保障:通过对齐(指令调优),如 ChatGPT 从 GPT3 经过对齐而来,使其更好地理解人类意图,增加安全保障,确保不输出有害内容。对齐任务可拆解为监督微调及获取奖励模型和进行强化学习来调整输出分布。例如 LLAMA2 使用安全有监督微调确保安全,强化学习能让模型根据人类反馈更细粒度思考答案的安全性,面对训练分布外数据也能拒绝不当回答。 2. 数据过滤:在预训练阶段对数据进行过滤,如 baichuan2 采用此技术减少有害输出,但因数据关联性,仅靠此方法可能不够,模型仍可能从关联中学到有害内容,且面对不良信息时可能因缺少知识而处理不当。 3. 越狱问题:用户可能通过越狱(Jailbreak)使模型的对齐失效,重新回答各种问题。 大模型的特点包括: 1. 架构:分为 encoderonly、encoderdecoder、decoderonly 三类,目前熟知的 AI 助手多为 decoderonly 架构,由 transformer 衍生而来。 2. 规模:预训练数据量大,来自互联网的多种来源,且参数众多,如 GPT3 已达 170B 的参数。 GPT3 与 ChatGPT 相比,除形式不同外,安全性也有差别。
2024-10-18
大模型安全相关资料
以下是关于大模型安全的相关资料: 大模型的架构:包括 encoderonly、encoderdecoder 和 decoderonly 三种类型。其中,我们熟知的 AI 助手基本采用 decoderonly 架构,这些架构都是由谷歌 2017 年发布的“attention is all you need”论文中提出的 transformer 衍生而来。 大模型的特点:预训练数据量大,往往来自互联网上的论文、代码、公开网页等,通常用 TB 级别的数据进行预训练;参数非常多,如 Open 在 2020 年发布的 GPT3 就已达到 170B 的参数。 大模型的安全性保障:通过对齐(指令调优),包括监督微调、获取 reward model 与进行强化学习来调整语言模型的输出分布,以保证语言模型不会输出有害内容和信息。例如 LLAMA2 专门使用了安全有监督微调确保安全。但 Alignment 并不足以防护所有安全问题,存在越狱(Jailbreak)现象,会使模型对齐失效。此外,还有隐私问题。 相关资源:如果想进一步了解大语言模型安全,可以访问 Github awesomellmsafety 项目:https://github.com/ydyjya/AwesomeLLMSafety
2024-10-18
目前最好用的机关公文写作大模型或智能体
目前在机关公文写作方面表现较好的大模型或智能体有: 智谱清言:由智谱 AI 和清华大学推出,基础模型为 ChatGLM 大模型。在工具使用排名国内第一,在计算、逻辑推理、传统安全能力上排名国内前三。更擅长专业能力,但在代码能力上还有优化空间,知识百科方面稍显不足。可应用场景广泛,在 AI 智能体方面相关的应用,包括任务规划、工具使用及长文本记忆相关场景表现出色,在较复杂推理应用上效果不错,也适用于广告文案、文学写作等。 此外,在大模型中,智能体是大模型的一个重要发展方向。智能体可以理解为在大模型(如 LLM)基础上增加了工具、记忆、行动、规划等能力。目前行业里主要用到的如 langchain 框架,能通过代码或 prompt 的形式将 LLM 与 LLM 之间以及 LLM 与工具之间进行串接。
2024-10-18
公司数字化转型对于客户服务增值有什么好处?如何平衡技术和个性化,人性化服务
公司数字化转型对客户服务增值的好处包括: 1. 个性化服务:利用 AI 分析客户行为数据,深入了解客户需求和偏好,为其提供定制化的产品推荐和服务,如电子商务网站根据用户购物历史和浏览习惯推荐相似产品,在线零售商利用客户购买数据推荐新产品或补充产品,从而提升客户体验和忠诚度。 2. 定制化沟通和推广:通过更具针对性的沟通和营销活动加强与客户的关系,提高忠诚度。根据客户偏好和行为数据定制营销活动,在客户支持和沟通中采用个性化方法,定期收集客户反馈并用于优化服务和产品,监控效果并不断优化推荐和营销策略。 3. 提升操作效率:Token 化在自然语言处理中应用,将大段文本分解成小块处理单元,便于管理和分析复杂文本数据,使 AI 模型快速识别关键信息,加速决策过程,提升业务响应速度。 4. 优化客户服务:Token 化使客户服务自动化成为可能,通过自动响应系统快速准确处理客户请求,极大提升客户满意度和品牌忠诚度。 5. 个性化营销:利用 Token 化分析用户行为和偏好,提供高度个性化的营销内容,增加销售转化率。 在平衡技术和个性化、人性化服务方面,可以采取以下措施: 1. 深入挖掘客户数据,同时注重保护客户隐私和数据安全。 2. 结合人工干预和监督,确保服务的人性化和温度。 3. 持续收集客户反馈,根据反馈调整技术应用和服务策略。 4. 培训员工,使其在运用技术的同时能够提供贴心的服务。
2024-10-16
近期数字人比较成熟的应用有哪些
数字人目前有以下较为成熟的应用: 1. 影视行业:真人驱动的数字人通过动捕设备或视觉算法还原真人动作表情,用于影视制作。 2. 直播带货:真人驱动的数字人在直播带货领域发挥作用。 3. 家庭:未来可能会有数字人管家,全面接管智能家居或其他设备。 4. 学校:未来可能会有数字人老师,为学生答疑解惑。 5. 商场:未来可能会有数字人导购,为顾客提供指路、托管个人物品等服务。 数字人的构建方式包括: 1. 2D 引擎:风格偏向二次元,亲和力强,定制化成本低,代表如 Live2D Cubism。 2. 3D 引擎:风格偏向超写实的人物建模,拟真程度高,定制化成本高,代表如 UE、Unity、虚幻引擎 MetaHuman 等。 3. AIGC:虽然省去建模流程,但在数字人 ID 一致性和帧连贯性上存在弊端,不过算法发展迅速,未来可能会有改善。AIGC 还有直接生成 2D/3D 引擎模型的探索方向。
2024-10-16
数字贸易属于数字经济的范畴吗
数字贸易属于数字经济的范畴。 在相关的资料中提到,数据是数字经济的核心组成部分,且大多数数据未被充分利用或其价值集中在少数大型公司手中。同时,国家实施大数据战略,推进数据基础设施建设,鼓励和支持数据在各行业、各领域的创新应用,省级以上人民政府也应将数字经济发展纳入规划。此外,国家还在推进数据开发利用技术和数据安全标准体系建设,促进数据安全检测评估、认证等服务的发展,建立健全数据交易管理制度,支持开展相关教育和培训等,这些都表明数字贸易与数字经济密切相关,属于其范畴。
2024-10-15
好用的数字人国内的产品
以下是一些国内好用的数字人产品: 1. 硅基科技:南京硅基科技公司的销售公司介绍,相关资料为掌福科技介绍(介绍版本).pptx。 2. 特看科技:超级写实换脸及数字人,可参考。 3. 迈吉客:虚拟数字人,相关方案为迈吉客科技智能虚拟直播解决方案,资料为。 4. 奇妙元:出门问问出品,方案为。 5. 烽火:相关资料为烽火 AIGC 数字人介绍.pptx。 此外,还有以下一些数字人工具: 1. HEYGEN:优点是人物灵活,五官自然,视频生成很快;缺点是中文的人声选择较少。使用方法为:点击网址注册后,进入数字人制作,选择 Photo Avatar 上传自己的照片,上传后效果如图所示,My Avatar 处显示上传的照片,点开大图后,点击 Create with AI Studio,进入数字人制作,写上视频文案并选择配音音色,也可以自行上传音频,最后点击 Submit,就可以得到一段数字人视频。 2. DID:优点是制作简单,人物灵活;缺点是为了防止侵权,免费版下载后有水印。使用方法为:点击上面的网址,点击右上角的 Create vedio,选择人物形象,可以点击 ADD 添加照片,或者使用 DID 给出的人物形象,配音时,可以选择提供文字选择音色,或者直接上传一段音频,最后,点击 Generate vedio 就可以生成一段视频,打开自己生成的视频,可以下载或者直接分享给朋友。 3. KreadoAI:优点是免费(对于普通娱乐玩家很重要),功能齐全;缺点是音色很 ai。使用方法为:点击上面的网址,注册后获得 120 免费 k 币,这里选择“照片数字人口播”的功能,点击开始创作,选择自定义照片,配音时,可以选择提供文字选择音色,或者直接上传一段音频,打开绿幕按钮,点击背景,可以添加背景图,最后,点击生成视频。 剪映数字人也具有一定优势: 剪映作为字节跳动旗下的产品,在抖音平台上被广泛应用。其海外版 CapCut 登顶过美国 App Store,在全球各国 App Store 和 Google Play 平台上的安装总量已超过 2.5 亿次,在美国市场内的安装总量接近 950 万次。剪映的六大 AI 功能解决了用数字人做视频的痛点,不需要反复跳出剪映,在编辑器里就能完成脚本生成→语音克隆→数字人口播的环节。 制作流程为:首先打开剪映,添加一个文本到文字轨道,并修改好需要朗读的文字;然后点击朗读,并进行声音克隆,剪映的声音克隆现在只用念一句话就可以完成克隆;克隆完成后,选择喜欢的数字人形象,并把自己的克隆音色换上去;最后,一键智能生成字幕,再自行调整文字样式并校准就完成了。 剪映下载地址: capcut 下载地址:
2024-10-09
AI数字人
AI 数字人是运用数字技术创造出来的人,虽现阶段不能如科幻作品中的人型机器人般高度智能,但已在各类生活场景中出现,且随着 AI 技术发展正迎来应用爆发。目前业界尚无准确定义,一般可根据技术栈分为两类: 1. 真人驱动的数字人:重在通过动捕设备或视觉算法还原真人动作表情,主要应用于影视行业及直播带货。表现质量与手动建模精细程度及动捕设备精密程度直接相关,不过随着视觉算法进步,在无昂贵动捕设备时,也能通过摄像头捕捉人体骨骼和人脸关键点信息达到不错效果。 2. 算法驱动的数字人:强调自驱动,人为干预更少,技术实现更复杂。其大致流程包含三个核心算法: ASR(语音识别):能将用户音频数据转化为文字,便于数字人理解和生成回应。开源代码如 openai 的 whisper(https://github.com/openai/whisper)、wenet(https://github.com/wenete2e/wenet)、speech_recognition(https://github.com/Uberi/speech_recognition)。 AI Agent(人工智能体):充当数字人大脑,可接入大语言模型,如 ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等。Agent 部分可用 LangChain 模块自定义(https://www.langchain.com/)。 TTS(文字转语音):将数字人依靠 LLM 生成的文字输出转换为语音。开源代码如微软的 edgetts(https://github.com/rany2/edgetts),只能使用预设人物声音且接口免费;VITS(https://github.com/jaywalnut310/vits)及其分支版本,可自己训练想要的人声;sovitssvc(https://github.com/svcdevelopteam/sovitssvc)专注于唱歌。 除算法外,人物建模模型可通过手动建模(音频驱动)或 AIGC 方式生成人物动态效果(如 wav2lip 模型)来实现一个最简单的数字人。但这种简单构建方式存在诸多问题,如如何生成指定人物的声音、TTS 生成的音频如何精确驱动数字人口型及动作、数字人如何使用知识库做出某领域专业性回答等。
2024-10-08