直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

有哪些开源免费的数字人工具

回答

以下是一些开源免费的数字人工具:

  1. HeyGen:这是一个 AI 驱动的平台,能创建逼真的数字人脸和角色,使用深度学习算法生成高质量肖像和角色模型,适用于游戏、电影和虚拟现实等应用。
  2. Synthesia:AI 视频制作平台,允许创建虚拟角色并进行语音和口型同步,支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。
  3. D-ID:提供 AI 拟真人视频产品服务和开发,上传人像照片和输入内容,平台的 AI 语音机器人将自动转换成语音并合成逼真的会开口说话的视频。

更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。

请注意,这些工具的具体功能和可用性可能会变化。使用时请遵守相关使用条款和隐私政策,并注意生成内容的版权和伦理责任。

此外,以下是一些与数字人相关的开源代码仓库:

  • ASR 语音识别:
    • openai 的 whisper: https://github.com/openai/whisper
    • wenet: https://github.com/wenet-e2e/wenet
    • speech_recognition(语音识别的接口集合):https://github.com/Uberi/speech_recognition
  • AI Agent:
    • 大模型部分包括 ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等。
    • Agent 部分可使用 LangChain 的模块自定义,包含了 Agent 实现的几个组件:https://www.langchain.com/
  • TTS:
    • 微软的 edge-tts:https://github.com/rany2/edge-tts,只能使用里面预设的人物声音,目前接口免费。
    • VITS:https://github.com/jaywalnut310/vits,还有很多分支版本。
    • so-vits-svc: https://github.com/svc-develop-team/so-vits-svc,专注于唱歌。

人物建模模型可通过手动建模(音频驱动)或者 AIGC 的方式生成人物的动态效果(例如 wav2lip 模型)实现。

以下是部分摊位信息中与数字人相关的内容: |编号|摊位活动主题和内容|摊位区域|摊位编号| |-|-|-|-| |54|AI 数字人的技术以及应用场景|D|D4| |59|百度数字人试拍|D|D3|

内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

问:有哪些制作数字人的工具

制作数字人(Digital Human)的工具主要是指那些能够创建虚拟角色、虚拟形象或者虚拟代言人的软件和技术。以下是几个可以用来制作数字人的工具:1.HeyGen:HeyGen是一个AI驱动的平台,可以创建逼真的数字人脸和角色。它使用深度学习算法来生成高质量的肖像和角色模型,适用于游戏、电影和虚拟现实等应用。2.Synthesia:Synthesia是一个AI视频制作平台,允许用户创建虚拟角色并进行语音和口型同步。它支持多种语言,并可以用于教育视频、营销内容和虚拟助手等场景。3.D-ID:D-ID是一家提供AI拟真人视频产品服务和开发的公司,只需上传人像照片和输入要说的内容,平台提供的AI语音机器人将自动转换成语音,然后就能合成一段非常逼真的会开口说话的视频。更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42请注意,这些工具的具体功能和可用性可能会随着时间和技术的发展而变化。在使用这些工具时,请确保遵守相关的使用条款和隐私政策,并注意保持对生成内容的版权和伦理责任。内容由AI大模型生成,请仔细甄别。类似问题:对口型的软件有哪些?

AI 数字人-定义数字世界中的你

上述算法开源的代码有很多,这里列出一些仓库供大家参考:ASR语音识别openai的whisper:https://github.com/openai/whisperwenet:https://github.com/wenet-e2e/wenetspeech_recognition(这是一个语音识别的接口集合,里面有不同实现的语音识别的接口):https://github.com/Uberi/speech_recognitionAI Agent大模型部分就比较多了,包括ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等等。Agent部分可以使用LangChain的模块去做自定义,里面基本包含了Agent实现的几个组件(https://www.langchain.com/)TTS微软的edge-tts:https://github.com/rany2/edge-tts,只能使用里面预设的人物声音,目前接口免费。VITS:https://github.com/jaywalnut310/vits,还有很多的分支版本,可以去搜索一下,vits系列可以自己训练出想要的人声。so-vits-svc:https://github.com/svc-develop-team/so-vits-svc,专注到唱歌上面,前段时间很火的AI孙燕姿。除了算法,人物建模模型可以通过手动建模(音频驱动)或者AIGC的方式生成人物的动态效果(例如wav2lip模型)实现,这样就完成了一个最简单的数字人。当然这种简单的构建方式还存在很多的问题,例如:如何生成指定人物的声音?TTS生成的音频如何精确驱动数字人口型以及做出相应的动作?数字人如何使用知识库,做出某个领域的专业性回答?

摊位信息

|编号|你的摊位活动主题和内容|摊位区域|摊位编号|<br>|-|-|-|-|<br>|54|AI数字人的技术以及应用场景|D|D4|<br>|56|STEAM科创、AI科技与生活<br>主要是通过生活中的科技创意在生活中的应用,通过电子电路、物联网、计算机编程与人工智能技术,展示科技创意。|D|D18|<br>|57|Ai心理疏导<br>|A|A21|<br>|58|AI相册|D|D14|<br>|59|百度数字人试拍|D|D3|<br>|60|Zion无代码工具—— 30分钟搭建一个可收费的AI Agent前端小程序|D|D16|<br>|64|AI搜索产品体验|D|D15|

其他人在问
目前有哪些开源绘画模型
目前常见的开源绘画模型有: Stable Diffusion:生态最完整,能够加载的框架有 ComfyUI 框架、SD.Next 框架、Stable Diffusion WebUI 框架、diffusers 框架。 MidJourney:模型风格包罗万象,操作简洁,极富美感和艺术感。 Dall·E3(ChatGPT):具有惊人的语义理解能力,可像甲方一样连续修改。 Fooocus:优化程度高,操作简便,类似本地化 mj。 ComfyUI:门槛高,定制化强。 HunYuanDiT:国内第一个开源绘图模型。 SDXL:开源时间为 2023.7。 SD3:开源时间为 2024.6。 KOLORS:开源时间为 2024.7,目前生图质量最高,有相关的教学视频,如“Kolors 中文生图绘画模型开源,快手接连放出高质量开源项目,是否会成为中国的 StabilityAI”等。 Flux:开源时间为 2024.8。
2024-11-07
有哪些开源或者免费的数字人工具
以下是一些开源或者免费的数字人工具: 1. HeyGen:AI 驱动的平台,能创建逼真的数字人脸和角色,使用深度学习算法生成高质量肖像和角色模型,适用于游戏、电影和虚拟现实等。 2. Synthesia:AI 视频制作平台,允许创建虚拟角色并进行语音和口型同步,支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。 3. DID:提供 AI 拟真人视频产品服务和开发,上传人像照片和输入内容,平台的 AI 语音机器人能自动转换成语音并合成逼真的说话视频。 更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 此外,还有一些相关的开源代码仓库: ASR 语音识别: openai 的 whisper: https://github.com/openai/whisper wenet: https://github.com/wenete2e/wenet speech_recognition:https://github.com/Uberi/speech_recognition AI Agent: 大模型:ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等。 Agent 部分:可使用 LangChain 的模块自定义,https://www.langchain.com/ TTS: 微软的 edgetts:https://github.com/rany2/edgetts,只能使用预设人物声音,目前接口免费。 VITS:https://github.com/jaywalnut310/vits,还有很多分支版本。 sovitssvc: https://github.com/svcdevelopteam/sovitssvc,专注于唱歌。 请注意,这些工具的具体功能和可用性可能会随时间和技术发展而变化。在使用时,请确保遵守相关使用条款和隐私政策,并注意保持对生成内容的版权和伦理责任。
2024-11-07
阿里开源的数字人
阿里开源的数字人相关信息如下: 阿里的虚拟数字人:https://www.aliyun.com/product/ai/avatar?spm=5176.21213303.8115314850.1.72de53c9pdvu6T&scm=20140722.S_card@@%E4%BA%A7%E5%93%81@@1161322.S_card0.ID_card@@%E4%BA%A7%E5%93%81@@1161322RL_%E6%95%B0%E5%AD%97%E4%BA%BAOR_serV_2P0_0 关于阿里在 AIGC 实践方面的相关文章: 在构建高质量的 AI 数字人方面,建好的模型可以使用 web 前端页面(Live2D 就提供了 web 端的 SDK)或者 Native 的可执行程序进行部署,最后呈现在用户面前的是一个 GUI。笔者的开源数字人项目(项目地址:https://github.com/wanh/awesomedigitalhumanlive2d)选择了 live2d 作为数字人躯壳,因为这类 SDK 的驱动方式相比现在的 AI 生成式的方式更加可控和自然,相比虚幻引擎这些驱动方式又更加轻量和简单;另外超写实的数字人风格在目前的技术能力下,处理不好一致性问题,容易带来虚假的感觉或者产生恐怖谷效应,而卡通二次元的形象给人的接受度更高。关于 live2d 的 SDK 驱动方式可以参考官方示例:https://github.com/Live2D 。
2024-11-07
开源数字人
以下是关于开源数字人的相关信息: 组合方案: 1. 先剪出音频,使用 https://elevenlabs.io/speechsynthesis 或使用 GPTsovits()克隆声音,做出文案的音频。 2. 使用 wav2lip 整合包,导入视频和音频,对口型得到视频。基础 wav2lip+高清修复整合包下载地址:https://github.com/Rudrabha/Wav2Lip 。这就是目前的本地跑数字人的方案,效果都差不多,都是用的 wav2lip 。产品:https://synclabs.so/ 构建高质量的 AI 数字人: 1. 构建数字人躯壳:建好的模型可以使用 web 前端页面(Live2D 就提供了 web 端的 SDK)或者 Native 的可执行程序进行部署,最后呈现在用户面前的是一个 GUI 。笔者的开源数字人项目(项目地址:https://github.com/wanh/awesomedigitalhumanlive2d)选择了 live2d 作为数字人躯壳,因为这类 SDK 的驱动方式相比现在的 AI 生成式的方式更加可控和自然,相比虚幻引擎这些驱动方式又更加轻量和简单;另外超写实的数字人风格在目前的技术能力下,处理不好一致性问题,容易带来虚假的感觉或者产生恐怖谷效应,而卡通二次元的形象给人的接受度更高。关于 live2d 的 SDK 驱动方式可以参考官方示例:https://github.com/Live2D 。 相关算法开源代码: 1. ASR 语音识别: openai 的 whisper: https://github.com/openai/whisper wenet: https://github.com/wenete2e/wenet speech_recognition(这是一个语音识别的接口集合,里面有不同实现的语音识别的接口): https://github.com/Uberi/speech_recognition 2. AI Agent: 大模型部分:包括 ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等等。 Agent 部分:可以使用 LangChain 的模块去做自定义,里面基本包含了 Agent 实现的几个组件 3. TTS: 微软的 edgetts:https://github.com/rany2/edgetts,只能使用里面预设的人物声音,目前接口免费。 VITS:https://github.com/jaywalnut310/vits,还有很多的分支版本,可以去搜索一下,vits 系列可以自己训练出想要的人声。 sovitssvc: https://github.com/svcdevelopteam/sovitssvc,专注到唱歌上面,前段时间很火的 AI 孙燕姿。 除了算法,人物建模模型可以通过手动建模(音频驱动)或者 AIGC 的方式生成人物的动态效果(例如 wav2lip 模型)实现,这样就完成了一个最简单的数字人。当然这种简单的构建方式还存在很多的问题,例如: 1. 如何生成指定人物的声音? 2. TTS 生成的音频如何精确驱动数字人口型以及做出相应的动作? 3. 数字人如何使用知识库,做出某个领域的专业性回答?
2024-11-06
开源大模型ChatGLM 系列有哪些版本
ChatGLM 系列的开源版本包括: ChatGLM36B:第三代 ChatGLM 对话模型,采用全新设计的 Prompt 格式,原生支持工具调用、代码执行和 Agent 任务等复杂场景。 ChatGLM36Bbase:第三代 ChatGLM 基座模型,采用更多样的训练数据、更充分的训练步数和更合理的训练策略,在 10B 以下的基础模型中性能较强。 ChatGLM36B32k:第三代 ChatGLM 长上下文对话模型,在 ChatGLM36B 的基础上进一步强化了对长文本的理解能力,能处理最多 32K 长度的上下文。
2024-11-04
智谱清言的开源大模型哪些种类
智谱清言的开源大模型种类包括: 多模态模型: CogAgent18B:基于 CogVLM17B 改进的开源视觉语言模型,拥有 110 亿视觉参数和 70 亿语言参数,支持 11201120 分辨率的图像理解,具备 GUI 图像的 Agent 能力。代码链接:、始智社区。 CogVLM17B:强大的开源视觉语言模型(VLM),在多模态权威学术榜单上综合成绩优异。代码链接:。 Visualglm6B:开源的支持图像、中文和英文的多模态对话语言模型,语言模型基于 ChatGLM6B,具有 62 亿参数;图像部分通过训练 BLIP2Qformer 构建起视觉模型与语言模型的桥梁,整体模型共 78 亿参数。代码链接:。 RDM:Relay Diffusion Model,级联扩散模型,可以从任意给定分辨率的图像快速生成,而无需从白噪声生成。代码链接:。 此外,智谱清言是智谱 AI 和清华大学推出的大模型产品,基础模型为 ChatGLM 大模型。2023 年 10 月 27 日,智谱 AI 于 2023 中国计算机大会(CNCC)上,推出了全自研的第三代基座大模型 ChatGLM3 及相关系列产品。智谱清言在工具使用排名国内第一,在计算、逻辑推理、传统安全能力上排名国内前三。总体来看,智谱清言更擅长专业能力,但在代码能力上还有一定优化空间,知识百科与其他第一梯队模型相比稍显不足。综合来看,智谱清言是一个很有竞争力的大模型。可应用的场景相对广泛,根据 SuperCLUE 测评结果,优先推进在 AI 智能体方面相关的应用,包括任务规划、工具使用及一些长文本记忆相关的场景。另外在较复杂推理应用上的效果会比较不错,在广告文案、文学写作方面也是一个很好的选择。
2024-11-04
搭建个人知识库,请推荐的免费人工智能软件
以下为您推荐一些可用于搭建个人知识库的免费人工智能软件: 1. AnythingLLM:包含所有 Open WebUI 的能力,额外支持选择文本嵌入模型和向量数据库。安装地址:https://useanything.com/download 。安装完成后需进行配置,主要分为三步:选择大模型、选择文本嵌入模型、选择向量数据库。在 AnythingLLM 中可创建独有的 Workspace 与其他项目数据隔离,包括创建工作空间、上传文档并进行文本嵌入、选择对话模式(Chat 模式会综合给出答案,Query 模式仅依靠文档数据给出答案),配置完成后可进行测试对话。 2. Coze 或 FastGPT 等工具可搭建知识库,但当下其 RAG 能力仅对问答场景友好,复杂企业级知识库场景可能需要专业团队,收费几万到几十万不等。若想使用专门搭建个人知识库的软件,可参考文章 ,忽略本地部署大模型环节,直接看其中推荐的软件。 此外,还有一些相关工具和方法: 用通义听悟整理录音笔记:https://tingwu.aliyun.com 用 React 实现选中即解释 定义提示语提取有用信息:https://memo.ac/zh/ 开源免费屏幕录制工具 OBS,下载地址:https://obsproject.com/ Mac 用 Downie,Windows 推荐 IDM 淘宝数码荔枝店购买 用 losslessCut 快速切块:https://github.com/mifi/losslesscut 希望这些信息对您有所帮助。
2024-11-11
有没有国内网络能打开的免费好用的美术类AI工具?
以下为您推荐国内网络能打开的免费好用的美术类 AI 工具: 1. 扣子 + ByteArtist 网址:https://www.coze.cn/home 优点:不需要翻墙,无收费,可以直接生成 注册:手机号、抖音号或飞书号 操作步骤:需要在 coze 的 bot 里面添加绘图插件 时间:5min 2. 无界 AI 网址:https://www.wujieai.cc/ 优点:国内网络即可稳定使用,有免费出图点数,支持中文关键词输入,无需额外下载风格模型,可直接取用 希望这些工具能满足您的需求。
2024-11-11
免费制作ppt的ai工具有哪些
以下是一些免费制作 PPT 的 AI 工具: 1. 讯飞智文:由科大讯飞推出,利用其在语音识别和自然语言处理领域的技术优势,提供智能文本生成等功能。网址:http://zhiwen.xfyun.cn 2. Gamma:在线 PPT 制作网站,用户通过输入文本和想法提示快速生成幻灯片,支持嵌入多媒体格式。网址:https://gamma.app/ 3. 美图 AI PPT:由“美图秀秀”开发团队推出,用户输入简单文本描述生成专业 PPT 设计,有丰富模板库和设计元素。网址:https://www.xdesign.com/ppt/ 4. Mindshow:AI 驱动的 PPT 辅助工具,提供自动布局等智能设计功能,包含互动元素和动画效果。网址:https://www.mindshow.fun/ 另外,推荐 2 篇市场分析的文章供您参考: 1. 《》 2. 《》 需要注意的是,内容由 AI 大模型生成,请仔细甄别。
2024-11-10
国内免费的好用的AI有哪些
以下是一些国内免费且好用的 AI 产品: 1. Kimi 智能助手:是一个有着超大“内存”的智能助手,可以一口气读完二十万字的小说,还会上网冲浪,由 Moonshot AI 出品。不用科学上网、不用付费、支持实时联网,是国内最早支持 20 万字无损上下文的 AI,也是目前对长文理解做得最好的 AI 产品。能一次搜索几十个数据来源,无广告,能定向指定搜索源(如小红书、学术搜索)。PC 端:https://kimi.moonshot.cn/?utm_campaign=TR_LgLmkEor&utm_content=&utm_medium=%E7%BD%91%E7%AB%99&utm_source=CH_tpOYmtV1&utm_term= ;移动端 Android/ios:https://kimi.volctrack.com/a/E3w3Q1xa 。 2. 文心一言:百度出品的 AI 对话产品,定位是智能伙伴,能写文案、想点子,又能陪你聊天、答疑解惑。 3. 通义千问:由阿里云开发的聊天机器人,能够与人交互、回答问题及协作创作。 4. 可灵:由快手团队开发的 AI 应用,主要用于生成高质量的图像和视频,生成的图像质量非常高。最初采用内测邀请制,现在已向所有用户开放使用。但价格相对较高,对于重度用户,最高档的年费可能达到几千元人民币,若临时或轻度使用,有每日免费点数和 60 多元单月的最便宜包月选项。 5. 通义万相:作为国产 AI 工具,在中文理解和处理方面表现出色,用户可从多种艺术风格和图像风格中选择,生成的图像质量较高、细节丰富,操作界面简洁直观、用户友好度高,且能与阿里其他产品和服务无缝整合。重点是现在免费,每天签到获取灵感值即可。但为符合国内监管要求,某些类型的图像可能无法生成,在处理非中文语言或国际化内容方面可能不如一些国际 AI 图像生成工具出色,处理多元文化内容时可能存在偏差。 内容由 AI 大模型生成,请仔细甄别。
2024-11-10
用 Coze 免费打造自己的图像生成 AI 机器人
以下是用 Coze 免费打造自己的图像生成 AI 机器人的步骤: 1. 注册 Coze 账号 访问 Coze 官网,快速注册,开启智能之旅。 Coze 中文名扣子,字节跳动出品。 中文版:https://www.coze.cn/(支持大模型:kimi、云雀)——本次教程使用中文版 Coze。 英文版:https://coze.com/(支持大模型:chatgpt4) 产品定位:新一代 AI 原生应用开发服务平台,Nextgeneration AI chatbot building platform。 2. 创建你的机器人 登录 Coze,可使用抖音或手机号登陆,登陆后选择“创建 Bot”,然后起一个响亮的名字。 登录页面、首页、创建 Bot 时,工作空间选“个人空间”即可。 小技巧:“图标”AI 可以自动生成,先在“Bot 名称”那里用文字描述你想要的图标,图标生成满意后,再把“Bot 名称”改为简洁版名称。 此外,在实际体验中: 测试 AI Bot 时,可能会出现回答不完整的情况,如部分信息未给出,这是因为 Coze 国内版刚发布不久,有些官方和第三方插件的 API 调用和返回结果不太稳定。但官方会尽快解决。 成功的回答是根据提示词和插件+工作流的组合,结果非常详细。若加上自己的知识库甚至定制化使用数据库功能,AI Bot 的使用场景会更丰富。 国外版有免费的 GPT4 大模型使用,插件和工作流功能更丰富稳定,还有更多自定义插件和工作流功能,能更灵活定制 AI Bot。 作者演示上述步骤后发布的 AI Bot,其 ID 是:7333630516673167394,有兴趣可在 Coze 平台上搜索这个 ID 来体验。
2024-11-09
可以免费生成视频的ai
以下是一些可以免费生成视频的 AI 工具: Hidreamai(国内,有免费额度):https://hidreamai.com//AiVideo 。支持文生视频、图生视频,提示词使用中文、英文都可以。文生视频支持正向提示词、反向提示词、运镜控制、运动强度控制,支持多尺寸,可以生成 5s 和 15s 的视频。 ETNA(国内):https://etna.7volcanoes.com/ 。Etna 是一款由七火山科技开发的文生视频 AI 模型,能根据用户简短的文本描述生成相应的视频内容。生成的视频长度在 8 15 秒,画质可达 4K,最高 38402160,画面细腻逼真,帧率 60fps。 Dreamina(国内内测,有免费额度):https://jimeng.jianying.com/aitool/video/generate 。支持文生视频、图生视频、视频生视频,支持图生视频首尾帧功能,提示词使用中文、英文都可以。文生视频支持正向提示词、运镜控制、运动强度控制、帧数选择,支持多种尺寸,默认生成 3s 的视频。 可灵(免费):https://klingai.kuaishou.com/ 。支持文生视频、图生视频,支持图生视频首尾帧功能,提示词可使用中文。文生视频支持正向提示词、反向提示词、运镜控制、时长选择(5s、10s),支持多种尺寸,默认生成 5s 的视频。 Pika Labs:被网友评价为目前全球最好用的文本生成视频 AI。目前内测免费,生成服务托管在 discord 中。加入方式:在浏览器中打开链接 https://discord.gg/dmtmQVKEgt 点击加入邀请。在 generate 区生成,输入/create,在弹出的 prompt 文本框内输入描述即可生成视频,也可上传本地图片生成对应指令动态效果。对生成的视频不满意可再次生成优化效果。
2024-11-09
数字人软件
以下是一些制作数字人的工具: 1. HeyGen:这是一个 AI 驱动的平台,能创建逼真的数字人脸和角色,使用深度学习算法生成高质量肖像和角色模型,适用于游戏、电影和虚拟现实等应用。 2. Synthesia:AI 视频制作平台,允许创建虚拟角色并进行语音和口型同步,支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。 3. DID:提供 AI 拟真人视频产品服务和开发,只需上传人像照片和输入要说的内容,平台的 AI 语音机器人将自动转换成语音,然后合成逼真的会开口说话的视频。 更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。请注意,这些工具的具体功能和可用性可能会变化。使用时请遵守相关条款和政策,并注意版权和伦理责任。 此外,关于数字人的一些实战操作: 剪映数字人“个性化”:可用 AI 换脸软件完成,如: 1. 第一步打开谷歌浏览器,点击链接 https://github.com/facefusion/facefusioncolab 并点击 open colab 进到程序主要运行界面,在右上角点击“代码执行程序”选择“全部运行”,无需安装和付费。点击红框对应的 URL 打开操作界面。 2. 第二步,点击“source”上传自己的照片和“target”上传之前的剪映数字人视频,保持默认参数,点击“START”生成。 3. 第三步:等待专属数字人视频出炉。 用剪映制作数字人视频: 1. 在剪映右侧窗口顶部打开“数字人”选项,选取免费且适合的数字人形象,如“婉婉青春”,软件会播放其声音,可判断是否需要,点击右下角“添加数字人”添加到视频中,软件会生成对应音视频并添加到轨道中,左下角提示渲染完成,可点击预览查看效果。 2. 增加背景图片:删除先前导入的文本内容,点击左上角“媒体”菜单并“导入”按钮选择本地图片上传,将图片添加到视频轨道,可通过拖拽轨道右侧竖线使其与视频对齐,选中轨道可调整图片大小和数字人位置。
2024-11-12
数字营销是什么
数字营销是指借助数字技术和渠道来推广产品、服务或品牌的营销方式。以下为您介绍一些相关的数字营销工具和案例: Adsby:这是一个针对初创企业和小型企业的谷歌搜索广告转换工具。它利用人工智能创建、分析和扩展广告,为广告新手提供简化工具,也为专业人士提供强大功能,如通过智能 AI 驱动策略最大化广告支出回报(ROAS),提供每日优化、AI 生成的关键词建议、秒级的广告内容创作等服务,还有 14 天免费试用,以简单直观的平台指导用户设置广告活动。 【甲子光年】Web 3.0 之数字人营销白皮书(2022)33 页:提供了关于数字营销的相关研究和分析。 【国信证券】领先布局数字人营销,AIGC 赋予成长机遇:从证券角度探讨了数字人营销的布局和发展机遇。
2024-11-11
AI数字人工具,哪个好用?
以下是一些好用的 AI 数字人工具: 1. HeyGen:AI 驱动的平台,能创建逼真的数字人脸和角色,使用深度学习算法生成高质量肖像和角色模型,适用于游戏、电影和虚拟现实等应用。 2. Synthesia:AI 视频制作平台,允许创建虚拟角色并进行语音和口型同步,支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。 3. DID:提供 AI 拟真人视频产品服务和开发,上传人像照片和输入内容,平台的 AI 语音机器人能自动转换成语音并合成逼真的会开口说话的视频。 此外,还有以下相关工具: 1. MakeACharacter:一键生成 3D 数字人,可自定义面部特征,生成逼真 3D 角色,基于真实人类扫描数据,使用 Unreal Engine 渲染,支持中英文提示,兼容多个行业应用。 2. Rodin Gen1:拥有 1.5B 参数,可实现 3Dto3D 生成,生成 3D 模型及物理基础渲染材质,支持 3D LoRA 技术。 在算法方面,开源代码仓库有: 1. ASR 语音识别:openai 的 whisper(https://github.com/openai/whisper)、wenet(https://github.com/wenete2e/wenet)、speech_recognition(https://github.com/Uberi/speech_recognition)。 2. AI Agent:大模型包括 ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等。Agent 部分可使用 LangChain 的模块自定义(https://www.langchain.com/)。 3. TTS:微软的 edgetts(https://github.com/rany2/edgetts),只能使用预设人物声音,目前接口免费;VITS(https://github.com/jaywalnut310/vits)及其分支版本;sovitssvc(https://github.com/svcdevelopteam/sovitssvc),专注于唱歌。 请注意,这些工具的具体功能和可用性可能会随时间和技术发展而变化。在使用时,请确保遵守相关使用条款和隐私政策,并注意保持对生成内容的版权和伦理责任。更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42
2024-11-11
能够读取文本数字最多的大模型是哪一个
目前能够读取文本数字较多的大模型有以下几种: Claude2 模型的上下文上限是 100,000 个 token。 ChatGPT16k 模型的上下文上限是 16,000 个 token。 ChatGPT432k 模型的上下文上限是 32,000 个 token。 需要注意的是,token 限制会同时对一次性输入和一次对话的总体上下文长度生效。例如,一次性输入的文本长度以及一次对话中累计的上下文长度都受到相应的限制。当达到上限时,并非停止对话,而是会遗忘最前面的对话内容。
2024-11-08
我有一份PPT,我想对这个PPT进行图像设计等美观化处理,怎么来做?使用哪个工具好?
以下为您介绍一些可用于对 PPT 进行图像设计等美观化处理的工具及相关信息: 1. Gamma:这是一个在线 PPT 制作网站,允许用户通过输入文本和想法提示快速生成幻灯片。它支持嵌入多媒体格式,如 GIF 和视频,以增强演示文稿的吸引力。网址:https://gamma.app/ 2. 美图 AI PPT:由知名图像编辑软件“美图秀秀”的开发团队推出。用户通过输入简单的文本描述来生成专业的 PPT 设计,包含丰富的模板库和设计元素,可根据需求选择不同风格和主题的模板,适用于多种场合。网址:https://www.xdesign.com/ppt/ 3. Mindshow:一款 AI 驱动的 PPT 辅助工具,提供一系列智能设计功能,如自动布局、图像选择和文本优化等,还可能包括互动元素和动画效果。网址:https://www.mindshow.fun/ 4. 讯飞智文:由科大讯飞推出的 AI 辅助文档编辑工具,利用科大讯飞在语音识别和自然语言处理领域的技术优势,提供智能文本生成、语音输入、文档格式化等功能。网址:https://zhiwen.xfyun.cn/ 在对 PPT 进行排版时,工具的选择可根据个人顺手程度决定,对于打工人来说,PPT 是较为熟练的选择。关于尺寸问题,如果想要打印,4:3 的比例比较适合童书绘本的比例,出图时可按此比例,文字可直接排版到画面上;若出图为 16:9 横板,排版时 4:3 可把文字放在图片下面。若要发小红书或者小绿书,竖版更合适,比例选 3:4,出图也选竖版。制作 H5 时,出图选竖版,比例选 9:16。所有排版尺寸在 PPT 里都可以选。另外,PPT 里的删除背景功能对于基础抠图很有用。用 PPT 另存为图片时,直接选 jpg 或 png 格式会降低图片清晰度,可先另存为“增强型 Windows 源文件”格式,再用画图软件打开另存为 JPG 以得到高清图。
2024-11-12
可以调用不同大预言模型的整合工具推荐
以下是为您推荐的可以调用不同大语言模型的整合工具: 1. Poe:由 Quora 开发,有 APP 版本,支持跨端使用。集成了 Chat GPT、GPT4、Claude+、Claude、Dragonfly 等模型,同时支持用户自建 Chatbot。不同语言模型回复效果有差异,适合需要调用多种大语言模型的用户。访问地址: 。Dragonfly 擅长给出较短的回答,并擅长在输入中给出示例时遵循指示。Claude 更擅长创造性回复,配合 Poe 中的提问引导,非常适合在查阅资料时使用,有时能够给出超越直接使用 Chat GPT 时的体验(但和 Chat GPT 一样,Claude 也时常会给出一些错误回复,一些问题可以尝试在两个模型中都问一遍提升信息准确性)。此外支持分享用户和模型的对话内容,但 GPT4、Claude+产品需要付费订阅使用。 2. 国内的一些模型,如智谱和文心,在文生图方面有一定能力。 另外,大模型工具可根据自身条件准备,推荐顺序为:1. chatGPT 4.0 2. kimichat 3. 智谱清言 4 。
2024-11-12
有哪些工具直接可以调用国外的多个LLM
以下是一些关于能够调用国外多个 LLM 的相关信息: 开源项目作者 ailm 提出一种仅使用提示词工程和精巧的代码设计,让 LLM 获得稳定的 tool calling 能力,使用多个不具备该功能的 LLM 进行实验,成功率达 100%,工作基于 comfyui 开发,适合无代码基础的人员复现和修改。 在高级提示词工程领域,工具、连接器和技能的整合能显著增强 LLM 的能力。工具是指 LLM 可利用的外部功能或服务,扩展任务范围;连接器是 LLM 与外部工具或服务的接口,管理数据交换和通信;技能是 LLM 可执行的专门功能。 目前开源模型与专有产品存在差距但在缩小,如 Meta 的 LLaMa 模型引发一系列变体。当开源 LLM 达到一定准确度水平时,预计会有大量实验等。开发人员对 LLM 操作工具的研究尚不深入,一些工具如缓存(基于 Redis)、Weights & Biases、MLflow、PromptLayer、Helicone 等得到较广泛使用,还有新工具用于验证 LLM 输出或检测攻击。多数操作工具鼓励使用自身的 Python 客户端进行 LLM 调用。
2024-11-12
集成LLM的工具
以下是关于集成 LLM 的工具的相关内容: 一、“手臂和腿部”:赋予模型使用工具的能力 1. 从知识挖掘转向行动导向,增加模型使用工具的能力,有望在消费者和企业领域实现一系列用例。 对于消费者,LLMs 可能给出菜谱建议并订购食材,或推荐早午餐地点并预订餐桌。 在企业领域,创始人可接入 LLMs 使应用程序更易用,如在 Salesforce 等应用中,用户能用自然语言更新,模型自动更改,减少维护 CRM 所需时间。 2. LLM 虽对常见系统有复杂理解能力,但无法执行提取的信息。不过,公司在不断改善其使用工具的能力。 老牌公司如必应、谷歌和初创公司如 Perplexity、You.com 推出搜索 API。 AI21 Labs 推出 JurassicX,解决独立 LLMs 缺陷。 OpenAI 推出 ChatGPT 插件测试版,允许与多种工具交互,在 GPT3.5 和 GPT4 中引入函数调用,允许开发者将 GPT 能力与外部工具链接。 二、无需微调,仅用提示词工程就能让 LLM 获得 tool calling 的功能 1. 提示词工程主要由提示词注入和工具结果回传两部分代码组成。 2. 提示词注入用于将工具信息及使用工具的提示词添加到系统提示中,包含 TOOL_EAXMPLE、tools_instructions、REUTRN_FORMAT 三个部分。 TOOL_EAXMPLE 提示 LLM 如何理解和使用工具,编写时用无关紧要工具作示例避免混淆。 tools_instructions 是通用工具字典转换成 LLM 可读的工具列表,可动态调整。 REUTRN_FORMAT 定义调用 API 格式。 3. 工具结果回传阶段利用正则表达式抓取输出中的“tool”和“parameters”参数,对于 interpreter 工具使用另一种正则表达式提取 LLM 输出的代码,提高使用成功率。通过识别 LLM 返回的调用工具字典,提取对应值传入工具函数,将结果以 observation 角色返回给 LLM,对于不接受某些角色的 LLM 接口,可改为回传给 user 角色。通过以上提示词工程,可让无 tool calling 能力的 LLM 获得稳定的该能力。
2024-11-12
利用gpt-4模型的AI工具有哪些
以下是一些利用 GPT4 模型的 AI 工具: 1. Kickresume 的 AI 简历写作器:使用 GPT4 语言模型自动生成简历,能为简历摘要、工作经验和教育等专业部分编写内容,并保持一致语调。 2. Rezi:受到超过 200 万用户信任的领先 AI 简历构建平台,使用先进的 AI 技术自动化创建可雇佣简历的各个方面,包括写作、编辑、格式化和优化。 3. Huntr 的 AI 简历构建器:提供免费的简历模板,以及 AI 生成的总结/技能/成就生成器和 AI 驱动的简历工作匹配。 更多 AI 简历产品,还可以查看这里:https://www.waytoagi.com/category/79 。您可以根据自己的需要选择最适合的工具。 此外,在生成式人工智能领域,GPT4 有以下突破点: 1. 赋予模型使用工具的能力,如 OpenAI 推出的 ChatGPT 插件测试版,允许与多种工具交互。 2. 在计划和解决问题方面具有一定能力,能通过玩游戏或模拟环境快速学习和从经验中学习。 3. 在许多任务上达到人类水平的表现,对人类的理解有所提升。 4. 但也存在一些限制,如架构中的自回归特性导致缺乏规划能力等。
2024-11-12
用哪个AI工具可以做PPT
以下是一些可以用于制作 PPT 的 AI 工具: 1. Gamma:这是一个在线 PPT 制作网站,允许用户通过输入文本和想法提示快速生成幻灯片。它支持嵌入多媒体格式,如 GIF 和视频,以增强演示文稿的吸引力。网址:https://gamma.app/ 2. 美图 AI PPT:由知名图像编辑软件“美图秀秀”的开发团队推出。用户通过输入简单的文本描述来生成专业的 PPT 设计,包含丰富的模板库和设计元素,适用于多种场合。网址:https://www.xdesign.com/ppt/ 3. Mindshow:一款 AI 驱动的 PPT 辅助工具,提供自动布局、图像选择和文本优化等智能设计功能,还可能包括互动元素和动画效果。网址:https://www.mindshow.fun/ 4. 讯飞智文:由科大讯飞推出的 AI 辅助文档编辑工具,利用科大讯飞在语音识别和自然语言处理领域的技术优势,提供智能文本生成、语音输入、文档格式化等功能。网址:https://zhiwen.xfyun.cn/ 此外,还有一些用户在实践中使用的组合,如 Claude + Gamma.app,以及 GPT4、WPS AI 和 chatPPT 等。
2024-11-11