直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

用文本生成视频加数字人

回答

以下是用文本生成视频加数字人的方法:

一、创建视频内容

  1. 准备内容
    • 先准备一段视频中播放的内容文字,可以是产品介绍、课程讲解、游戏攻略等任何您希望推广让大家了解的文字。您也可以利用 AI 来生成这段文字。
  2. 制作视频
    • 使用剪映 App 对视频进行简单处理。电脑端打开剪映 App,点击“开始创作”,进入创作页面。
    • 选择顶部工具栏中的“文本”,点击默认文本右下角的“+”号,为视频添加一个文字内容的轨道。

二、生成数字人

  1. 生成数字人
    • 在剪映右侧窗口顶部,打开“数字人”选项,选取一位免费且适合的数字人形象,如“婉婉-青春”。
    • 选择数字人形象时,软件会播放其声音,可判断是否需要,点击右下角“添加数字人”,软件会根据之前提供的内容生成对应音视频,并添加到当前视频中。
    • 左下角会提示渲染完成时间,然后可点击预览按钮查看生成的数字人效果。
  2. 增加背景图片
    • 直接删除先前导入的文本内容,因为视频中的音频已包含文字内容。
    • 点击左上角“媒体”菜单,点击“导入”按钮,选择本地一张图片上传。
    • 选择的图片会添加到视频轨道下方的新轨道,将轨道最右侧竖线向右拖拽至视频最后,使其在整个视频播放时都显示。
    • 选中背景图片所在轨道,在显示区域拖动图片角将其放大到适合尺寸,覆盖视频窗口,并将数字人拖动到合适位置。
  3. 增加字幕
    • 点击“文本 - 智能字幕 - 识别字幕,点击开始识别”,软件会自动将文字智能分段并形成字幕。

至此,数字人视频就完成了。点击右上角“导出”按钮,导出视频以作备用。如果希望数字人换成自己希望的面孔,则需要用另一个工具来进行换脸。

内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

实战: 每个人都可以用10分钟轻松制作AI换脸、AI数字人视频的方法!

3.1生成数字人在剪映右侧窗口顶部,我们打开“数字人”选项,选取一位免费的、适合的数字人形象,这里我选择“婉婉-青春”。当你选择一个数字人形象时,软件会马上播放出该数字人的声音。你可以判断是否是你需要的,点击右下角的“添加数字人”,就会将选择的数字人添加到当前视频中。剪映App将会根据之前提供的内容,来生成对应音视频,并添加到当前视频文件的轨道中。左下角会提示你渲染何时完成。然后你可以点击预览按钮,查看生成的数字人效果。3.2增加背景图片接下来,可以直接删除先前导入的文本内容。这是因为视频中的音频中已经包含文字内容了。鼠标点击下方代表文字的轨道,或者点击软件中间文字内容,按删除键删去文字:为了让视频更美观,我们为视频增加背景图片。当然你可以增加多个背景图片,为简化演示,这里增加1张图片。点击左上角的“媒体”菜单,并点击“导入”按钮,来选择本地的一张图片上传:我选择一张书架图片上传,然后像添加文字内容一样,点击图片右下角的加号,将这个图片添加到视频的轨道上(会覆盖数字人):

实战: 每个人都可以用10分钟轻松制作AI换脸、AI数字人视频的方法!

此时,书架图片就会在视频轨道的下面,添加一条新轨道:为了让图片在整个视频播放的时候都显示,可以点击这个轨道最右侧的竖线,向右拖拽,直到视频的最后,也就是和视频对齐:此时,背景图片所在的轨道是选中状态。如果没选中,鼠标点击一下这个规定即可。在显示区域,拖动背景图的一个角,将图片放大到适合的尺寸,比如覆盖视频窗口。并将数字人拖动到合适的位置:3.3增加字幕点击文本-智能字幕-识别字幕,点击开始识别:软件会自动将文字智能分段并形成字幕:至此,数字人视频就完成了。点击右上角的“导出”按钮,导出视频以作备用。如果你希望数字换成自己希望的面孔,比如这个:就需要用另一个工具来进行换脸了。

实战: 每个人都可以用10分钟轻松制作AI换脸、AI数字人视频的方法!

2.1准备内容我们需要先准备一段视频中播放的内容文字。内容可以是产品介绍、课程讲解、游戏攻略、等任何你希望推广,让大家了解的文字。当然,你也可以利用AI来生成这段文字。我准备的内容如下大约有500字,制作出的视频大约为1分30秒:注:视频文字内容由[新域创业](http://mp.weixin.qq.com/s?__biz=Mzg4ODUzMjk4NA==&mid=2247500743&idx=2&sn=8756d6aa9d338aad662b06c6a936f741&chksm=cffb3950f88cb046c0c56308eec30295d8c07c38e4ff609d9dfa4c7392b01f0c470d1887b1e0&scene=21#wechat_redirect)提供。2.2制作视频我们使用剪映App来对视频进行简单的处理。这是一款功能强大的视频编辑软件,个人免费版就足够我们实现制作目的。电脑端打开剪映App,点击“开始创作”。进入创作页面:我们选择顶部工具栏中的:文本,并点击默认文本右下角的“+”号,这个动作代表了为视频添加一个文字内容的轨道。

其他人在问
想找一个强大的生成视频文本解读分镜头解读的AI工具
以下为您推荐一个强大的生成视频文本解读分镜头解读的 AI 工具——MMVid。 这是一个集成的视频理解系统,能处理和理解长视频内容并进行问答。其应用场景广泛,包括: 1. 快速的视频剪辑:只需输入镜头脚本,即可提取素材库内容进行拼接。 2. 快速的图生视频:结合图像识别,根据镜头脚本提取相同 seed 值的图片,通过 runwayml 思路生成 3 5 秒视频,再结合 comfy ui 自动化拼接。 3. 快速诊断:思路和之前的医疗诊断类似。 MMVid 属于 AI 学习模型,由 Microsoft Azure AI 开发,结合了 GPT4V 的能力和其他视觉、音频和语音处理工具,能够自动识别和解释视频中的元素,如人物行为、情感表达、场景变化和对话内容,从而实现对视频故事线的理解。其核心功能是将视频中的多模态信息(如视觉图像、音频信号和语言对话)转录成详细的文本脚本,以便大语言模型理解视频内容。 其官方网站等更多详细信息可进一步查询。
2024-09-16
用文本生成PPT的AI工具
以下是一些用文本生成 PPT 的 AI 工具: 1. 熊猫 Jay:点击文本转 PPT,在提示框中选择确定,即可得到转换后的 PPT,并可在线编辑。 2. 讯飞智文:由科大讯飞推出的 AI 辅助文档编辑工具,利用科大讯飞在语音识别和自然语言处理领域的技术优势,可能提供智能文本生成、语音输入、文档格式化等功能,旨在提高文档编辑效率。网址:https://zhiwen.xfyun.cn/ 3. Gamma:在线 PPT 制作网站,允许用户通过输入文本和想法提示快速生成幻灯片,支持嵌入多媒体格式,如 GIF 和视频,以增强演示文稿的吸引力。网址:https://gamma.app/ 4. 美图 AI PPT:由知名图像编辑软件“美图秀秀”的开发团队推出,允许用户通过输入简单的文本描述来生成专业的 PPT 设计,包含丰富的模板库和设计元素,适用于多种场合。网址:https://www.xdesign.com/ppt/ 5. Mindshow:AI 驱动的 PPT 辅助工具,提供自动布局、图像选择和文本优化等智能设计功能,还包括互动元素和动画效果,以增强演示文稿的吸引力。网址:https://www.mindshow.fun/ 目前市面上大多数 AI 生成 PPT 按照如下思路完成设计和制作: 1. AI 生成 PPT 大纲 2. 手动优化大纲 3. 导入工具生成 PPT 4. 优化整体结构 推荐 2 篇市场分析的文章供参考: 1. 《》 2. 《》
2024-09-15
免费文本AI处理工具
以下是为您整理的免费文本 AI 处理工具相关信息: AIGC 论文检测网站: 提供了免费的 AI 内容检测工具,可识别文本是否由 AI 生成。使用方法是将文本粘贴到在线工具中点击检测按钮获取分析结果。 绘制逻辑视图、功能视图、部署视图的工具: PlantUML:文本到 UML 的转换工具,可通过编写描述性文本自动生成序列图、用例图、类图等,辅助创建逻辑视图。 Gliffy:基于云的绘图工具,提供创建各种架构图的功能,包括逻辑视图和部署视图。 Archi:免费开源工具,用于创建 ArchiMate 和 TOGAF 模型,支持逻辑视图创建。 Rational Rose:IBM 的 UML 工具,支持创建多种视图,包括逻辑视图和部署视图。需要注意的是,这些工具并非都基于 AI,在选择时应考虑具体需求,如是否支持特定建模语言、与开发工具集成、偏好在线或桌面应用等。 内容仿写 AI 工具: 秘塔写作猫:https://xiezuocat.com/ ,是 AI 写作伴侣,能推敲用语、斟酌文法、改写文风、实时同步翻译,支持全文改写、一键修改、实时纠错并给出修改建议,智能分析文章属性并打分。 笔灵 AI 写作:https://ibiling.cn/ ,是智能写作助手,能处理多种文体,支持一键改写/续写/扩写,智能锤炼打磨文字。 腾讯 Effidit 写作:https://effidit.qq.com/ ,由腾讯 AI Lab 开发的智能创作助手,提升写作者效率和创作体验。更多 AI 写作类工具可查看:https://www.waytoagi.com/sites/category/2 。 以上内容由 AI 大模型生成,请仔细甄别。
2024-09-13
文本生成PPT
以下是关于文本生成 PPT 的相关内容: 超全的 AI 工具生成 PPT 的思路和使用指南:点击文本转 PPT,并在提示框中选择确定,即可得到转换后的 PPT,还可在线编辑。 做 PPT 的 AI 产品:讯飞智文是由科大讯飞推出的 AI 辅助文档编辑工具,利用科大讯飞在语音识别和自然语言处理领域的技术优势,提供智能文本生成、语音输入、文档格式化等功能,提高文档编辑效率。网址:https://zhiwen.xfyun.cn/ 。目前市面上大多数 AI 生成 PPT 按照如下思路完成设计和制作:AI 生成 PPT 大纲、手动优化大纲、导入工具生成 PPT、优化整体结构。 推荐文章:《》 成熟案例参考: step 1(根据 PPT 大纲助手 GPTs 生成 PPT 大纲):https://chat.openai.com/g/gOKorMBxxUpptdagangzhushou step 2(根据输入文本生成 PPT 内容 GPTs 生成 PPT 内容):https://chat.openai.com/g/gYJs9jxVBHshuruwenbenshengchengpptneirong step 3(将生成的内容复制到 Marp Web 渲染简洁的 PPT):https://web.marp.app/
2024-09-13
可以给你一个文本,你模仿它的框架,但是主题换一个,你可以做到吗
可以做到。您请给出新的主题,我会按照要求进行模仿创作。
2024-09-06
图像转文本
以下是关于图像转文本的相关信息: 图像字幕任务是指基于输入的图像,生成描述该图像内容的一段文本。对于此任务,会使用一组成对的图像和文本数据,目标是建立和训练一个可以根据图像生成文本描述的模型。 目前语音转文本 API 提供了两个端点,即基于最先进的开源大型v2 Whisper 模型的转录和翻译,可用于将音频转录为任何语言,将音频翻译并转录成英语。目前文件上传限制为 25MB,并支持 mp3、mp4、mpeg、mpga、m4a、wav 和 webm 等输入文件类型。 在 Stable Diffusion 中,图片生成图片的过程中,输入为图像和 prompt,输出为图像。其中 Load Checkpoint 模块对 SD 模型的主要结构进行初始化(VAE,UNet),CLIP Text Encode 是文本编码器,可输入 prompt 和 negative prompt 控制图像生成,Load Image 表示输入的图像,KSampler 表示调度算法以及 SD 相关生成参数,VAE Encode 表示使用 VAE 的编码器将输入图像转换成低维度的隐空间特征,VAE Decode 表示使用 VAE 的解码器将低维度的隐空间特征转换成像素空间的生成图像。与文字生成图片的过程相比,图片生成图片的预处理阶段,先把噪声添加到隐空间特征中,通过设置去噪强度(Denoising strength)控制加入噪音的量,如果为 0 则不添加噪音,为 1 则添加最大数量的噪音,使潜像成为一个完整的随机张量,若将去噪强度设置为 1,就完全相当于文本转图像,因为初始潜像完全是随机的噪声。
2024-09-02
文字生成视频怎么做
文字生成视频通常指使用人工智能技术将文本内容转换成视频的服务。以下为您介绍一些相关产品及操作方法: 产品推荐: 1. Pika:一款出色的文本生成视频 AI 工具,擅长动画制作,并支持视频编辑。 2. SVD:若您熟悉 Stable Diffusion,可安装其最新插件,能在图片基础上直接生成视频,这是由 Stability AI 开源的 video model。 3. Runway:老牌 AI 视频生成工具,提供实时涂抹修改视频的功能,但需注意是收费的。 4. Kaiber:视频转视频 AI,能够将原视频转换成各种风格的视频。 5. Sora:由 OpenAI 开发,可以生成长达 1 分钟以上的视频。 更多的文生视频的网站可以查看:https://www.waytoagi.com/category/38 (内容由 AI 大模型生成,请仔细甄别) Sora 的功能: 1. 文字生成视频,时长可到 60 秒。 2. 图片生成视频。 3. 扩展视频,能够在时间上向前或向后扩展视频,可产生无缝的无限循环。 4. 通过文本编辑视频,使用扩散模型的相关技术零次射击地转换输入视频的风格和环境。 Runway 生成视频的操作步骤: 1. 选择左侧工具栏“生成视频”。 2. 选择“文字/图片生成视频”。 3. 将图片拖入框内。 4. 选择一个动画系数。 5. 点击生成 4 秒视频。 6. 下载视频。 您可以根据自己的具体情况选择适合的工具。
2024-09-17
runway视频转绘用法
以下是关于 runway 视频转绘的用法: 转绘教程(Ebsynth Utility): 选择前面模糊的片段,点击 DELETE 键或退格键删除。处理完视频后,点击右上角的导出按钮导出新视频,注意导出名称最好使用英文。 注意事项: 校准:有时下载的视频可能不是标准比例,需用剪影处理。若不处理,由于 SD 图片绘制分辨率按 8 的倍数增加,即使绘制时按原视频分辨率,最后视频合成仍可能报错,一定要检查。 视频缩小:老板给的 4K 视频,SD 最大只能完成 20482048 的绘制,往上无法完成且制作时间大幅上升。 分辨率模糊的视频:若客户要求强烈,可先提升分辨率(推荐使用 TopazVideoAI 插件),不行则放弃。 图片生成视频: 进入 runway 官网首页,点击 start with image,然后直接将图片拖进来。 动画幅度尽量用 3、5,有时会乱跑。 不需要等进度条转完,可以直接继续往里放图片,可同步执行。 直接点删除,然后重新上传下面的图即可(最多可放数量可自行测试)。 图生视频(常规方法): 以汽车内饰片段为例,登录 runway 账户后,在首页左侧点击“Text/Imagine to Video”(文生视频/图生视频)。 点击 2 处将汽车内饰的图片上传到 runway 中。 1 处可更改生成图片所用到的大模型版本,数字越大代表模型越强,目前只有 Gen2 每天有免费额度。 3 处用于输入提示词。 4 处可以修改生成的视频时长为 5s 或 10s,时长越长,生成的效果可能越不稳定。 5 处可以看到生成的结果。 提示词方框中输入的运镜方式“Roll Clockwise Shot slowly”,即摄像机围绕垂直轴顺时针旋转。不想动脑的话,每个片段的运镜方式根据分镜表的建议来即可。运镜提示词可参照: 。 很多时候提示词过多,生成的视频会很怪异,改变提示词,改变生成时长,多抽卡几次,毕竟 runway 会员可以无限抽卡。
2024-09-16
根据一句话文生视频给出关键词数据的工具
以下是一些根据一句话文生视频给出关键词数据的工具及相关信息: 在 SD 中,图生图功能除文本提词框外还有图片输入口,可通过图片反推提示词,如 CLIP 能反推出完整含义的句子,DeepBooru 能反推出关键词组,但生成的提示词可能存在瑕疵,需手动补充。 Morphstudio 中,文生视频的提示词指令为:/video。 文字生成视频的 AI 产品有:Pika 擅长动画制作且支持视频编辑;SVD 是 Stable Diffusion 的插件;Runway 是老牌收费工具,提供实时涂抹修改视频功能;Kaiber 能将原视频转换成各种风格;Sora 由 OpenAI 开发,可生成长达 1 分钟以上的视频。更多相关网站可查看。但请注意内容由 AI 大模型生成,请仔细甄别。
2024-09-16
目前可以生产4k画质视频的ai工具
以下是一些可以生产 4K 画质视频的 AI 工具: 1. 国内: Etna(国内):由七火山科技开发的文生视频 AI 模型,可根据简短文本描述生成相应视频内容。生成的视频长度在 8 15 秒,画质可达 4K(最高 38402160),画面细腻逼真,帧率 60fps,支持中文,具备时空理解能力。 2. 海外: Haiper(有免费额度):支持文生视频、图生视频、素描生视频、扩展视频,能生成 HD 超高清的视频。文生视频支持选择风格、秒数(2s 和 4s)、种子值。还支持图生视频,不过只能写提示词、秒数(2s 和 4s)、种子值。此外,具有视频重绘功能,包括轻松修改颜色、纹理和元素以改变原视频的视觉内容,但大量背景的重绘效果一般,视频容易崩。 另外,在实际使用中,不同的 AI 视频工具在处理不同类型的画面时各有优劣,比如: Pika 对于奇幻感较强的画面把控较好,会比较自然,但真实环境的画面比较容易糊,更新的唇形同步功能虽未引发热议,但嘴形同步集成到平台上比较便捷。 Pixverse 在高清化方面有优势,对于一些偏风景和纪录、有特定物体移动的画面友好,但生成的视频有点帧率问题,导致处理到人物时会有种慢速播放的感觉,容易出戏。 Runway 在真实影像方面质感最好,战争片全景的镜头处理得最好,控件体验感较好,但特别爱变色,光影非常不稳定。 在制作视频时,可以根据不同工具对画面的处理能力进行组合使用。例如,Pixverse 擅长物体滑行运动,可用于生成相关视频,若其中部分画面有问题,可放到 Pika 里面去局部重绘。有手部特殊运动的画面,可用 Runway 来辅助完成。
2024-09-16
哪里有系统的视频教程?
以下是一些系统的 AI 相关视频教程资源: 关于 stable diffusion 的教程: 「AI 绘画」软件比较与 stable diffusion 的优势 「AI 绘画」零基础学会 Stable Diffusion 「AI 绘画」革命性技术突破 「AI 绘画」从零开始的 AI 绘画入门教程——魔法导论 「入门 1」5 分钟搞定 Stable Diffusion 环境配置,消灭奇怪的报错 关于 ComfyUI 的教程: ComfyUI 官方文档:提供了 ComfyUI 的使用手册和安装指南,适合初学者和有经验的用户。可在找到相关信息。 优设网:提供了一篇详细的 ComfyUI 入门教程,适合初学者,详细介绍了 ComfyUI 的特点、安装方法以及如何使用 ComfyUI 生成图像等内容。教程地址是。 知乎:有用户分享了 ComfyUI 的部署教程和使用说明,适合有一定基础并希望进一步了解 ComfyUI 的用户。可在找到相关教程。 Bilibili:提供了一系列的 ComfyUI 视频教程,涵盖了从新手入门到精通的各个阶段。可在找到视频教程。 请注意,上述内容由 AI 大模型生成,请仔细甄别。
2024-09-15
表格生成的ai
以下是关于表格生成的 AI 相关内容: 1. 在 Excel 方面,有以下几种增强数据处理和分析能力的 AI 工具和插件: Excel Labs:是一个 Excel 插件,新增了基于 OpenAI 技术的生成式 AI 功能,可在 Excel 中进行数据分析和决策支持。 Microsoft 365 Copilot:微软推出的整合了多种办公软件的 AI 工具,能通过聊天形式完成如数据分析、格式创建等任务。 Formula Bot:提供数据分析聊天机器人和公式生成器两大功能,支持自然语言交互进行数据分析和生成 Excel 公式。 Numerous AI:支持 Excel 和 Google Sheets 的 AI 插件,可生成公式、文本内容,执行情感分析、语言翻译等任务。 2. 多模态数据生成产业中,表格生成通过变分自编码器(VAEs)和序列到序列模型(Seq2Seq)等技术实现,包括生成表格文件、表格公式,以及进行表格结构设计、数据分析表、表格自动化等操作。 3. 相关产品推荐: GPT3.5 Tableinator:输入主题可生成带有维基百科链接的信息表,但需要使用自己的 Open AI API key。 随着技术发展,未来可能会有更多 AI 功能集成到 Excel 中,进一步提高工作效率和数据处理的智能化水平。请注意,以上内容由 AI 大模型生成,请仔细甄别。
2024-09-15
文档自动生成PPT
以下是关于文档自动生成 PPT 的相关内容: 生成 PPT 的方法: 1. 点击文本转 PPT,并在提示框中选择确定,得到转换后的 PPT 后可在线编辑。 2. 利用讯飞智文等工具,它是由科大讯飞推出的 AI 辅助文档编辑工具,利用了科大讯飞在语音识别和自然语言处理领域的技术优势,可能提供智能文本生成、语音输入、文档格式化等功能。网址:https://zhiwen.xfyun.cn/ 3. 目前市面上大多数 AI 生成 PPT 的思路是:AI 生成 PPT 大纲,手动优化大纲,导入工具生成 PPT,优化整体结构。 相关案例: 卓 sir 的做法是先让 GPT4 生成 PPT 大纲,然后把大纲导入到 WPS 当中,启用 WPS AI 一键生成 PPT,为了让 PPT 更有灵动性和观感,让 chatPPT 添加一些动画,最后手动修改细节,比如字体、事实性错误等。 扩展阅读: 1. 《》 2. 《》 相似问题: 1. 有没有生成 PPT 的应用推荐,不用翻墙的 2. 免费生成 PPT 的网站有哪些 3. 推荐一款文字生成 ppt 的工具
2024-09-14
AI生成3D模型
以下是关于 AI 生成 3D 模型的相关信息: 使用 Tripo AI 生成 3D 模型: 在「Create」界面底部的输入框中输入提示词(不支持中文)。不会写提示词可点击输入框左侧的</>按钮随机生成并自动填入。填写好后点击右侧的「Create」生成 3D 模型,每次会生成 4 个基础模型。若不满意可点击最下方白色的「Retry」重新生成 4 个。若有满意模型,点击单个模型下方黄色的「Refine」精修,在「My Models」中可查看精修进度,一般 5 分钟左右完成。 其他 AI 生成 3D 模型工具: 1. xiaohu.ai 相关: BakedAvatar 动态 3D 头像:从视频创建逼真 3D 头部模型,实时渲染和多视角查看,兼容多种设备,交互性编辑。链接:https://buaavrcg.github.io/BakedAvatar/ 、https://x.com/xiaohuggg/status/1744591059169272058?s=20 MakeACharacter:一键生成 3D 数字人,可自定义面部特征,基于真实人类扫描数据,使用 Unreal Engine 渲染,支持中英文提示,兼容多个行业应用。链接:https://x.com/xiaohuggg/status/1743986486780076279?s=20 Rodin Gen1:3D 原生生成模型,拥有 1.5B 参数,可实现 3Dto3D 生成,生成 3D 模型及物理基础渲染材质,支持 3D LoRA 技术。链接:https://x.com/xiaohuggg/status/1743638052097184102?s=20 Skybox AI 0.9 版本更新:可以从文本提示或草图生成 360 度 3D 世界,使用 NeRF 技术,增强图像的空间深度和真实感,提供不同分辨率的 3D 网格下载。 2. CSM_ai:文本、图像或草图转换为 3D 素材,直接应用于游戏中,无需后期处理。体验地址:https://cube.csm.ai 链接:https://x.com/xiaohuggg/status/1763758877999587757?s=20 3. Move AI 推出 Move API:从 2D 视频生成 3D 运动数据,支持多种 3D 文件格式导出,为 AR 应用、游戏开发等提供高质量 3D 运动数据。链接:https://move.ai/api 、https://x.com/xiaohuggg/status/1761590288576061573?s=20 4. ComfyUI 3D Pack 引入 3D 图像处理:快速将图片转换为 3D 模型,支持多角度查看,使用 3D 高斯扩散技术提升模型质量,支持多种格式导出,集成先进 3D 处理算法。链接:https://github.com/MrForExample/ComfyUI3DPack/tree/main 、https://x.com/xiaohuggg/status/1755824687811346514?s=20 5. Medivis 的 SurgicalAR 手术应用:将 2D 医疗图像转化为 3D 互动视觉,提高手术精度,支持 3D 模型的放大、缩小、旋转,精确手术计划。链接:https://t.co/3tUvxB0L4I
2024-09-14
免费制作数字人程序
以下是免费制作数字人的方法: 1. 打开剪映,添加文本到文字轨道,修改好需要朗读的文字。 2. 点击朗读进行声音克隆,剪映的声音克隆现在只用念一句话就可完成。 3. 克隆完成后,选择喜欢的数字人形象,并把自己的克隆音色换上去。 4. 一键智能生成字幕,自行调整文字样式并校准。 在剪映中生成数字人的具体步骤: 1. 在剪映右侧窗口顶部,打开“数字人”选项,选取一位免费且适合的数字人形象,如“婉婉青春”。选择数字人形象时,软件会播放其声音,可判断是否需要,点击右下角“添加数字人”,将其添加到当前视频中,软件会根据提供的内容生成对应音视频并添加到轨道中,左下角会提示渲染完成时间,可点击预览查看效果。 2. 增加背景图片:删除先前导入的文本内容,为视频增加背景图片。点击左上角“媒体”菜单,点击“导入”按钮选择本地图片上传,点击图片右下角的加号将其添加到视频轨道上(会覆盖数字人)。 数字人“私有化”的方法: 1. 尽管剪映已有很多公模数字人,但私模数字人更受欢迎。可使用 AI 换脸软件完成最后一步。 2. 注意需要谷歌账号(淘宝或者在账号解决平台“”可直接购买)。 3. 第一步:打开谷歌浏览器,点击链接 https://github.com/facefusion/facefusioncolab 并点击 open colab 进到程序主要运行界面,在右上角点击“代码执行程序”选择“全部运行”就行,无需安装,无需付费。点击红框对应的 URL 就会打开操作界面。 4. 第二步:点击“source”上传自己的照片和“target”上传之前的剪映数字人视频,保持默认参数,点击“START”就能生成。 5. 第三步:等待自己专属的数字人视频出炉。
2024-09-17
数字媒体艺术专业,毕设建筑浏览动画,灵感推荐
很抱歉,目前知识库中没有关于数字媒体艺术专业毕设建筑浏览动画灵感推荐的相关内容。但您可以从以下几个方面获取灵感: 1. 研究著名建筑大师的作品及其设计理念,从中汲取创意。 2. 观察不同文化和地域的特色建筑,将其独特元素融入动画。 3. 参考科幻电影或游戏中对未来建筑的想象和呈现方式。 4. 关注当下的建筑趋势,如绿色建筑、智能建筑等,从中获得启发。 5. 从自然景观中获取灵感,例如山脉、河流等的形态和韵律,运用到建筑的造型和布局中。
2024-09-14
数字媒体艺术专业,毕设做三维建筑浏览动画,灵感推荐
很抱歉,目前知识库中没有关于数字媒体艺术专业毕设做三维建筑浏览动画的灵感推荐相关内容。但您可以从以下几个方面获取灵感: 1. 研究不同风格的建筑,如现代主义、古典主义、后现代主义等,从中汲取设计元素和特点。 2. 观察自然景观,如山峦、水流、森林等,将自然元素融入建筑设计中。 3. 参考著名建筑师的作品,分析其创意和表现手法。 4. 从科幻电影、游戏中的虚拟建筑获取灵感,想象未来建筑的可能性。 5. 关注当下的城市发展和社会需求,思考如何通过建筑解决实际问题并展现创新理念。
2024-09-14
开源的数字人方案
以下是开源的数字人方案: 1. 第一步:先剪出音频,使用 https://elevenlabs.io/speechsynthesis 或使用 GPTsovits克隆声音,做出文案的音频。 2. 第二步:使用 wav2lip 整合包,导入视频和音频,对口型得到视频。基础 wav2lip+高清修复整合包下载地址为 https://github.com/Rudrabha/Wav2Lip 。这就是目前的本地跑数字人的方案,效果都差不多,都是用的 wav2lip 。产品为 https://synclabs.so/ 。 3. 构建数字人躯壳:笔者的开源数字人项目(项目地址:https://github.com/wanh/awesomedigitalhumanlive2d)选择了 live2d 作为数字人躯壳,因为这类 SDK 的驱动方式相比现在的 AI 生成式的方式更加可控和自然,相比虚幻引擎这些驱动方式又更加轻量和简单;另外超写实的数字人风格在目前的技术能力下,处理不好一致性问题,容易带来虚假的感觉或者产生恐怖谷效应,而卡通二次元的形象给人的接受度更高。关于 live2d 的 SDK 驱动方式可以参考官方示例:https://github.com/Live2D 。
2024-09-14
ai数字人app
以下是关于 AI 数字人 app 的相关内容: 如何构建高质量的 AI 数字人: 数字人的灵魂如同大脑,需具备一定智能水平,能理解交互对象信息并给予有效回应。构建数字人灵魂时,要让其具备各种智能,如记住个人信息、充当个人助手、拥有专业知识、处理复杂任务等。实现这些能力有几个工程关键点: 1. AI Agent:要让数字人像人一样思考,需编写类似人的 Agent,工程实现所需的记忆模块、工作流模块、各种工具调用模块的构建存在挑战。 2. 驱动躯壳的实现:灵魂部分通过定义接口,躯壳部分通过 API 调用,调用方式视躯壳实现而定,如 HTTP、webSocket 等。但包含情绪的语音表达以及保证躯壳的口型、表情、动作和语音的同步及匹配存在困难,目前主流方案只能预设一些表情动作,再做逻辑判断来播放预设,语音驱动口型相对成熟但闭源,效果可参考 Nvidia 的 Audio2Face 或 Live Link Face + Face AR Sample。 生成数字人: 在剪映右侧窗口顶部打开“数字人”选项,选取免费且适合的数字人形象,如“婉婉青春”。选择数字人形象时会播放其声音,可判断是否需要,点击右下角“添加数字人”将其添加到当前视频中,软件会生成对应音视频并添加到轨道中,左下角提示渲染完成时间,可点击预览查看效果。之后可删除先前导入的文本内容,为视频增加背景图片,如通过点击左上角“媒体”菜单并导入本地图片,将其添加到视频轨道上。 数字人“私有化”: 尽管剪映有很多公模数字人,但私模数字人更受欢迎。可使用 AI 换脸软件完成,需谷歌账号(可在淘宝或“”购买)。具体步骤: 1. 第一步打开谷歌浏览器,点击链接 https://github.com/facefusion/facefusioncolab 并点击 open colab 进入运行界面,在右上角点击“代码执行程序”选择“全部运行”,点击红框对应的 URL 打开操作界面。 2. 第二步,点击“source”上传自己的照片和“target”上传之前的剪映数字人视频,保持默认参数,点击“START”生成。 3. 第三步:等待专属数字人视频出炉。
2024-09-12
AI 数字人最新消息
以下是关于 AI 数字人的最新消息: 目前业界对于数字人的定义尚未统一,一般可根据技术栈分为真人驱动和算法驱动两类。算法驱动数字人的相关开源代码有很多,如 ASR 语音识别方面的 openai 的 whisper(https://github.com/openai/whisper)、wenet(https://github.com/wenete2e/wenet)、speech_recognition(https://github.com/Uberi/speech_recognition,这是一个语音识别的接口集合,包含不同实现的语音识别接口)。AI Agent 大模型部分包括 ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等,Agent 部分可使用 LangChain 的模块进行自定义(https://www.langchain.com/)。TTS 方面,有微软的 edgetts(https://github.com/rany2/edgetts,只能使用里面预设的人物声音,目前接口免费)、VITS(https://github.com/jaywalnut310/vits)以及专注于唱歌的 sovitssvc(https://github.com/svcdevelopteam/sovitssvc,前段时间很火的 AI 孙燕姿就与其相关)。 4 月 25 日的消息: Synthesia 推出新型虚拟数字人 Expressive1,能通过脚本预测表情,数字人可自动解析和理解文本情绪,实现表情和声音同步。链接:https://x.com/imxiaohu/status/1783505405488054433 360 AI 浏览器新版增加了视频总结、提问、转录和翻译功能,支持本地和网络视频的内容分析,但无法提取无对白视频摘要。链接:http://browser.360.cn/ai https://x.com/imxiaohu/status/1783495437422649719 全球最大 AI 知识库“通往 AGI 之路”网站访问量突破 1000 万,网站内容丰富,旨在推动 AI 知识的普及。链接:http://WaytoAGI.com https://x.com/imxiaohu/status/1783475002815471669 日本横须贺市使用 AI 技术克隆市长,用于发布英语信息,技术应用广泛,包括灾难信息传播和旅游信息发布。
2024-09-12