直达「通往AGI之路」飞书知识库 →

首页/问答列表/问答详情

开源的数字人方案

回答

以下是开源的数字人方案：

第一步：先剪出音频，使用 https://elevenlabs.io/speech-synthesis 或使用 GPT-sovitsGPT-SoVITS 实现声音克隆克隆声音，做出文案的音频。
第二步：使用 wav2lip 整合包，导入视频和音频，对口型得到视频。基础 wav2lip+高清修复整合包下载地址为 https://github.com/Rudrabha/Wav2Lip 。这就是目前的本地跑数字人的方案，效果都差不多，都是用的 wav2lip 。产品为 https://synclabs.so/ 。
构建数字人躯壳：笔者的开源数字人项目（项目地址：https://github.com/wan-h/awesome-digital-human-live2d）选择了 live2d 作为数字人躯壳，因为这类 SDK 的驱动方式相比现在的 AI 生成式的方式更加可控和自然，相比虚幻引擎这些驱动方式又更加轻量和简单；另外超写实的数字人风格在目前的技术能力下，处理不好一致性问题，容易带来虚假的感觉或者产生恐怖谷效应，而卡通二次元的形象给人的接受度更高。关于 live2d 的 SDK 驱动方式可以参考官方示例：https://github.com/Live2D 。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

开源：数字人组合方案

先剪出音频，使用https://elevenlabs.io/speech-synthesis或使用GPT-sovits[GPT-SoVITS实现声音克隆](https://waytoagi.feishu.cn/wiki/SVyUwotn7itV1wkawZCc7FEEnGg)克隆声音，做出文案的音频。

开源：数字人组合方案

使用wav2lip整合包，导入视频和音频，对口型得到视频。基础wav2lip+高清修复整合包下载地址https://github.com/Rudrabha/Wav2Lip这就是目前的本地跑数字人的方案，效果都差不多，都是用的wav2lip产品https://synclabs.so/

AI 数字人-定义数字世界中的你

笔者的开源数字人项目（项目地址：https://github.com/wan-h/awesome-digital-human-live2d）选择了live2d作为数字人躯壳，因为这类SDK的驱动方式相比现在的AI生成式的方式更加可控和自然，相比虚幻引擎这些驱动方式又更加轻量和简单；另外超写实的数字人风格在目前的技术能力下，处理不好一致性问题，容易带来虚假的感觉或者产生恐怖谷效应，而卡通二次元的形象给人的接受度更高。关于live2d的SDK驱动方式可以参考官方示例：https://github.com/Live2D。

其他人在问

MinusX开源的 AI 数据分析助手

关于 Excel 的 AI 功能，目前有以下几种不同的工具和插件可以增强其数据处理和分析能力： 1. Excel Labs：这是一个 Excel 插件，新增了基于 OpenAI 技术的生成式 AI 功能，允许用户在 Excel 中直接利用 AI 进行数据分析和决策支持。 2. Microsoft 365 Copilot：由微软推出，整合了 Word、Excel、PowerPoint、Outlook、Teams 等办公软件。用户通过聊天形式告知需求，如数据分析或格式创建，Copilot 会自动完成任务。 3. Formula Bot：提供数据分析聊天机器人和公式生成器两大功能，用户能通过自然语言交互式地进行数据分析和生成 Excel 公式。 4. Numerous AI：支持 Excel 和 Google Sheets 的 AI 插件，除公式生成外，还可根据提示生成相关文本内容、执行情感分析、语言翻译等任务。这些工具通过 AI 技术提升了 Excel 的数据处理能力，使用户能更高效地进行数据分析和决策。随着技术不断发展，未来可能会有更多 AI 功能集成到 Excel 中，进一步提高工作效率和数据处理的智能化水平。请注意，内容由 AI 大模型生成，请仔细甄别。

使用开源大模型本地化部署使用电脑配置，推荐几款笔记本电脑

以下是关于使用开源大模型本地化部署所需电脑配置及笔记本电脑推荐的相关信息：运行大模型需要较高的机器配置，个人玩家大多负担不起。以下是不同类型大模型的配置要求：生成文字大模型：最低配置：8G RAM + 4G VRAM 建议配置：16G RAM + 8G VRAM 理想配置：32G RAM + 24G VRAM（跑 GPT3.5 差不多性能的大模型）生成图片大模型（比如跑 SD）：最低配置：16G RAM + 4G VRAM 建议配置：32G RAM + 12G VRAM 生成音频大模型：最低配置：8G VRAM 建议配置：24G VRAM 对于本地化部署，不建议使用最低配置，因为速度会非常慢。例如，用 8G 的 Mac 电脑尝试过，效果不佳。由于本地化部署对电脑配置要求较高，不太推荐本地化安装实现。如果想使用开源大模型，可选择利用云厂商已提供好的大模型运行环境和计算能力，比如阿里云的 PAI 和 AutoDL。在笔记本电脑选择方面，建议选择具备以下配置的机型： 1. 内存：16GB 及以上的 RAM。 2. 显卡：具有 8GB 及以上 VRAM 的独立显卡。但具体的笔记本电脑型号还需根据您的预算和其他需求来确定。

国内哪个ai网站开源

国内像阿里、小川的百川等都在进行 AI 网站的开源。开源对于 AI 的发展具有重要意义，它能够集中力量办大事，促进不同公司、学校等在开源社区中共享知识和成果。例如，人工智能发展迅速就与开源密切相关。OpenAI 自身也是开源的受惠者，其用到的很多技术都源自 Google 的开源。我们国内应借鉴国外开源成果，积极加入大开源社区，在超级通用大模型问题上坚持开源，避免闭门造车、重复发明轮子。

对于大语言模型使用的未来趋势，是闭源云端还是开源本地部署，作为普通用户是否有必要了解本地部署知识，并且是否有必要自己搭建agent以及rag？

大语言模型的未来趋势在闭源云端和开源本地部署方面存在多种可能性。对于开源本地部署，以下是一些相关信息： Ollama 是一个方便用户在本地运行和管理大型语言模型的框架，具有以下特点：支持多种大型语言模型，如通义千问、Llama 2、Mistral 和 Gemma 等，适用于不同应用场景。易于使用，适用于 macOS、Windows 和 Linux 系统，同时支持 CPU 和 GPU。提供模型库，用户可从中下载不同模型，以满足不同需求和硬件条件，模型库可通过 https://ollama.com/library 查找。支持用户自定义模型，例如修改温度参数调整创造性和连贯性，或设置特定系统消息。提供 REST API 用于运行和管理模型，以及与其他应用程序的集成选项。社区贡献丰富，包括多种集成插件和界面，如 Web 和桌面应用、Telegram 机器人、Obsidian 插件等。安装可访问 https://ollama.com/download/ 。可以通过一些教程学习如何本地部署大模型以及搭建个人知识库，例如了解如何使用 Ollama 一键部署本地大模型、通过搭建本地聊天工具了解 ChatGPT 信息流转、RAG 的概念及核心技术、通过 AnythingLLM 搭建完全本地化的数据库等。同时，采用开源或国内企业提供的 13B 级模型本地部署在内部系统中，虽需投入算力，但有其价值。智能客服的大量优质大客户可能会选择自己搭建智能客服平台，并结合大模型企业提供的技术服务，基于大模型搭建 LangChain、RAG 框架，实现 RPA 自动流程。对于普通用户是否有必要了解本地部署知识以及是否有必要自己搭建 agent 以及 rag，这取决于个人需求和兴趣。如果您希望更深入了解大模型的工作原理和运行机制，或者有特定的个性化需求，那么了解和尝试本地部署可能是有意义的。但如果只是一般的使用需求，可能无需深入了解和自行搭建。

有哪些视频、音频、图片理解的大模型？开源的有没有

以下是一些视频、音频、图片理解的大模型：视频生成音效模型已开源。 Sheet Music Transformer：超越单音转录的端到端光学音乐识别。 AnyGPT：具有离散序列建模的统一多模态大型语言模型。腾讯与新加坡国立大学发布 M2UGen。此外，在多模态成为大模型标配的趋势下，以下大模型在视频和图片理解方面表现出色： OpenAI 的产品在从语言处理到图片、视频、声音的理解方面有不断发展，如 Sora 工具，其背后体现了 OpenAI 对视频的阅读、解读和分析能力的提升。 Meta 发布的 VJEPA 是基于世界模型打造的多模态模型。 Google 的 Gemini 号称具有强大的对视频和图片的深入解读能力。 Stable Diffusion 发布的最新版本也具有强大的对视频和图片的理解能力。

开源agent平台

以下是一些开源的 Agent 构建平台： 1. Coze：是新一代的一站式 AI Bot 开发平台，适用于构建基于 AI 模型的各类问答 Bot，集成了丰富插件工具，能拓展 Bot 能力边界。 2. Microsoft 的 Copilot Studio：主要功能有外挂数据、定义流程、调用 API 和操作，以及将 Copilot 部署到各种渠道。 3. 文心智能体：百度推出的基于文心大模型的智能体平台，支持开发者按需打造产品能力。 4. MindOS 的 Agent 平台：允许用户定义 Agent 的个性、动机、知识，以及访问第三方数据和服务或执行工作流。 5. 斑头雁：2B 基于企业知识库构建专属 AI Agent 的平台，适用于客服、营销、销售等场景，提供多种成熟模板，功能强大且开箱即用。 6. 钉钉 AI 超级助理：依托钉钉强大场景和数据优势，在处理高频工作场景如销售、客服、行程安排等方面表现出色。从案例入门，国内外有多个 Agent 平台可在几分钟内完成 Agent 创建，比如国内版扣子 coze.cn、海外版 Coze coze.com、百度 AppBuilder、阿里通义千问、智谱 AI 等，可先从扣子 coze.cn 开始。对于挑选合适的 Agent 框架，不同技能需求有不同选择：新人可选 Coze，可免费使用各种大语言模型；程序员熟悉 Python 可选 neuflow、Agently、AutoGPT、MetaGPT、Langchain、Langflow、Guidance、ModelScopeAgent 等。除此之外，开源 Agent 框架已是百花齐放，更多信息可参考：https://github.com/e2bdev/awesomeaiagents

免费制作数字人程序

以下是免费制作数字人的方法： 1. 打开剪映，添加文本到文字轨道，修改好需要朗读的文字。 2. 点击朗读进行声音克隆，剪映的声音克隆现在只用念一句话就可完成。 3. 克隆完成后，选择喜欢的数字人形象，并把自己的克隆音色换上去。 4. 一键智能生成字幕，自行调整文字样式并校准。在剪映中生成数字人的具体步骤： 1. 在剪映右侧窗口顶部，打开“数字人”选项，选取一位免费且适合的数字人形象，如“婉婉青春”。选择数字人形象时，软件会播放其声音，可判断是否需要，点击右下角“添加数字人”，将其添加到当前视频中，软件会根据提供的内容生成对应音视频并添加到轨道中，左下角会提示渲染完成时间，可点击预览查看效果。 2. 增加背景图片：删除先前导入的文本内容，为视频增加背景图片。点击左上角“媒体”菜单，点击“导入”按钮选择本地图片上传，点击图片右下角的加号将其添加到视频轨道上（会覆盖数字人）。数字人“私有化”的方法： 1. 尽管剪映已有很多公模数字人，但私模数字人更受欢迎。可使用 AI 换脸软件完成最后一步。 2. 注意需要谷歌账号（淘宝或者在账号解决平台“”可直接购买）。 3. 第一步：打开谷歌浏览器，点击链接 https://github.com/facefusion/facefusioncolab 并点击 open colab 进到程序主要运行界面，在右上角点击“代码执行程序”选择“全部运行”就行，无需安装，无需付费。点击红框对应的 URL 就会打开操作界面。 4. 第二步：点击“source”上传自己的照片和“target”上传之前的剪映数字人视频，保持默认参数，点击“START”就能生成。 5. 第三步：等待自己专属的数字人视频出炉。

数字媒体艺术专业，毕设建筑浏览动画，灵感推荐

很抱歉，目前知识库中没有关于数字媒体艺术专业毕设建筑浏览动画灵感推荐的相关内容。但您可以从以下几个方面获取灵感： 1. 研究著名建筑大师的作品及其设计理念，从中汲取创意。 2. 观察不同文化和地域的特色建筑，将其独特元素融入动画。 3. 参考科幻电影或游戏中对未来建筑的想象和呈现方式。 4. 关注当下的建筑趋势，如绿色建筑、智能建筑等，从中获得启发。 5. 从自然景观中获取灵感，例如山脉、河流等的形态和韵律，运用到建筑的造型和布局中。

数字媒体艺术专业，毕设做三维建筑浏览动画，灵感推荐

很抱歉，目前知识库中没有关于数字媒体艺术专业毕设做三维建筑浏览动画的灵感推荐相关内容。但您可以从以下几个方面获取灵感： 1. 研究不同风格的建筑，如现代主义、古典主义、后现代主义等，从中汲取设计元素和特点。 2. 观察自然景观，如山峦、水流、森林等，将自然元素融入建筑设计中。 3. 参考著名建筑师的作品，分析其创意和表现手法。 4. 从科幻电影、游戏中的虚拟建筑获取灵感，想象未来建筑的可能性。 5. 关注当下的城市发展和社会需求，思考如何通过建筑解决实际问题并展现创新理念。

以下是关于 AI 数字人 app 的相关内容：如何构建高质量的 AI 数字人：数字人的灵魂如同大脑，需具备一定智能水平，能理解交互对象信息并给予有效回应。构建数字人灵魂时，要让其具备各种智能，如记住个人信息、充当个人助手、拥有专业知识、处理复杂任务等。实现这些能力有几个工程关键点： 1. AI Agent：要让数字人像人一样思考，需编写类似人的 Agent，工程实现所需的记忆模块、工作流模块、各种工具调用模块的构建存在挑战。 2. 驱动躯壳的实现：灵魂部分通过定义接口，躯壳部分通过 API 调用，调用方式视躯壳实现而定，如 HTTP、webSocket 等。但包含情绪的语音表达以及保证躯壳的口型、表情、动作和语音的同步及匹配存在困难，目前主流方案只能预设一些表情动作，再做逻辑判断来播放预设，语音驱动口型相对成熟但闭源，效果可参考 Nvidia 的 Audio2Face 或 Live Link Face + Face AR Sample。生成数字人：在剪映右侧窗口顶部打开“数字人”选项，选取免费且适合的数字人形象，如“婉婉青春”。选择数字人形象时会播放其声音，可判断是否需要，点击右下角“添加数字人”将其添加到当前视频中，软件会生成对应音视频并添加到轨道中，左下角提示渲染完成时间，可点击预览查看效果。之后可删除先前导入的文本内容，为视频增加背景图片，如通过点击左上角“媒体”菜单并导入本地图片，将其添加到视频轨道上。数字人“私有化”：尽管剪映有很多公模数字人，但私模数字人更受欢迎。可使用 AI 换脸软件完成，需谷歌账号（可在淘宝或“”购买）。具体步骤： 1. 第一步打开谷歌浏览器，点击链接 https://github.com/facefusion/facefusioncolab 并点击 open colab 进入运行界面，在右上角点击“代码执行程序”选择“全部运行”，点击红框对应的 URL 打开操作界面。 2. 第二步，点击“source”上传自己的照片和“target”上传之前的剪映数字人视频，保持默认参数，点击“START”生成。 3. 第三步：等待专属数字人视频出炉。

用文本生成视频加数字人

以下是用文本生成视频加数字人的方法：一、创建视频内容 1. 准备内容先准备一段视频中播放的内容文字，可以是产品介绍、课程讲解、游戏攻略等任何您希望推广让大家了解的文字。您也可以利用 AI 来生成这段文字。 2. 制作视频使用剪映 App 对视频进行简单处理。电脑端打开剪映 App，点击“开始创作”，进入创作页面。选择顶部工具栏中的“文本”，点击默认文本右下角的“+”号，为视频添加一个文字内容的轨道。二、生成数字人 1. 生成数字人在剪映右侧窗口顶部，打开“数字人”选项，选取一位免费且适合的数字人形象，如“婉婉青春”。选择数字人形象时，软件会播放其声音，可判断是否需要，点击右下角“添加数字人”，软件会根据之前提供的内容生成对应音视频，并添加到当前视频中。左下角会提示渲染完成时间，然后可点击预览按钮查看生成的数字人效果。 2. 增加背景图片直接删除先前导入的文本内容，因为视频中的音频已包含文字内容。点击左上角“媒体”菜单，点击“导入”按钮，选择本地一张图片上传。选择的图片会添加到视频轨道下方的新轨道，将轨道最右侧竖线向右拖拽至视频最后，使其在整个视频播放时都显示。选中背景图片所在轨道，在显示区域拖动图片角将其放大到适合尺寸，覆盖视频窗口，并将数字人拖动到合适位置。 3. 增加字幕点击“文本智能字幕识别字幕，点击开始识别”，软件会自动将文字智能分段并形成字幕。至此，数字人视频就完成了。点击右上角“导出”按钮，导出视频以作备用。如果希望数字人换成自己希望的面孔，则需要用另一个工具来进行换脸。

AI 数字人最新消息

以下是关于 AI 数字人的最新消息：目前业界对于数字人的定义尚未统一，一般可根据技术栈分为真人驱动和算法驱动两类。算法驱动数字人的相关开源代码有很多，如 ASR 语音识别方面的 openai 的 whisper（https://github.com/openai/whisper）、wenet（https://github.com/wenete2e/wenet）、speech_recognition（https://github.com/Uberi/speech_recognition，这是一个语音识别的接口集合，包含不同实现的语音识别接口）。AI Agent 大模型部分包括 ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等，Agent 部分可使用 LangChain 的模块进行自定义（https://www.langchain.com/）。TTS 方面，有微软的 edgetts（https://github.com/rany2/edgetts，只能使用里面预设的人物声音，目前接口免费）、VITS（https://github.com/jaywalnut310/vits）以及专注于唱歌的 sovitssvc（https://github.com/svcdevelopteam/sovitssvc，前段时间很火的 AI 孙燕姿就与其相关）。 4 月 25 日的消息： Synthesia 推出新型虚拟数字人 Expressive1，能通过脚本预测表情，数字人可自动解析和理解文本情绪，实现表情和声音同步。链接：https://x.com/imxiaohu/status/1783505405488054433 360 AI 浏览器新版增加了视频总结、提问、转录和翻译功能，支持本地和网络视频的内容分析，但无法提取无对白视频摘要。链接：http://browser.360.cn/ai https://x.com/imxiaohu/status/1783495437422649719 全球最大 AI 知识库“通往 AGI 之路”网站访问量突破 1000 万，网站内容丰富，旨在推动 AI 知识的普及。链接：http://WaytoAGI.com https://x.com/imxiaohu/status/1783475002815471669 日本横须贺市使用 AI 技术克隆市长，用于发布英语信息，技术应用广泛，包括灾难信息传播和旅游信息发布。

企业内部知识库和 AI 问答结合，有哪些成熟的解决方案，或者产品推荐？

以下是企业内部知识库和 AI 问答结合的一些成熟解决方案和产品推荐： Contextual Answers：这是一个端到端的 API 解决方案，其答案完全基于组织知识，能避免“幻觉”。全球信息服务提供商 Clarivate 与其合作，将其应用于图书馆解决方案套件，为学生、教师和研究人员提供基于策划和可信学术内容的问题答案。职业规划类产品：结合用户个人情况和市场需求制定详细职业发展计划，包括短、中、长期目标，帮助用户在 AI 时代找到职业定位。其核心构思在于利用企业已有知识积累结合大模型能力，为用户提供准确简洁答案。具体通过创建企业私有知识库收录问答记录和资料，利用大模型处理用户咨询问题，确保回答准确一致，必要时提供原回答完整版，还能对接人工客服，在智能助手无法解决问题时快速转接，提升服务质量和客户满意度。

有哪些数字人方案

以下是一些常见的数字人方案： 1. 算法驱动的数字人：开源代码： ASR 语音识别：openai 的 whisper（https://github.com/openai/whisper）、wenet（https://github.com/wenete2e/wenet）、speech_recognition（这是一个语音识别的接口集合，里面有不同实现的语音识别的接口：https://github.com/Uberi/speech_recognition） AI Agent 大模型：ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等。Agent 部分可以使用 LangChain 的模块去做自定义，里面基本包含了 Agent 实现的几个组件（https://www.langchain.com/） TTS：微软的 edgetts（https://github.com/rany2/edgetts），只能使用里面预设的人物声音，目前接口免费；VITS（https://github.com/jaywalnut310/vits），还有很多的分支版本，可以去搜索一下，vits 系列可以自己训练出想要的人声；sovitssvc（https://github.com/svcdevelopteam/sovitssvc），专注到唱歌上面，前段时间很火的 AI 孙燕姿。核心算法： ASR（Automatic Speech Recognition，语音识别）：能将用户的音频数据转化为文字，便于数字人理解和生成回应。 AI Agent（人工智能体）：充当数字人的大脑，可以直接接入大语言模型，强调 Agent 的概念是为了让数字人拥有记忆模块等更加真实。 TTS(Text to Speech，文字转语音）：将数字人依靠 LLM 生成的输出文字转换为语音，保持语音交互一致性。 2. 剪映数字人“个性化“—无限免费私模数字人：Heygen 的访问限制太强，正好剪映已经有了声音克隆和公模数字人两项能力，搭配 facefusion 的换脸技术，能轻松实现零成本的口播数字人。

视频生成有什么方案

以下是一些常见的视频生成方案： 1. Pika 方案：生成视频需要进入 generate 频道，目前有 10 个 generate 频道，可任选一个进入。工作流程包括：直接生成视频，在输入“/create”，然后输入 prompt，得到视频；图片生成视频，使用 MJ/SD 生成图像（可选）+在 PIKA 平台添加 prompt 得到视频。 2. Phenaki 方案（来自 GoogleBrain）：可以通过文字描述生成可变长度的视频。主要依赖视频像素生成能力和隐空间 token 预测能力。视频像素生成能力依赖 VQVAE，主要借鉴了 CViViT 方法。隐空间 token 预测能力依赖 encoderonly 的双向 transformer 的完形填空能力，主要借鉴了 MaskGIT 方法。 CViViT 训练第一个阶段参考了 ViViT 的做法，主要用 VQVAE 方法训练得到 encoder、码本和 decoder 三个部件。attention 的方式是先做 spatial 的 attention，然后做 temporal 的 attention。CViViT 做 patch partition 的时候，先把帧堆叠在一起形成的输入，做没有 overlap 的时间和空间切分。每个 patch 在时间维度上，除了第一帧只有一帧，其余每个 stride 是包含连续的帧。因此第一帧的 patch 小方块大小为，其余 patch 的小方块大小为。经过线性映射层后统一变成了长度为的 feature。一共可以得到的 token 数为个，注意 video 视觉任务比 LLM 的 sequence 要长，因为每一帧都包含大量 patch（例如 256，512）。CViViT 把 spatial 和 temporal 的 CLS token 都去掉了，并且增加了 causal transform 的 decoderonly 的 mask，这样可以在计算复杂度不爆表的情况下产生任意长度的。CViViT decoder 设计跟 encoder 反过来，先过 temporal 的 attention，然后再是 spatial 的 attention。训练使用 VQVAE 方式重建训练，训练结束得到离散的 codebook，这样输入的 video 经过 encoder 转化为离散的 codebook 向量，然后再经过 decoder 得到 pixel 视频。 3. Sora 方案：数据准备：使用包括内部数据集和公开数据集在内的多种数据源，对图像和视频进行尺寸调整，包括空间上的抗锯齿双线性缩放和时间上的跳帧处理。模型训练：基础训练阶段使用正方形图像比例进行训练。在特定数据子集上对基础模型进行微调，以生成 9:16 比例的视频。采用了位置嵌入的插值和窗口尺寸的缩放。视频生成：首先使用图像 LDM 生成单帧图像。然后运行预测模型，以生成的单帧为条件，生成关键帧序列。在视频扩展时，再次调用预测模型，但以两帧（捕捉方向信息）为条件来生成连贯的运动。微调与优化：对于长时间视频生成，模型在帧预测任务上进行联合训练。在推断阶段，优化目标是加快小批量图像生成的速度。模型初始化：由于视频数据集规模相对较小，从预训练的图像模型（如 ViT）初始化视频模型，以促进更有效的训练。

视频生成有什么方案

以下是一些常见的视频生成方案： 1. Pika 方案：生成视频需要进入 generate 频道，目前有 10 个 generate 频道，可任选一个进入。工作流程包括：直接生成视频，在输入“/create”，然后输入 prompt，得到视频；图片生成视频，使用 MJ/SD 生成图像（可选）+在 PIKA 平台添加 prompt 得到视频。 2. Phenaki 方案（来自 GoogleBrain）：可以通过文字描述生成可变长度的视频。主要依赖视频像素生成能力和隐空间 token 预测能力。视频像素生成能力依赖 VQVAE，主要借鉴了 CViViT 方法。隐空间 token 预测能力依赖 encoderonly 的双向 transformer 的完形填空能力，主要借鉴了 MaskGIT 方法。 CViViT 训练第一个阶段参考了 ViViT 的做法，主要用 VQVAE 方法训练得到 encoder、码本和 decoder 三个部件。attention 的方式是先做 spatial 的 attention，然后做 temporal 的 attention。CViViT 做 patch partition 的时候，先把帧堆叠在一起形成的输入，做没有 overlap 的时间和空间切分。每个 patch 在时间维度上，除了第一帧只有一帧，其余每个 stride 是包含连续的帧。因此第一帧的 patch 小方块大小为，其余 patch 的小方块大小为。经过线性映射层后统一变成了长度为的 feature。一共可以得到的 token 数为个，注意 video 视觉任务比 LLM 的 sequence 要长，因为每一帧都包含大量 patch（例如 256，512）。CViViT 把 spatial 和 temporal 的 CLS token 都去掉了，并且增加了 causal transform 的 decoderonly 的 mask，这样可以在计算复杂度不爆表的情况下产生任意长度的。CViViT decoder 设计跟 encoder 反过来，先过 temporal 的 attention，然后再是 spatial 的 attention。训练使用 VQVAE 方式重建训练，训练结束得到离散的 codebook，这样输入的 video 经过 encoder 转化为离散的 codebook 向量，然后再经过 decoder 得到 pixel 视频。 3. Sora 方案：数据准备：使用包括内部数据集和公开数据集在内的多种数据源，对图像和视频进行尺寸调整，包括空间上的抗锯齿双线性缩放和时间上的跳帧处理。模型训练：基础训练阶段使用正方形图像比例进行训练。在特定数据子集上对基础模型进行微调，以生成 9:16 比例的视频。采用了位置嵌入的插值和窗口尺寸的缩放。视频生成：首先使用图像 LDM 生成单帧图像。然后运行预测模型，以生成的单帧为条件，生成关键帧序列。在视频扩展时，再次调用预测模型，但以两帧（捕捉方向信息）为条件来生成连贯的运动。微调与优化：对于长时间视频生成，模型在帧预测任务上进行联合训练。在推断阶段，优化目标是加快小批量图像生成的速度。模型初始化：由于视频数据集规模相对较小，从预训练的图像模型（如 ViT）初始化视频模型，以促进更有效的训练。

哪个AI可以做改革方案

以下是一些可以为您提供改革方案的 AI： 1. Character.ai：其愿景是“让地球上的每个人都能获得自己的深度个性化超级智能，帮助他们过上最美好的生活”。每个人都可以拥有像钢铁侠中的 Javis 一样的人工智能助手，能够帮助完成各种任务，重构一切服务。链接： 2. Scite.ai：是为研究人员、学者和行业专业人员打造的创新平台，提供引用声明搜索、自定义仪表板和参考检查等工具，能简化学术工作。链接： 3. Scholarcy：一款科研神器，主要为做科研、学术、写论文的人准备。可以从文档中提取结构化数据，并通过知识归纳引擎生成文章概要，包含关键概念、摘要、学术亮点、学术总结、比较分析、局限等板块的内容。链接： 4. ChatGPT：强大的自然语言处理模型，可以提供有关医学课题的修改意见。链接：

推荐数字人直播方案

以下为您推荐数字人直播方案： KreadoAI 的使用方法： 1. 点击上面的网址，注册后获得 120 免费 k 币，选择“照片数字人口播”的功能。 2. 点击开始创作，选择自定义照片。 3. 配音时，可以选择提供文字选择音色，或者直接上传一段音频。 4. 打开绿幕按钮，点击背景，可以添加背景图。 5. 最后，点击生成视频。 AI 直播卖货适用品类和场景： 1. 适用于不需要强展示的商品，如品牌食品饮料。服装不太适用，因为过品快，衣服建模成本高。 2. 适用于虚拟商品，如门票、优惠券等。 3. 不适用于促销场景，这涉及主播话术、套路，调动直播间氛围能力等。 4. 电商直播分为达播跟店播，数字人直播跑下来效果最好的是店播，数据基本能保持跟真人一样（朋友公司数据）。 AI 数字人直播盈利方式： 1. 直接卖数字人工具软件。分实时驱动和非实时驱动两类，实时驱动在直播时能改音频话术，真人接管。市面价格在一年 4 6 万往上（标准零售价）。非实时一个月 600 元，效果很差，类似放视频的伪直播，市场价格混乱，靠发展代理割韭菜。 2. 提供数字人运营服务，按直播间成交额抽佣。