直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

最新的开源数字人项目

回答

以下是一些最新的开源数字人项目:

  1. 项目地址:https://github.com/wan-h/awesome-digital-human-live2d ,选择了 live2d 作为数字人躯壳,其驱动方式相比 AI 生成式更可控和自然,相比虚幻引擎更轻量和简单,卡通二次元形象接受度更高。Live2D 的 SDK 驱动方式可参考官方示例:https://github.com/Live2D 。
  2. 开源数字人组合方案:
    • 第一步:先剪出音频,使用 https://elevenlabs.io/speech-synthesis 或使用 GPT-sovitsGPT-SoVITS 实现声音克隆克隆声音,做出文案的音频。
    • 第二步:使用 wav2lip 整合包,导入视频和音频,对口型得到视频。基础 wav2lip+高清修复整合包下载地址:https://github.com/Rudrabha/Wav2Lip 。产品:https://synclabs.so/ 。
  3. 构建数字人灵魂:可借助开源社区的力量,如 dify、fastgpt 等成熟的高质量 AI 编排框架。在开源项目中使用了 dify 的框架,可利用其编排和可视化交互任意修改流程,构造不同的 AI Agent,具体部署过程参考 B 站视频:https://www.bilibili.com/video/BV1kZWvesE25 。如有更高度定制的模型,也可在 Dify 中接入 XInference 等模型管理平台部署自己的模型。数字人 GUI 工程中保留了 LLM、ASR、TTS、Agent 等多个模块,便于扩展。
内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

AI 数字人-定义数字世界中的你

[title]AI数字人-定义数字世界中的你[heading2]二、如何构建高质量的AI数字人[heading4]2.1构建数字人躯壳建好的模型可以使用web前端页面(Live2D就提供了web端的SDK)或者Native的可执行程序进行部署,最后呈现在用户面前的是一个GUI。笔者的开源数字人项目(项目地址:https://github.com/wan-h/awesome-digital-human-live2d)选择了live2d作为数字人躯壳,因为这类SDK的驱动方式相比现在的AI生成式的方式更加可控和自然,相比虚幻引擎这些驱动方式又更加轻量和简单;另外超写实的数字人风格在目前的技术能力下,处理不好一致性问题,容易带来虚假的感觉或者产生恐怖谷效应,而卡通二次元的形象给人的接受度更高。关于live2d的SDK驱动方式可以参考官方示例:https://github.com/Live2D。

开源:数字人组合方案

先剪出音频,使用https://elevenlabs.io/speech-synthesis或使用GPT-sovits[GPT-SoVITS实现声音克隆](https://waytoagi.feishu.cn/wiki/SVyUwotn7itV1wkawZCc7FEEnGg)克隆声音,做出文案的音频。[heading2]第二步[content]使用wav2lip整合包,导入视频和音频,对口型得到视频。基础wav2lip+高清修复整合包下载地址https://github.com/Rudrabha/Wav2Lip这就是目前的本地跑数字人的方案,效果都差不多,都是用的wav2lip产品https://synclabs.so/

AI 数字人-定义数字世界中的你

[title]AI数字人-定义数字世界中的你[heading2]二、如何构建高质量的AI数字人[heading4]2.2构建数字人灵魂上述种种,如果都要自建代码实现各模块,开发工作量巨大,迭代难度也很高,对于个人开发者来讲不现实。因此我们推荐借助开源社区的力量,现在开源社区已经有了像dify、fastgpt等等成熟的高质量AI编排框架,它们有大量的开源工作者维护,集成各种主流的模型供应商、工具以及算法实现等等。我们可以通过这些框架快速编排出自己的AI Agent,赋予数字人灵魂。在笔者的开源项目中,使用了dify的框架,利用其编排和可视化交互任意修改流程,构造不同的AI Agent,并且实现相对复杂的功能,比如知识库的搭建、工具的使用等都无需任何的编码和重新部署工作。同时Dify的API暴露了audio-to-text和text-to-audio两个接口,基于这个两个接口就可以将数字人的语音识别和语音生成都交由Dify控制,从而低门槛做出来自己高度定制化的数字人(如下图),具体的部署过程参考B站视频:https://www.bilibili.com/video/BV1kZWvesE25。如果有更加高度定制的模型,也可以在Dify中接入XInference等模型管理平台,然后部署自己的模型。此外,数字人GUI工程中仍然保留了LLM、ASR、TTS、Agent等多个模块,能够保持更好的扩展,比如实现更加真实性感的语音转换、或者如果有更加Geek的Agent实现也可以选择直接后端编码扩展实现。

其他人在问
强化学习+开源代码
以下是关于强化学习的开源代码入门指南: 1. 基础知识准备: 若概率论和线性代数基础薄弱,可利用周末约一天时间学习相关课程,若不关注公式可忽略。 若机器学习基础为零,先看吴恩达课程,再以李宏毅课程作补充,若仅为入门强化学习,看李宏毅课程前几节讲完神经网络部分即可,此课程约需 25 小时。 2. 动手实践: 跟随《动手学深度学习 https://hrl.boyuai.com/》学习并写代码,入门看前五章,约 10 小时。 观看 B 站王树森的深度学习课程前几节学习强化学习基础知识点,约 5 小时。 3. 项目实践: 参考《动手学强化学习》(已开源 https://hrl.boyuai.com/),看到 DQN 部分,约十几小时。 模型构建:DQN 的网络模型采用一层 128 个神经元的全连接并以 ReLU 作为激活函数,选用简单的两层网络结构。 缓存区:需要一个缓存区来存放从环境中采样的数据。 训练函数:批量从缓存区获取数据,使用 DQN 算法进行训练。 主循环函数:在每个 episode 中,选择一个动作(使用 εgreedy 策略),执行该动作,并将结果存储在 replay buffer 中。训练完使用保存好的 model.pth 参数即可实际使用。 4. Qlearning 算法: 比如在状态 s1 上,根据 Q 值表选择行动,如发现向下行动 Q 值最大则向下走。获取 Q(s1,下)乘上衰减值 gamma(如 0.9)并加上到达下一个状态的奖励 R,作为“Q 现实”,之前根据 Q 表得到的是“Q 估计”。通过公式更新 Q(s1,下)的值,公式为:。 算法流程:初始化 Q,for 序列 e = 1 > E do: 用 ε Greedy 策略根据 Q 选择当前状态 s 下的动作 a,得到环境反馈的 r,s‘,得到初始状态 s,for 时间步 t = 1> T do: ,End for,End for。启动程序训练 100 次后可较好进行游戏。
2024-11-21
强化学习+开源代码
以下是关于强化学习的开源代码入门指南: 1. 基础知识准备: 若概率论和线性代数基础薄弱,可在周末约一天时间学习相关课程,若不关注公式可忽略。 若机器学习基础薄弱,先看吴恩达课程,再以李宏毅课程作补充,若仅为入门强化学习,看李宏毅课程前几节讲完神经网络部分即可,此视频课程约需 25 小时。 2. 动手实践: 跟随《动手学深度学习 https://hrl.boyuai.com/》动手学习概念并写代码,入门看前五章,约 10 小时。 观看 B 站王树森的深度学习课程前几节学习强化学习基础知识点,约 5 小时。 3. 项目实践: 参考《动手学强化学习》(已开源 https://hrl.boyuai.com/),看到 DQN 部分,约十几小时。 模型构建:DQN 的网络模型采用一层 128 个神经元的全连接并以 ReLU 作为激活函数,选用简单的两层网络结构。 数据缓存:需要一个缓存区来存放从环境中采样的数据。 训练函数:批量从缓存区获取数据,使用 DQN 算法进行训练。 主循环函数:在每个 episode 中,选择一个动作(使用 εgreedy 策略),执行该动作,并将结果存储在 replay buffer 中。训练完使用保存好的 model.pth 参数即可实际使用。 4. Qlearning 算法流程: 初始化 Q。 for 序列 e = 1 > E do: 用 ε Greedy 策略根据 Q 选择当前状态 s 下的动作 a,得到环境反馈的 r,s‘,得到初始状态 s。 for 时间步 t = 1> T do: End for。 End for。 例如,在当前智能体处于 s1 状态时,会在表中找最大 Q 值对应的行动。获取 Q(s1,下)乘上衰减值 gamma(如 0.9)并加上到达下一个状态时的奖励 R,作为现实中 Q(s1,下)的值(即“Q 现实”),之前根据 Q 表得到的 Q(s1,下)是“Q 估计”。有了“Q 现实”和“Q 估计”,可按公式更新 Q(s1,下)的值。公式中,α是学习率,γ是对未来 reward 的衰减值。启动程序训练 100 次后可较好地进行游戏。
2024-11-21
开源的数字人工具
以下是一些开源的数字人工具: 1. HeyGen:这是一个 AI 驱动的平台,能创建逼真的数字人脸和角色,使用深度学习算法生成高质量肖像和角色模型,适用于游戏、电影和虚拟现实等应用。 2. Synthesia:AI 视频制作平台,允许创建虚拟角色并进行语音和口型同步,支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。 3. DID:提供 AI 拟真人视频产品服务和开发,上传人像照片和输入内容,平台的 AI 语音机器人能自动转换成语音并合成逼真的说话视频。 此外,还有一些相关的开源算法代码仓库: 1. ASR 语音识别: openai 的 whisper:https://github.com/openai/whisper wenet:https://github.com/wenete2e/wenet speech_recognition(语音识别的接口集合):https://github.com/Uberi/speech_recognition 2. AI Agent: 大模型部分包括 ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等。 Agent 部分可使用 LangChain 的模块自定义,包含了 Agent 实现的几个组件:https://www.langchain.com/ 3. TTS: 微软的 edgetts:https://github.com/rany2/edgetts,只能使用预设人物声音,目前接口免费。 VITS:https://github.com/jaywalnut310/vits,还有很多分支版本。 sovitssvc:https://github.com/svcdevelopteam/sovitssvc,专注于唱歌。 请注意,这些工具的具体功能和可用性可能会随时间和技术发展而变化。在使用时,请确保遵守相关使用条款和隐私政策,并注意保持对生成内容的版权和伦理责任。更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。上周 HeyGen 工具创始人的演示视频刷屏,效果很好。LKS 也有相关的数字人介绍视频:https://www.bilibili.com/video/BV1vm4y1x7nm/?share_source=copy_web&vd_source=6c09aa7f53b69992e1cd572bbd2dbf94 。斯坦福 AI 小镇上周正式开源,相关论文链接:https://arxiv.org/abs/2304.03442 。
2024-11-19
如何学习开源机器人,要求是ROS操作系统,如何购置相应的机器人
学习开源机器人并基于 ROS 操作系统购置相应机器人,您可以从以下几个方面入手: 1. 控制系统:负责处理传感器数据、规划路径和执行任务,并与其他子系统协作。通常由嵌入式计算设备或工业计算机组成,通过运行控制算法(如 PID 控制、深度学习模型等)决定机器人运动和操作。 2. 伺服驱动系统:负责驱动机器人关节和执行机构,实现精确运动控制。一般包括伺服电机、伺服驱动器和指令机构。伺服电机作为执行机构实现运动,伺服驱动器作为功率电源控制电机运动,指令机构发出脉冲或速度信号配合工作。能进行速度与转矩控制,以及精确、快速、稳定的位置控制,其结构通常包括电流环、速度环和位置环三个闭环控制。 3. 交互设备:常见的有麦克风、遥控器等,尤其是带屏遥控器,集成了显示屏和控制功能,允许用户直接在遥控器上查看实时图像和进行各种操作。 4. 软件中间件:机器人操作系统中间件负责硬件抽象、设备驱动、库函数、可视化、消息传递和软件包管理等。最常用的元操作系统是 ROS(Robot Operating System),它并非真正的操作系统,而是运行在 Ubuntu 上的软件框架。ROS 将机器人软件功能封装为节点,支持节点间分布式、点对点通信,并由主节点(master)管理调度网络中各节点通信过程。不同节点可使用不同编程语言,可分布式运行在不同主机,这种设计使机器人各模块能松耦合协同工作,便于模块化修改和升级,提高系统容错能力。 在购置相应机器人时,您需要考虑机器人的功能需求、性能指标、价格预算等因素,选择适合您学习和研究的型号。
2024-11-19
目前有哪些开源绘画模型
目前常见的开源绘画模型有: Stable Diffusion:生态最完整,能够加载的框架有 ComfyUI 框架、SD.Next 框架、Stable Diffusion WebUI 框架、diffusers 框架。 MidJourney:模型风格包罗万象,操作简洁,极富美感和艺术感。 Dall·E3(ChatGPT):具有惊人的语义理解能力,可像甲方一样连续修改。 Fooocus:优化程度高,操作简便,类似本地化 mj。 ComfyUI:门槛高,定制化强。 HunYuanDiT:国内第一个开源绘图模型。 SDXL:开源时间为 2023.7。 SD3:开源时间为 2024.6。 KOLORS:开源时间为 2024.7,目前生图质量最高,有相关的教学视频,如“Kolors 中文生图绘画模型开源,快手接连放出高质量开源项目,是否会成为中国的 StabilityAI”等。 Flux:开源时间为 2024.8。
2024-11-07
有哪些开源或者免费的数字人工具
以下是一些开源或者免费的数字人工具: 1. HeyGen:AI 驱动的平台,能创建逼真的数字人脸和角色,使用深度学习算法生成高质量肖像和角色模型,适用于游戏、电影和虚拟现实等。 2. Synthesia:AI 视频制作平台,允许创建虚拟角色并进行语音和口型同步,支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。 3. DID:提供 AI 拟真人视频产品服务和开发,上传人像照片和输入内容,平台的 AI 语音机器人能自动转换成语音并合成逼真的说话视频。 更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 此外,还有一些相关的开源代码仓库: ASR 语音识别: openai 的 whisper: https://github.com/openai/whisper wenet: https://github.com/wenete2e/wenet speech_recognition:https://github.com/Uberi/speech_recognition AI Agent: 大模型:ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等。 Agent 部分:可使用 LangChain 的模块自定义,https://www.langchain.com/ TTS: 微软的 edgetts:https://github.com/rany2/edgetts,只能使用预设人物声音,目前接口免费。 VITS:https://github.com/jaywalnut310/vits,还有很多分支版本。 sovitssvc: https://github.com/svcdevelopteam/sovitssvc,专注于唱歌。 请注意,这些工具的具体功能和可用性可能会随时间和技术发展而变化。在使用时,请确保遵守相关使用条款和隐私政策,并注意保持对生成内容的版权和伦理责任。
2024-11-07
如何做一个我自己的AI数字人进行短视频出镜主播
以下是制作您自己的 AI 数字人进行短视频出镜主播的方法: 一、准备视频内容 1. 准备一段视频中播放的文字内容,可以是产品介绍、课程讲解、游戏攻略等。您也可以利用 AI 来生成这段文字。 2. 使用剪映 App 对视频进行处理。电脑端打开剪映 App,点击“开始创作”。选择顶部工具栏中的“文本”,并点击默认文本右下角的“+”号,为视频添加一个文字内容的轨道,然后将准备好的文字内容替换默认文本内容。这将为数字人提供语音播放的内容以及生成相对应的口型。 二、生成数字人 1. 在剪映右侧窗口顶部,打开“数字人”选项,选取一位免费且适合的数字人形象,例如“婉婉青春”。选择数字人形象时,软件会播放其声音,您可判断是否需要,点击右下角的“添加数字人”,将其添加到当前视频中。 2. 剪映 App 会根据提供的内容生成对应音视频,并添加到当前视频文件的轨道中。左下角会提示渲染完成时间,您可点击预览按钮查看生成的数字人效果。 三、增加背景图片 1. 直接删除先前导入的文本内容,因为视频中的音频已包含文字内容。 2. 为视频增加背景图片。点击左上角的“媒体”菜单,并点击“导入”按钮,选择本地的一张图片上传。 3. 点击图片右下角的加号,将图片添加到视频的轨道上(会覆盖数字人)。 4. 点击轨道最右侧的竖线,向右拖拽直到与视频对齐。 5. 选中背景图片所在的轨道,在显示区域拖动背景图的一个角,将图片放大到适合尺寸,并将数字人拖动到合适位置。 另外,您还可以通过以下网站生成虚拟数字人短视频: 1. 打开网站(要科学):https://studio.did.com/editor 2. 输入内容选项,在右侧的文字框里面输入从 ChatGPT 产生的内容,还可以更换想要的头像,选择不同的国家和声音。 3. 内容和人像都选择好之后,点击右上角的 Create Video,等待一段时间生成。生成好数字人视频后,结合产品做讲解即可发布去做视频带货。
2024-11-22
有免费的数字人制作app或者程序或者网页吗?
以下为您介绍一些免费的数字人制作工具及方法: HEYGEN: 优点:人物灵活,五官自然,视频生成很快。 缺点:中文的人声选择较少。 使用方法:点击网址注册后,进入数字人制作,选择Photo Avatar上传自己的照片;上传后效果如图所示,My Avatar处显示上传的照片;点开大图后,点击Create with AI Studio,进入数字人制作;写上视频文案并选择配音音色,也可以自行上传音频;最后点击Submit,就可以得到一段数字人视频。 DID: 优点:制作简单,人物灵活。 缺点:为了防止侵权,免费版下载后有水印。 使用方法:点击上面的网址,点击右上角的Create vedio;选择人物形象,你可以点击ADD添加你的照片,或者使用DID给出的人物形象;配音时,你可以选择提供文字选择音色,或者直接上传一段音频;最后,点击Generate vedio就可以生成一段视频;打开自己生成的视频,可以下载或者直接分享给朋友。 KreadoAI: 优点:免费(对于普通娱乐玩家很重要),功能齐全。 缺点:音色很AI。 使用方法:点击上面的网址,注册后获得120免费k币,这里选择“照片数字人口播”的功能;点击开始创作,选择自定义照片;配音时,你可以选择提供文字选择音色,或者直接上传一段音频;打开绿幕按钮,点击背景,可以添加背景图;最后,点击生成视频。 在剪映中制作数字人的方法: 生成数字人:在剪映右侧窗口顶部,打开“数字人”选项,选取一位免费的、适合的数字人形象,比如“婉婉青春”。选择数字人形象时,软件会播放其声音,可判断是否需要,点击右下角的“添加数字人”将其添加到当前视频中。剪映会根据提供的内容生成对应音视频并添加到轨道中,左下角会提示渲染完成时间,可点击预览查看效果。 增加背景图片:删除先前导入的文本内容,为视频增加背景图片。点击左上角的“媒体”菜单并点击“导入”按钮,选择本地图片上传。将图片添加到视频轨道上(会覆盖数字人),拖动轨道右侧竖线使其与视频对齐。选中背景图片轨道,在显示区域拖动图片角放大到适合尺寸,并将数字人拖动到合适位置。 此外,还可以通过以下方式实现数字人“私有化”: 注意:需要谷歌账号(淘宝或者在我们账号解决平台“”就可以直接购买)。 第一步:打开谷歌浏览器,点击链接https://github.com/facefusion/facefusioncolab 并点击open colab就进到程序主要运行界面,在右上角点击“代码执行程序”选择“全部运行”就行,无需安装,无需付费。点击红框对应的URL就会打开操作界面。 第二步:点击“source”上传自己的照片和“target”上传之前的剪映数字人视频,保持默认参数,点击“START”就能生成。 第三步:等着自己专属的数字人视频出炉。
2024-11-21
完善数字经济的发展路径
以下是关于完善数字经济发展路径的相关内容: 在过去的十年中,数字技术已经改变了经济和社会,影响了所有活动领域和日常生活。数据处于这种转变的中心,数据驱动的创新将为联盟公民和经济带来巨大利益,例如改善和个性化医疗、提供新的移动性,并有助于 2019 年 12 月 11 日委员会关于欧洲绿色协议的沟通。为了使数据驱动的经济对所有联盟公民具有包容性,必须特别关注减少数字鸿沟,促进妇女参与数据经济,并培养技术领域的前沿欧洲专业知识。数据经济的构建方式应使企业,特别是委员会建议 2003/361/EC 中定义的微型、小型和中型企业(SMEs)以及初创企业能够蓬勃发展,确保数据访问的中立性、数据的可移植性和互操作性,并避免锁定效应。在 2020 年 2 月 19 日关于欧洲数据战略(“欧洲数据战略”)的沟通中,委员会描述了一个共同的欧洲数据空间的愿景,即一个内部数据市场,在符合适用法律的情况下,数据可以不受其在联盟中的物理存储位置的影响而被使用,这尤其可能对人工智能技术的快速发展至关重要。 数据是数字经济的核心组成部分,也是确保绿色和数字转型的重要资源。近年来,人类和机器生成的数据量呈指数级增长。然而,大多数数据未被使用,或者其价值集中在相对较少的大型公司手中。低信任度、相互冲突的经济激励和技术障碍阻碍了数据驱动创新潜力的充分实现。因此,通过为数据的再利用提供机会,并消除符合欧洲规则和充分尊重欧洲价值观的欧洲数据经济发展的障碍,以及按照减少数字鸿沟的使命,使每个人都受益,从而释放这种潜力至关重要。 这些发展需要在联盟中建立一个强大且更一致的数据保护框架,并得到强有力的执行,鉴于建立信任对于数字经济在整个内部市场发展的重要性。自然人应该对自己的个人数据有控制权。应加强自然人、经济运营商和公共当局的法律和实际确定性。
2024-11-19
推荐几款数字人生成软件
以下为您推荐几款数字人生成软件: 1. HeyGen:这是一个 AI 驱动的平台,能够创建逼真的数字人脸和角色。它使用深度学习算法生成高质量的肖像和角色模型,适用于游戏、电影和虚拟现实等应用。 2. Synthesia:这是一个 AI 视频制作平台,允许用户创建虚拟角色并进行语音和口型同步。支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。 3. DID:这是一家提供 AI 拟真人视频产品服务和开发的公司,只需上传人像照片和输入要说的内容,平台提供的 AI 语音机器人将自动转换成语音,然后合成一段非常逼真的会开口说话的视频。 此外,还有以下一些 AI 视频软件: 1. Runway:有网页和 app 版本,使用方便。网址:https://runwayml.com 。工具教程: 2. haiper:网址:https://app.haiper.ai/ ,免费。 3. SVD:网址:https://stablevideo.com/ ,有免费额度,对于景观更好用。工具教程: 4. Pika:网址:https://pika.art/ ,收费,可控性强,可以对嘴型,可配音。工具教程: ,群友分享入门教程:https://mp.weixin.qq.com/s/maLCP_KLqZwuAxKd2US_RQ 5. PixVerse:网址:https://pixverse.ai/ ,免费,人少不怎么排队,还有换脸功能。工具教程: 6. Dreamina:网址:https://dreamina.jianying.com/ ,剪映旗下,生成 3 秒,动作幅度有很大升级,最新 S 模型,P 模型。工具教程: 7. Morph Studio:网址:https://app.morphstudio.com/ ,还在内测。 8. Heygen:网址:https://www.heygen.com/ ,数字人/对口型。 如果您想实现剪映数字人的“私有化”,可以参考以下步骤: 1. 第一步:打开谷歌浏览器,点击链接 https://github.com/facefusion/facefusioncolab 并点击 open colab 就进到程序主要运行界面。在右上角点击“代码执行程序”选择“全部运行”就行,无需安装,无需付费。点击红框对应的 URL 就会打开操作界面。 2. 第二步:点击“source”上传自己的照片和“target”上传之前的剪映数字人视频,保持默认参数,点击“START”就能生成! 3. 第三步:等着自己专属的数字人视频出炉! 有关数字人使用上的问题,欢迎在底部评论区留言,一起交流。同时如果对数字人课程感兴趣的话,欢迎查看通往 AGI 之路 X AI 沃茨的《克隆你自己》课程! 在线观看第一节:https://www.bilibili.com/video/BV1yw411E7Rt/?spm_id_from=333.999.0.0 。 请注意,这些工具的具体功能和可用性可能会随着时间和技术的发展而变化。在使用这些工具时,请确保遵守相关的使用条款和隐私政策,并注意保持对生成内容的版权和伦理责任。更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。
2024-11-18
我要用数字人AI做教学讲课
数字人 AI 用于教学讲课具有诸多优势: 1. 突破时空限制:可以让历史人物如牛顿亲自授课《牛顿运动定律》,白居易讲述《长恨歌》背后的故事,学生能与任何历史人物对话交流,不受时空约束。 2. 个性化教学:能根据学生的学习情况、兴趣和偏好提供定制化学习计划和资源,因材施教,提高学习效率和成果,缓解教育资源不平等问题。 3. 提高参与感:数字教师博学多能、善解人意且不受情绪左右,基本可实现一对一辅导,让学生参与感更高。 4. 丰富教学形式:如卡尔的 AI 沃茨的数字人课程,包含 15 节视频课,持续更新并增加最新内容,还有课外社群辅导。课程回顾了 2023 年数字人领域的破圈事件,如 AI 马斯克对谈 AI 乔布斯等。 5. 优化工作流:数字人的出现能在制作个人 IP 短视频、配音、直播、智能客服、虚拟偶像等领域完成赋能。 关于数字人课程的学习: 1. 推荐卡尔的 AI 沃茨的数字人课程,建立了完整的数字人学习体系。 2. 报名方式可通过扫码查看课程详细内容和介绍。 在与 AI 交互方面: 1. 对于提示词工程和学习提示词,有人持反对观点,认为像打字和写作一样,不断尝试和大模型交互是最佳方法。 2. 和大模型交互不一定需要遵循规则,未达成目的可锲而不舍地开新窗口再尝试,或更换模型。 3. 用 Markdown 格式清晰表达问题有助于提高与大模型交流的效率和精确性,其具有结构清晰、格式化强调、适用性广等优点。
2024-11-17
最新AI资讯
以下是为您提供的最新 AI 资讯: 新手学习 AI 方面:AI 是快速发展的领域,新的研究成果和技术不断涌现。您可以关注 AI 领域的新闻、博客、论坛和社交媒体,保持对最新发展的了解。考虑加入 AI 相关的社群和组织,参加研讨会、工作坊和会议,与其他 AI 爱好者和专业人士交流。 AIGC Weekly 32 方面: Netflix 列出了一个年薪 90 万美元的机器学习平台产品经理的 AI 产品工作岗位: Shopify 的 AI 助手现已上线。Sidekick 是一个帮助机器人,它知道如何在 Shopify 中执行任何操作提取相关数据、操作新功能或创建报告: Artifact(Ins 创始人做的 AI 新闻浏览软件)推出了自定义内容阅读语音的功能: OpenAI、谷歌、微软和 Anthropic 组建了前沿模型论坛,主要目的是确保 AI 模型的安全发展: Open AI 悄咪咪下线了他们的 ChatGPT 生成内容的检测器: ShowMeAI 周刊 No.12 方面: JENOVA:AI Reddit 搜索& AI Youtube 搜索功能上线,以及为啥这个需求爆了? Artifacts:与 AI 交互的形式,正在被开发者们玩出新花样 画布:更彻底的 AI 交互革命,从一维走向二维的 LLM 交互新体验 再见,会读!为体面的退场鼓掌!&&源源不断冒出的更多新产品们 AI 编程:江山代有 AI 出,各领风骚数十天,以及 AI Coding 赛道洞察 AI 陪伴:EVE 创始人 VS C.AI 工程师,到底谁才是真正的 AI 陪伴? AI 原生游戏:1001 Nights 和 Oasis,两个极端,哪种才是真正的 Native 方向? Kimi:杨植麟身陷诉讼风波,发布数学推理模型 k0math,但是回应不了一切? Scaling Law:如果此路不通向 AGI,敢问路在何方? 社群讨论:如何选择创业产品的承载形式:App、网站、小程序
2024-11-22
AI 的最新资讯
以下是为您整理的 AI 最新资讯: 新手学习 AI 方面:AI 是快速发展的领域,新的研究成果和技术不断涌现。您可以关注 AI 领域的新闻、博客、论坛和社交媒体,保持对最新发展的了解。考虑加入 AI 相关的社群和组织,参加研讨会、工作坊和会议,与其他 AI 爱好者和专业人士交流。 AIGC Weekly 32 方面: Netflix 列出了一个年薪 90 万美元的机器学习平台产品经理的 AI 产品工作岗位: Shopify 的 AI 助手现已上线。Sidekick 是一个帮助机器人,它知道如何在 Shopify 中执行任何操作提取相关数据、操作新功能或创建报告: Artifact(Ins 创始人做的 AI 新闻浏览软件)推出了自定义内容阅读语音的功能: OpenAI、谷歌、微软和 Anthropic 组建了前沿模型论坛,主要目的是确保 AI 模型的安全发展: Open AI 悄咪咪下线了他们的 ChatGPT 生成内容的检测器: XiaoHu.AI 日报 10 月 10 日方面: PMRF:全新图像修复算法。擅长处理去噪、超分辨率、着色、盲图像恢复等任务,生成自然逼真的图像。不仅提高图片清晰度,还确保图片看起来像真实世界中的图像。能应对复杂图像退化问题,修复细节丰富的面部图像或多重损坏的图片,效果优质。详细介绍: 2024 年诺贝尔化学奖授予三位科学家:大卫·贝克、丹米斯·哈萨比斯、约翰·乔普。表彰贝克在计算蛋白质设计的贡献,以及哈萨比斯和乔普在蛋白质结构预测方面的杰出贡献。 nworld AI 发布《Beyond 2024》,具有动态游戏 AI,角色和系统根据玩家行为和环境做出实时反应,敌对角色动态调整策略,NPC 拥有独立思维。复杂动作与互动方面,AI 不再局限于对话,还能执行复杂动作,决策算法和认知系统增强了游戏中的 AI 表现。协作支持方面,AI 代理不仅在游戏中协作,还可为老年人提供局部支持,独立做出策略选择。
2024-11-22
AI目前最新发展是什么
AI 目前的最新发展包括以下几个方面: 1. 技术发展历程: 早期阶段(1950s 1960s):专家系统、博弈论、机器学习初步理论。 知识驱动时期(1970s 1980s):专家系统、知识表示、自动推理。 统计学习时期(1990s 2000s):机器学习算法(决策树、支持向量机、贝叶斯方法等)。 深度学习时期(2010s 至今):深度神经网络、卷积神经网络、循环神经网络等。 2. 当前前沿技术点: 大模型(Large Language Models):GPT、PaLM 等。 多模态 AI:视觉 语言模型(CLIP、Stable Diffusion)、多模态融合。 自监督学习:自监督预训练、对比学习、掩码语言模型等。 小样本学习:元学习、一次学习、提示学习等。 可解释 AI:模型可解释性、因果推理、符号推理等。 机器人学:强化学习、运动规划、人机交互等。 量子 AI:量子机器学习、量子神经网络等。 AI 芯片和硬件加速。 3. 产品设计和商业化思路的变化: 从通用能力到专业化细分:如图像生成(Midjourney、Stable Diffusion 等)、视频制作(Pika、Runway 等)、音频处理(各种 AI 配音、音乐生成工具)等,每个细分领域的产品都在不断提升核心能力,为用户提供更精准和高质量的服务。 商业模式的探索与创新:ToB 市场的深耕(如针对内容创作者的 ReadPo)、新型广告模式(如天宫搜索的“宝典彩页”)等,从单纯的技术展示向解决用户痛点和创造商业价值转变。 此外,AI 是一个快速发展的领域,新的研究成果和技术不断涌现。新手可以通过持续学习和跟进,关注 AI 领域的新闻、博客、论坛和社交媒体,考虑加入 AI 相关的社群和组织,参加研讨会、工作坊和会议,与其他 AI 爱好者和专业人士交流来保持对最新发展的了解。
2024-11-18
马斯克脑机接口最新发展
马斯克脑机接口的最新发展包括以下方面: 脑虎科技创始人彭雷指出脑机接口是人类脑计划的核心底层工具,能长期稳定读取大规模神经元活动信号。脑机接口是交叉领域,存在侵入式解决方案,如马斯克采用的柔性脑机结构,其柔性丝比头发细很多,通道无上限,可通过脑机信号控制物体。 2024 年 8 月 4 日,《马斯克最新 6 万字访谈!8.5 小时详解脑机接口、机器人、外星人,以及 AI 与人类的未来(一)》发布,这是马斯克第 5 次参加 Lex Fridman 播客,也是有史以来时间最长、最完整、信息量最大的一次,全球首位 Neuralink 脑机接口植入者 Noland 也参与了对话。 2024 年 1 月 30 日,马斯克宣布首例人类大脑芯片植入手术成功。
2024-11-16
人工智能最新信息
以下是人工智能的一些最新信息: 神经网络研究在 2010 年左右开始有巨大发展,ImageNet 大型图像集合催生了相关挑战赛。 2012 年卷积神经网络用于图像分类使错误率大幅下降,2015 年微软研究院的 ResNet 架构达到人类水平准确率。 从 2015 年到 2020 年,神经网络在图像分类、对话语音识别、自动化机器翻译、图像描述等任务中陆续实现人类水平准确率。 过去几年大型语言模型如 BERT 和 GPT3 取得巨大成功,得益于大量通用文本数据。 OpenAI 通用人工智能(AGI)的计划中,原计划 2026 年发布的 GPT7 因埃隆·马斯克的诉讼被暂停,计划 2027 年发布的 GPT8 将实现完全的 AGI。GPT3 及其升级版本 GPT3.5 是朝着 AGI 迈出的巨大一步。
2024-11-16
国内AI行业最新发展状况
以下是关于国内 AI 行业最新发展状况的介绍: OpenAI 的 o1 模型主导:OpenAI 最新推出的 o1 模型正在重新定义 AI 在数学、科学和推理方面的极限,使竞争对手困惑甚至“破产”。 中国的 AI 崛起:无视制裁,中国的模型凭借坚韧和战略智慧正在“屠榜”,证明他们仍在牌桌之上。 生成式 AI 的数十亿繁荣:AI 初创公司正赚得盆满钵满,但可持续性难以捉摸。 AI 产业链中的机会分析: 1. 基础设施层:布局投入确定性强,但资金投入量大,入行资源门槛高,未来更多由“国家队”负责,普通人可考虑“合作生态”切入机会。 2. 技术层:技术迭代迅速,小规模团队或个人须慎重考虑技术迭代风险,基础通用大模型非巨无霸公司不建议考虑,竞争激烈,最终赢家通吃。 3. 应用层:是广阔蓝海,当前成熟应用产品不多,“杀手级”应用凤毛麟角,普通个体和小团队推荐重点布局,发展空间巨大。 AI 产品发展的未来展望: 1. 更深度的行业整合:AI 技术将与各行各业更紧密结合。 2. 用户体验的持续优化:易用性和稳定性将进一步提升。 3. 新兴应用场景的出现:可能在智能家居、自动驾驶等领域找到新突破口。 相关报告及解读链接: (报告 212 页)
2024-11-14
ai 语音,ai语音,ai 文转语音,有哪些成功的商业化落地项目吗
以下是一些成功的 AI 语音商业化落地项目: 语音合成(TTS)方面: :为所有人提供开放的语音技术。 :基于 AI 的语音引擎能够模仿人类语音的情感和韵律。 :基于 NLP 的最先进文本和音频编辑平台,内置数百种 AI 声音。 :使用突触技术和脑机接口将想象的声音转化为合成 MIDI 乐器的脑控仪器。 :为出版商和创作者开发最具吸引力的 AI 语音软件。 :使用户能够使用文本转语音技术生成播客。 :基于生成机器学习模型构建内容创作的未来。 :从网页仪表板或 VST 插件生成录音室质量的 AI 声音并训练 AI 语音模型。 :演员优先、数字双重声音由最新的 AI 技术驱动,确保高效、真实和符合伦理。 :将书面内容转化为引人入胜的音频,并实现无缝分发。 :专业音频、语音、声音和音乐的扩展服务。 (被 Spotify 收购):提供完全表达的 AI 生成语音,带来引人入胜的逼真表演。 :利用合成媒体生成和检测,带来无限可能。 :一键使您的内容多语言化,触及更多人群。 :生成听起来真实的 AI 声音。 :为游戏、电影和元宇宙提供 AI 语音演员。 :为内容创作者提供语音克隆服务。 :超逼真的文本转语音引擎。 :使用单一 AI 驱动的 API 进行音频转录和理解。 :听起来像真人的新声音。 :从真实人的声音创建逼真的合成语音的文本转语音技术。 :生成听起来完全像你的音频内容。 语音转录方面: :为聋人和重听者提供专业和基于 AI 的字幕(转录和说话人识别)。 :专业的基于 AI 的转录和字幕。 :混合团队高效协作会议所需的一切。 :音频转录软件 从语音到文本到魔法。 :99%准确的字幕、转录和字幕服务。 :为语音不标准的人群提供的应用程序。 :通过 AI 语音识别实现更快速、更准确的语音应用。 :会议的 AI 助手。 :让孩子们的声音被听见的语音技术。 :使用语音识别自动将音频和视频转换为文本和字幕的 SaaS 解决方案。 :实时字幕记录面对面小组会议中的发言内容。 :理解每个声音的自主语音识别技术。 :支持 35 多种语言的自动转录。 :端到端的边缘语音 AI,设备上的语音识别。
2024-11-19
认为如果我是一个大学生,想要通过大模型去参加项目什么样的方向会比较好我应该做一个怎样的大模型?
对于大学生想要通过大模型参加项目,以下是一些方向和相关知识: 大模型的概念: 通俗来讲,大模型是输入大量语料,让计算机获得类似人类的“思考”能力,能够进行文本生成、推理问答、对话、文档摘要等工作。可以用“上学参加工作”来类比大模型的训练和使用过程: 1. 找学校:训练大模型需要大量计算,GPU 更合适,只有有资本购买大量 GPU 的才有能力训练自己的大模型。 2. 确定教材:大模型需要大量的数据量,几千亿序列(Token)的输入基本是标配。 3. 找老师:即选择合适的算法让大模型更好地理解 Token 之间的关系。 4. 就业指导:为了让大模型更好地胜任某一行业,需要进行微调(fine tuning)指导。 5. 搬砖:就业指导完成后,进行如翻译、问答等工作,在大模型里称之为推导(infer)。Token 被视为模型处理和生成的文本单位,会对输入进行数字化形成词汇表。 大模型的训练: 一般训练会有 3 个步骤,每个步骤都需要资金投入。 1. 无监督学习:模型通过分析大量文本数据,学习语言的基本结构和常识,具备文本补齐能力而非直接回答问题,将人类的知识通过向量化的方法转换,从而获得基础的语言模型。 2. 清洗出好的数据。 3. 指令微调:模型被训练以理解并执行具体指令,如翻译文本,从而能够回答问题。输入内容包括 3 个部分,中间可能有分隔符。还有对齐过程,通过引入人类的评价标准和处理特定格式要求,进一步优化模型的输出以符合人类的期望。 大模型的微调: 在人工智能领域,通常会根据应用领域将大模型分为通用大模型和领域特定模型。通用大模型如 GPT4.0、GPT3.5 等,通过训练获得广泛的自然语言理解能力,但在特定领域表现可能不理想。微调是对大模型针对特定领域进行的训练过程,通过在特定领域的数据上训练模型,优化所有层的参数,提高其在该领域的专业性。从头开始训练一个具备自然语言处理能力的大模型需要大量时间和资源,小公司负担不起,微调可以在现有模型基础上更经济、高效地适应新的应用领域。
2024-11-18
比较好用的项目管理的能生成项目进度甘特图的可以免费使用的AI软件有哪些
以下是一些可以免费使用且能生成项目进度甘特图的 AI 软件: 1. 项目管理和任务跟踪工具: Jira:已开始集成 AI 功能,可辅助制定计划、分配任务、跟踪进度等。 Trello:能辅助项目管理。 2. 文档和协作工具: 微软的 Copilot:可集成到 Office 套件中,为项目文档撰写、编辑等提供助手功能。 云存储服务如 Google Drive 也开始提供 AI 驱动的文档管理和协作功能。 3. 创意生成工具: 文心一格、Vega AI 等:可帮助快速生成创意图像素材。 此外,在绘制逻辑视图、功能视图、部署视图方面,以下工具可供选择: 1. Lucidchart:流行的在线绘图工具,支持多种图表创建,包括逻辑视图、功能视图和部署视图,用户可使用拖放界面轻松创建架构图。 2. Visual Paradigm:全面的 UML 工具,提供创建各种架构视图的功能。 3. ArchiMate:开源的建模语言,与 Archi 工具一起使用可创建逻辑视图。 4. Enterprise Architect:强大的建模、设计和生成代码的工具,支持多种架构视图创建。 5. Microsoft Visio:广泛使用的图表和矢量图形应用程序,提供丰富模板。 6. draw.io(现称为 diagrams.net):免费的在线图表软件,支持多种类型图表创建。 7. PlantUML:文本到 UML 的转换工具,可通过编写描述性文本自动生成相关视图。 8. Gliffy:基于云的绘图工具,提供创建架构图的功能。 9. Archi:免费开源工具,用于创建 ArchiMate 和 TOGAF 模型,支持逻辑视图创建。 10. Rational Rose:IBM 的 UML 工具,支持多种视图创建。 如果您需要创建项目管理流程图,可按以下步骤使用 Lucidchart: 1. 注册并登录: 2. 选择模板:在模板库中搜索“项目管理流程图”。 3. 编辑图表:根据项目需求添加和编辑图形和流程步骤。 4. 优化布局:利用 AI 自动布局功能,优化图表外观。 5. 保存和分享:保存图表并与团队成员分享,或导出为 PDF、PNG 等格式。 利用这些 AI 工具,您可以快速、高效地创建专业的示意图,满足各种工作和项目需求。请注意,以上内容由 AI 大模型生成,请仔细甄别。
2024-11-14
请告诉我有哪些AI+医疗项目
以下是一些 AI+医疗项目: 蛋白质结构预测和蛋白质合成:用于生成漂亮图片的 AI 也可以帮助科学家研究并设计新的蛋白质。 健康生物制药的研究:AI 极大加速了医疗健康生物制药的研究,在抗癌、抗衰老、早期疾病防治等的研究应用中起着重要作用。 医学:中医应用:将人工智能与中医结合,通过观察口腔、舌苔和抓脉,生成选择题让患者作答,最后 AI 生成药方,目前用于辅助看诊,提高诊疗效率,未来愿景是实现 24 小时独立问诊开药。 AI 洞察:一线医生如何实际使用 ChatGPT:来自纽约时报最新报道,再现了 ChatGPT 在美国一流医院的实际场景。
2024-11-05
字节跳动也被曝出在其秘密研发的大模型项目中存在违规调用 OpenAI 的 API ,你如何看待
2023 年下半年,部分声称性能卓越的中国大模型被揭露为“套壳”产品。如李开复创办的“零一万物”被国外开发者质疑为“套壳”产品,其团队承认在训练过程中沿用了开源架构,但强调是为快速起步。12 月,字节跳动被曝出在其秘密研发的大模型项目中调用了 OpenAI 的 API 并使用 ChatGPT 的输出数据来训练自己的模型。OpenAI 反应迅速坚决,暂停相关账号并表示将进一步调查。字节跳动回应称在 2023 年初技术团队在大模型探索初期有部分工程师将 GPT 的 API 服务用于较小模型的实验性项目研究,且自 2023 年 4 月引入调用规范检查后已停止。此外,不仅国内存在此类现象,24 年也有更多被指“套壳”的事件。同时,提示词攻击在业内是公开的秘密,国内外各大著名的 AI 厂商几乎无一幸免,系统提示处于泄露状态,大模型应用脆弱,数据易被获取。
2024-11-03
国家人工智能应用示范项目是什么类型的项目
国家人工智能应用示范项目通常是政府为推动人工智能产业创新发展而设立的项目类型。 以杭州市为例,其相关政策包括: 1. 促进数据开放共享:支持建立资源库和数据共享平台,对年度数据服务交易额列全市前 5 位的给予运营补助,鼓励区、县(市)和园区对购买数据服务的中小企业给予资金支持。 2. 拓展智能应用场景:推动“AI+工业互联网”创新应用,实施“智能+”“+智能”应用示范,每年择优评选不超过 10 个标杆型示范项目,按照不超过项目投资额 30%的标准给予补助,补助金额最高不超过 500 万元。支持企业组建“创新应用实验室”和“未来场景实验室”,对作用发挥好的场景实验室,鼓励区、县(市)和园区给予一定资金支持。 此外,美国也有相关的“National Artificial Intelligence Initiative”,其目的包括为美国当前和未来的劳动力做好准备,以实现人工智能系统在经济和社会各领域的整合。
2024-11-01