直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

最新的开源数字人项目

回答

以下是一些最新的开源数字人项目:

  1. 项目地址:https://github.com/wan-h/awesome-digital-human-live2d ,选择了 live2d 作为数字人躯壳,其驱动方式相比 AI 生成式更可控和自然,相比虚幻引擎更轻量和简单,卡通二次元形象接受度更高。Live2D 的 SDK 驱动方式可参考官方示例:https://github.com/Live2D 。
  2. 开源数字人组合方案:
    • 第一步:先剪出音频,使用 https://elevenlabs.io/speech-synthesis 或使用 GPT-sovitsGPT-SoVITS 实现声音克隆克隆声音,做出文案的音频。
    • 第二步:使用 wav2lip 整合包,导入视频和音频,对口型得到视频。基础 wav2lip+高清修复整合包下载地址:https://github.com/Rudrabha/Wav2Lip 。产品:https://synclabs.so/ 。
  3. 构建数字人灵魂:可借助开源社区的力量,如 dify、fastgpt 等成熟的高质量 AI 编排框架。在开源项目中使用了 dify 的框架,可利用其编排和可视化交互任意修改流程,构造不同的 AI Agent,具体部署过程参考 B 站视频:https://www.bilibili.com/video/BV1kZWvesE25 。如有更高度定制的模型,也可在 Dify 中接入 XInference 等模型管理平台部署自己的模型。数字人 GUI 工程中保留了 LLM、ASR、TTS、Agent 等多个模块,便于扩展。
内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

AI 数字人-定义数字世界中的你

[title]AI数字人-定义数字世界中的你[heading2]二、如何构建高质量的AI数字人[heading4]2.1构建数字人躯壳建好的模型可以使用web前端页面(Live2D就提供了web端的SDK)或者Native的可执行程序进行部署,最后呈现在用户面前的是一个GUI。笔者的开源数字人项目(项目地址:https://github.com/wan-h/awesome-digital-human-live2d)选择了live2d作为数字人躯壳,因为这类SDK的驱动方式相比现在的AI生成式的方式更加可控和自然,相比虚幻引擎这些驱动方式又更加轻量和简单;另外超写实的数字人风格在目前的技术能力下,处理不好一致性问题,容易带来虚假的感觉或者产生恐怖谷效应,而卡通二次元的形象给人的接受度更高。关于live2d的SDK驱动方式可以参考官方示例:https://github.com/Live2D。

开源:数字人组合方案

先剪出音频,使用https://elevenlabs.io/speech-synthesis或使用GPT-sovits[GPT-SoVITS实现声音克隆](https://waytoagi.feishu.cn/wiki/SVyUwotn7itV1wkawZCc7FEEnGg)克隆声音,做出文案的音频。[heading2]第二步[content]使用wav2lip整合包,导入视频和音频,对口型得到视频。基础wav2lip+高清修复整合包下载地址https://github.com/Rudrabha/Wav2Lip这就是目前的本地跑数字人的方案,效果都差不多,都是用的wav2lip产品https://synclabs.so/

AI 数字人-定义数字世界中的你

[title]AI数字人-定义数字世界中的你[heading2]二、如何构建高质量的AI数字人[heading4]2.2构建数字人灵魂上述种种,如果都要自建代码实现各模块,开发工作量巨大,迭代难度也很高,对于个人开发者来讲不现实。因此我们推荐借助开源社区的力量,现在开源社区已经有了像dify、fastgpt等等成熟的高质量AI编排框架,它们有大量的开源工作者维护,集成各种主流的模型供应商、工具以及算法实现等等。我们可以通过这些框架快速编排出自己的AI Agent,赋予数字人灵魂。在笔者的开源项目中,使用了dify的框架,利用其编排和可视化交互任意修改流程,构造不同的AI Agent,并且实现相对复杂的功能,比如知识库的搭建、工具的使用等都无需任何的编码和重新部署工作。同时Dify的API暴露了audio-to-text和text-to-audio两个接口,基于这个两个接口就可以将数字人的语音识别和语音生成都交由Dify控制,从而低门槛做出来自己高度定制化的数字人(如下图),具体的部署过程参考B站视频:https://www.bilibili.com/video/BV1kZWvesE25。如果有更加高度定制的模型,也可以在Dify中接入XInference等模型管理平台,然后部署自己的模型。此外,数字人GUI工程中仍然保留了LLM、ASR、TTS、Agent等多个模块,能够保持更好的扩展,比如实现更加真实性感的语音转换、或者如果有更加Geek的Agent实现也可以选择直接后端编码扩展实现。

其他人在问
开源大模型分析
以下是一些开源大模型的分析: 1. KnowLM: 地址: 简介:旨在发布开源大模型框架及相应模型权重以助力减轻知识谬误问题,包括大模型的知识难更新及存在潜在的错误和偏见等。一期发布了基于 Llama 的抽取大模型智析,使用中英文语料对 Llama(13B)进行进一步全量预训练,并基于知识图谱转换指令技术对知识抽取任务进行优化。 2. BayLing: 地址: 简介:由中国科学院计算技术研究所自然语言处理团队开发,是一个具有增强的跨语言对齐的通用大模型。以 Llama 为基座模型,探索了以交互式翻译任务为核心进行指令微调的方法,旨在同时完成语言间对齐以及与人类意图对齐,将 Llama 的生成能力和指令跟随能力从英语迁移到其他语言(中文)。在多语言翻译、交互翻译、通用任务、标准化考试的测评中,中文/英语均有更好表现,并提供了在线的内测版 demo 以供体验。 3. Gemma: 作者:,华中科技大学工学硕士 简介:由 Google DeepMind 和 Google 的其他团队开发,是一系列轻量级的最先进开源模型,灵感来自于 Gemini,名称反映了拉丁语中“宝石”的意思。除了模型权重,谷歌还发布了一些工具来支持开发者的创新,促进合作,并指导 Gemma 模型的负责任使用。 重点:共两个尺寸的模型权重:Gemma 2B 和 Gemma 7B。每种尺寸都提供了预训练和指令调优的版本。 模型地址: 官方页面:https://ai.google.dev/gemma/ 特点:相比 Gemini 更加轻量,同时保持免费可用,模型权重也一并开源了,且允许商用。包含两种权重规模的模型:Gemma 2B 和 Gemma 7B。每种规模都有预训练和指令微调版本。可通过 Kaggle、谷歌的 Colab Notebook 或通过 Google Cloud 访问。尽管体量较小,但在关键基准测试中明显超越了更大的模型,包括 Llama2 7B 和 13B,以及 Mistral 7B,能够直接在开发人员的笔记本电脑或台式电脑上运行。在 HuggingFace 的 LLM leaderboard 上,Gemma 的 2B 和 7B 模型已经双双登顶。
2024-10-28
最好的开源LLM是什么
目前开源的 LLM 有很多优秀的选择,以下为您列举一些: OPT 是表现最优秀的全开源 LLM 之一。这个拥有 1750 亿参数的模型的发布附带了代码,并在公开可用的数据集上进行了训练。 ChatGLM 是中文领域效果最好的开源底座模型之一,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持。 VisualGLM6B 是一个开源的,支持图像、中文和英文的多模态对话语言模型,语言模型基于 ChatGLM6B,具有 62 亿参数;图像部分通过训练 BLIP2Qformer 构建起视觉模型与语言模型的桥梁,整体模型共 78 亿参数。依靠来自于 CogView 数据集的 30M 高质量中文图文对,与 300M 经过筛选的英文图文对进行预训练。 ChineseLLaMAAlpaca 是在原版 LLaMA 的基础上扩充了中文词表并使用了中文数据进行二次预训练,支持本地 CPU/GPU 部署。 需要注意的是,对于“最好的开源 LLM”的评判标准因人而异,取决于具体的应用场景和需求。
2024-10-19
开源音频质量检测模型有哪些?
以下为一些开源音频质量检测模型: 此外,还有: VALLEX:一个开源的多语言文本到语音合成与语音克隆模型。它支持多种语言(英语、中文和日语)和零样本语音克隆,具有语音情感控制和口音控制等高级功能。 智谱·AI 自 2019 年成立以来推出并开源的多款模型,具体可参考。但请注意,Token 数代表了模型支持的总 Token 数量,包括了输入+输出的所有 token,且一个 token 约等于 1.8 个汉字。
2024-10-16
开源音乐生成模型
以下为您介绍一些开源音乐生成模型: ElevenLabs 推出了自己的音乐生成模型 ElevenLabs Music,并展示了早期预览版生成的歌曲。该模型可直接通过文本提示生成完整带歌词音乐,且声称这些歌曲都是根据单个文本提示生成的,没有任何编辑。各首歌曲风格涵盖流行摇滚、乡村、爵士、当代 R&B 和独立摇滚等多样化类型。详细内容及更多试听:https://xiaohu.ai/p/7687 Deepmind 与 YouTube 的 Lyria 音乐生成模型,只要哼唱或者吹口哨就能帮您自动生成交响乐,还能进行歌词创作和风格控制,模仿艺术家风格。其特色是生成音频带 AI 水印。详情链接:https://deepmind.google/discover/blog/transformingthefutureofmusiccreation/ 🔗
2024-10-14
有哪些完全开源免费的AIgc知识库,可以随意复制
以下是一些完全开源免费且可随意复制的 AIGC 知识库: :可将任何文档、资源或内容转换为大语言模型(LLM)知识库,便于在对话中引用。 :包含获取 GPTs 的 Prompt、Knowledge 以及防护教程,还对破解官方 GPTs 的 Prompt 进行了分类。 :收集了众多被破解的 GPTs Prompt。 :精心收集整理的优秀 AI 助手列表。 :仅需一张角色图片,就能生成动作可控的生动视频。 :可安装在电脑和安卓手机上的用户界面,能与文本生成的人工智能互动并进行角色扮演。 :微软开源的 AI 工具,用于简化大模型应用开发周期,打通从构思到生产部署的全流程。 :开源的计算机视觉 AI 工具箱,安装简便,能提升开发效率。
2024-10-07
有哪个完全开源免费的AI知识库
以下为您推荐一个完全开源免费的 AI 知识库:WayToAGI(通往 AGI 之路)。它是由一群热爱 AI 的专家和爱好者共同建设的开源 AI 知识库,大家贡献并整合各种 AI 资源,使得大家都可以轻松学习各种 AI 知识,应用各类 AI 工具和实战案例等。 WayToAGI 提供了一系列开箱即用的工具,文生图、文生视频、文生语音等详尽的教程,将您的文字化为视觉与听觉的现实。它还会追踪 AI 领域最新的进展,时刻更新,让您紧跟 AI 领域的步伐,每次访问都能有新的收获。 无论您是 AI 初学者还是行业专家,都可以在这里发掘有价值的内容,让更多的人因 AI 而强大。 相关链接: 🔗:https://waytoagi.com/(通往 AGI 之路) 🚀即刻体验:https://waytoagi.com/
2024-10-07
数字人直播
以下是关于数字人直播的相关信息: 会议讨论要点: 目前做数字人电商直播,可能只是因为前期宣传及未发现其他更好场景。 数字人配套的运营服务才是电商领域的关键,续费客户多因服务而非数字人本身。 数字人直播在店播场景效果较好,数据能与真人相当。 不建议商家依赖数字人,现阶段数字人服务多为辅助。 盈利方式: 直接卖数字人工具软件,分实时驱动(一年 4 6 万往上)和非实时驱动(一个月 600 元,效果差,市场价格混乱)两类。 提供数字人运营服务,按直播间成交额抽佣。 适用品类和场景: 适用于不需要强展示的商品,如品牌食品饮料;不适用于服装,过品快且衣服建模成本高。 适用于虚拟商品,如门票、优惠券等。 不适用于促销场景,涉及主播话术、套路及调动直播间氛围能力等。 店播场景效果最佳,数据基本能保持跟真人一样。 壁垒和未来市场格局: 长期看技术上无壁垒,但目前仍有技术门槛,如更真实的对口型、更低的响应延迟等。 不会一家独大,可能 4 5 家一线效果,大多二三线效果公司。 能把客户服务好、规模化扩张的公司更有价值,疯狂扩代理割韭菜的公司售后问题多。 有资源、有业务的大平台下场可能带来降维打击,如全环节打通会绑定商家。 数字人简介: 数字人是运用数字技术创造出来的,虽现阶段不能高度智能,但在生活各类场景中已常见。业界尚无准确定义,一般按技术栈分为真人驱动和算法驱动两类。真人驱动的数字人重在通过动捕设备或视觉算法还原真人动作表情,应用于影视和直播带货,表现质量与建模精细度及动捕设备精密程度相关,视觉算法进步使无昂贵设备也能有不错效果。
2024-11-01
实景数字人
以下是关于实景数字人的相关信息: AI 数字人类型和应用场景: 1. 二维/三维虚拟人:用于游戏、IP 品牌(如柳夜熙)、内容创作()等。 2. 真人形象数字人:用于直播卖货,营销/投流广告视频录制(如 Heygen)、语言学习(如 CallAnnie)等。 AI 数字人的价值: 1. 代替人说话,提升表达效率和营销效率。例如真人无法 24 小时直播,但数字人可以。 2. 创造真实世界无法完成的对话或交流。比如 AI talk 的实验探索,复活故去的亲人等。 AI 数字人面临的问题: 1. 平台限制:目前数字人水平参差不齐,平台担心直播观感,有一定打压限制。比如抖音出台一些标准,微信视频号容忍度更低,人工检查封号。 2. 技术限制:形象只是皮囊,智能水平和未来想象空间依赖大模型技术提升。 3. 需求限制:直播带货是落地场景,但不够刚。“懂得都懂”的刚需场景,国内搞不了。目前更多是体验新鲜感。 4. 伦理/法律限制:存在声音、影像版权等问题,比如换脸、数字永生等。 如何构建高质量的 AI 数字人: 1. 构建数字人灵魂:让数字人具备各种智能,如记住个人信息、充当个人助手、在某个领域具备专业知识、处理复杂任务等。实现这些能力有几个工程关键点,包括写像人一样思考的 AI Agent,面临记忆模块、工作流模块、工具调用模块的构建挑战;灵魂部分驱动躯壳的实现,要定义灵魂部分的接口,躯壳通过 API 调用,注意包含情绪的语音表达以及保证躯壳的口型、表情、动作和语音的同步及匹配,目前主流方案只能做到预设一些表情动作,再做逻辑判断来播放预设,语音驱动口型相对成熟但闭源;要解决实时性问题,由于算法部分庞大,几乎不能单机部署,特别是大模型部分,会涉及网络耗时和模型推理耗时,低延时是亟需解决的问题;实现多元跨模态,不仅是语音交互,还可根据需求添加其他感官,如视觉通过添加摄像头数据和 CV 算法做图像解析等;处理拟人化场景,如插话、转移话题等情况,实现工程上的丝滑处理。 2. 虚拟数字人的分类和驱动方式:从驱动层面分为中之人驱动和 AI 驱动。中之人驱动运用动作捕捉和面部捕捉技术实现交互,有上限,缺乏高并发和量产化能力。AI 驱动使用 AI 技术创建、驱动和生成内容,赋予交互能力。从应用层面分为服务型、表演型和身份型。服务型虚拟数字人如虚拟主播、助手、教师、客服和医生等,为物理世界提供服务。表演型如虚拟偶像用于娱乐、影视等。身份型是物理世界“真人”的数字分身,在元宇宙中有广泛应用。 以上讨论的虚拟数字人是 AI 驱动的,主要集中于服务型虚拟数字人,强调其具有功能属性,隶属于业务层。
2024-11-01
有没有AI数字人的软件
以下是一些 AI 数字人的软件和相关信息: 互联网厂商: 腾讯: 阿里: 百度: 华为: 网易: 京东: 字节: 快手: 科大讯飞: 制作数字人的工具: HeyGen:AI 驱动的平台,可创建逼真的数字人脸和角色,使用深度学习算法生成高质量肖像和角色模型,适用于游戏、电影和虚拟现实等应用。 Synthesia:AI 视频制作平台,允许创建虚拟角色并进行语音和口型同步,支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。 DID:提供 AI 拟真人视频产品服务和开发,只需上传人像照片和输入要说的内容,平台提供的 AI 语音机器人将自动转换成语音,然后合成逼真的会开口说话的视频。 更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。请注意,这些工具的具体功能和可用性可能会随时间和技术发展而变化。在使用这些工具时,请确保遵守相关使用条款和隐私政策,并注意保持对生成内容的版权和伦理责任。 此外,关于数字人的相关技术还包括: 算法开源代码仓库: ASR 语音识别: openai 的 whisper:https://github.com/openai/whisper wenet:https://github.com/wenete2e/wenet speech_recognition:https://github.com/Uberi/speech_recognition AI Agent: 大模型部分包括 ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等。 Agent 部分可以使用 LangChain 的模块去做自定义,里面基本包含了 Agent 实现的几个组件 TTS: 微软的 edgetts:https://github.com/rany2/edgetts,只能使用里面预设的人物声音,目前接口免费。 VITS:https://github.com/jaywalnut310/vits,还有很多的分支版本,可以去搜索一下,vits 系列可以自己训练出想要的人声。 sovitssvc:https://github.com/svcdevelopteam/sovitssvc,专注到唱歌上面,前段时间很火的 AI 孙燕姿。 除了算法,人物建模模型可以通过手动建模实现,这样就完成了一个最简单的数字人。但这种简单的构建方式还存在很多问题,例如如何生成指定人物的声音、TTS 生成的音频如何精确驱动数字人口型以及做出相应的动作、数字人如何使用知识库做出某个领域的专业性回答等。
2024-10-31
数字资产管理系统
数字资产管理系统是一种用于管理数字资产的系统。以下是一些相关信息: 法规方面:有规定指出,市场因数据集中而产生的不平衡会受到限制。该法规旨在促进数据处理服务之间的切换,涵盖客户终止数据处理服务合同、与不同提供商签订新合同、转移包括数据在内的所有数字资产,并在新环境中继续使用且保持功能等效等方面。数字资产指客户有权使用的数字格式元素,包括数据、应用、虚拟机等。 产品推荐: 特赞发布的 DAM.GPT:帮助企业利用 AI 管理数字资产,可通过拖拽图片入库,AI 识别图片内容,建立关联和标注属性,通过关键词搜索获取资产,进行人肉筛选,对资产进行中心化合规管理和分发,以及二次加工生产。 SnackPrompt:提示词共享社区,筛选和新建功能良好,支持复制到 ChatGPT 中,创建提示词时可设置动态字段,还能选择语言、风格和语气。 HeroPage:提示词分享社区,创建提示词时可设置动态内容,支持直接回填到 ChatGPT 使用。 Builder.io:Figma 插件支持用自然语言生成设计稿并修改,能将生成的设计稿转成前端代码复制。 X Studio3:小冰公司的音乐 AI 工具,上传歌词和音乐可指定 AI 语音唱歌,能对音频自定义。 Playlistable:AI 生成播放列表,链接 Spotify 播放列表并输入心情,自动生成符合心情的播放列表。
2024-10-30
大模型的数字资产管理系统
大模型的数字资产管理系统涉及以下方面: 大模型的整体架构: 1. 基础层:为大模型提供硬件支撑和数据支持,例如 A100、数据服务器等。 2. 数据层:包括静态的知识库和动态的三方数据集,是企业根据自身特性维护的垂域数据。 3. 模型层:包含 LLm(大语言模型,如 GPT,一般使用 transformer 算法实现)或多模态模型(如文生图、图生图等模型,训练数据与 llm 不同,用的是图文或声音等多模态的数据集)。 4. 平台层:如大模型的评测体系或 langchain 平台等,是模型与应用间的组成部分。 5. 表现层:即应用层,是用户实际看到的地方。 大模型的通俗理解: 大模型是输入大量语料,让计算机获得类似人类的“思考”能力,能够进行文本生成、推理问答、对话、文档摘要等工作。可以用“上学参加工作”来类比大模型的训练、使用过程: 1. 找学校:训练 LLM 需要大量计算,GPU 更合适,只有购买得起大量 GPU 的才有资本训练大模型。 2. 确定教材:大模型需要大量数据,几千亿序列(Token)的输入基本是标配。 3. 找老师:用合适算法让大模型更好理解 Token 之间的关系。 4. 就业指导:为让大模型更好胜任某一行业,需要进行微调(fine tuning)指导。 5. 搬砖:就业指导完成后,进行如翻译、问答等工作,在大模型里称之为推导(infer)。 企业大模型的误区: 1. 总想搞一个宏大的产业大模型:目前大模型能力不足以支持,更适合在场景里解决专业问题。 2. 总想用一个万能大模型解决所有企业问题:企业不同场景可能需要不同的大模型。 3. 认为有了大模型,原来的 IT 系统就淘汰了:大模型需要与原业务系统连接协同工作,原数字化搞得越好,大模型效果越好。 4. 认为大模型不用做数字化,直接一步到位弯道超车:企业没有基本的 IT 系统、数字化系统,没有数据积累和知识沉淀,无法做大模型。
2024-10-30
如何生成 数字人
以下是生成数字人的方法和相关工具: 生成数字人的步骤: 1. 在剪映右侧窗口顶部,打开“数字人”选项,选取免费且适合的数字人形象,如“婉婉青春”。选择后软件会播放其声音,可判断是否需要,点击右下角“添加数字人”将其添加到当前视频中,软件会生成对应音视频并添加到轨道中,左下角会提示渲染完成时间,之后可点击预览查看效果。 2. 为让视频更美观,可增加背景图片。删除先前导入的文本内容,点击左上角“媒体”菜单并“导入”选择本地图片上传,将图片添加到视频轨道上(会覆盖数字人),拖动轨道右侧竖线使其与视频对齐,选中背景图片轨道,调整图片大小和数字人位置。 3. 点击文本智能字幕识别字幕并开始识别,软件会自动将文字智能分段形成字幕,完成后点击右上角“导出”按钮导出视频备用。 制作数字人的工具: 1. HeyGen:AI 驱动的平台,能创建逼真的数字人脸和角色,使用深度学习算法生成高质量肖像和角色模型,适用于游戏、电影和虚拟现实等应用。 2. Synthesia:AI 视频制作平台,允许创建虚拟角色并进行语音和口型同步,支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。 3. DID:提供 AI 拟真人视频产品服务和开发,上传人像照片和输入内容,平台的 AI 语音机器人会自动转换成语音并合成逼真的会开口说话的视频。 更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。请注意,这些工具的具体功能和可用性可能会变化,使用时请遵守相关条款和政策,并注意版权和伦理责任。
2024-10-30
AI 保险 最新新闻
以下是关于 AI 的最新新闻: OpenAI 新模型于 9 月 12 日发布,为匹配新模型的功能,加强了安全工作、内部治理和联邦政府合作,包括严格测试评估、红队工作和董事会级审查流程。还与美国和英国 AI 安全研究所正式达成协议,允许其提前获得研究版本,建立未来模型发布前后的研究、评估和测试流程。 拜登于 2023 年 10 月 30 日签署 AI 行政命令,要求最强大的 AI 系统开发者向美国政府分享安全测试结果等关键信息。国家标准与技术研究所将制定严格标准进行广泛红队测试,国土安全部将其应用于关键基础设施部门并成立 AI 安全与保障委员会。能源和国土安全部将应对 AI 系统对关键基础设施及相关风险。资助生命科学项目的机构将制定新标准防止利用 AI 制造危险生物材料。商务部将为检测 AI 生成内容和认证官方内容制定指导。联邦机构将使用相关工具让美国人能识别政府通信的真实性,并为私营部门和全球政府树立榜样。
2024-11-01
总结一下最新AI动态和新闻,各种新技术和新的应用方向
以下是最新的 AI 动态和新闻,以及新技术和新的应用方向: 技术研究方向: 数学基础:包括线性代数、概率论、优化理论等。 机器学习基础:涵盖监督学习、无监督学习、强化学习等。 深度学习:涉及神经网络、卷积网络、递归网络、注意力机制等。 自然语言处理:包含语言模型、文本分类、机器翻译等。 计算机视觉:有图像分类、目标检测、语义分割等。 前沿领域:如大模型、多模态 AI、自监督学习、小样本学习等。 科研实践:包括论文阅读、模型实现、实验设计等。 应用方向: 编程基础:如 Python、C++等。 机器学习基础:如监督学习、无监督学习等。 深度学习框架:如 TensorFlow、PyTorch 等。 应用领域:包括自然语言处理、计算机视觉、推荐系统等。 数据处理:涵盖数据采集、清洗、特征工程等。 模型部署:涉及模型优化、模型服务等。 行业实践:包含项目实战、案例分析等。 AIGC 周刊动态: 2024 年 7 月第二周:快手发布可灵网页版及大量模型更新;阶跃星辰发布多款模型;商汤打造类似 GPT4o 的实时语音演示;GraphRAG:微软开源新型 RAG 架构。 2024 年 7 月第三周:Anthropic 新增分享和后台功能;LLM 分布式训练框架 OpenDiLoCo;Odysseyml 重构 AI 视频生成技术。 2024 年 7 月第四周:Open AI 发布 GPT4omini、Mistral 发布三个小模型,还有其他一堆小模型等。 2024 年 7 月第五周:Meta 发布的 Llama3.1 405B 模型,具备 128K token 上下文窗口及对 8 种语言的改进,能与领先闭源模型竞争。评估显示其在指令遵循、代码和数学能力上表现优异。同时,还提到 AI 音乐工具 Udio 的大规模更新,以及 OpenAI 推出的 SearchGPT 搜索功能。 新手学习 AI 的方法: 了解 AI 基本概念:阅读「」部分,熟悉术语和基础概念,了解主要分支及联系,浏览入门文章。 开始学习之旅:在「」中找到为初学者设计的课程,推荐李宏毅老师的课程,通过在线教育平台按自己节奏学习。 选择感兴趣的模块深入学习:如图像、音乐、视频等,掌握提示词技巧。 实践和尝试:实践巩固知识,使用各种产品创作,分享实践成果。 体验 AI 产品:与 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人互动,了解工作原理和交互方式。
2024-10-31
AI最新新闻
以下是 1 月 19 日的一些 AI 最新新闻: 1. AWPortrait 1.3 人像模型更新,优化了棚拍质感和皮肤肌理,增强户外场景优化,提高对面部表情的识别,包括微笑、大笑等。链接:https://x.com/xiaohuggg/status/1748316750230487385?s=20 2. Meta AI 的自奖励语言模型,采用新型训练方法,模型自生成训练数据,在 AlpacaEval 2.0 排行榜上表现优异。链接:https://x.com/xiaohuggg/status/1748303100438577478?s=20 3. 微软推出 AI 阅读教练工具,为学生设计,创造 AI 生成故事,通过语音转文本 AI 分析阅读流利性。链接:https://x.com/xiaohuggg/status/1748295530382528713?s=20 4. Stefano Rivera 的 AI 交互式“MR 木偶秀”,利用多种 AI 工具如 ChatGPT、DallE 3,包括 3D 渲染、场景构建、音乐和语音技术。链接:https://x.com/xiaohuggg/status/1748263355763339544?s=20 5. KREA AI 实时生图新功能,提供文本到图像、背景去除和橡皮擦工具,实时生成图像,提高创作便捷性。体验地址:https://krea.ai/apps/image/realtime 链接:https://x.com/xiaohuggg/status/1748214523373477928?s=20 6. 推荐开源知识库程序 Outline,特点为美观、实时协作、功能丰富,支持 Markdown、即时搜索、与 Slack 集成等。GitHub:https://github.com/outline/outline
2024-10-31
最新AI进展
以下是关于最新 AI 进展的相关内容: AI 技术的发展历程: 1. 早期阶段(1950s 1960s):包括专家系统、博弈论、机器学习初步理论。 2. 知识驱动时期(1970s 1980s):有专家系统、知识表示、自动推理。 3. 统计学习时期(1990s 2000s):出现机器学习算法如决策树、支持向量机、贝叶斯方法等。 4. 深度学习时期(2010s 至今):深度神经网络、卷积神经网络、循环神经网络等得到发展。 当前 AI 前沿技术点: 1. 大模型(Large Language Models):如 GPT、PaLM 等。 2. 多模态 AI:包括视觉 语言模型(CLIP、Stable Diffusion)、多模态融合。 3. 自监督学习:如自监督预训练、对比学习、掩码语言模型等。 4. 小样本学习:例如元学习、一次学习、提示学习等。 5. 可解释 AI:涉及模型可解释性、因果推理、符号推理等。 6. 机器人学:涵盖强化学习、运动规划、人机交互等。 7. 量子 AI:包括量子机器学习、量子神经网络等。 8. AI 芯片和硬件加速。 10 月 14 日的 AI 相关进展: 1. ChatGPT 命令工具上线,提供搜索、图像、O1 推理三种命令,使普通模型也具备高级推理能力,测试表明所有模型均支持命令调用,显著提升了 ChatGPT 的整体能力。 2. Anthropic CEO 展望未来,认为 AI 将在 5 10 年内助力扫除几乎所有疾病,寿命翻倍至 150 岁,包括在医学进展方面实现 50 100 年的突破,如大规模预防自然传染病与开发“万能疫苗”,降低癌症死亡率,治愈遗传疾病,开发抗衰老疗法,帮助治疗抑郁症、精神分裂症等疾病,同时自动化劳动解放人类创造力,推动全球经济增长,但也需平衡风险与潜力。 3. ChatGPT 4.0 Canvas 功能助力写作,提供思路、润色语言、内容扩展,支持快速修改与撤回版本,极大提升写作效率,未来或将支持多人协作、数据图表生成、甚至直接生成 PPT。 对于新手学习 AI,要持续学习和跟进,关注 AI 领域的新闻、博客、论坛和社交媒体,保持对最新发展的了解。考虑加入 AI 相关的社群和组织,参加研讨会、工作坊和会议,与其他 AI 爱好者和专业人士交流。
2024-10-31
最新的AI可以做到什么程度的智能
目前最新的 AI 能够达到以下程度的智能: 1. 聊天机器人:具备基本对话能力,主要依赖预设脚本和关键词匹配,用于客户服务和简单查询响应。 2. 推理者:具备人类推理水平,能够解决复杂问题,如 ChatGPT,能够根据上下文和文件提供详细分析和意见。 3. 智能体:不仅具备推理能力,还能执行全自动化业务,但目前许多 AI 智能体产品在执行任务后仍需人类参与,尚未达到完全智能体的水平。 4. 创新者:能够协助人类完成新发明,如谷歌 DeepMind 的 AlphaFold 模型,可以预测蛋白质结构,加速科学研究和新药发现。 5. 组织:最高级别的 AI,能够自动执行组织的全部业务流程,如规划、执行、反馈、迭代、资源分配和管理等。 例如 GPT3 及其半步后继者 GPT3.5(在 2023 年 3 月升级为 GPT4 之前,它驱动了现在著名的 ChatGPT)在某种程度上是朝着 AGI 迈出的巨大一步,而早期的模型像 GPT2 等实际上没有真正连贯回应的能力。
2024-10-30
你能为我介绍一些最新的AI产品吗?能涉及变现的更好~
以下为您介绍一些最新的涉及变现的 AI 产品: 在电商领域: “电商:带货本地生活”,AI 数字人上岗带货本地生活电商,一个月多赚 3 万。 “电商:婴儿的四维彩超 AI 预测”,通过 AI 工具提前还原宝宝的四维彩超模样进行变现。 “电商:小红书 AI 绘画变现”,分享小红书最火的三种 AI 绘画类商品的变现方式。 在写作方面:“Grammarly、秘塔写作猫”是 AI 智能写作助手,利用自然语言处理技术辅助用户进行高质量写作,可检查语法、拼写错误并提供改进建议,以及进行智能润色和内容创作辅助。 在商品推荐方面:“淘宝拍照搜商品”通过图像识别为用户推荐相似商品;“大众点评智能推荐”基于用户口味偏好推荐美食。 在语音助手方面:“小爱同学、Siri”可根据语音识别和自然语言理解技术为不同需求定制专属语音助手,如控制智能家居、回答问题、进行语音交互和任务处理等。 在健身领域:“Keep 智能训练计划”利用数据分析和机器学习技术,根据用户数据制定个性化健身方案。 在客服方面:“阿里小蜜等电商客服”为企业提供智能客服解决方案,可自动回答客户问题,处理订单查询等任务。
2024-10-25
国家人工智能应用示范项目是什么类型的项目
国家人工智能应用示范项目通常是政府为推动人工智能产业创新发展而设立的项目类型。 以杭州市为例,其相关政策包括: 1. 促进数据开放共享:支持建立资源库和数据共享平台,对年度数据服务交易额列全市前 5 位的给予运营补助,鼓励区、县(市)和园区对购买数据服务的中小企业给予资金支持。 2. 拓展智能应用场景:推动“AI+工业互联网”创新应用,实施“智能+”“+智能”应用示范,每年择优评选不超过 10 个标杆型示范项目,按照不超过项目投资额 30%的标准给予补助,补助金额最高不超过 500 万元。支持企业组建“创新应用实验室”和“未来场景实验室”,对作用发挥好的场景实验室,鼓励区、县(市)和园区给予一定资金支持。 此外,美国也有相关的“National Artificial Intelligence Initiative”,其目的包括为美国当前和未来的劳动力做好准备,以实现人工智能系统在经济和社会各领域的整合。
2024-11-01
有趣的AI项目
以下是为您整理的有趣的 AI 项目相关内容: 项目一: 标题:A proinnovation approach 相关内容:新的监测功能将对监管进行实时评估。AI 在医疗保健和医学中的应用蓬勃发展,如 DeepMind 的蛋白质折叠 AI 解决生物学重大问题等。同时也提到了 AI 可能带来的新风险,如损害身心健康、侵犯个人隐私和破坏人权等。大型专业 AI 公司对英国经济有重大贡献。 项目二: 标题:2024 年人工智能现状:辉煌、戏谑和“牛市” 相关内容:预计明年会有团队花费超过 10 亿美元训练单个大规模模型。计算需求的增长超出了电网的支持能力。AI 对选举的影响尚未显现。人工智能持续有令人兴奋的突破,也存在未解决的伦理问题。OpenAI、Meta 等在不同领域领先,中国实验室也在崛起。
2024-10-31
有没有AI分析项目代码的工具
以下是一些可以用于分析项目代码的 AI 工具: 基于规则的测试生成工具: Randoop:适用于 Java 应用程序,基于代码路径和规则生成测试用例。 Pex:微软开发,适用于.NET 应用,自动生成高覆盖率的单元测试。 Clang Static Analyzer:利用静态分析技术识别代码模式和潜在缺陷,生成相应测试用例。 Infer:Facebook 开发,自动生成测试用例,帮助发现和修复潜在错误。 基于机器学习的测试生成工具: DeepTest:利用深度学习模型生成自动驾驶系统的测试用例。 DiffTest:基于对抗生成网络(GAN)生成测试用例,检测系统脆弱性。 RLTest:利用强化学习生成测试用例,提高测试效率和覆盖率。 A3C:基于强化学习,通过策略梯度方法生成高质量测试用例。 基于自然语言处理(NLP)的测试生成工具: Testim:AI 驱动的测试平台,通过分析文档和用户故事自动生成测试用例。 Test.ai:利用 NLP 技术从需求文档中提取测试用例。 Selenium IDE + NLP:结合 NLP 技术扩展 Selenium IDE,从自然语言描述中生成自动化测试脚本。 Cucumber:使用 Gherkin 语言编写的行为驱动开发(BDD)框架,通过解析自然语言描述生成测试用例。 此外,还有一些可以辅助编程的 AI 产品,例如: GitHub Copilot:支持和兼容多种语言和 IDE,为程序员快速提供代码建议。 通义灵码:提供行级/函数级实时续写、自然语言生成代码等能力。 CodeWhisperer:由亚马逊 AWS 团队推出,为开发人员实时提供代码建议。 CodeGeeX:开源的免费 AI 编程助手,基于 130 亿参数的预训练大模型。 Cody:借助 Sourcegraph 强大的代码语义索引和分析能力。 CodeFuse:蚂蚁集团支付宝团队推出的免费 AI 代码助手。 Codeium:通过提供代码建议等帮助软件开发人员。 如果您需要绘制逻辑视图、功能视图、部署视图,可以使用以下工具: Lucidchart:流行的在线绘图工具,支持多种视图创建。 Visual Paradigm:全面的 UML 工具,提供多种架构视图创建功能。 ArchiMate:开源建模语言,与 Archi 工具配合使用创建逻辑视图。 Enterprise Architect:强大的建模、设计和生成代码工具。 Microsoft Visio:广泛使用的图表和矢量图形应用程序。 draw.io(diagrams.net):免费的在线图表软件。 PlantUML:通过编写描述性文本自动生成序列图等,帮助创建逻辑视图。 Gliffy:基于云的绘图工具。 Archi:免费开源工具,用于创建 ArchiMate 和 TOGAF 模型。 Rational Rose:IBM 的 UML 工具,支持多种视图创建。
2024-10-29
通过ai可实现变现的项目
以下是一些通过 AI 可实现变现的项目: AI 抖音发广告:借助抖音平台对实体商家的流量扶持,为实体商家提供发广告的软件,每年基础曝光量达 100 多万,商家购买价格为 3000 元、9000 元、10800 元。需求是懂软件开发的技术人员,熟悉抖音。 AI 私域做客户培育/用户旅程:AI 软件帮助不同商家自动跟进/培育客户。需求是懂软件开发的技术人员,熟悉微信。 AI 绘本:针对 2 4 岁儿童的睡前故事,图文结合,以幼儿理解的方式表达。 大学生社群:高校对接商家,链接商家广告推广群。 AI + 绘本 + 视频:用于 3 10 岁儿童阅读教育。 通过 Bot 实现自动化流程。 法律咨询:制作劳动合同法 Bot,个人机器人对接 AI 并建立数据库回复。 体检报告解读。 在写作方面: 项目启动:确定目标客户群体,如大学生、职场人士、自媒体从业者等;选择合适的 AI 写作工具满足不同客户需求。 准备阶段:学习并实践 AI 写作技术,通过书籍、在线课程等提升写作技能;构建团队,培养和扩充成员提高运营效率。 商业模式构建:确定服务内容,如提供论文、报告、文案等直接写作服务;制定质量控制标准,确保满足客户要求。 运营与推广:在淘宝等电商平台开设店铺销售写作服务;建立写作培训社群分享技巧和经验,通过社交媒体和线下活动进行品牌和社群建设;与绘画团队、其他写作工作室等合作开发新项目。 项目优化与发展:持续关注 AI 技术进展,提升服务质量和效率;根据市场需求拓展新服务和产品;收集客户反馈优化改进服务。 在电商方面: 婴儿的四维彩超 AI 预测,后续针对宝妈还有头像定制、绘画收徒、宝宝起名字、售胎毛纪念品、母乳纪念品、宝宝出生后的相关产品等变现方式。做好私域精细化运营,运营宝妈群体的朋友圈,具有较高经济价值。婴儿四维彩超 AI 项目潜力不错,不局限于单一变现方式,合理推广与精细化运营可获取收益并积累高质量粉丝,为后续其他产品变现提供基础。
2024-10-23
通过ai可表现的项目
以下是一些通过 AI 可表现的项目: 1. 生物融合项目: 能够创造出充满创意的视频,如将不同物体或 IP 进行融合,例如汽车与水果的结合、奥特曼与哥斯拉的跨界等,满足用户好奇心,帮助内容创作者增加社交媒体平台粉丝。 2. “海岱青州”晚会项目: 快速直出:在需求为某种感觉时,能快速低成本进行设计探索,大幅提高设计稿生成速度。 生成后期加工素材:对于传统手段难以获得的需求,可通过特定参数生成素材,并根据需要进行局部重绘和组合。 探索风格和构图:对采风实拍内容进行发散性测试,确定演出中的画面和场景。 结合 AI 生图与传统后期手段:弥补先天缺陷,如生成超广视角的近似宫殿并进行后期处理。 舞美设计:通过适当 Prompt 生成舞台效果图,提高沟通效率和拓展想象力。 3. 通用领域: 能够瞬间完成的工作,如翻译、判断车的位置、看手机是否有划痕、转化他人意思、判断客户问题是退货还是换货等。 可行项目:通过车辆前的摄像头和雷达判断前方车辆的距离、判断患者是否有肺炎。 以 T 恤商店销售额为例,输入衣服材质、营销费用、价格等数值,通过大量数据进行深度学习来得到最终的销售额。图像识别则是将图片转化为大量像素点的 RGB 值作为输入,再大量标注输出,形成神经网络。 但需要注意的是,有些项目对于 AI 来说不可行,比如通过一张图片判断人的意图、用少量图片与教科书来判断肺炎。使用新类型数据时,AI 表现通常也不佳。同时,能否让 AI 项目成功是艰难而复杂的,需要从学习概念的难易程度、数据量的多少等方面进行思考。
2024-10-23
结合知识库的商业项目, 给我100个ai创业的落地方案
很抱歉,目前知识库中没有为您提供 100 个 AI 创业的落地方案。但以下为您列举一些常见的 AI 创业方向供您参考: 1. 开发基于 AI 的智能客服系统,为企业提供高效的客户服务解决方案。 2. 利用 AI 技术进行精准营销,通过数据分析和预测为企业制定个性化的营销策略。 3. 打造 AI 驱动的医疗诊断辅助工具,帮助医生更准确地诊断疾病。 4. 研发 AI 教育软件,实现个性化学习和智能辅导。 5. 构建 AI 智能家居系统,实现家居设备的自动化控制和智能化管理。 6. 开发 AI 图像识别技术,应用于安防、交通等领域。 7. 推出 AI 金融风险评估模型,为金融机构提供更准确的风险评估。 8. 打造 AI 内容创作平台,生成文章、视频脚本等。 9. 研发 AI 人力资源管理工具,进行人才筛选和绩效评估。 10. 构建 AI 物流优化系统,提高物流效率和降低成本。 您可以根据自身的资源和优势,进一步细化和拓展这些方向,形成具体的创业方案。
2024-10-18