Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

我想了解下目前AI数字人的发展情况

Answer

AI 数字人是运用数字技术创造出来的,虽现阶段未达科幻作品中的高度智能,但已在生活多场景中出现且应用爆发。目前业界对其无准确定义,一般可分真人驱动和算法驱动两类。

真人驱动的数字人重在通过动捕设备或视觉算法还原真人动作表情,主要用于影视、直播带货等,表现质量与建模精细度和动捕设备精密程度有关,现视觉算法进步,无昂贵设备也能通过摄像头捕捉关键信息达到不错效果。

数字人未来有很多应用场景,如家庭中的数字人管家、学校里的数字人老师、商场中的数字人导购等。未来还会有技术突破,如将五感数据和躯壳控制参数作为输入,算法能自我迭代升级等。

其类型和应用场景包括二维/三维虚拟人用于游戏、IP 品牌、内容创作等;真人形象数字人用于直播卖货、营销/投流广告视频录制、语言学习等。

价值在于代替人说话,提升表达和营销效率,如能 24 小时直播;创造真实世界无法完成的对话或交流。

但面临一些问题,如平台限制,数字人水平参差不齐,平台有打压限制;技术限制,智能水平依赖大模型技术提升;需求限制,直播带货是落地场景但不刚,刚需场景受限,更多是体验新鲜感;伦理/法律限制,涉及声音、影像版权等。

Content generated by AI large model, please carefully verify (powered by aily)

References

AI 数字人-定义数字世界中的你

数字人,是指运用数字技术创造出来的人,虽然在现阶段不能做到像科幻作品中的人型机器人一样具备高度智能,但它已经在生活的各类场景中触手可及,而且随着AI技术的发展,也正在迎来应用爆发。目前业界还没有一个关于数字人的准确定义,但一般可以根据技术栈的不同分为两类,一类是由真人驱动的数字人,另一类是由算法驱动的数字人。[heading4]1.1真人驱动的数字人[content]这类数字人重在通过动捕设备或视觉算法还原真人动作表情,主要应用于影视行业以及现下很火热的直播带货,其表现质量与手动建模的精细程度及动捕设备的精密程度直接相关,不过随着视觉算法的不断进步,现在在没有昂贵动捕设备的情况下也可以通过摄像头捕捉到人体骨骼和人脸的关键点信息,从而做到不错的效果。

AI 数字人-定义数字世界中的你

数字人在未来肯定会有很多的应用场景,比如家庭中有数字人管家,全面接管智能家居或其他设备;学校中有数字人老师,孜孜不倦的为学生答疑解惑;商场里有数字人导购,为顾客提供指路、托管个人物品等悉心服务...数字人在未来肯定还有很多的技术突破,比如可以将五感数据作为输入(例如声音、图像、气味、震动等等),将所有可以控制躯壳的参数也作为输入(例如躯壳骨骼节点,面部混合形状参数等);次世代的算法可以自我迭代升级,也可以拿到感官输入以及躯壳控制方法后,自行演化躯壳控制方式...笔者希望通过Dify搭建数字人的开源项目,给大家展现低门槛高度定制数字人的基本思路,但数字人的核心还是在于我们的Agent,也就是数字人的灵魂,怎样在Dify上面去编排专属自己的数字人灵魂是值得大家自己亲自体验的。真诚的希望看到,随着数字人的多模态能力接入、智能化水平升级、模型互动控制更精确,用户在需要使用AI的能力时,AI既可以给你提供高质量的信息,也能关注到你的情绪,给你一个大大的微笑,也许到了那时,数字世界也开始有了温度。

7月2日 张晟、汗青讨论数字人

嘉宾:张晟(来自一线数字人公司)、汗青(B站搜索AI Talk)视频源地址:[AI数字人(虚拟人)讨论总结](https://bytedance.feishu.cn/docx/ZYladJDfrocZOGxylnucJeMXn0b)[heading2]AI数字人类型和应用场景?[content]1.二维/三维虚拟人:用于游戏、IP品牌(柳夜熙)、内容创作([http://AI.talk](https://t.co/EM7nnuMohc))等。2.真人形象数字人:用于直播卖货,营销/投流广告视频录制(Heygen)、语言学习(CallAnnie)等等。[heading2]AI数字人的价值是什么?[content]1.代替人说话,提升表达效率和营销效率。比如真人做不到24小时直播,但数字人可以。2.创造真实世界无法完成的对话或交流。例如AI talk的实验探索,复活故去的亲人等。[heading2]AI数字人面临的问题?[content]平台限制:目前数字人水平参差不齐,平台担心直播观感,有一定打压限制。比如抖音出台一些标准,而微信视频号容忍度更低,人工检查封号。技术限制:形象只是皮囊,智能水平和未来想象空间,依赖大模型技术提升。需求限制:直播带货算个落地场景,但不刚。“懂得都懂”的刚需场景,国内搞不了。目前更多是体验新鲜感。伦理/法律限制:声音、影像版权等,比如换脸、数字永生等等。

Others are asking
AI 领导力
以下是关于“AI 领导力”的相关内容: 1. 2023 年 10 月 30 日,拜登签署了一项具有里程碑意义的行政命令,旨在确保美国在抓住人工智能(AI)的机遇和管理其风险方面发挥引领作用。该行政命令确立了新的 AI 安全和保障标准,保护美国人的隐私,推进公平和公民权利,维护消费者和工人的权益,促进创新和竞争,提升美国在全球的领导地位等。同时,该命令还指示了一系列行动,以应对 AI 系统对美国人安全和保障的潜在风险。 2. 英国国防部于 2022 年 6 月发布了自身的 AI 伦理原则和政策,确定了英国政府在 AI 赋能军事能力方面的方法。将通过特定情境的方法确保该政策应用的适当一致性和协调性,从而促进英国在国防领域使用 AI 的领导地位。 3. 在 AI 迅速发展的当下,懂得有效利用 AI 的人将在职场占据绝对优势。掌握 Claude 的 5 层 Prompt 体系能为自己打造强大竞争壁垒,Prompt 工程已成为热门新兴职业。将该体系应用到日常工作中,如市场研究、写作、数据分析项目等,能创造出令人惊叹的内容。在这个 AI 驱动的世界,真正的魔法在于懂得使用 AI 的人。引用凯文·凯利的话,懂得使用机器人的人将取代不懂得使用的人,掌握 Claude 的 5 层 Prompt 体系是通往未来的金钥匙。
2025-01-09
ai编程
以下是关于 AI 编程的相关内容: 1. 借助 AI 学习编程的关键:打通学习与反馈循环。从“Hello World”起点开始,验证环境、建立信心、理解基本概念,形成“理解→实践→问题解决→加深理解”的学习循环。学习建议包括使用流行语言和框架(如 React、Next.js、TailwindCSS),先运行再优化,小步迭代,一次解决一个小功能,借助 AI 生成代码后请求注释或解释以帮助理解代码,遇到问题时采取复现、精确描述、回滚的步骤。同时要明确,AI 是强大的工具,但仍需人工主导,掌握每次可运行的小成果才能实现持续提升。原文链接: 2. 麦橘 0 基础跨界 AI 编程共学活动:麦橘是哲学专业模型师,此次跨界教学。活动从上星期开始策划未预告。麦橘展示用 AI 做小游戏,认为机制对简单小游戏很重要,还分享了自己尝试做 horror game 等的想法。使用 Poe 制作小游戏,因其性价比高且多种模型可用,支持写代码后的预览,还能教大家分享游戏。以小鸟过管道游戏为例,不懂代码也能让 AI 做游戏,通过告诉 AI 想要的效果让其调整,如降低难度等,最终做出游戏再搭排行榜成为洗脑小游戏。麦橘还介绍了增量游戏、肉鸽游戏的制作以及与 AI 交互的情况。 3. 软件 2.0 编程:在可以低成本反复评估、并且算法难以显式设计的领域,软件 2.0 日益流行。考虑整个开发生态以及如何适配这种新的编程范式时,会有很多令人兴奋的机会。长远来看,这种编程范式拥有光明的未来,因为当开发通用人工智能(AGI)时,很可能会使用软件 2.0。
2025-01-09
研究生做科研写论文有没有好的AI工具推荐
以下是一些适合研究生做科研写论文的 AI 工具推荐: 1. 文献管理和搜索: Zotero:结合 AI 技术,可自动提取文献信息,便于管理和整理参考文献。 Semantic Scholar:由 AI 驱动的学术搜索引擎,能提供文献推荐和引用分析。 2. 内容生成和辅助写作: Grammarly:通过 AI 技术提供文本校对、语法修正和写作风格建议,提升语言质量。 Quillbot:基于 AI 的重写和摘要工具,可精简和优化论文内容。 3. 研究和数据分析: Google Colab:提供基于云的 Jupyter 笔记本环境,支持 AI 和机器学习研究,方便进行数据分析和可视化。 Knitro:用于数学建模和优化的软件,有助于复杂的数据分析和模型构建。 4. 论文结构和格式: LaTeX:结合自动化和模板,高效处理论文格式和数学公式。 Overleaf:在线 LaTeX 编辑器,有丰富模板库和协作功能,简化编写过程。 5. 研究伦理和抄袭检测: Turnitin:广泛使用的抄袭检测工具,确保论文原创性。 Crossref Similarity Check:通过与已发表作品比较,检测潜在抄袭问题。 此外,如果是医学课题需要 AI 给出修改意见,可以考虑使用: 1. Scite.ai:为研究人员等打造的创新平台,提供引用声明搜索等工具,简化学术工作。 2. Scholarcy:能从文档提取结构化数据,生成文章概要,包含关键概念等板块内容。 3. ChatGPT:强大的自然语言处理模型,可提供修改意见和帮助。 对于 AI 文章排版工具,论文排版方面: 1. Grammarly:不仅是语法和拼写检查工具,还提供排版功能,改进文档风格和流畅性。 2. QuillBot:AI 驱动的写作和排版工具,改进文本清晰度和流畅性。 3. Latex:常用于学术论文排版,使用标记语言描述格式,有许多 AI 辅助的编辑器和插件。 4. PandaDoc:文档自动化平台,使用 AI 帮助创建、格式化和自动化文档生成,适合商业和技术文档。 5. Wordtune:AI 写作助手,重新表述和改进文本,使其更清晰专业。 6. Overleaf:在线 Latex 编辑器,提供丰富模板和协作工具,适合学术写作和排版。 选择合适的工具取决于具体需求,如文档类型、出版标准和个人偏好。学术论文常用 Latex 和 Overleaf,一般文章和商业文档则 Grammarly 和 PandaDoc 等可能更适用。请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-01-09
什么是AI
AI 是一门令人兴奋的科学,它是指某种模仿人类思维,可以理解自然语言并输出自然语言的东西。 对于没有理工科背景的人来说,可以将其当成一个黑箱。AI 技术无论如何发展,其生态位仍是一种似人而非人的存在。 从历史角度看,最初计算机由查尔斯·巴贝奇发明,用于按照明确的程序进行数字运算,现代计算机虽更先进但仍遵循相同理念。而对于像根据照片判断人的年龄这类无法明确编程的任务,正是 AI 所感兴趣的。 在应用方面,AI 健身是利用 AI 技术辅助或改善健身训练和健康管理的方法,能根据用户情况提供定制化训练计划和建议。例如 Keep、Fiture、Fitness AI、Planfit 等都是不错的 AI 健身工具。
2025-01-09
最好用的聊天AI是哪个
目前,在聊天 AI 领域,Open AI 的 ChatGPT 遥遥领先,占 AI 聊天机器人类别总访问量的 76.31%。角色 AI 以 19.86%的访问量位居第二。其他竞争者如 Google 的 Bard、Janitor AI、Perplexity AI、You.com、Crushon AI 和 Personal AI 各自产生的访问量不到总访问量的 2%,但 Bard 正在成长,直到 2023 年 3 月才推出。 在写作方面,最佳免费选项有 Bing(https://www.bing.com/search?q=Bing+AI&showconv=1&FORM=hpcodx)和 Claude 2(https://claude.ai/),付费选项有带有插件的 ChatGPT 4.0/ChatGPT。目前,GPT4 仍然是功能最强的人工智能写作工具,可在 Bing(选择“创新模式”)上免费访问,或通过购买 ChatGPT 的$20/月订阅来访问。Claude 紧随其后,也提供有限的免费选项。 ChatGPT 基于 OpenAI 最先进的语言模型 gpt3.5turbo。使用 OpenAI 的 API,可使用 gpt3.5turbo 构建自己的应用来起草邮件、写 Python 代码、回答关于一组文档的问题、创建会话代理、给软件提供自然语言接口、辅导各种学科、语言翻译、假扮成游戏或其他内容的角色等。您也可以体验新的 OpenAI 在线编辑器的聊天格式(https://platform.openai.com/playground?mode=chat)。
2025-01-09
给我提供一下国内AI大模型链接
以下是为您提供的国内AI大模型链接: 阿里: 智谱AI: 科大讯飞: 百度: 抖音: 中科院: 百川智能: 商汤: MiniMax: 上海人工智能实验室:
2025-01-09
数字人
数字人是运用数字技术创造出来的人,虽现阶段不能如科幻作品中的人型机器人般高度智能,但已在各类生活场景中常见,且随 AI 技术发展迎来应用爆发。目前业界尚无准确定义,一般按技术栈不同分为真人驱动和算法驱动两类。 真人驱动的数字人重在通过动捕设备或视觉算法还原真人动作表情,主要用于影视行业及直播带货,表现质量与手动建模精细度及动捕设备精密程度直接相关,不过视觉算法进步使无昂贵动捕设备时也能通过摄像头捕捉人体骨骼和人脸关键点信息实现不错效果。 制作数字人的工具主要有: 1. HeyGen:AI 驱动的平台,能创建逼真数字人脸和角色,使用深度学习算法生成高质量肖像和角色模型,适用于游戏、电影和虚拟现实等。 2. Synthesia:AI 视频制作平台,可创建虚拟角色并进行语音和口型同步,支持多种语言,用于教育视频、营销内容和虚拟助手等场景。 3. DID:提供 AI 拟真人视频产品服务和开发,上传人像照片和输入内容,平台的 AI 语音机器人自动转换成语音并合成逼真说话视频。 更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。使用这些工具时,请遵守相关使用条款和隐私政策,注意生成内容的版权和伦理责任。 以下是一些包含数字人的节目单示例: 1. 节目“猜真人”:魔术互动类表演,2 个、8 个数字分身,分辨哪个是真正的我,需求技术为 AI 数字人。 2. 节目“亲情的应用场景(逝者)”:女儿打扫房间扫到去世父亲的二维码再次对话,涉及 AI 分身的积累准备。 3. 节目“AI 转绘”:经典电影混剪,需求包括短片素材、AI 转绘、Lora。 4. 节目“AI 贺岁”:晚会中场致谢,需求有共创团队记录、大家的感谢、新年祝福。 5. 节目“打工人共情”:有关 35 岁可能被开除等话题,需求包括 AI 素材、共情脚本、炫技视频剪辑。
2025-01-09
我想知道关于数字员工的一些落地方案
以下是关于数字员工的一些落地方案: 易观的报告《2024 年 AI 加速数字员工智能化落地——中国数字员工市场发展及企业数字员工落地建议报告》探讨了数字员工的定义、价值、分类,并预测了发展趋势。报告指出,数字员工能提升企业运营效率、降低成本、保障工作质量与稳定性。其发展趋势包括智能水平提升、融入工作流程、成为企业核心资产、开发与运营平台的在线化与开放化、市场的业态多样化、企业专业数据的深度洞察与策略制定、组织能力的新要求、群体智能与组织孪生的纵深发展等。 实战课程方面,提供了一比一数字人分身的定制体验,能让您熟练使用 10 多种热门数字人工具,掌握数字人定制、唇形同步、声音克隆、视频翻译、AI 换脸等技术,了解数字人商业应用场景及行业现状,将数字人融入工作流,完美匹配场景和工具,还能获得自学路径,课程后能持续学习并完成落地。并且搭建了交流群,方便解决课程问题和与其他同学讨论学习心得。 在技术实现上,算法驱动的数字人涉及 ASR 语音识别(如 openai 的 whisper、wenet、speech_recognition 等)、AI Agent(大模型包括 ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等,Agent 部分可使用 LangChain 的模块自定义)、TTS(如微软的 edgetts、VITS、sovitssvc 等)。人物建模模型可以通过手动建模(音频驱动)或者 AIGC 的方式生成人物的动态效果(例如 wav2lip 模型)实现。但这种简单的构建方式还存在一些问题,如如何生成指定人物的声音、TTS 生成的音频如何精确驱动数字人口型以及做出相应的动作、数字人如何使用知识库做出某个领域的专业性回答等。
2025-01-08
数字人api
以下是关于数字人 API 的相关信息: HeyGen 开放数字人 API,提供虚拟人制作、视频翻译和互动虚拟人等功能,可应用于在线营销、客户支持、培训教程等多场景,助力打造全球化、多语言互动数字体验。相关链接: 出门问问提供语音合成(TTS)API,接口请求域名:https://open.mobvoi.com/api/tts/v1,接口请求频率限制为 5 次/秒。其语音合成技术可以将任意文本转化为语音,应用场景广泛,如视频 APP 配音解说、小说 App 有声阅读等,并提供多种方言和风格。请求参数方面,HTTP Method 支持 POST 请求。 如果您对 ComfyUI 部署不了解,但想体验并使用数字人照片的驱动及 AI 配音,可以微信搜索「奇妙元」「魔音工坊」,或扫描二维码。若在实操中遇到报错问题,如打开 ComfyUI 调用 api 的节点丢失爆红,需检查是否下载了 api 节点的包,放进 node 里再试试;若输出节点框显示 404,可查看 text 文字情况,也可以获取生成的链接,从浏览器的页面打开即可下载。目前发现官方的 python311 版本和节点有安装依赖冲突,若节点正确放到节点文件夹仍然爆红请使用 python310 运行安装环境依赖。若使用 310 仍然爆红,可以联系 Wechat:9755294(备注 ComfyUI)。
2025-01-08
数字人AI工具
以下是一些制作数字人的工具: 1. HeyGen:这是一个 AI 驱动的平台,能创建逼真的数字人脸和角色。它运用深度学习算法生成高质量的肖像和角色模型,适用于游戏、电影和虚拟现实等领域。 2. Synthesia:这是一个 AI 视频制作平台,允许用户创建虚拟角色并实现语音和口型同步。支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。 3. DID:这是一家提供 AI 拟真人视频产品服务和开发的公司,只需上传人像照片和输入要说的内容,平台提供的 AI 语音机器人将自动转换成语音,然后合成逼真的会开口说话的视频。 此外,还有适合小白用户的开源数字人工具,其特点是一键安装包,无需配置环境,简单易用。功能包括生成数字人视频,支持语音合成和声音克隆,操作界面中英文可选。系统兼容 Windows、Linux、macOS,模型支持 MuseTalk(文本到语音)、CosyVoice(语音克隆)。使用步骤为下载 8G+3G 语音模型包,启动模型即可。相关链接:GitHub: 请注意,这些工具的具体功能和可用性可能会随时间和技术发展而变化。在使用时,请确保遵守相关使用条款和隐私政策,并注意对生成内容的版权和伦理责任。更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。
2025-01-07
我需要找一个帮我生成数字人口播视频的AI工具
以下为您推荐一些可以生成数字人口播视频的 AI 工具: 1. 【TecCreative】 只需输入口播文案,选择期望生成的数字人形象及目标语言,即可生成数字人口播视频。操作指引:输入口播文案——选择目标语言——选择数字人角色——选择输出类型——点击开始生成。 支持多场景数字人口播配音,操作指引:输入口播文案——选择数字人角色和场景——选择输出类型——点击开始生成。 支持音频驱动多场景数字人,操作指引:上传音频链接——选择数字人角色和场景——选择输出类型——点击开始生成。 2. XiaoHu.AI 推荐的开源且适合小白用户的数字人工具 特点:一键安装包,无需配置环境,简单易用。 功能:生成数字人视频,支持语音合成和声音克隆,操作界面中英文可选。 系统兼容:支持 Windows、Linux、macOS。 模型支持:MuseTalk(文本到语音)、CosyVoice(语音克隆)。 使用步骤:下载 8G+3G 语音模型包,启动模型即可。 GitHub: 官网:
2025-01-07
怎样制作数字人
以下是制作数字人的方法和相关工具: 方法: 在剪映中生成数字人: 在剪映右侧窗口顶部打开“数字人”选项,选取免费且适合的数字人形象,如“婉婉青春”。选择后软件会播放其声音,可判断是否需要,点击右下角“添加数字人”将其添加到当前视频中,软件会生成对应音视频并添加到轨道中,左下角会提示渲染完成时间,之后可点击预览查看效果。 增加背景图片:删除先前导入的文本内容,点击左上角“媒体”菜单并点击“导入”按钮选择本地图片上传,将图片添加到视频轨道上(会覆盖数字人),拖动轨道最右侧竖线使其与视频对齐,选中背景图片轨道,在显示区域拖动图片角将其放大到合适尺寸,并将数字人拖动到合适位置。 增加字幕:点击文本智能字幕识别字幕,点击开始识别,软件会自动将文字智能分段并形成字幕。完成后点击右上角“导出”按钮导出视频备用。 工具: HeyGen:AI 驱动的平台,可创建逼真的数字人脸和角色,使用深度学习算法生成高质量肖像和角色模型,适用于游戏、电影和虚拟现实等应用。 Synthesia:AI 视频制作平台,允许创建虚拟角色并进行语音和口型同步,支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。 DID:提供 AI 拟真人视频产品服务和开发,上传人像照片和输入要说的内容,平台的 AI 语音机器人将自动转换成语音,合成逼真的会开口说话的视频。 更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。请注意,这些工具的具体功能和可用性可能会变化,使用时请遵守相关使用条款和隐私政策,并注意对生成内容的版权和伦理责任。
2025-01-07
我作为一名OA软件的行业的售前,我的工作中会涉及到AI与OA结合落地的智能化场景,所以我对AI知识有简单的了解,我现在想转型AI行业的售前,我该如何系统的学习AI的相关知识,请帮我制定一个计划
以下是为您制定的从 OA 软件售前转型到 AI 行业售前的系统学习计划: 一、了解 AI 基本概念 首先,建议阅读「」部分,熟悉 AI 的术语和基础概念。了解什么是人工智能,它的主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。同时,浏览入门文章,这些文章通常会介绍 AI 的历史、当前的应用和未来的发展趋势。 二、开始 AI 学习之旅 在「」中,您将找到一系列为初学者设计的课程。特别推荐李宏毅老师的课程。您还可以通过在线教育平台(如 Coursera、edX、Udacity)上的课程,按照自己的节奏学习,并有机会获得证书。 三、选择感兴趣的模块深入学习 AI 领域广泛,比如图像、音乐、视频等。您可以根据自己的兴趣选择特定的模块进行深入学习。同时,一定要掌握提示词的技巧,它上手容易且很有用。 四、实践和尝试 理论学习之后,实践是巩固知识的关键。尝试使用各种产品做出您的作品。在知识库提供了很多大家实践后的作品、文章分享,欢迎您实践后的分享。 五、体验 AI 产品 与现有的 AI 产品进行互动是学习 AI 的另一种有效方式。尝试使用如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人,了解它们的工作原理和交互方式。通过与这些 AI 产品的对话,您可以获得对 AI 在实际应用中表现的第一手体验,并激发您对 AI 潜力的认识。 六、掌握相关技能和知识 1. 从编程语言入手学习:可以从 Python、JavaScript 等编程语言开始学习,学习编程语法、数据结构、算法等基础知识,为后续的 AI 学习打下基础。 2. 尝试使用 AI 工具和平台:可以使用 ChatGPT、Midjourney 等 AI 生成工具,体验 AI 的应用场景。探索一些面向中学生的 AI 教育平台,如百度的“文心智能体平台”、Coze 智能体平台等。 3. 学习 AI 基础知识:了解 AI 的基本概念、发展历程、主要技术如机器学习、深度学习等。学习 AI 在教育、医疗、金融等领域的应用案例。 4. 参与 AI 相关的实践项目:可以参加学校或社区组织的 AI 编程竞赛、创意设计大赛等活动。尝试利用 AI 技术解决生活中的实际问题,培养动手能力。 5. 关注 AI 发展的前沿动态:关注 AI 领域的权威媒体和学者,了解 AI 技术的最新进展。思考 AI 技术对未来社会的影响,培养对 AI 的思考和判断能力。 总之,作为转型者,您可以从以上多个方面入手,全面系统地学习 AI 知识和技能,为未来在 AI 行业的售前工作做好准备。
2025-01-07
我先系统了解AIGC 行业
以下是关于 AIGC 行业的系统介绍: AIGC(Artificial Intelligence Generated Content,人工智能生成内容)的发展历程可以从内容生产方式的演变来了解。在互联网发展过程中,内容生产方式经历了从 PGC(ProfessionalGenerated Content,专业生成内容)到 UGC(UserGenerated Content,用户生成内容),再到 AIGC 的转变。 在 Web1.0 时代,互联网内容生产以 PGC 为主,由专家和专业机构生产高质量内容,如雅虎、IMDb 等。PGC 的优势在于专业性和易变现,但存在创作门槛高、产量不足等挑战。 随着互联网发展和用户需求多样化,Web 2.0 时代到来,用户参与内容创作,UGC 成为主流。UGC 内容多样、个性化,通过推荐系统满足用户需求,降低了专业门槛,促进了互联网的民主化和个性化内容创作。 在当前,国内 AIGC 行业主要在《网络安全法》《数据安全法》以及《个人信息保护法》的框架下,由《互联网信息服务算法推荐管理规定》、《互联网信息服务深度合成管理规定》、《生成式人工智能服务管理暂行办法》、《科技伦理审查办法(试行)》共同监管。 此外,还有一些具体的应用案例,如 Collov 是来自美国硅谷的家居垂直行业 AIGC 工具,专注于利用人工智能技术来实现空间设计与家具营销二合一,打通供应链,为企业提高更低成本、更智能高效的空间设计与家具营销解决方案。它能够完成人类设计师以及高美感内容的视觉理解、推理和生成任务,并将生成技术服务于家装、工装、建筑、具身智能机器人、智能驾驶等多领域的商业场景,替代传统人工设计和采集流程。AI 技术的应用显著提高了设计和营销的效率,减少了对传统人工的依赖,增强了客户的交付满意度,提升了企业的市场竞争力。
2025-01-06
RAG技术基本了解
RAG(Retrieval Augmented Generation,检索增强生成)是一种结合信息检索和文本生成能力的技术,主要用于处理需要广泛知识的任务,如问答系统,能够提供详细而准确的回答。 其基本流程包括以下几个步骤: 1. 文档加载:从多种不同来源加载文档,如 PDF 在内的非结构化数据、SQL 在内的结构化数据以及 Python、Java 之类的代码等。 2. 文本分割:文本分割器把文档切分为指定大小的块,称为“文档块”或者“文档片”。 3. 存储:涉及将切分好的文档块进行嵌入转换成向量的形式,并将 Embedding 后的向量数据存储到向量数据库。 4. 检索:通过某种检索算法从向量数据库中找到与输入问题相似的嵌入片。 5. 输出:把问题以及检索出来的嵌入片一起提交给 LLM,LLM 会通过问题和检索出来的提示一起来生成更加合理的答案。 RAG 由两部分组成:一个“检索器”和一个“生成器”。检索器从外部知识中快速找到与问题相关的信息,生成器则利用这些信息来制作精确和连贯的答案。 在实际应用中,例如构建能够利用私有数据或实时数据进行推理的 AI 应用时,将相关信息检索并插入到模型的输入中,即检索增强生成,可以提高生成的质量和准确性。首先给定一个用户的输入,RAG 会从一个数据源中检索出与之相关的文本片段作为上下文,然后将用户的输入和检索到的上下文拼接成一个完整的输入传递给大模型,最后从大模型的输出中提取或格式化所需的信息返回给用户。
2025-01-06
能否实现,通过对话,了解一个人的生平,然后生成一个人的回忆录或者自传
目前通过对话来全面了解一个人的生平并生成其回忆录或自传具有一定的挑战性。虽然自然语言处理和人工智能技术在理解和处理语言方面取得了显著进展,但要准确、完整地捕捉一个人一生的复杂经历、情感和细节仍然存在困难。 然而,利用 AI 技术可以在一定程度上辅助这一过程。例如,可以通过与个人的多次深入交流,提取关键信息和重要事件,并运用语言生成模型来初步构建相关内容。但这需要大量的交互和精细的引导,并且生成的结果可能还需要人工进一步的编辑和完善,以确保其准确性和真实性。 总之,虽然完全依靠对话实现完美的个人回忆录或自传生成尚有难度,但 AI 可以作为一个有潜力的辅助工具来参与这一过程。
2025-01-06
RAG技术基本了解
RAG(Retrieval Augmented Generation,检索增强生成)是一种结合信息检索和文本生成能力的技术,主要用于处理需要广泛知识的任务,如问答系统,能够提供详细而准确的回答。 其基本流程包括以下几个步骤: 1. 文档加载:从多种不同来源加载文档,如PDF 在内的非结构化数据、SQL 在内的结构化数据以及 Python、Java 之类的代码等。 2. 文本分割:文本分割器把文档切分为指定大小的块,称为“文档块”或者“文档片”。 3. 存储:涉及将切分好的文档块进行嵌入转换成向量的形式,并将 Embedding 后的向量数据存储到向量数据库。 4. 检索:通过某种检索算法从向量数据库中找到与输入问题相似的嵌入片。 5. 输出:把问题以及检索出来的嵌入片一起提交给 LLM(大语言模型),LLM 会通过问题和检索出来的提示一起来生成更加合理的答案。 RAG 由两部分组成:一个“检索器”和一个“生成器”。检索器从外部知识中快速找到与问题相关的信息,生成器则利用这些信息来制作精确和连贯的答案。在给定一个用户的输入(如问题或话题)时,RAG 会从数据源中检索出相关的文本片段作为上下文,然后将用户输入和检索到的上下文拼接成完整输入传递给大模型,并从大模型的输出中提取或格式化所需信息返回给用户。
2025-01-06
我想学习和了解AI我从哪里开始?
如果您是新手,想要学习和了解 AI,可以从以下几个方面开始: 1. 了解 AI 基本概念: 阅读「」部分,熟悉 AI 的术语和基础概念,包括人工智能的定义、主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。 浏览入门文章,了解 AI 的历史、当前的应用和未来的发展趋势。 2. 开始 AI 学习之旅: 在「」中,您能找到为初学者设计的课程,特别推荐李宏毅老师的课程。 通过在线教育平台(如 Coursera、edX、Udacity)上的课程,按照自己的节奏学习,还有机会获得证书。 3. 选择感兴趣的模块深入学习: AI 领域广泛,比如图像、音乐、视频等,您可以根据自己的兴趣选择特定的模块进行深入学习。建议掌握提示词的技巧,它上手容易且很有用。 4. 实践和尝试: 理论学习之后,实践是巩固知识的关键,尝试使用各种产品做出您的作品。在知识库提供了很多大家实践后的作品、文章分享,欢迎您实践后的分享。 5. 体验 AI 产品: 与现有的 AI 产品进行互动,如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人,了解它们的工作原理和交互方式,获得对 AI 在实际应用中表现的第一手体验,并激发对 AI 潜力的认识。 记住,学习 AI 是一个长期的过程,需要耐心和持续的努力。不要害怕犯错,每个挑战都是成长的机会。随着时间的推移,您将逐渐建立起自己的 AI 知识体系,并能够在这一领域取得自己的成就。完整的学习路径建议参考「通往 AGI 之路」的布鲁姆分类法,设计自己的学习路径。 比如在记忆方面,先从
2025-01-05
根据小学生试卷答题情况,分析需要加强复习的知识点,用什么AI工具
以下是一些可用于根据小学生试卷答题情况分析需要加强复习知识点的 AI 工具及相关建议: 1. ChatGPT:可以帮助分析答题中的语言表达、逻辑推理等方面的问题,从而确定语文、数学等学科中需要加强的知识点。 2. 国内模型如豆包:能提供一定的分析和指导。 3. 通义:对于英语等学科的答题情况分析有帮助,例如语法、词汇等方面的问题。 在使用这些 AI 工具时,您可以将试卷内容输入给工具,并要求其分析答题中的错误和不足之处,从而找出需要加强复习的知识点。但需要注意的是,不能完全依赖 AI 的分析结果,还需要结合教师的专业判断和教学经验。
2025-01-05
flux lora调参数,我训练出来的人物模型和数据集的人物图片不像,出现这种情况的原因都有哪些,应该调整哪些参数,我需要我的flux模型训练出来的模型是一致性还原性,和泛化性比较不错的,按照这个方向给我指导
以下是关于 flux lora 调参数以获得一致性、还原性和泛化性较好的人物模型的指导: 打标环节: 选择基础大模型,如“麦橘写实”,并为 lora 命名。 将照片导入,选择合适分辨率,可勾选“脸部加强训练”,然后进行预处理。手动裁剪图片比自动裁剪更可靠。 预处理后会出现脸部和整体文件夹,且每张照片自动打好 tag 标签。 可为整体添加统一标签,也可单独修改每张图片的标签。标签有助于 AI 理解图片,描述越详细,人物变化可能越多,泛化性可能越好。仔细检查每张图片的标签,其质量会影响人物 lora 的泛化性。 参数调整环节: 大部分参数是固定的,主要的几个按照人物参数配置一遍。后期根据生成结果再调整。 炼丹环节: 例如 18 张脸部图片,20 张整体图片,各训练 50 步,循环训练 10 次,并行步数为 1。训练总步数和时长会有所不同,loss 值可作为参考,但最终效果仍需通过测试判断。 此外,在 Lora 串联方面,多个 Lora 串联时左右顺序不影响结果,可复制并点对点连接。CLIP 层 1 和 2 的效果不同,加 Lora 时某些 Lora 可能更适合 2。Lora 可用于生成底模无法画出的内容。在运行中点击取消可打断正在渲染跑的图。图像放大可通过 up scale image using model 节点,选择放大模型,用 resize 节点调整尺寸,再用编码器和采样器处理。放大模型直接放大的图像效果不佳,需再次采样增加细节。添加飞桨缺失节点可通过拖入工作流查看标红节点,从管理器安装或从 GitHub 获取节点包放入文件管理系统。采样器和调度器参数设置建议参考模型作者推荐,并结合自己调试。Web UI 中 Lora 库有刷新按钮,将 Lora 丢到文件夹后多点几次刷新即可。
2025-01-04
以下是大致可以采用的步骤来实现这样一个能自动在大语言模型网站生成不同场景机器人图片的程序(以下以Python语言示例,不过不同平台具体实现会有差异且需遵循对应网站的使用规则和接口规范): ### 1. 选择合适的大语言模型网站及确认其API(应用程序编程接口)情况 不同大语言模型网站对于图片生成通常会提供相应的API来允许外部程序与之交互,比如部分知名的AI绘画相关平台。你需要先确定要使用哪些网站,然后去注册开发者账号等,获取对应的API Key以及详细的API文档,了解如何通过代码向其发起图
以下是为您整合的相关内容: Ollama 框架: 1. 支持多种大型语言模型,如通义千问、Llama 2、Mistral 和 Gemma 等,适用于不同应用场景。 2. 易于使用,适用于 macOS、Windows 和 Linux 系统,支持 cpu 和 gpu,用户能轻松在本地环境启动和运行大模型。 3. 提供模型库,用户可从中下载不同模型,这些模型有不同参数和大小以满足不同需求和硬件条件,可通过 https://ollama.com/library 查找。 4. 支持用户自定义模型,例如修改模型的温度参数来调整创造性和连贯性,或者设置特定的系统消息。 5. 提供 REST API 用于运行和管理模型,以及与其他应用程序的集成选项。 6. 社区贡献丰富,包括多种集成插件和界面,如 Web 和桌面应用、Telegram 机器人、Obsidian 插件等。 7. 安装:访问 https://ollama.com/download/ 进行下载安装。安装完后,确保 ollama 后台服务已启动(在 mac 上启动 ollama 应用程序,在 linux 上通过 ollama serve 启动),可通过 ollama list 确认。 基于 COW 框架的 ChatBot 实现步骤: 1. COW 是基于大模型搭建的 Chat 机器人框架,将多模型塞进自己的微信里实现方案。 2. 基于张梦飞同学的教程: 。 3. 实现内容: 打造属于自己的 ChatBot(文本对话、文件总结、链接访问、联网搜索、图片识别、AI 画图等)。 常用开源插件的安装应用。 4. 正式开始前需知: ChatBot 相较于在各大模型网页端使用区别:本实现思路需要接入大模型 API 的方式实现(API 单独付费)。 风险与注意事项: 微信端因非常规使用,有封号危险,不建议主力微信号接入。 只探讨操作步骤,请依法合规使用。 大模型生成的内容注意甄别,确保所有操作均符合相关法律法规要求。 禁止用于任何非法目的。 处理敏感或个人隐私数据时注意脱敏,以防滥用或泄露。 5. 多平台接入:微信、企业微信、公众号、飞书、钉钉等。 6. 多模型选择:GPT3.5/GPT4.0/Claude/文心一言/讯飞星火/通义千问/Gemini/GLM4/LinkAI 等。 7. 多消息类型支持:能处理文本、语音和图片,以及基于自有知识库进行定制的企业智能客服功能。 8. 多部署方法:本地运行、服务器运行、Docker 的方式。
2024-12-29
中国大模型项目招投标情况
以下是关于中国大模型项目招投标的相关信息: 招投标文件关键数据提取方案: 预处理模块设计: 去除噪音信息,如页眉、页脚、版权声明等。 规范化文本,处理特殊符号、空白字符、异常换行等。 统一日期格式,通过正则表达式或日期识别工具将多种日期表示方式转换为标准的 ISO 格式(如“YYYYMMDD”)。 格式化货币与金额,通过正则表达式匹配货币符号或中文大写金额,并转换为标准形式。 处理特殊符号,进行规范化处理。 处理表格数据,使用表格解析工具提取表格结构和数据,并转化为 CSV 或 JSON 格式。 中国大模型生存战相关情况: 据 QuestMobile 数据,今年 9 月,豆包 App 的 30 日留存率达到 34.5%,而 Kimi 智能助手和 MiniMax 的海螺 AI 约为 28%。 大公司更强势地争取大模型 API 客户,如字节向 AI 儿童玩具公司 Haivivi 提供优惠价的豆包大模型 API 并承诺升级抖音店铺,导致该公司同时调用 MiniMax 和豆包的语音模型。 阿里是中国积极做开源大模型的公司,其 Qwen 系列开源大模型总下载量超 4000 万次,衍生出 5 万个大模型。 去年为大客户定制一个大模型最高订单额可达 1000 万元,今年快速降到百万元级别乃至更低。 在更底层的模型研发上,字节展现出“饱和”进攻的姿态。 8 月正式上线的国内大模型: 北京的 5 家企业机构:百度(文心一言)https://wenxin.baidu.com 、抖音(云雀大模型)https://www.doubao.com 、智谱 AI(GLM 大模型)https://chatglm.cn 、中科院(紫东太初大模型)https://xihe.mindspore.cn 、百川智能(百川大模型)https://www.baichuanai.com/ 。 上海的 3 家企业机构:商汤(日日新大模型)https://www.sensetime.com/ 、MiniMax(ABAB 大模型)https://api.minimax.chat 、上海人工智能实验室(书生通用大模型)https://internai.org.cn 。 能生成 Markdown 格式的:智谱清言、商量 Sensechat、MiniMax 。 目前不能进行自然语言交流的:昇思(可以对文本进行是否由 AI 生成的检测,类似论文查重,准确度不错)、书生 。 受限制使用:MiniMax(无法对生成的文本进行复制输出,且只有 15 元的预充值额度进行体验,完成企业认证后可以进行充值) 。 特色功能:昇思——生图,MiniMax——语音合成 。 阿里通义千问、360 智脑、讯飞星火等均不在首批获批名单中,广东地区获批公司分别为华为、腾讯,科大讯飞系其他地区获批产品。
2024-12-28
撰写一篇汽车领域人工智能自动驾驶应用系统方案,参照以下要求:(1) 选题应为课程相关的技术或者原理的应用。 (2) 重点撰写第2部分技术与服务,必须要使用到课程中所学到或者相关技术。 (3) 第6部分财务分析可根据情况适当缩减。 (4) 整体架构可以根据选题进行调整,可适当增加章节或者删减。 (5) 字体大小、标题等必须和模板相同。篇幅20页以上,不少于10000字,小四,宋体。 以下为一篇样稿,可参考其框架撰写 城市智能停车服务系统建设方案 目 录 1 项目背景 1 1.1 项目背景
以下是为您撰写的汽车领域人工智能自动驾驶应用系统方案的部分内容,您可以根据实际需求进行进一步的完善和补充: 一、项目背景 人工智能在汽车行业的应用已经十分广泛,正在深刻改变汽车的各个方面。自动驾驶技术利用 AI 进行图像识别、传感器数据分析和决策制定,使汽车能够自主导航和驾驶,如特斯拉、Waymo 和 Cruise 等公司都在积极开发和测试自动驾驶汽车。车辆安全系统中,AI 用于增强自动紧急制动、车道保持辅助和盲点检测等功能,通过分析摄像头和传感器数据预防事故。个性化用户体验方面,AI 可根据驾驶员偏好调整车辆设置,包括座椅位置、音乐选择和导航系统。预测性维护通过分析车辆实时数据,预测潜在故障和维护需求,提高车辆可靠性和效率。在汽车制造中,AI 用于自动化生产线,优化生产流程和质量控制。汽车销售和市场分析中,AI 帮助分析市场趋势、消费者行为和销售数据,优化营销策略和产品定价。电动化和能源管理方面,AI 在电动汽车的电池管理和充电策略中发挥作用,提高能源效率和延长电池寿命。共享出行服务借助 AI 优化路线规划、车辆调度和定价策略,提升服务效率和用户满意度。语音助手和车载娱乐由 AI 驱动,允许驾驶员通过语音控制车辆功能、获取信息和娱乐内容。车辆远程监控和诊断利用 AI 系统远程监控车辆状态,提供实时诊断和支持。 二、技术与服务 1. 自动驾驶技术 传感器融合:采用多种传感器,如激光雷达、摄像头、毫米波雷达等,收集车辆周围环境信息。利用 AI 算法对这些多源数据进行融合和分析,提高环境感知的准确性和可靠性。 深度学习决策:基于深度神经网络,训练车辆的决策模型。通过大量的真实驾驶数据,让模型学习如何在各种复杂场景下做出最优的驾驶决策,如加速、减速、转向等。 模拟训练:利用虚拟仿真环境进行大规模的自动驾驶训练。在模拟环境中,可以快速生成各种复杂和罕见的交通场景,加速模型的训练和优化。 2. 车辆安全系统 实时监测与预警:利用 AI 实时分析来自车辆传感器的数据,如车速、加速度、转向角度等,以及外部环境信息,如道路状况、天气条件等。当检测到潜在的危险情况时,及时向驾驶员发出预警。 自动紧急制动:基于 AI 的图像识别和距离检测技术,当判断车辆即将与前方障碍物发生碰撞且驾驶员未采取制动措施时,自动启动紧急制动系统,降低事故风险。 3. 个性化用户体验 偏好学习:通过收集驾驶员的日常操作数据,如座椅调整习惯、音乐播放喜好、常用导航路线等,利用机器学习算法分析和学习驾驶员的偏好模式。 智能推荐:根据学习到的偏好,为驾驶员提供个性化的推荐,如座椅自动调整、音乐推荐、导航路线规划等。 4. 预测性维护 数据采集与分析:安装各类传感器收集车辆的运行数据,如发动机转速、油温、轮胎压力等。利用 AI 算法对这些数据进行分析,挖掘潜在的故障模式和趋势。 故障预测模型:建立基于机器学习的故障预测模型,提前预测可能出现的故障,并及时通知驾驶员和维修人员,安排预防性维护。 5. 生产自动化 质量检测:利用机器视觉技术和 AI 算法,对生产线上的汽车零部件进行自动检测,识别缺陷和瑕疵,提高产品质量。 生产流程优化:通过分析生产数据,如设备运行状态、生产节拍等,利用 AI 优化生产流程,提高生产效率,降低生产成本。 三、财务分析(可根据情况适当缩减) 1. 初始投资 技术研发费用:包括自动驾驶算法开发、硬件设备采购、测试场地建设等方面的费用。 车辆改装和设备安装成本:为实现自动驾驶功能,对车辆进行改装和安装相关传感器、计算设备等的成本。 2. 运营成本 数据采集和处理费用:持续收集车辆运行数据和环境数据,并进行处理和分析的费用。 维护和升级成本:对自动驾驶系统进行定期维护、软件升级和硬件更换的费用。 3. 收益来源 车辆销售增值:配备自动驾驶和智能功能的汽车可以提高售价,增加销售收入。 服务订阅费用:为用户提供个性化服务、远程监控和诊断等服务的订阅收费。 4. 盈利预测 根据市场需求、成本控制和收益增长情况,进行短期和长期的盈利预测。 以上内容仅供参考,您可以根据具体的项目需求和实际情况进一步完善和细化各个部分。
2024-12-27
2024年AI视频、图像领域市场情况
2024 年在 AI 视频、图像领域,市场呈现出以下情况: 国内方面: 中国开源项目在全球受到关注,成为积极开源贡献者。 DeepSeek 在编码任务中表现出色,推出的 deepseekcoderv2 受到欢迎。 阿里巴巴发布的 Qwen2 系列在视觉能力方面给社区留下深刻印象。 清华大学的自然语言处理实验室资助的 OpenBMB 项目催生了 MiniCPM 项目。 国外方面: Stability AI 发布的 Stable Video Diffusion 能从文本提示生成高质量、真实视频,且在定制化方面有显著进步,还推出了 Stable Video 3D。 OpenAI 的 Sora 能够生成长达一分钟的视频,并保持三维一致性、物体持久性和高分辨率。 Google DeepMind 的 Veo 能将文本和可选图像提示与嘈杂压缩视频输入相结合,创建独特的压缩视频表示。 从市场数据来看,2024 全年全球 AI 移动应用内付费收入预计为 30 亿美元,其中图像和视频类 AI 应用占据主导地位,收入占比高达 53%。从地区分布来看,北美和欧洲贡献了三分之二的市场份额。 在行业格局方面,云厂商成为 AI 供应链的“链主”,掌握着庞大的商业生态和技术资源。头部阵营基本稳定,大型云厂商在产业链中的地位无可撼动。
2024-12-15