Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

我能否借助开源社区力量构建高质量的 AI 数字人

Answer

您可以借助开源社区力量构建高质量的 AI 数字人。

构建数字人的躯壳有多种方式:

  1. 2D 引擎:风格偏向二次元,亲和力强,定制化成本低,代表是 Live2D Cubism。
  2. 3D 引擎:风格偏向超写实的人物建模,拟真程度高,定制化成本高,代表是 UE、Unity、虚幻引擎 MetaHuman 等,但个人学习在电脑配置和学习难度上有一定门槛。
  3. AIGC:省去建模流程直接生成数字人的展示图片,但存在算法生成的数字人很难保持 ID 一致性、帧与帧连贯性差等弊端。如果对人物模型真实度要求不高,可以使用,典型项目有 wav2lip、video-retalking 等。AIGC 还有直接生成 2D/3D 引擎模型的方向,但仍在探索中。

构建数字人的灵魂需要注意以下几个工程关键点:

  1. AI Agent:要让数字人像人一样思考就需要写一个像人一样的 Agent,工程实现所需的记忆模块、工作流模块、各种工具调用模块的构建都是挑战。
  2. 驱动躯壳的实现:灵魂部分通过定义接口由躯壳部分通过 API 调用,调用方式可以是 HTTP、webSocket 等。但包含情绪的语音表达以及如何保证躯壳的口型、表情、动作和语音的同步及匹配,目前主流方案只能做到预设一些表情动作,再做一些逻辑判断来播放预设,语音驱动口型相对成熟但闭源。
  3. 实时性:由于算法部分组成庞大,几乎不能实现单机部署,特别是大模型部分,所以算法一般会部署到额外的集群或者调用提供出来的 API,这里面就会涉及到网络耗时和模型推理耗时,如果响应太慢就会体验很差,所以低延时也是亟需解决的一个问题。
  4. 多元跨模态:不仅仅是语音交互,还可以通过添加摄像头数据获取数据,再通过系列 CV 算法做图像解析等。
  5. 拟人化场景:正常和人交流时不是线性对话,会有插话、转移话题等情况,这些情景需要通过工程丝滑处理。

如果都要自建代码实现各模块,开发工作量巨大,迭代难度也很高,对于个人开发者来讲不现实。因此推荐借助开源社区的力量,现在开源社区已经有了像 dify、fastgpt 等等成熟的高质量 AI 编排框架,它们有大量的开源工作者维护,集成各种主流的模型供应商、工具以及算法实现等等。我们可以通过这些框架快速编排出自己的 AI Agent,赋予数字人灵魂。在笔者的开源项目中,使用了 dify 的框架,利用其编排和可视化交互任意修改流程,构造不同的 AI Agent,并且实现相对复杂的功能,比如知识库的搭建、工具的使用等都无需任何的编码和重新部署工作。同时 Dify 的 API 暴露了 audio-to-text 和 text-to-audio 两个接口,基于这个两个接口就可以将数字人的语音识别和语音生成都交由 Dify 控制,从而低门槛做出来自己高度定制化的数字人。具体的部署过程参考 B 站视频:https://www.bilibili.com/video/BV1kZWvesE25 。如果有更加高度定制的模型,也可以在 Dify 中接入 XInference 等模型管理平台,然后部署自己的模型。此外,数字人 GUI 工程中仍然保留了 LLM、ASR、TTS、Agent 等多个模块,能够保持更好的扩展,比如实现更加真实性感的语音转换、或者如果有更加 Geek 的 Agent 实现也可以选择直接后端编码扩展实现。

使用 Dify 接口需要注意:

  1. 必须在应用编排功能中打开文字转语音和语音转文字功能,否则接口会返回未使能的错误。
  2. 只有接入了支持 TTS 和 SPEECH2TEXT 的模型供应商,才会在功能板块中展示出来,Dify 的模型供应商图标下标签有展示该供应商支持哪些功能,这里可以自行选择自己方便使用的。对于 TTS,不同的模型供应商支持的语音人物不同,可以根据个人喜好添加。
Content generated by AI large model, please carefully verify (powered by aily)

References

AI 数字人-定义数字世界中的你

上述种种,如果都要自建代码实现各模块,开发工作量巨大,迭代难度也很高,对于个人开发者来讲不现实。因此我们推荐借助开源社区的力量,现在开源社区已经有了像dify、fastgpt等等成熟的高质量AI编排框架,它们有大量的开源工作者维护,集成各种主流的模型供应商、工具以及算法实现等等。我们可以通过这些框架快速编排出自己的AI Agent,赋予数字人灵魂。在笔者的开源项目中,使用了dify的框架,利用其编排和可视化交互任意修改流程,构造不同的AI Agent,并且实现相对复杂的功能,比如知识库的搭建、工具的使用等都无需任何的编码和重新部署工作。同时Dify的API暴露了audio-to-text和text-to-audio两个接口,基于这个两个接口就可以将数字人的语音识别和语音生成都交由Dify控制,从而低门槛做出来自己高度定制化的数字人(如下图),具体的部署过程参考B站视频:https://www.bilibili.com/video/BV1kZWvesE25。如果有更加高度定制的模型,也可以在Dify中接入XInference等模型管理平台,然后部署自己的模型。此外,数字人GUI工程中仍然保留了LLM、ASR、TTS、Agent等多个模块,能够保持更好的扩展,比如实现更加真实性感的语音转换、或者如果有更加Geek的Agent实现也可以选择直接后端编码扩展实现。上述Dify接口使用注意事项:1.使必须在应用编排功能中打开文字转语音和语音转文字功能,否则接口会返回未使能的错误。2.只有接入了支持TTS和SPEECH2TEXT的模型供应商,才会在功能板块中展示出来,Dify的模型供应商图标下标签有展示该供应商支持哪些功能,这里可以自行选择自己方便使用的。对于TTS,不同的模型供应商支持的语音人物不同,可以根据个人喜好添加。

AI 数字人-定义数字世界中的你

有了数字人躯壳,我们就需要构建数字人的灵魂,让数字人具备各种智能,比如记得你的个人信息,充当你的个人助手;在某个领域具备更专业的知识;能处理复杂的任务等等。这些能力实现有以下几个需要注意的工程关键点:1.AI Agent:我们要想数字人像人一样思考就需要写一个像人一样的Agent,工程实现所需的记忆模块,工作流模块、各种工具调用模块的构建都是挑战;2.驱动躯壳的实现:灵魂部分怎样去驱动躯壳部分,我们可以将灵魂部分的所有接口定义出来,然后躯壳部分通过API调用,调用方式可以是HTTP、webSocket等等,视躯壳部分的实现而定。但包含情绪的语音表达以及如何保证躯壳的口型、表情、动作和语音的同步及匹配,目前主流方案只能做到预设一些表情动作,再做一些逻辑判断来播放预设,语音驱动口型相对来说成熟一些,但都是闭源的,效果可以参考Nvidia的Audio2Face(https://www.nvidia.cn/omniverse/apps/audio2face/)或则Live Link Face(Iphone APP)+Face AR Sample(UE);3.实时性:由于整个数字人的算法部分组成庞大,几乎不能实现单机部署,特别是大模型部分,所以算法一般会部署到额外的集群或者调用提供出来的API,这里面就会涉及到网络耗时和模型推理耗时,如果响应太慢就会体验很差,所以低延时也是亟需解决的一个问题。4.多元跨模态:仅仅是语音交互的数字人是远远不够的,人有五感(听觉、视觉、嗅觉、触觉、味觉),听觉只是其中一种,其他的感官可以根据实际需求来做,比如视觉我们可以通过添加摄像头数据来获取数据,再通过系列CV算法做图像解析等;5.拟人化场景:我们正常和人交流的时候不是线性对话,会有插话、转移话题等情况,这些情景如何通过工程丝滑处理。

AI 数字人-定义数字世界中的你

数字人的躯壳就是建模过程,有多种构建方式:1.2D引擎风格偏向二次元,亲和力强,定制化成本低,在日本、东南亚等国家比较受欢迎,也深受年轻人喜欢,毕竟能将喜欢的动漫人物变成数字人的躯壳,是一件很棒的事情。2D引擎的代表就是Live2D Cubism(https://www.live2d.com/)。1.3D引擎风格偏向超写实的人物建模,拟真程度高,定制化成本高,目前有很多公司都在做这个方向的创业,已经可以实现用户通过手机摄像头快速创建一个自己的虚拟人身体(如下图,NextHuman(https://nexthuman.cn/))。3D引擎的代表是UE(Unreal Engine)、Unity,虚幻引擎MetaHuman等(个人学习在电脑配置和学习难度上有一定门槛。1.AIGC虽然AIGC的方式相比前两者省去了建模流程,直接生成数字人的展示图片,但弊端也明显,算法生成的数字人很难保持ID一致性,帧与帧的连贯性上会让人有虚假的感觉。如果项目对人物模型真实度要求没有那么高,可以使用这种方案(算法发展非常快,可能不久就会有连贯度很高的生成方式),典型的项目有wav2lip(https://github.com/Rudrabha/Wav2Lip)、video-retalking(https://github.com/OpenTalker/video-retalking)等。AIGC还有一个方向是直接生成2d/3d引擎的模型,而不是直接生成数字人的最终展示部分,但该方向还在探索中。得益于现有各类技术方案的成熟度,以往建模往往都是由专业的建模师完成工作,不久之后相信大家就可以通过一些生成算法快速生成自己的人物模型了。

Others are asking
mermaid编辑工具
Mermaid 是一款用于创建各种图表的工具,它支持多种类型的图表,如思维导图、时序图、UML 图等。以下是关于 Mermaid 编辑工具的一些信息: 可以使用 Mermaid 语法创建简单的思维导图,例如:GRAPH CODE 判断 大语言模型 自然语言处理 机器学习 深度学习 执行 文本分析 情感分析 算法优化 神经网络 结束。 可用于将代码转化为图表,如在“code to diagram”的搜索结果中,Mermaid 不仅支持十几种图像,还提供了在线编辑器,生成器的网址为:https://mermaid.live/ 。 可以通过 ChatGPT 结合自然语法生成 Mermaid 图形语法,生成流程包括确定制作目标、通过自然语言描述逻辑、在线校验测试是否成功。例如,要求 ChatGPT 基于给定内容生成高速公路上车辆切入场景的时序图。
2025-03-25
怎么零基础学习ai
以下是零基础学习 AI 的建议: 1. 了解 AI 基本概念: 阅读「」部分,熟悉 AI 的术语和基础概念,包括其主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。 浏览入门文章,了解 AI 的历史、当前的应用和未来的发展趋势。 2. 开始 AI 学习之旅: 在「」中,找到为初学者设计的课程,特别推荐李宏毅老师的课程。 通过在线教育平台(如 Coursera、edX、Udacity)上的课程,按照自己的节奏学习,并有机会获得证书。 3. 选择感兴趣的模块深入学习: AI 领域广泛,比如图像、音乐、视频等,根据自己的兴趣选择特定的模块进行深入学习。 掌握提示词的技巧,它上手容易且很有用。 4. 实践和尝试: 理论学习之后,实践是巩固知识的关键,尝试使用各种产品做出作品。 在知识库提供了很多大家实践后的作品、文章分享,欢迎实践后的分享。 5. 体验 AI 产品: 与现有的 AI 产品进行互动,如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人,了解它们的工作原理和交互方式。 对于中学生学习 AI,建议如下: 1. 从编程语言入手学习: 可以从 Python、JavaScript 等编程语言开始学习,学习编程语法、数据结构、算法等基础知识。 2. 尝试使用 AI 工具和平台: 可以使用 ChatGPT、Midjourney 等 AI 生成工具,体验 AI 的应用场景。 探索一些面向中学生的 AI 教育平台,如百度的“文心智能体平台”、Coze 智能体平台等。 3. 学习 AI 基础知识: 了解 AI 的基本概念、发展历程、主要技术如机器学习、深度学习等。 学习 AI 在教育、医疗、金融等领域的应用案例。 4. 参与 AI 相关的实践项目: 参加学校或社区组织的 AI 编程竞赛、创意设计大赛等活动。 尝试利用 AI 技术解决生活中的实际问题,培养动手能力。 5. 关注 AI 发展的前沿动态: 关注 AI 领域的权威媒体和学者,了解 AI 技术的最新进展。 思考 AI 技术对未来社会的影响,培养对 AI 的思考和判断能力。 总之,无论是零基础还是中学生,学习 AI 可以从编程基础、工具体验、知识学习、实践项目等多个方面入手,全面系统地学习 AI 知识和技能。
2025-03-25
AI编程
以下是关于 AI 编程的相关内容: Trae 国内版 Trae 是字节跳动旗下的 AI 原生编程工具,类似 Cursor、Windsurf 等 IDE 工具,可让用户通过自然语言编写出网页、软件。它具有以下特性: 1. 对国内用户友好,有中国官网、中文界面、国内模型,稳定且快速。 2. 使用完全免费,无需折腾会员,下载后可直接使用,支持豆包 1.5pro 和满血版 DeepSeek R1、V3 模型。 3. 内置预览插件,写完代码一键运行,所见即所得。 新手入门 AI 编程的建议 1. 打通学习与反馈循环,从验证环境、建立信心、理解基本概念开始,实现“理解→实践→问题解决→加深理解”的循环。 2. 使用流行语言和框架(如 React、Next.js、TailwindCSS)。 3. 先运行再优化,小步迭代,一次解决一个小功能。 4. 借助 AI 生成代码后请求注释或解释,帮助理解代码。 5. 遇到问题时采取复现、精确描述、回滚三步走。 用好 AI 编程工具(如 Cursor)的关键技能 1. 准确描述需求,清晰表达目标和问题。 2. 具备架构能力,将复杂系统拆解为松耦合的模块,便于 AI 高效处理。 3. 拥有专业编程能力,能够判断 AI 生成代码的优劣。 4. 具备调试能力,快速定位问题并解决,可独立或借助 AI 完成调试。 Trae 国内版的网址为:Trae.com.cn ,或点击文末【阅读原文】直接访问。
2025-03-25
你是一个财务总监,市场分析师,但是你没有数据,现在需要你寻找一下有没有可以自动查找数据,并且根据数据生成饼状图的 AI工具
以下是为您推荐的可以自动查找数据并根据数据生成饼状图的 AI 工具: 1. Claude Financial Data Analyst:可视化金融数据分析工具,能生成多种图表,包括饼图。上传文档后可快速生成动态图表,适用于趋势分析和分布分析。详细介绍:https://xiaohu.ai/p/14811 ,GitHub:https://github.com/anthropics/anthropicquickstarts/tree/main/financialdataanalyst ,https://x.com/imxiaohu/status/1847617781594030583 。 2. PandasAI:让 Pandas DataFrame“学会说人话”的工具,用户可以以 Pandas DataFrame 的形式提出有关数据的问题,会以自然语言、表格或者图表等形式进行回答,目前仅支持 GPT 模型,OpenAI API key 需自备。示例:pandas_ai.run 。GitHub 链接:https://github.com/gventuri/pandasai 。 3. DataSquirrel:自动进行数据清理并可视化执行过程,帮助用户在无需公式、宏或代码的情况下快速将原始数据转化为可使用的分析/报告的数据分析工具。平台符合 GDPR/PDPA 标准。链接:https://datasquirrel.ai/ 。
2025-03-25
ai发展路径
AI 的发展路径如下: 技术发展历程: 早期阶段(1950s 1960s):专家系统、博弈论、机器学习初步理论。 知识驱动时期(1970s 1980s):专家系统、知识表示、自动推理。 统计学习时期(1990s 2000s):机器学习算法(决策树、支持向量机、贝叶斯方法等)。 深度学习时期(2010s 至今):深度神经网络、卷积神经网络、循环神经网络等。 当前前沿技术点: 大模型(Large Language Models):GPT、PaLM 等。 多模态 AI:视觉 语言模型(CLIP、Stable Diffusion)、多模态融合。 自监督学习:自监督预训练、对比学习、掩码语言模型等。 小样本学习:元学习、一次学习、提示学习等。 可解释 AI:模型可解释性、因果推理、符号推理等。 机器人学:强化学习、运动规划、人机交互等。 量子 AI:量子机器学习、量子神经网络等。 AI 芯片和硬件加速。 学习路径: 偏向技术研究方向: 数学基础:线性代数、概率论、优化理论等。 机器学习基础:监督学习、无监督学习、强化学习等。 深度学习:神经网络、卷积网络、递归网络、注意力机制等。 自然语言处理:语言模型、文本分类、机器翻译等。 计算机视觉:图像分类、目标检测、语义分割等。 前沿领域:大模型、多模态 AI、自监督学习、小样本学习等。 科研实践:论文阅读、模型实现、实验设计等。 偏向应用方向: 编程基础:Python、C++ 等。 机器学习基础:监督学习、无监督学习等。 深度学习框架:TensorFlow、PyTorch 等。 应用领域:自然语言处理、计算机视觉、推荐系统等。 数据处理:数据采集、清洗、特征工程等。 模型部署:模型优化、模型服务等。 行业实践:项目实战、案例分析等。 无论是技术研究还是应用实践,数学和编程基础都是必不可少的。同时需要紧跟前沿技术发展动态,并结合实际问题进行实践锻炼。
2025-03-25
思维导图生成ai
以下是一些与思维导图相关的 AI 工具: 1. GitMind:免费的跨平台思维导图软件,可通过 AI 自动生成思维导图,支持多种模式,如提问、回答、自动生成等。 2. ProcessOn:国内的思维导图与 AIGC 结合的工具,能利用 AI 生成思维导图。 3. AmyMind:轻量级在线 AI 思维导图工具,无需注册登录,支持自动生成节点。 4. Xmind Copilot:Xmind 推出的基于 GPT 的 AI 思维导图助手,可一键拓展思路,生成文章大纲。 5. TreeMind:“AI 人工智能”思维导图工具,输入需求后由 AI 自动完成思维导图生成。 6. EdrawMind:提供一系列 AI 工具,包括 AI 驱动的头脑风暴功能,有助于提升生产力。 总的来说,这些工具都能通过 AI 技术自动生成思维导图,提高制作效率,为知识工作者带来便利。 此外,还有一些关于思维导图生成的相关信息: 在使用 flowith 时,可通过引用节点技巧让 AI 根据特定参照输出高关联度内容,还可对比不同模型输出择优深挖,在满意内容节点添加“文本编辑器显示”进行精加工。 12 月更新的生成式 AI 年终数据中,思维导图相关的如 Whimsical Al 等也有相关流量等数据统计。
2025-03-25
现在Ai作图用什么?还是以前的Stable Diffusion吗?还是又出现了新的开源软件?
目前在 AI 作图领域,Stable Diffusion 仍然是常用的工具之一。Stable Diffusion 是 AI 绘画领域的核心模型,能够进行文生图和图生图等图像生成任务,其完全开源的特点使其能快速构建强大繁荣的上下游生态。 除了 Stable Diffusion,也出现了一些新的相关开源软件和工具,例如: :Stability AI 开源的 AI 图像生成平台。 :拥有超过 700 种经过测试的艺术风格,可快速搜索查找各类艺术家,并支持一键复制 Prompt。 同时,市面上主流的 AI 绘图软件还有 Midjourney,其优势是操作简单方便,创作内容丰富,但需要科学上网并且付费。如果您想尝试使用 Stable Diffusion,可以参考 B 站【秋葉 aaaki】这个 Up 主的视频了解具体的安装方法。
2025-03-24
有哪些效果好的开源OCR模型值得推荐
以下是一些效果较好的开源 OCR 模型推荐: 1. Mistral OCR:当前最强的 OCR 模型,具有多语言支持,超越 Gemini 2.0 Flash,可在 Le Chat 及 API 调用。ElevenLabs 赠送 $25 Mistral API 额度,免费领取!领取地址: 2. Gemini 2.0 Flash:也是一款 OCR 模型。
2025-03-24
字节跳动开源的AGENT TARS
字节跳动开源的自学型 GUI Agent 名为 UITARS,具有以下特点和优势: 能够实现复杂任务自动化,支持跨平台操作,包括网页、桌面和移动端。 性能优于主流模型(如 GPT4 等)。 适用于复杂动态交互、表单填写、批量处理、在线预订等应用场景。 提供开发框架,支持桌面和网页端运行。 相关链接: 其核心能力包括界面识别与元素定位的感知能力、执行操作指令的行动能力、多步任务规划的推理能力以及记录并优化操作流程的记忆能力,能够实现端到端学习,支持“直觉式”反应(System1)与深度思考(System2)。
2025-03-24
有什么开源大模型
以下是一些开源大模型: 1. FengshenbangLM: 地址: 简介:是 IDEA 研究院认知计算与自然语言研究中心主导的大模型开源体系,开源了姜子牙通用大模型 V1,是基于 LLaMa 的 130 亿参数的大规模预训练模型,具备翻译、编程、文本分类、信息抽取、摘要、文案生成、常识问答和数学计算等能力。除姜子牙系列模型之外,还开源了太乙、二郎神系列等模型。 2. BiLLa: 地址: 简介:开源了推理能力增强的中英双语 LLaMA 模型。较大提升 LLaMA 的中文理解能力,并尽可能减少对原始 LLaMA 英文能力的损伤;训练过程增加较多的任务型数据,利用 ChatGPT 生成解析,强化模型理解任务求解逻辑;全量参数更新,追求更好的生成效果。 3. Moss: 地址: 简介:支持中英双语和多种插件的开源对话语言模型,MOSS 基座语言模型在约七千亿中英文以及代码单词上预训练得到,后续经过对话指令微调、插件增强学习和人类偏好训练具备多轮对话能力及使用多种插件的能力。 4. Qwen: 相关信息:国产大模型,多次冲进 LMSys 榜单,最早出现的是通义千问 14B 开源视频 Qwen14B,后来是 Qwen 系列的 72B、110B 以及通义千问闭源模型 QwenMax,得分一个比一次高,LMSys 也曾官方发推认证通义千问开源模型的实力。Qwen 系列开源模型的累计下载量突破了 1600 万,国内外有海量开发者都基于 Qwen 开发了自己的模型和应用。 5. Grok1: 地址: 简介:拥有 3140 亿参数的专家混合模型,使用旋转位置嵌入,词汇量达到 131,072,未针对任何特定应用程序进行微调。
2025-03-23
我需要的是开源工具,来完成创作流程
以下是一些开源工具可用于完成创作流程: 在图文内容生产方面,有选题生成、文案创作、智能配图和智能发布等定制化服务。 设计了一套覆盖从构思到完稿整个创作流程的提示词工具,并为学员打造了创作的标准操作流程(SOP)。 小财鼠程序版 agent ,但尚未正式对外发布。 在 AI 视频创作方面: 剧本生成:不同模型生成的剧本在对白、人物动作、场景等方面有差异,如 cloud 效果较好但需付费和一定网络门槛。 分镜脚本:利用分镜大师提示词生成分镜脚本,每次让模型处理 3 5 个分镜。 提示词生成:将分镜粘贴生成图像和视频提示词,不同模型生成效果有差异。 图像生成工具:如 Flex 模型生成质量高,有 Control Net 功能;谷歌 Image FX 提示词理解能力强;记梦对中文处理到位等。 提示词辅助工具:通义望向可智能扩写生成详细提示词;堆有能根据上传图片反推提示词;季梦可根据主题生成多种风格提示词。 图像优化:用 MJ 做局部重绘,用 ComfyUI 做高清放大。 视频生成:可灵的图生视频功能效果质量高且稳定但贵和慢;Pika 最新上线的 2.2 版本在首尾帧过渡上有不错表现;追求效率可尝试 Pixverse ,还有即梦、vidu、海螺、通义万相、智谱清言等平台。 后期制作:将生成的视频素材丢进剪映进行剪辑、添加音效、字幕和转场特效。
2025-03-18
哪里可以找到开源的ai agent
以下是一些可以找到开源 AI Agent 的途径和相关信息: AutoGPT 和 BabyAGI 是最早实现让 LLM 自己做自动化多步骤推理的开源智能代理,在去年 GPT4 刚发布时风靡全球科技圈。 智谱·AI 开源了一些包含 Agent 能力的模型,如 AgentLM7B、AgentLM13B、AgentLM70B 等,相关信息和代码链接可在相应的平台获取。 Andrej 的 LLM OS 中包含了相关模块。 OpenAI 的研究主管 Lilian Weng 曾写过一篇博客《LLM Powered Autonomous Agents》介绍了 Agent 的设计框架。
2025-03-13
如何才能学会写高质量的提示词
以下是关于如何学会写高质量提示词的相关内容: 1. 提示词的基本概念: 提示词用于描绘您想生成的画面。 输入语言方面,星流通用大模型与基础模型 F.1、基础模型 XL 使用自然语言(如一个长头发的金发女孩),基础模型 1.5 使用单个词组(如女孩、金发、长头发),且支持中英文输入。 启用提示词优化后,可帮您扩展提示词,更生动地描述画面内容。 2. 写好提示词的方法: 提示词内容准确,包含人物主体、风格、场景特点、环境光照、画面构图、画质等,例如:一个女孩抱着小猫,背景是一面红墙,插画风格、孤独感,高质量。 调整负面提示词,点击提示框下方的齿轮按钮,弹出负面提示词框,负面提示词可以帮助 AI 理解我们不想生成的内容,比如:不好的质量、低像素、模糊、水印。 利用“加权重”功能,让 AI 明白重点内容,可在功能框增加提示词,并进行加权重调节,权重数值越大,越优先,也可对已有的提示词权重进行编辑。 利用辅助功能,如翻译功能可一键将提示词翻译成英文,还有删除所有提示词可清空提示词框,会员加速能加速图像生图速度,提升效率。 小白用户可以点击提示词上方官方预设词组进行生图。 3. 优化和润色提示词的方法: 明确具体的描述,使用更具体、细节的词语和短语,避免过于笼统。 添加视觉参考,在 Prompt 中插入相关图片参考,提高 AI 理解意图和细节要求的能力。 注意语气和情感,用合适的形容词、语气词等调整 Prompt 的整体语气和情感色彩。 优化关键词组合,尝试不同的关键词搭配和语序。 增加约束条件,如分辨率、比例等,避免 AI 产生意料之外的输出。 分步骤构建 Prompt,将复杂需求拆解为逐步的子 Prompt,引导 AI 先生成基本结构,再逐步添加细节和完善。 参考优秀案例,研究 AI 社区流行的、被证明有效的 Prompt 范例,借鉴写作技巧和模式。 反复试验、迭代优化,通过多次尝试不同的 Prompt 写法,并根据输出效果反馈持续优化完善,直至达到理想结果。 总之,编写高质量 Prompt 需要不断实践、总结经验,熟悉 AI 模型的能力边界。同时,要了解大模型的特性,具备清晰表述自己需求和任务的能力,才能用好这个工具。
2025-03-15
如何用ai高质量改编长篇小说
以下是使用 AI 高质量改编长篇小说的方法: 1. 小说内容分析:使用 AI 工具(如 ChatGPT)分析小说内容,提取关键场景、角色和情节。 2. 生成角色与场景描述:根据小说内容,使用工具(如 Stable Diffusion 或 Midjourney)生成角色和场景的视觉描述。 3. 图像生成:使用 AI 图像生成工具根据描述创建角色和场景的图像。 4. 视频脚本制作:将提取的关键点和生成的图像组合成视频脚本。 5. 音频制作:利用 AI 配音工具(如 Adobe Firefly)将小说文本转换为语音,添加背景音乐和音效。 6. 视频编辑与合成:使用视频编辑软件(如 Clipfly 或 VEED.IO)将图像、音频和文字合成为视频。 7. 后期处理:对生成的视频进行剪辑、添加特效和转场,以提高视频质量。 8. 审阅与调整:观看生成的视频,根据需要进行调整,比如重新编辑某些场景或调整音频。 9. 输出与分享:完成所有编辑后,输出最终视频,并在所需平台上分享。 需要注意的是,具体的操作步骤和所需工具可能会根据项目的具体需求和个人偏好有所不同。此外,AI 工具的可用性和功能也可能会随时间而变化,建议直接访问上述提供的工具网址获取最新信息和使用指南。 另外,在让 AI 进行细节描写时,可以先让 AI 帮助写故事概要和角色背景介绍,并在其基础上按自己的审美略做修改。还可以让 AI 以表格的形式输出细节描述,这样有打破 AI 叙事习惯、便于局部调整、确保内容具体等好处。把生成的表格依次复制粘贴,AI 就会照着写文章。但在修改过程中可能会遇到 AI 记性不好等问题,需要灵活选择不同的 AI 工具来解决。
2025-03-14
如何用ai高质量改编 小说
以下是关于用 AI 高质量改编小说的相关内容: 制作小说视频: 1. 小说内容分析:使用 AI 工具(如 ChatGPT)分析小说内容,提取关键场景、角色和情节。 2. 生成角色与场景描述:根据小说内容,使用工具(如 Stable Diffusion 或 Midjourney)生成角色和场景的视觉描述。 3. 图像生成:使用 AI 图像生成工具根据描述创建角色和场景的图像。 4. 视频脚本制作:将提取的关键点和生成的图像组合成视频脚本。 5. 音频制作:利用 AI 配音工具(如 Adobe Firefly)将小说文本转换为语音,添加背景音乐和音效。 6. 视频编辑与合成:使用视频编辑软件(如 Clipfly 或 VEED.IO)将图像、音频和文字合成为视频。 7. 后期处理:对生成的视频进行剪辑、添加特效和转场,以提高视频质量。 8. 审阅与调整:观看生成的视频,根据需要进行调整,比如重新编辑某些场景或调整音频。 9. 输出与分享:完成所有编辑后,输出最终视频,并在所需平台上分享。 丰富细化小说内容: 1. 让 AI 先写故事概要和角色背景介绍,并在其基础上按自己的审美略做修改。 2. 让 AI 以表格的形式输出细节描述,这样做有三个好处:一是打破 AI 原本的叙事习惯;二是按编号做局部调整很容易;三是确保内容都是具体的细节。 串联成文: 把生成的表格依次复制粘贴,AI 就会照着写文章。 注意事项: 1. 具体的操作步骤和所需工具可能会根据项目的具体需求和个人偏好有所不同。 2. AI 工具的可用性和功能也可能会随时间而变化,建议直接访问上述提供的工具网址获取最新信息和使用指南。 此外,还有以下成功案例: 1. 南瓜博士借助 AI 进行小说创作,包括丰富细化、串联成文等环节,但在局部修改时遇到了一些问题。 2. 全球 AI 电影马拉松大赛获奖短片《种子》以何夕的小说为原型进行改编,先有灵感想法,然后使用 GPT 完成故事框架和分镜画面,再进行后续的制作环节。
2025-03-14
如何利用aigc生成高质量的logo?
利用 AIGC 生成高质量的 logo 可以参考以下方法: 1. 在 AIGC 1.0 时代,AIGC 主要起到产生参考图像的作用,可使用 ControlNet 但存在一定局限性,如无法精确控制某些特征材质,不过适合整体全身材质风格替换,能以正视图或手绘线稿图输入 ControlNet 进行控制。 2. 在 AIGC 2.0 时代,基于 Stable diffusion 的 Lora 模型训练可直出较高质量的形象,但对于要求较高的场景仍存在问题,如四肢比例失调、手指数量错误等,随着技术更新有望解决。 3. 可以使用 Midjourney 等生成式 AI 工具为企业创建徽标,将相关提示与企业信息结合,制作适合自身品牌个性和价值观的定制徽标,提示种类丰富并提供设计样例。 同时需要注意,目前的 AIGC 工具仍存在问题,真正的完美落地仍需要专业设计师的大量介入与修复。拥抱 AIGC 是为设计师提供辅助工具,而非完全取代传统设计方法或设计师。
2025-03-13
如何通过与AI的对话获取高质量的信息?有没有相关书籍或者文章推荐,请给出相关链接。
以下是关于如何通过与 AI 的对话获取高质量信息以及相关书籍和文章推荐的内容: 在与 AI 对话获取高质量信息方面: 作为普通用户,语言在大模型中不是关键,核心是向量空间中的游走脉络,输出时的语言翻译是次要的,且训练语料的中英文差异在于 embedding 环节。 通过合适的模型、prompt 和 test 入口表达,用大模型公式调试出好效果以替代垂类模型,但微调垂类模型可能使大模型泛化能力下降,需分场景看待。 写提示词未挖掘出大模型的天花板,还有提升空间。 相关书籍和文章推荐: 从数学、作家、代码、原理角度写大模型的四本书。 介绍 GPT 运作原理、Transformer 模型、扩散模型等的文章。 关于 AI 知识库及学习路径的介绍中提到的经典必读文章,如软件 2.0 时代相关内容。 初学者入门推荐看 open AI 的官方 Cookbook,小琪姐做了中文精读翻译,也可查看 cloud 的相关内容。 获取信息的渠道: 可以关注赛博蝉星公众号、国外优质博主的 blog 或 Twitter 等,订阅获取最新信息并投稿。 可通过“通往 AGI 之路”知识库获取相关内容,该知识库涵盖了 AI 多方面知识及社区共创项目,如人工智能简史、AI 会话简史等,还有 10 篇精选文章助于理解 AI。 您还可以通过参加社区共创项目,如 AIPU、CONFIUI 生态大会,每月的切磋大会等活动,以及新活动 AIPO,与他人交流获取更多信息。同时,鼓励整理学习笔记并分享交流,以促进对知识的吸收和理解。
2025-03-09
我是一名视频博主,我想知道我的视频如何测试它的流量是否会好,以及ai怎么能够辅助我完成高质量的视频脚本
以下是关于您作为视频博主测试视频流量以及利用 AI 辅助完成高质量视频脚本的相关内容: 测试视频流量: 目前没有直接针对测试视频流量是否会好的特定方法,但您可以通过以下方式进行预估和分析: 1. 参考同类热门视频的数据和特点,了解大致的流量表现范围。 2. 观察视频发布初期的点击量、播放时长、点赞、评论、分享等数据的增长趋势。 利用 AI 辅助完成高质量视频脚本: 1. 小说内容分析:使用 AI 工具(如 ChatGPT)分析小说内容,提取关键场景、角色和情节。 2. 生成角色与场景描述:根据小说内容,使用工具(如 Stable Diffusion 或 Midjourney)生成角色和场景的视觉描述。 3. 图像生成:使用 AI 图像生成工具根据描述创建角色和场景的图像。 4. 视频脚本制作:将提取的关键点和生成的图像组合成视频脚本。您可以把想写的选题告诉 ChatGPT,数十秒时间它就能生成一条完整的视频脚本,包括具体场景和转场画面。虽然在创意上可能不够出色,但对于非专业人士入手视频创作有一定帮助。 5. 音频制作:利用 AI 配音工具(如 Adobe Firefly)将小说文本转换为语音,添加背景音乐和音效。您还可以让 ChatGPT 为您在海量背景音乐中筛选适合视频情绪的 BGM。 6. 视频编辑与合成:使用视频编辑软件(如 Clipfly 或 VEED.IO)将图像、音频和文字合成为视频。 7. 后期处理:对生成的视频进行剪辑、添加特效和转场,以提高视频质量。 8. 审阅与调整:观看生成的视频,根据需要进行调整,比如重新编辑某些场景或调整音频。 9. 输出与分享:完成所有编辑后,输出最终视频,并在所需平台上分享。 请注意,具体的操作步骤和所需工具可能会根据项目的具体需求和个人偏好有所不同。此外,AI 工具的可用性和功能也可能会随时间而变化,建议直接访问上述提供的工具网址获取最新信息和使用指南。
2025-03-04
我现在想做个AI社区应该干什么
如果您想做一个 AI 社区,可以考虑以下方面: 1. 举办多轮比赛并发放高额奖金,例如设置第一名奖金 6000 多,第二名 4000 等,并制作动态海报。 2. 与小红书进行战略合作,鼓励成员在小红书开设自媒体账号,为优质作者提供流量扶持和问题解决帮助。 3. 在北京亚运村设置线下场地,例如赛博禅新的大聪明常驻,方便成员面基。 4. 规划酒吧相关事宜,比如准备开酒吧,名字叫 Bard AGI,并规划好相关细节,还可考虑在北京五道口附近开正式酒吧。 5. 注重社区搭建及成员互动,社区可由朋友圈发起,成员因兴趣相聚,线下见面能增强成员归属感,大家共同成长,一起创业。 6. 为学习者提供清晰的学习路径,从 AI 基础知识到进阶技术,逐步培养他们成为创作者和引领者。 7. 为创作者提供资源,帮助其创作出优质的内容与服务,满足企业需求,为社区发展注入活力。 8. 与企业合作,为其提供优质的 AI 内容与服务,从学习者中获取潜在的工具推广流量。 9. 组织各类活动,如线上线下的活动让对 AI 感兴趣的同学见面,拉近彼此距离,后续还有十几节课。 10. 建立高质量的交流社群,例如讨论话题仅围绕实际需求与 AI 创新应用玩法,持续探索人与 AI 共生新模式,审核门槛尽可能拉高,要求有发布过立足真实需求、有真价值的、让人兴奋的原创 AI 实践分享,群内时刻有脑暴,互相启发,开阔眼界,并整理日常价值讨论成内部总结文。
2025-03-25
介绍一下WaytoAGI社区
WaytoAGI(通往 AGI 之路)是一个致力于人工智能(AI)学习的中文知识库和社区平台,具有以下特点: 1. 起源和初衷:由产品经理 AJ 创建,从个人收录整理信息到希望通过交流更好学习,这是项目和社群开发的初衷。 2. 社区规模:拥有全球领先的 AI 开源社区,提供最新最全面的 AI 资源,包括丰富多样的技术活动、众多的学习资源以及庞大的社区成员,在没有任何推广的情况下,一年时间已有超过 100 万用户和超千万次的访问量。 3. 功能和资源: 知识库与社区平台:汇集了上千个人工智能网站和工具,提供最新的 AI 工具、应用、智能体和行业资讯。 学习资源:提供丰富的学习文章、教程、工具推荐及行业资讯。 实践活动:定期组织如视频挑战赛、模型创作大赛等,鼓励实践学习与交流合作。 开放共享:引领并推广开放共享的知识体系,倡导共学共创等形式,孵化了 AI 春晚、离谱村等大型共创项目。 4. 目标与愿景:目标是让每个人的学习过程少走弯路,让更多的人因 AI 而强大。 5. 品牌 VI:品牌 VI 融合了独特的设计元素,以彩虹色彰显多元性和创新,以鹿的形象象征智慧与优雅,通过非衬线字体展现现代感和清晰性。 6. 合作情况:目前合作过的公司/产品包括阿里云、通义千问、淘宝、智谱、支付宝、豆包、火山引擎、marscode、coze、堆友、即梦、可灵、MiniMax 海螺 AI、阶跃星辰、百度、Kimi、吐司、liblib、华硕、美团、美的、360、伊利、魔搭、央视频、Civitai、Openart、Tripo3D、青椒云等。
2025-03-21
现在社区WaytoAGI是不是最好系统性学习ai的网站,请说明理由
WaytoAGI 不是一个系统性学习 AI 的最佳网站。原因如下: WaytoAGI 更像是一个一起做有趣事情的游乐场,不是专门用于系统性学习的地方。在这里,更鼓励发挥对 AI 天马行空的想象,把 AI 玩出新花样。 但对于想要系统性学习 AI 的人来说,个人观点认为一开始应该进行系统性的学习,比如系统地看几本书、听几门好课,不能仅依靠刷短视频等碎片化输入。 不过,WaytoAGI 也有其优势,比如它是一个开源的知识库和社区平台,汇集了丰富的 AI 资源,包括上千个人工智能网站和工具,提供最新的 AI 工具、应用、智能体和行业资讯,还有丰富的学习资源、实践活动等。在没有任何推广的情况下,一年时间已有超过 100 万用户和超千万次的访问量。
2025-03-21
使用ai绘图能够将带货产品批量换背景,使用在小红书社区
以下是一些能够为带货产品批量换背景并应用于小红书社区的人员信息: 卡飞猫:15692004031,擅长摄影写真、banner 生成、替换产品。 韩君奇:13060035786,能够批量出图,做小红书种草。 阿鱼:18102592057,擅长各种类型的 AI 画图,以及 AI 视频提效。 吴燕波:15766104311,可进行日常出图,视频等。
2025-03-18
AI应用开发社区或者微信群
以下是一些与 AI 应用开发相关的社区和微信群信息: 云栖大会 9 月 19 日招募 AI 创作者,包括 AI 艺术创作者、AI 应用开发者(特别是工作流、企业解决方案开发者)、开源社区的活跃成员、有 AI 技术背景的初创企业和工作室。招募渠道包括在线招募(在开源社区平台如 GitHub、Gitee 的项目展示页面发布招募信息,在 AI 技术论坛和设计论坛如 CSDN、简书、知乎等发布招募帖,在微信、QQ 社群内的 AI 开发者群发布信息)和线下招募(在相关行业会议和活动中设置摊位,与高校 AI 实验室或研究机构合作)。招募方式包括报名表单、筛选流程(初步筛选和二次筛选)、确认参展并提供详细参展指导手册。 通往 AGI 之路有飞书和微信交流群。说明:请填写问卷进群,群内会分享最新 AI 信息、社区活动;加入群后欢迎积极分享,飞书群内置 AI 智能机器人可回复任何与 AI 相关的问题。同时欢迎投稿,包括 AI 技术探讨与分析、实践经验与案例分享、行业动态与趋势观察、开发心得与技术教程等。投稿要求原创、严谨、有深度,配图说明更佳,观点明确,结构清晰,建议字数 1500 5000 字,提交后 2 3 工作日反馈,必要时沟通修改建议,优质内容将收录知识库。 加入 AI 编程社开发者社群,可获得更多 AI 编程相关资讯。若二维码过期,公众号后台回复“社群”即可进群。
2025-03-15
目前agi社区都有哪些成员
目前 AGI 社区的成员包括: 产品经理 AJ,是「通往 AGI 之路」WaytoAGI 开源知识库的创建者。 全球顶尖的开发者、艺术家、行业落地者。 最优质的模型作者。 众多的学习者,涵盖从 5 岁孩童到 70 岁终身学习者。 创作者,他们通过掌握 AI 技术利用社区资源创作出优质内容与服务。 第一期小鹿形象设计中的 10 个角色:AGI 小鹿、关键词小鹿、sd 修仙炼丹小鹿、离谱村守护仙子、Agent 智小美小鹿、AIGC 鹿导、AI 春晚小鹿、2050 智能小鹿、AI 玄学社鹿大师、AI 音乐小鹿。 此外,「通往 AGI 之路」社区在没有任何推广的情况下,一年时间已有超过 100 万用户和超千万次的访问量,目前合作过的公司/产品有阿里云、通义千问、淘宝、智谱、支付宝、豆包、火山引擎、marscode、coze、堆友、即梦、可灵、MiniMax 海螺 AI、阶跃星辰、百度、Kimi、吐司、liblib、华硕、美团、美的、360、伊利、魔搭、央视频、Civitai、Openart、Tripo3D、青椒云等。
2025-03-07