Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

如何用 AI 将图片变成手办模型

Answer

使用AI将图片转换成手办模型的过程通常涉及到3D建模和神经渲染技术。以下是一些关键步骤和概念,以及如何利用AI技术实现这一目标:

  1. 图像采集:首先,需要从不同角度拍摄手办或目标物体的多张图片。这些图片将作为AI建模的基础数据。

  2. 使用3D建模服务:可以利用像华为HMS Core提供的3D建模服务这样的工具,它能够通过普通手机的RGB摄像头完成建模,无需特殊的硬件设备。

  3. AI算法处理:AI算法会进行物体分割,将目标物与背景分离,并进行图像匹配、特征提取和深度估计。通过分析不同角度的图像,AI可以判断物体的位置关系,并生成点云构建3D模型。

  4. 几何重建:AI会利用高低模技术,通过计算剔除冗余的面片,用更低的面片数达成高面片数模型的效果,实现精细的视觉效果,甚至在中低端手机上也能进行。

  5. 骨骼绑定和蒙皮:为了让3D模型动起来,需要进行骨骼绑定。一些先进的AI技术可以自动进行骨骼绑定和蒙皮权重估计,让3D模型在导入动作数据后活动起来。

  6. 神经渲染技术:神经渲染技术可以利用深度学习模型,从二维图像中恢复出三维模型。这项技术可以节省大量人工建模的时间和劳力。

  7. 细节优化和纹理映射:生成的3D模型可能需要进一步的细节优化和纹理映射,以确保模型的视觉效果与原始图片尽可能一致。

  8. AR集成:如果需要将3D模型呈现在真实世界中,可以使用AR技术,如华为HMS Core的AR Engine,实现虚拟与现实的交互。

  9. 软件和平台:可以使用专门的软件和平台,如使用ComfyUI插件和开源工具,将照片转换成Q版手办风格。

通过这些步骤,AI可以帮助将图片转换成3D手办模型,大幅提高效率并降低技术门槛,使得个人创作者和小团队也能够轻松创建高质量的3D内容。

Content generated by AI large model, please carefully verify (powered by aily)

References

爆肝博主 ZHO

【Zho】Sketch to 3D!!!做了一个简单好玩的工作流,可以直接把手绘快速变成3D模型图像模型用了Playground v2.5保证图像语义和主体的高质量生成(可以生成主体+纯色背景),3D生成用了可以秒出的TripoSR模型如果更加追求速度,可以换成XL-Lightning、TCD等工作流:https://github.com/ZHO-ZHO-ZHO/ComfyUI-Workflows-ZHO1⃣使用模型:Playground v2.5:https://huggingface.co/playgroundai/playground-v2.5-1024px-aestheticControlNet:https://huggingface.co/diffusers/controlnet-canny-sdxl-1.02⃣使用插件:草图画板:https://github.com/AlekPet/ComfyUI_Custom_Nodes_AlekPet背景去除:https://github.com/ZHO-ZHO-ZHO/ComfyUI-BRIA_AI-RMBGTripoSR 3D生成:https://github.com/ZHO-ZHO-ZHO/ComfyUI-Flowty-TripoSR-ZHOhttps://www.xiaohongshu.com/explore/65f689b7000000000d00ebc3

爆肝博主 ZHO

【Zho】Sketch to 3D!!!做了一个简单好玩的工作流,可以直接把手绘快速变成3D模型图像模型用了Playground v2.5保证图像语义和主体的高质量生成(可以生成主体+纯色背景),3D生成用了可以秒出的TripoSR模型如果更加追求速度,可以换成XL-Lightning、TCD等工作流:https://github.com/ZHO-ZHO-ZHO/ComfyUI-Workflows-ZHO1⃣使用模型:Playground v2.5:https://huggingface.co/playgroundai/playground-v2.5-1024px-aestheticControlNet:https://huggingface.co/diffusers/controlnet-canny-sdxl-1.02⃣使用插件:草图画板:https://github.com/AlekPet/ComfyUI_Custom_Nodes_AlekPet背景去除:https://github.com/ZHO-ZHO-ZHO/ComfyUI-BRIA_AI-RMBGTripoSR 3D生成:https://github.com/ZHO-ZHO-ZHO/ComfyUI-Flowty-TripoSR-ZHOhttps://www.xiaohongshu.com/explore/65f689b7000000000d00ebc3

Sora: First Impressions

[Alexander Reben](https://linktr.ee/artboffin)is an artist who has spent the last decade creating work that explores the humor and absurdity of human nature in artificial intelligence.Alex has been[creating sculptures](https://www.instagram.com/p/C4Q8J-9vSjM/)that originate from AI-generated imagery,manually transforming those AI creations into 3D models materialized in the physical world.“My experience of using Sora was as a starting point to develop 3D sculpture.My thoughts drifted towards exploring the realm of photogrammetry and its potential applications to sculpture.The prospect of transforming video into 3D models intrigued me,as it hinted at propelling the AI system beyond its initial scope.”

Others are asking
请给我推荐最适合翻译PDF文档的AI平台
以下是一些适合翻译 PDF 文档的 AI 平台: 1. DeepL(网站):,点击页面「翻译文件」按钮,上传 PDF、Word 或 PowerPoint 文件即可。 2. 沉浸式翻译(浏览器插件):,安装插件后,点击插件底部「更多」按钮,选择「制作双语 BPUB 电子书」、「翻译本地 PDF 文件」、「翻译 THML/TXT 文件」、「翻译本地字幕文件」。还能一键开启网页中 Youtube 视频的双语字幕。 3. Calibre(电子书管理应用):,下载并安装 calibre,并安装翻译插件「Ebook Translator」。 4. 谷歌翻译(网页):,使用工具把 PDF 转成 Word,再点击谷歌翻译「Document」按钮,上传 Word 文档。 5. 百度翻译(网页):,点击导航栏「文件翻译」,上传 PDF、Word、Excel、PPT、TXT 等格式的文件,支持选择领域和导出格式,但进阶功能基本需要付费。 6. 彩云小译(App):下载后点击「文档翻译」,可以直接导入 PDF、DOC、DOCX、PPT、PPTX、TXT、epub、srt 等格式的文档并开始翻译,有免费次数限制且进阶功能需要付费。 7. 微信读书(App):下载 App 后将 PDF 文档添加到书架,打开并点击页面上方「切换成电子书」,轻触屏幕唤出翻译按钮。 请注意,内容由 AI 大模型生成,请仔细甄别。
2025-01-06
怎么学习AI
以下是新手学习 AI 的方法和建议: 1. 了解 AI 基本概念: 阅读「」部分,熟悉 AI 的术语和基础概念,包括其主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。 浏览入门文章,了解 AI 的历史、当前的应用和未来的发展趋势。 2. 开始 AI 学习之旅: 在「」中,找到为初学者设计的课程,特别推荐李宏毅老师的课程。 通过在线教育平台(如 Coursera、edX、Udacity)上的课程,按照自己的节奏学习,并有机会获得证书。 3. 选择感兴趣的模块深入学习: AI 领域广泛,如图像、音乐、视频等,可根据兴趣选择特定模块深入学习。 掌握提示词的技巧,它上手容易且很有用。 4. 实践和尝试: 理论学习后,实践是巩固知识的关键,尝试使用各种产品做出作品。 在知识库提供了很多大家实践后的作品、文章分享,欢迎实践后的分享。 5. 体验 AI 产品: 与现有的 AI 产品进行互动,如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人,了解其工作原理和交互方式,获得对 AI 在实际应用中表现的第一手体验,并激发对 AI 潜力的认识。 对于中学生学习 AI,建议如下: 1. 从编程语言入手学习: 可以从 Python、JavaScript 等编程语言开始,学习编程语法、数据结构、算法等基础知识,为后续的 AI 学习打下基础。 2. 尝试使用 AI 工具和平台: 可以使用 ChatGPT、Midjourney 等 AI 生成工具,体验 AI 的应用场景。 探索一些面向中学生的 AI 教育平台,如百度的“文心智能体平台”、Coze 智能体平台等。 3. 学习 AI 基础知识: 了解 AI 的基本概念、发展历程、主要技术如机器学习、深度学习等。 学习 AI 在教育、医疗、金融等领域的应用案例。 4. 参与 AI 相关的实践项目: 参加学校或社区组织的 AI 编程竞赛、创意设计大赛等活动。 尝试利用 AI 技术解决生活中的实际问题,培养动手能力。 5. 关注 AI 发展的前沿动态: 关注 AI 领域的权威媒体和学者,了解 AI 技术的最新进展。 思考 AI 技术对未来社会的影响,培养对 AI 的思考和判断能力。 记住,学习 AI 是一个长期的过程,需要耐心和持续的努力。不要害怕犯错,每个挑战都是成长的机会。随着时间的推移,您将逐渐建立起自己的 AI 知识体系,并能够在这一领域取得成就。完整的学习路径建议参考「通往 AGI 之路」的布鲁姆分类法,设计自己的学习路径。
2025-01-06
小学生科创AI自学路线及网址、详细教程
以下是为小学生提供的科创 AI 自学路线及相关资源: 1. 了解 AI 基本概念: 阅读「」部分,熟悉 AI 的术语和基础概念,包括人工智能的定义、主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。 浏览入门文章,了解 AI 的历史、当前的应用和未来的发展趋势。 2. 开始 AI 学习之旅: 在「」中,找到一系列为初学者设计的课程,特别推荐李宏毅老师的课程。 通过在线教育平台(如 Coursera、edX、Udacity)上的课程,按照自己的节奏学习,并有机会获得证书。 3. 选择感兴趣的模块深入学习: AI 领域广泛,如图像、音乐、视频等,可以根据自己的兴趣选择特定的模块进行深入学习。 掌握提示词的技巧,它上手容易且很有用。 4. 实践和尝试: 理论学习之后,通过实践巩固知识,尝试使用各种产品做出作品。 在知识库提供了很多大家实践后的作品、文章分享,欢迎实践后的分享。 5. 体验 AI 产品: 与现有的 AI 产品进行互动,如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人,了解它们的工作原理和交互方式,获得对 AI 在实际应用中表现的第一手体验,并激发对 AI 潜力的认识。 目前暂时没有专门针对小学生科创 AI 自学的网址和详细教程,但您可以在 B 站找丰富的 AI 软件入门课程自学,也可从包图网下载工程文件学习。
2025-01-06
国内开源AI绘图软件,适合新手的推荐
以下是为您推荐的适合新手的国内开源 AI 绘图软件: 1. Midjourney:是目前较容易上手的工具,对于完全不懂 AI 绘图、想尝试的新手来说是不错的入门选择。现阶段的 AI 能辅助进行设计,视觉效果相当吸睛。在 Midjourney 中生成 UI 设计图,如果没想好输入哪些指令,可以先用指令模板:「ui design forapplication,mobile app,iPhone,iOS,Apple Design Award,screenshot,single screen,high resolution,dribbble」,把里面的“类型”替换成您想设计的产品的关键词描述(英文)。 2. Creately:在线绘图和协作平台,利用 AI 功能简化图表创建过程,适合绘制流程图、组织图、思维导图等。具有智能绘图功能,可自动连接和排列图形,有丰富的模板库和预定义形状,实时协作功能适合团队使用。官网:https://creately.com/ 3. Whimsical:专注于用户体验和快速绘图的工具,适合创建线框图、流程图、思维导图等。具有直观的用户界面,易于上手,支持拖放操作,快速绘制和修改图表,提供多种协作功能,适合团队工作。官网:https://whimsical.com/ 4. Miro:在线白板平台,结合 AI 功能,适用于团队协作和各种示意图绘制,如思维导图、用户流程图等。具有无缝协作,支持远程团队实时编辑,丰富的图表模板和工具,支持与其他项目管理工具(如 Jira、Trello)集成。官网:https://miro.com/ 5. Lucidchart:强大的在线图表制作工具,集成了 AI 功能,可以自动化绘制流程图、思维导图、网络拓扑图等多种示意图。具有拖放界面,易于使用,支持团队协作和实时编辑,丰富的模板库和自动布局功能。官网:https://www.lucidchart.com/ 6. Microsoft Visio:专业的图表绘制工具,适用于复杂的流程图、组织结构图和网络图。其 AI 功能可以帮助自动化布局和优化图表设计。集成 Office 365,方便与其他 Office 应用程序协同工作,有丰富的图表类型和模板,支持自动化和数据驱动的图表更新。官网:https://www.microsoft.com/enus/microsoft365/visio/flowchartsoftware 7. Diagrams.net:免费且开源的在线图表绘制工具,适用于各种类型的示意图绘制。支持本地和云存储(如 Google Drive、Dropbox),有多种图形和模板,易于创建和分享图表,可与多种第三方工具集成。官网:https://www.diagrams.net/
2025-01-06
AI开源软件
以下是为您整理的关于 AI 开源软件的相关信息: 10 月 AI 行业大事记中的开源软件部分: 智谱:开源文生图模型 CogView3Plus3B 上海交大:开源 F5TTS 英伟达:开源 Llama3.1Nemotron70BInstruct TeleAI:正式开源 TeleChat2115B OpenAI:开源多智能体协作框架 Swarm 100 个 AI 应用中涉及的开源软件未在提供的内容中有明确提及。 如果您想了解更多关于特定 AI 开源软件的详细信息或有其他需求,请进一步向我提问。
2025-01-06
AI开源软件
以下是为您整理的关于 AI 开源软件的相关信息: 10 月 AI 行业大事记中的开源软件: 智谱:开源文生图模型 CogView3Plus3B 上海交大:开源 F5TTS 英伟达:开源 Llama3.1Nemotron70BInstruct TeleAI:正式开源 TeleChat2115B OpenAI:开源多智能体协作框架 Swarm 100 个 AI 应用中的开源软件相关信息暂未提及。 希望以上内容对您有所帮助!如果您需要更详细准确的信息,请进一步明确您的需求。
2025-01-06
什么是大模型
大模型通俗来讲,是输入大量语料,让计算机获得类似人类的“思考”能力,从而能够理解自然语言,并进行文本生成、推理问答、对话、文档摘要等工作。 可以用“上学参加工作”这件事来类比大模型的训练和使用过程: 1. 找学校:训练大模型需要大量计算,GPU 更合适,只有购买得起大量 GPU 的才有资本训练自己的大模型。 2. 确定教材:大模型需要的数据量特别多,几千亿序列(Token)的输入基本是标配。 3. 找老师:即用合适的算法讲述“书本”中的内容,让大模型更好理解 Token 之间的关系。 4. 就业指导:学完知识后,为让大模型更好胜任某一行业,需要进行微调(fine tuning)指导。 5. 搬砖:就业指导完成后,就要正式干活,比如进行翻译、问答等,在大模型里称之为推导(infer)。 在大模型中,Token 被视为模型处理和生成的文本单位,会被分割并生成词汇表,数字化便于计算机处理。为让计算机理解 Token 之间的联系,还需把 Token 表示成稠密矩阵向量,这个过程称为 embedding,常见算法有基于统计的 Word2Vec、GloVe,基于深度网络的 CNN、RNN/LSTM,基于神经网络的 BERT、Doc2Vec 等。以 Transform 为代表的大模型采用自注意力(Selfattention)机制来学习不同 token 之间的依赖关系,生成高质量 embedding。 大模型的“大”指用于表达 token 之间关系的参数多,主要是模型中的权重(weight)与偏置(bias),例如 GPT3 拥有 1750 亿参数。 所谓的大模型,简而言之,就是拥有庞大参数数量的模型,通过处理和理解海量数据,能够胜任一系列复杂任务。大模型强大的原因在于庞大的参数数量和大量的数据训练。这些参数帮助模型更深入地理解和生成数据,而大量的数据让模型掌握丰富的知识和技能。
2025-01-06
什么是多模态模型
多模态模型是指能够处理和融合多种不同模态信息的模型,例如视觉和语言双模态。以下为您介绍一些相关的多模态模型: CogAgent18B:这是基于 CogVLM17B 改进的开源视觉语言模型,拥有 110 亿视觉参数和 70 亿语言参数,支持 11201120 分辨率的图像理解,在 CogVLM 功能基础上具备 GUI 图像的 Agent 能力。代码链接:。 CogVLM17B:强大的开源视觉语言模型(VLM),基于对视觉和语言信息之间融合的理解,能在不牺牲任何 NLP 任务性能的情况下,实现视觉语言特征的深度融合,是目前多模态权威学术榜单上综合成绩第一的模型,在 14 个数据集上取得了 stateoftheart 或者第二名的成绩。代码链接:。 Visualglm6B:开源的支持图像、中文和英文的多模态对话语言模型,语言模型基于。 RDM(Relay Diffusion Model):级联扩散模型,可以从任意给定分辨率的图像快速生成,而无需从白噪声生成。代码链接:。 Gemini 模型本身也是多模态的,其展示了无缝结合跨模态能力的独特能力,例如从表格、图表或图形中提取信息和空间布局,以及语言模型的强大推理能力,在识别输入中的细微细节、在空间和时间上聚合上下文,以及在一系列视频帧和/或音频输入上应用这些能力方面也表现出强大的性能。下面的部分提供了对模型在不同模态(图像、视频和音频)上的更详细评估,以及模型在图像生成和跨不同模态的信息组合能力方面的定性示例。
2025-01-06
通过 API 调用大模型
以下是通过 API 调用大模型的相关步骤: 1. 创建大模型问答应用: 进入百炼控制台的,在页面右侧点击新增应用。在对话框,选择智能体应用并创建。 在应用设置页面,模型选择通义千问Plus,其他参数保持默认。您也可以选择输入一些 Prompt,比如设置一些人设以引导大模型更好的应对客户咨询。 在页面右侧可以提问验证模型效果。不过您会发现,目前它还无法准确回答你们公司的商品信息。点击右上角的发布。 2. 获取调用 API 所需的凭证: 在我的应用>应用列表中可以查看所有百炼应用 ID。保存应用 ID 到本地用于后续配置。 在顶部导航栏右侧,点击人型图标,点击 APIKEY 进入我的 APIKEY 页面。在页面右侧,点击创建我的 APIKEY,在弹出窗口中创建一个新 APIKEY。保存 APIKEY 到本地用于后续配置。 3. 直接调用大模型(之前完成过 coze 对接的同学,直接去二、百炼应用的调用): 百炼首页:https://bailian.console.aliyun.com/ 当在 COW 中直接调用千问的某一个大模型时,只需要更改 key 和 model 即可。以调用“qwenmax”模型为例,在/root/chatgptonwechat/文件夹下,打开 config.json 文件,需要更改"model",和添加"dashscope_api_key"。 获取 key 的视频教程: 图文教程:以下是参考配置。 注意:需要“实名认证”后,这些 key 才可以正常使用,如果对话出现“Access to mode denied.Please make sure you are eligible for using the model.”的报错,那说明您没有实名认证,点击去,或查看自己是否已认证。 4. 申请大模型的 API 接口(以 silicon 硅基接口为例): 官方提供的接入 API 的教学文档。 以平时使用的 silicon 接口为例,有众多开源模型(Yi、Qwen、Llama、Gemma 等)免费使用。另赠送 14 元体验金,有效期未知,是个人认为 API 接口最方便最实惠的接口了。 silicon 注册和使用地址: 邀请码:ESTKPm3J(谢谢支持) 注册登录后,单击左边栏的 API 密钥,单击新建 API 密钥。 单击密钥即可完成 API 密钥的复制。 silicon 支持多种大模型,也支持文生图、图生图、文生视频,可自行探索。 这一步得到 silicon 的密钥即可,我们可以调用千问 2.5 的这个模型,满足日常对话完全没有问题,并且是免费调用的。 5. 申请大模型的 API 接口(以智普 GLM4 接口为例): 正在 BigModel.cn 上用智谱 API 打造新一代应用服务,通过专属邀请链接注册即可获得额外 GLM4Air 2000 万 Tokens 好友专属福利,期待和您一起在 BigModel 上探索 AGI 时代的应用;链接:https://www.bigmodel.cn/invite?icode=xxcbnybpRLOsZGMNOkqaLnHEaazDlIZGj9HxftzTbt4%3D 进入个人中心,先完成实名认证,再单击左边栏 API KEYS 或右上角的 API 密钥,进入后单击右上角的添加 API。 鼠标移至密钥上方,单击复制即可得到智普的 APIkey。 这一步做的是注册 silicon 和智普 GLM 的大模型账号,申请 API 密钥,保存密钥,等下配置需要填写。 密钥一定要保管好不能公开,否则后果很严重。
2025-01-06
模型的部署、容器化
以下是关于模型的部署和容器化的相关信息: ComfyUI ollama 本地大模型部署: 1. 先下载 ollama 安装,安装完成后不会有任何界面弹出,可以在电脑桌面右下角或者隐藏图标里面找到。 2. 之后再去下载对应的模型,选择模型,复制对应的命令。 3. 打开命令行界面,输入对应的模型获取命令,等待下载完成。 4. 下载的模型会保存到 D:\\ollama\\blobs 目录。 5. Docker 安装时会下载一些文件,安装后改下目录,不要放在 C 盘。 6. Open webui 安装,输入相关命令,安装成功后,回到 docker,点击会自动打开网页,第一次使用需注册账号,选择下载好的模型即可开始使用。 7. 若出现端口占用问题,运行特定两条命令可以解决。 8. 相关链接: comfyuiollama:https://github.com/stavsap/comfyuiollama?tab=readmeovfile Ollama:https://ollama.com/ docker:https://www.docker.com/ Open webui:https://openwebui.com/ 模型部署: 1. 选择学习路径: 快速上手 使用 Anaconda: 第 0 步:确保安装了 Python 3.10 以上版本。 第 1 步:准备环境,如需设置环境,安装所需要的软件包,运行特定命令。 第 2 步:从以下来源下载 Atom7BChat 模型:。 第 3 步:进行推理,创建一个名为 quick_start.py 的文件,并将相关内容复制到该文件中,运行 quick_start.py 代码。 快速上手 使用 Docker:详情参见:,包括准备 docker 镜像,通过 docker 容器启动,通过 dockercompose 启动 chat_gradio。 快速上手 使用 llama.cpp:详情参见: 快速上手 使用 gradio:基于 gradio 搭建的问答界面,实现了流式的输出,将特定代码复制到控制台运行,不同模型只需修改 model_name_or_path 对应的模型名称。 ComfyUI FLUX 模型的安装部署: 1. 模型:FLUX.1、FLUX.1,建议选择 dev 版本的,显卡可以的用 fp16,显卡不够用的选 fp8。模型下载后,放入 ComfyUI/models/unet/文件夹中。若爆显存,“UNET 加载器”节点中的 weight_dtype 可设置为 fp8,降低显存使用量,但可能稍降质量。 2. clip:t5xxl_fp16.safetensors 和 clip_l.safetensors,放在 ComfyUI/models/clip/文件夹里面。可以使用 t5xxl_fp8_e4m3fn.safetensors 来降低内存使用率,若有超过 32GB 内存,建议使用 fp16。相关链接:https://huggingface.co/comfyanonymous/flux_text_encoders/tree/main 3. Vae:下载后放入 ComfyUI/models/vae 文件夹。 4. T5(/t5xxl_fp16.safetensors)的这个 clip,原本有一个输入输出,可能会导致提示词被吞,短提示效果差,训练 flux 或者 sd3 时,应尽量用长提示词或自然语言。
2025-01-06
开源模型与闭源模型调用
开源模型与闭源模型调用相关信息如下: 通义千问自 2023 年 8 月起密集推出 Qwen、Qwen1.5、Qwen2 三代开源模型,Qwen 系列的 72B、110B 模型多次登顶 HuggingFace 的 Open LLM Leaderboard 开源模型榜单。Qwen2 系列已上线魔搭社区 ModelScope 和阿里云百炼平台,开发者可在魔搭社区体验、下载模型,或通过阿里云百炼平台调用模型 API。同时,Qwen272binstruct 模型已上线中国大语言模型评测竞技场 Compass Arena,所有人都可登录体验其性能或进行对比测评,测评地址为:https://opencompass.org.cn/arena 。Compass Arena 是由上海人工智能实验室和魔搭社区联合推出的大模型测评平台,集齐了国内主流的 20 多款大模型。 部分声称性能卓越的中国大模型被揭露为“套壳”产品,如李开复创办的“零一万物”被国外开发者质疑为“套壳”产品,其团队承认在训练过程中沿用了开源架构。此外,字节跳动被曝出在其秘密研发的大模型项目中调用了 OpenAI 的 API,并使用 ChatGPT 的输出数据来训练自己的模型。 在 LLM 应用程序中,开发者通常使用 OpenAI API 启动新的 LLM 应用,如 gpt4 或 gpt432k 模型。当项目投入生产并规模化时,常见的选择包括切换到更便宜且速度更快的 gpt3.5turbo,与其他专有供应商(如 Anthropic 的 Claude 模型)进行实验,将一些请求分流到开源模型等。开源模型有多种推理选项,包括 Hugging Face 和 Replicate 的简单 API 接口、主要云提供商的原始计算资源等。
2025-01-06
RAG,Agent 与小模型
以下是关于 RAG、Agent 与小模型的相关知识: Agent: Agent 是大模型的一个热门概念,被认为是大模型未来的主要发展方向之一。 其本质是在大模型(如 LLM)基础上增加工具、记忆、行动、规划这四个能力。 目前行业里主要用到的是 langchain 框架,它把 LLM 和 LLM 之间以及 LLM 和工具之间通过代码或 prompt 的形式进行串接。 例如,长期记忆相当于给大模型一个数据库工具让其记录重要信息,规划和行动则是在大模型的 prompt 层做逻辑设计,如将目标拆解并输出不同的固定格式 action 指令给工具。 RAG: 向量相似性检索,可以放在 system prompt 里或通过 tools 触发检索。 当大模型应用于实际业务场景时,会存在知识局限性、幻觉问题、数据安全性等问题,RAG 是解决这些问题的有效方案。 它能让大模型从权威、预先确定的知识来源中检索和组织相关信息,更好地控制生成的文本输出,用户也能了解 LLM 生成最终结果的过程。 RAG 可与微调结合使用,RAG 类似于为模型提供教科书,适用于回答特定询问或解决特定信息检索任务,不适合教模型理解广泛领域或学习新的语言、格式或样式。 小模型:文中未提及小模型的相关具体内容。
2025-01-06
flux lora调参数,我训练出来的人物模型和数据集的人物图片不像,出现这种情况的原因都有哪些,应该调整哪些参数,我需要我的flux模型训练出来的模型是一致性还原性,和泛化性比较不错的,按照这个方向给我指导
以下是关于 flux lora 调参数以获得一致性、还原性和泛化性较好的人物模型的指导: 打标环节: 选择基础大模型,如“麦橘写实”,并为 lora 命名。 将照片导入,选择合适分辨率,可勾选“脸部加强训练”,然后进行预处理。手动裁剪图片比自动裁剪更可靠。 预处理后会出现脸部和整体文件夹,且每张照片自动打好 tag 标签。 可为整体添加统一标签,也可单独修改每张图片的标签。标签有助于 AI 理解图片,描述越详细,人物变化可能越多,泛化性可能越好。仔细检查每张图片的标签,其质量会影响人物 lora 的泛化性。 参数调整环节: 大部分参数是固定的,主要的几个按照人物参数配置一遍。后期根据生成结果再调整。 炼丹环节: 例如 18 张脸部图片,20 张整体图片,各训练 50 步,循环训练 10 次,并行步数为 1。训练总步数和时长会有所不同,loss 值可作为参考,但最终效果仍需通过测试判断。 此外,在 Lora 串联方面,多个 Lora 串联时左右顺序不影响结果,可复制并点对点连接。CLIP 层 1 和 2 的效果不同,加 Lora 时某些 Lora 可能更适合 2。Lora 可用于生成底模无法画出的内容。在运行中点击取消可打断正在渲染跑的图。图像放大可通过 up scale image using model 节点,选择放大模型,用 resize 节点调整尺寸,再用编码器和采样器处理。放大模型直接放大的图像效果不佳,需再次采样增加细节。添加飞桨缺失节点可通过拖入工作流查看标红节点,从管理器安装或从 GitHub 获取节点包放入文件管理系统。采样器和调度器参数设置建议参考模型作者推荐,并结合自己调试。Web UI 中 Lora 库有刷新按钮,将 Lora 丢到文件夹后多点几次刷新即可。
2025-01-04
海外比较好的图片生成工具
以下是一些海外比较好的图片生成工具: 1. 谷歌图像生成工具: 特点:理解能力强,有使用门槛,不能输入中文,每日免费 500 次,生成速度快,可调整提示词和选项,能根据提示词生成不同风格和复杂程度的图像,随机种子影响生成结果,可提供参考图设置主题场景样式。 2. 纳米搜索反推提示词: 可上传图片让其反推 midjourney 提示词,输出效果好,能调用多种模型,查阅资料也可用,会搜索全网并精选资料,还能看到调用的内容和参考资料。 3. ideogram: 是一个海外生图平台,早期以能够准确生成图片中的文字而出名,目前该平台仍然有大量创作者生成各类创意 Logo,对于英文字母的生成非常友好,也非常方便,输入支持中文。 使用方法:最简单的方法就是直接在首页信息流中找到中意的 Logo 款式,点进去 retry,替换掉提示词中字母的部分。目前支持主流的图片比例,以及输入框下方有一些主流风格可以选择。
2025-01-04
给你几张图图片,帮我生成是视频的AI
以下为几种利用图片生成视频的方法: 1. 前 Sora 时代的方法:使用 Pika、Pixverse、Runway、SVD 四大 AI 视频工具。为每张图片只抽一次卡,图片和 GIF 动图顺序包括 MJ 图等。生成的视频类型有剧情片(如太空舰队交战、宇航员头盔特写等)、战争片(如士兵在战壕准备迎击等)、奇幻片等。 2. 快影(可灵)处理图片的方法: 打开快影(需先通过内测申请),选择 AI 创作。 选择 AI 生成视频。 选择图生视频。 上传处理好的图片,填写想要的互动动作和效果,然后点击生成视频。 排队等待生成结束,点击下载。 3. 利用 PixVerse 生成视频:涂抹选区,给出相应的运动方向,最后加入配音并剪辑。 您可以根据自己的需求选择适合的方法来将图片生成视频。
2025-01-04
我想要一个能根据空白背景的产品图,生成不同视角的其他图片的AI工具,有相关产品吗?
目前比较成熟的能根据输入图片生成类似图片的 AI 工具主要有以下几种: 1. Artguru AI Art Generator:这是一个在线平台,能够生成逼真图像,为设计师提供灵感,丰富创作过程。 2. Retrato:是一款 AI 工具,可以将图片转换为非凡肖像,拥有 500 多种风格选择,适合制作个性头像。 3. Stable Diffusion Reimagine:属于新型 AI 工具,通过稳定扩散算法生成精细、具有细节的全新视觉作品。 4. Barbie Selfie Generator:专为喜欢梦幻童话风格的人设计的 AI 工具,能将上传的照片转换为芭比风格,效果超级好。 需要注意的是,这些 AI 模型通过组合技术如扩散模型、大型视觉转换器等,可以根据文本或参考图像生成具有创意且质量不错的相似图像输出,但仍存在一些局限,如偶尔会出现性能不稳定、生成内容不当等问题。
2025-01-03
有哪些用于宣传海报拼接生成的,图片拼接生成模型
以下是一些用于宣传海报拼接生成的图片拼接生成模型及相关信息: 1. 在线生图定制主题海报: 选择模型:推荐使用不同风格的模型,如(例图 1)风格模型>中国风>水墨工笔、(例图 2)风格模型>儿童>童话绘本、(例图 3)风格模型>MJ>剪纸艺术、(例图 4)风格模型>儿童>皮克斯。 输入画面描述:按主体+氛围+视角+画质的顺序输入关键词,可使用本课件提供的自选关键词,并用括号()强调关键词。 选择画面大小:制作主题海报可选择 9:16 的宣传海报比例,选择 17283072 的分辨率可更快生成图片。 其他设置:增加作图数量可一次性生成多幅图片方便挑选。 优化海报:使用可画(https://www.canva.cn/?displaycomoption=true)在线编辑海报。 2. 即梦: 即梦上线了 2.1 图片模型,可以生成中英文字体,能生成海报、带字表情包、漫画等。 操作步骤:第一步打开即梦官网 https://jimeng.jianying.com/ ,第二步点击进入图片生成页面,第三步生图模型选择图片 2.1 模型。 案例:如提示词为“咖啡店穿着服务员服装的猫咪,揉着眼睛,文字‘小店打烊了’”“一只布偶猫举着牌子,牌子上写着‘睡什么睡,起来嗨’”“电影宣传海报,画面中间是韦小宝,四周是七个宫女,标题文字‘重生之我是韦小宝’”“电商节日海报,背景是上海外滩,圣诞节布置,旋转木马,节日的气氛,标题文字‘圣诞集市’”。
2025-01-03
我想要一个能修改图片的ai
以下为您介绍一些能修改图片的 AI 工具及相关知识: 1. DALL·E 推出了编辑功能,支持对生成图片进行二次编辑,包括替换、删除、添加对象等。编辑界面提供了一系列选项,如选择工具、可拖动的大小调整工具、“撤销、恢复”按钮和“Clear Selection”选项等。使用时,例如通过突出显示图像部分并添加提示,如“添加樱花”,或选择对象并使用提示“删除鸟类”“将猫的表情更改为快乐”等进行编辑,完成后记得点击保存。帮助文档:https://help.openai.com/en/articles/9055440editingyourimageswithdalle 。 2. 关于 AI 去水印工具,目前市面上有一些不错的选项: AVAide Watermark Remover:在线工具,使用 AI 技术从图片中去除水印,支持多种图片格式,操作简单,还提供其他功能。 Vmake:提供 AI 去除图片水印功能,可上传最多 10 张图片,适合快速去除水印及社交媒体分享图片的用户。 AI 改图神器:提供 AI 智能图片修复去水印功能,可一键去除图片中的多余物体、人物或水印,支持直接粘贴图像或上传手机图像,操作方便。 此外,如果想让生成的图片更加可控,可以利用 seed 参数反向生成。Midjourney 会用一个种子号来绘图,把这个种子作为生成初始图像的起点。默认情况下种子是随机的,若想要相似的图,可固定 seed。例如“caiyunyiueji is a cute sports anime girl,style by Miyazaki Hayao,emoji,expression sheet,8kseed 8888”,就能保证每次生成相同的图。还可基于确定图片的 seed 加上新的关键词对效果图进行微调。
2025-01-02