直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

如何通过AI保护图像,如避免被用于训练

回答

为避免图像被用于 AI 训练,您可以使用以下方法:

内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

AIGC Weekly #10

相关原理有点复杂具体可以[看这个论文](https://arxiv.org/abs/2302.06588),总的来说就是用这个工具处理过的图片在被用于AI训练时不会得到正确的结果。

其他人在问
国内可用的可通过上传的文件生产PPT的AI软件有哪些?
以下是一些国内可用的可通过上传文件生成 PPT 的 AI 软件: 1. Gamma:这是一个在线 PPT 制作网站,允许用户通过输入文本和想法提示快速生成幻灯片。它支持嵌入多媒体格式,如 GIF 和视频,以增强演示文稿的吸引力。网址:https://gamma.app/ 2. 美图 AI PPT:由知名图像编辑软件“美图秀秀”的开发团队推出。允许用户通过输入简单的文本描述来生成专业的 PPT 设计。可能包含丰富的模板库和设计元素,用户可根据需求选择不同风格和主题的模板,适用于多种场合。网址:https://www.xdesign.com/ppt/ 3. Mindshow:一款 AI 驱动的 PPT 辅助工具,可能提供一系列智能设计功能,如自动布局、图像选择和文本优化等,以帮助用户更高效地创建演示文稿。网址:https://www.mindshow.fun/ 4. 讯飞智文:由科大讯飞推出的 AI 辅助文档编辑工具,利用科大讯飞在语音识别和自然语言处理领域的技术优势,可能提供智能文本生成、语音输入、文档格式化等功能。网址:https://zhiwen.xfyun.cn/ 5. 爱设计 PPT:在国内 AI 辅助制作 PPT 的产品领域中表现出色,背后拥有强大的团队,成功把握住 AI 与 PPT 结合的市场机遇,并已确立市场领先地位。 另外,推荐您阅读两篇市场分析文章作为参考: 1. 《》 2. 《》 请注意,内容由 AI 大模型生成,请仔细甄别。
2024-11-09
AI总结文章
以下是关于 AI 总结的相关内容: 可以让 AI 总结各种文章(不超过 2 万字),如复制文章全文粘贴发送给 GPTs 即可进行总结,GPT4 能识别重点内容。 对于 B 站视频,可利用视频字幕进行总结。若视频有字幕,可安装油猴脚本“Bilibili CC 字幕工具”,下载字幕后复制发送给 GPTs 进行总结。 总结类文章,AI 可能不会读完整个文章,而只是头尾读一下,中间随机读。 大型模型的能力可能不足以支撑商业运营,产生了一些伪需求。AI 可以帮助总结内容,但可能会忽略有价值的信息,可定制专门的 Prompt 进行总结并不断迭代,但能坚持的人可能本身不太需要这种服务。同时,AI 也可能导致新的信息茧房。
2024-11-09
可以免费生成视频的ai
以下是一些可以免费生成视频的 AI 工具: Hidreamai(国内,有免费额度):https://hidreamai.com//AiVideo 。支持文生视频、图生视频,提示词使用中文、英文都可以。文生视频支持正向提示词、反向提示词、运镜控制、运动强度控制,支持多尺寸,可以生成 5s 和 15s 的视频。 ETNA(国内):https://etna.7volcanoes.com/ 。Etna 是一款由七火山科技开发的文生视频 AI 模型,能根据用户简短的文本描述生成相应的视频内容。生成的视频长度在 8 15 秒,画质可达 4K,最高 38402160,画面细腻逼真,帧率 60fps。 Dreamina(国内内测,有免费额度):https://jimeng.jianying.com/aitool/video/generate 。支持文生视频、图生视频、视频生视频,支持图生视频首尾帧功能,提示词使用中文、英文都可以。文生视频支持正向提示词、运镜控制、运动强度控制、帧数选择,支持多种尺寸,默认生成 3s 的视频。 可灵(免费):https://klingai.kuaishou.com/ 。支持文生视频、图生视频,支持图生视频首尾帧功能,提示词可使用中文。文生视频支持正向提示词、反向提示词、运镜控制、时长选择(5s、10s),支持多种尺寸,默认生成 5s 的视频。 Pika Labs:被网友评价为目前全球最好用的文本生成视频 AI。目前内测免费,生成服务托管在 discord 中。加入方式:在浏览器中打开链接 https://discord.gg/dmtmQVKEgt 点击加入邀请。在 generate 区生成,输入/create,在弹出的 prompt 文本框内输入描述即可生成视频,也可上传本地图片生成对应指令动态效果。对生成的视频不满意可再次生成优化效果。
2024-11-09
AI音乐调研报告
以下是为您提供的 AI 音乐调研报告: 一、2.21 资讯 生成式人工智能对音乐领域的影响研究:报告链接为 https://www.gema.de/documents/d/guest/gemasacemgoldmediaaiandmusicpdf 。该研究由 GEMA 和 SACEM 委托 Goldmedia 进行,探讨了生成式 AI 在音乐领域的快速发展及其对欧洲创意产业的广泛影响,强调了 AI 对创作者既是竞争源也是创新工具,提出确立可靠法律框架、保护知识产权、加强透明度和监管的必要性。 谷歌推出 MusicRL:生成符合人类偏好的音乐。 使用 Beatoven AI 的文生音乐功能给视频配乐。 HyperGANStrument:使用音高不变超网络进行乐器声音合成和编辑。 Stability AI 发布 Stable Audio AudioSparx 1.0 音乐模型。 二、2.22 资讯 通过音乐 AI 计算捕捉创造力:加州大学圣迭戈分校(UC San Diego)的 Jacob School of Engineering、音乐系和 Qualcomm 研究所共同发布的研究报告中,展示了通过计算方法捕捉和量化音乐创造力的创新性研究。利用 Multitrack Music Transformer,测量了音乐声部间的互动量,并与专业音乐家的评估对比,验证了量化方法的准确性和有效性,为理解人类与 AI 在音乐创作中的互动提供新视角,为未来音乐 AI 的发展和应用奠定理论基础。 走向音频语言建模——概述。 通过扩散模型的时变反演进行音乐风格迁移。 Nendo AI:让人又爱又恨的 AI 音频平台。 RipX DAW:混音师的理想选择。 三、3.4 资讯 接触不同类型的音乐会影响大脑如何解读节奏:研究显示人类大脑听音乐时倾向于识别和产生由简单整数比率组成的节奏,不同社会中偏好的比率大相径庭。该研究基于在 15 个国家进行的大规模研究,涉及 39 组参与者,许多来自传统音乐包含独特节奏模式的社会。研究揭示了音乐节奏感知和产生中存在跨文化的变异性,特定文化中的特定节奏在其音乐心理表征中占据重要地位。链接:https://thedigitalinsider.com/exposuretodifferentkindsofmusicinfluenceshowthebraininterpretsrhythm/
2024-11-09
请问有ai生成架构图的工具么
以下是一些可以生成架构图(包括逻辑视图、功能视图、部署视图)的工具: 1. Lucidchart:流行的在线绘图工具,支持多种图表创建,用户可通过拖放轻松创建架构图。 2. Visual Paradigm:全面的 UML 工具,提供创建各种架构视图的功能。 3. ArchiMate:开源建模语言,与 Archi 工具配合使用可创建逻辑视图。 4. Enterprise Architect:强大的建模、设计和生成代码工具,支持多种架构视图创建。 5. Microsoft Visio:广泛使用的图表和矢量图形应用程序,提供丰富模板。 6. draw.io(现称 diagrams.net):免费在线图表软件,支持创建多种类型图表。 7. PlantUML:文本到 UML 转换工具,通过编写描述生成序列图等,辅助创建逻辑视图。 8. Gliffy:基于云的绘图工具,提供创建架构图功能。 9. Archi:免费开源工具,用于创建 ArchiMate 和 TOGAF 模型,支持逻辑视图创建。 10. Rational Rose:IBM 的 UML 工具,支持创建多种视图。 请注意,这些工具并非都是基于 AI 的。AI 在绘图工具中的应用通常涉及智能推荐布局、自动生成图表代码或识别图表中的模式和关系。在选择工具时,应考虑具体需求,如是否支持特定建模语言、是否与特定开发工具集成、偏好在线工具或桌面应用程序等。 此外,以下是一些可以辅助或自动生成 CAD 图的 AI 工具: 1. CADtools 12:Adobe Illustrator 插件,为 AI 添加 92 个绘图和编辑工具。 2. Autodesk Fusion 360:集成 AI 功能的云端 3D CAD/CAM 软件。 3. nTopology:基于 AI 的设计软件,可创建复杂 CAD 模型。 4. ParaMatters CogniCAD:基于 AI 的 CAD 软件,能根据输入自动生成 3D 模型。 5. 主流 CAD 软件(如 Autodesk 系列、SolidWorks 等)的生成设计工具,可根据设计目标和约束条件自动产生多种设计方案。 这些工具通常需要一定的 CAD 知识和技能才能有效使用。对于 CAD 初学者,建议先学习基本的 3D 建模技巧,然后尝试使用这些 AI 工具来提高设计效率。 以上内容由 AI 大模型生成,请仔细甄别。
2024-11-09
可以帮助看中文论文的ai工具有什么?
以下是一些可以帮助看中文论文的 AI 工具: 1. 文献管理和搜索: Zotero:结合 AI 技术,能自动提取文献信息,助您管理和整理参考文献。 Semantic Scholar:由 AI 驱动的学术搜索引擎,提供文献推荐和引用分析。 2. 内容生成和辅助写作: Grammarly:通过 AI 技术进行文本校对、语法修正和写作风格建议,提升语言质量。 Quillbot:基于 AI 的重写和摘要工具,可精简和优化论文内容。 3. 研究和数据分析: Google Colab:提供基于云的 Jupyter 笔记本环境,支持 AI 和机器学习研究,便于数据分析和可视化。 Knitro:用于数学建模和优化,助力复杂数据分析和模型构建。 4. 论文结构和格式: LaTeX:结合自动化和模板,高效处理论文格式和数学公式。 Overleaf:在线 LaTeX 编辑器,有丰富模板库和协作功能,简化编写过程。 5. 研究伦理和抄袭检测: Turnitin:广泛使用的抄袭检测工具,确保论文原创性。 Crossref Similarity Check:通过与已发表作品比较,检测潜在抄袭问题。 此外,常见的文章润色 AI 工具还有: 1. Wordvice AI:集校对、改写转述和翻译等功能于一体,基于大型语言模型提供全面的英文论文润色服务。 2. ChatGPT:由 OpenAI 开发的大型语言模型,可用于多方面写作辅助。 3. Quillbot:人工智能文本摘要和改写工具,可用于快速筛选和改写文献资料。 4. HyperWrite:基于 AI 的写作助手和大纲生成器,帮助写作前进行头脑风暴和大纲规划。 5. Wordtune:AI 驱动的文本改写和润色工具,优化文章语言表达。 6. Smodin:提供 AI 驱动的论文撰写功能,可生成符合要求的学术论文。 常用的 AIGC 论文检测网站和工具包括: 1. Turnitin:广泛使用的学术剽窃检测工具,增加了检测 AI 生成内容的功能。上传论文,系统自动分析并提供报告,标示可能由 AI 生成的部分。 2. Copyscape:主要检测网络剽窃行为,虽非专门的 AIGC 检测工具,但可发现可能被 AI 生成的重复内容。输入文本或上传文档,系统扫描网络查找相似或重复内容。 3. Grammarly:提供语法检查和剽窃检测功能,其剽窃检测部分可识别可能由 AI 生成的非原创内容。将文本粘贴到编辑器中,选择剽窃检测功能,系统提供分析报告。 4. Unicheck:基于云的剽窃检测工具,适用于教育机构和学术研究,检测 AI 生成内容的迹象。上传文档或输入文本,系统分析并生成报告,显示潜在的剽窃和 AI 生成内容。 5. :专门设计用于检测 AI 生成内容的工具,使用先进算法分析文本,识别是否由 GPT3 或其他 AI 模型生成。上传文档或输入文本,系统提供详细报告。 使用这些工具时,要结合自己的写作风格和需求,选择最合适的辅助工具。同时,请注意内容由 AI 大模型生成,请仔细甄别。
2024-11-09
有没有对监控图像清晰度处理较好的模型
以下为一些对监控图像清晰度处理较好的模型及相关方法: 1. 【SD】超清无损放大器 StableSR: 需要使用 StabilityAI 官方的 Stable Diffusion V2.1 512 EMA 模型,放入 stablediffusionwebui/models/StableDiffusion/文件夹中。 StableSR 模块(约 400M 大小)放入 stablediffusionwebui/extensions/sdwebuistablesr/models/文件夹中。 还有一个 VQVAE(约 750MB 大小)放在 stablediffusionwebui/models/VAE 中。 测试表明,StableSR 的放大效果在处理一些图像时,能够较好地保留人物细节,如眼神更锐利等。 2. 【SD】最强控制插件 ControlNet 的 tile 模型: 可用于高清修复小图,如将分辨率不高的食物图片进行高清化处理。 能修复和增加图像细节,如处理细节不足或结构错误的小屋图像。 3. 图像高清修复放大流程: 整个流程分为输入原始图像、修复图像、放大并重绘图像三部分。 图像输入时不建议上传大分辨率图片,以免处理时间过长。 图像高清修复时,Checkpoint 大模型使用 Iceclear/StableSR,并搭配 Stable SR Upscaler 模型,提示词应包含想要达到的目的内容。 图像高清放大时,用 realisticVision 底膜,使用提示词反推 node 提取画面提示词,搭配 tile ControlNet 提升画面细节感,然后用合适的高清放大模型进行二次放大。
2024-11-04
ai将二维线稿生成三维图像
以下是关于将二维线稿生成三维图像的相关知识: 关键词和主题描述: 为生成想要的图像,可将图片内容分为二维插画和三维立体两种形式。 主题描述时,可描述场景、故事、元素、物体或人物细节等。比如一个动物园,里面有老虎、狮子等;一个女孩在森林里搭帐篷,要注意对场景中的人物进行独立描述,拆分元素,避免一长串文字,否则 AI 可能识别不到。 设计风格: 设计师较难直接表达设计风格,可找风格类关键词参考或垫图/喂图,让 AI 结合主题描述生成相应风格的图片。 研究某些材质如玻璃、透明塑料等的关键词时,会发现其中门道很多,需针对某一种风格单独进行“咒语测试”。 生成三维图像的相关公司和技术: 往创建 3D 模型方向发展的初创公司包括 Kaedim、Mirage 和 Hypothetic 等,大公司如 Nvidia 的 Get3D 和 Autodesk 的 ClipForge 也在关注。 Kaedim 公司总部在伦敦,主要通过 2D 图像生成 3 维模型。 像 BariumAI、Ponzu 和 ArmorLab 等公司在三维纹理生成领域努力。 线稿相关的 AI 应用: 可以用 Midjourney 生成线稿,PS 修正错误,再用 ControlNet 控制,Stable Diffusion 上色,多套 AI 组合提高出图质量和效率。
2024-11-02
优秀的AI图像生成产品
以下是一些优秀的 AI 图像生成产品: 1. Artguru AI Art Generator:这是一个在线平台,能够生成逼真图像,为设计师提供灵感,丰富创作过程。其在不同月份的访问量排名较为靠前,且有一定的变化。 2. Retrato:AI 工具,可将图片转换为非凡肖像,拥有 500 多种风格选择,适合制作个性头像。 3. Stable Diffusion Reimagine:新型 AI 工具,通过稳定扩散算法生成精细、具有细节的全新视觉作品。 4. Barbie Selfie Generator:专为喜欢梦幻童话风格的人设计的 AI 工具,能将上传的照片转换为芭比风格,效果出色。 需要注意的是,这些 AI 模型通过组合技术如扩散模型、大型视觉转换器等,可以根据文本或参考图像生成具有创意且质量不错的相似图像输出,但仍存在一些局限,如偶尔会出现性能不稳定、生成内容不当等问题。
2024-10-30
可以生成图像吗
Sora 模型能够生成图像。具体实现方式是通过在具有一个帧的时间范围的空间网格中排列高斯噪声的分块。该模型可以生成不同大小的图像,分辨率高达 2048x2048。 生成式人工智能也能够生成文本和图像,涵盖博客文章、程序代码、诗歌和艺术品等。例如,像 Midjourney 等在线社区和 HuggingFace 等开源提供商也创建了生成模型。但这些模型在很大程度上仅限于大型科技公司,因为训练它们需要大量数据和计算能力。
2024-10-27
图像ai用哪个
在图像 AI 领域,为您推荐以下产品: 国内产品: 可灵:由快手团队开发,主要用于生成高质量的图像和视频。图像质量高,最初采用内测邀请制,现向所有用户开放。价格相对较高,重度用户年费最高可达几千元,平均每月使用成本在 400 到 600 元,也有每日免费点数和 60 多元单月的最便宜包月选项,适合轻度用户尝试。 通义万相:在中文理解和处理方面表现出色,用户可选择多种艺术和图像风格,生成图像质量高、细节丰富,操作界面简洁直观、用户友好度高,可与阿里其他产品和服务无缝整合。重点是现在免费,每天签到获取灵感值即可。但存在一些局限性,如为符合国内监管要求,某些类型图像无法生成,处理非中文语言或国际化内容可能不如国际工具出色,处理多元文化内容可能存在偏差。 此外,以下人员在工作中也使用了相关图像 AI 产品: Labzen:用于画图。 张雷:用于视频。 徐洋:用于行业场景细分应用 AI,通过学习 AI 赋能行业解决问题,如市场投放效率、数据化运营升级、电网资和现场销售的人员能力和效率提升等。 皮皮虾:用于文生图和图生视频。 薄荷:用于电商应用出图,辅助创意落地。 龙飞:用于海报生成。 Crossing:用于 AI 摄影、图生视频等。 朔:用于大图像以及视频工作流。 Roger:用于工作。 秦梧御:用于视频。 dwing3:用于出图。 May:用于应用。 王西西:情况还不清楚。 丘嘉杰:用于文生图、图生图、图生视频。 吴林林:用于电商应用。 朱鹏:用于广告出图。 水水:用于视频制作。 韩影:用于作图、做视频。 斌哥:用于自媒体。
2024-10-24
使用主模型及微调模型进行图像生成的过程是什么?
使用主模型及微调模型进行图像生成的过程通常包括以下步骤: 1. 对于像 Video LDM 这样的模型,首先训练一个 LDM(隐扩散模型)图像生成器。 2. 以 OpenAI 的文本到图像模型为例,在大量由图像和描述图像的文本组成的数据集上进行训练。训练时,先将字符串用分词器分解为离散的 token,通过最大化似然函数构建文本语言模型,然后对图像进行调整将其转换为描述生成器。 3. 为改进在图像生成数据集上的描述效果,对描述生成器进行微调。例如,OpenAI 构建小规模描述数据集来描述图像主对象,诱导模型偏向于描述主对象,此为“短合成描述”;或者创建更长、更丰富的文本数据集来描述图像内容。 4. 对于视频生成,如 Video LDM 向解码器添加额外的时间层,并使用用 3D 卷积构建的逐块时间判别器在视频数据上进行微调,同时编码器保持不变,以实现时间上一致的重建。类似于 Video LDM,Stable Video Diffusion(SVD)也是基于 LDM,在每一个空间卷积和注意力层之后插入时间层,并在整个模型层面上执行微调。 5. 在视频生成的微调过程中,长度为 T 的输入序列会被解释成用于基础图像模型的一批图像,然后再调整为用于时间层的视频格式。其中有 skip 连接通过学习到的融合参数导向时间层输出和空间输出的组合。在实践中,实现的时间混合层有时间注意力和基于 3D 卷积的残差模块等。但 LDM 的预训练自动编码器存在只能看见图像、永远看不见视频的问题,直接用于生成视频会产生闪动伪影和时间一致性差的情况,所以需要进行上述微调操作。
2024-10-19
摘要总结作为 llm 训练的下游任务,一般的训练流程是怎样的
作为 LLM 训练的下游任务,一般的训练流程如下: 1. 首先从大量文本数据中训练出一个基础 LLM。 2. 随后使用指令和良好尝试的输入和输出来对基础 LLM 进行微调和优化。 3. 接着通常使用称为“人类反馈强化学习”的技术进行进一步细化,以使系统更能够有帮助且能够遵循指令。 在训练过程中,会涉及到一些相关的理论探讨和评价指标: 理论探讨方面,如在推理阶段对 InContext Learning 能力的运行分析,将其视为隐式微调,通过前向计算生成元梯度并通过注意力机制执行梯度下降,且实验表明 LLM 中的某些注意力头能执行与任务相关的操作。 评价指标方面,entropylike 指标(如 crossentropy 指标)常用于表征模型的收敛情况和测试集的简单评估(如 Perplexity 指标),但对于复杂的下游应用,还需更多指标,如正确性(Accuracy)、信息检索任务中的 NDCG@K 指标、摘要任务中的 ROUGE 指标、文本生成任务中的 BitsperByte 指标、不确定性中的 ECE 指标、鲁棒性(包括 invariance 和 equivariance)、公平性、偏见程度和有毒性等。
2024-11-07
训练模型
训练模型的相关内容如下: 用 SD 训练一套贴纸 LoRA 模型的工作流: 原始形象:MJ 初步产出符合设计想法的贴纸原始形象。 二次加工:完成贴纸的白色边线等细节加工。 处理素材:给训练集图片打 tag,修改 tag。 训练模型:将上述处理好的数据集做成训练集,进行训练。 使用编码器解码器架构构建诗歌生成器的训练模型: 在训练模型之前,需要一个损失函数,由于本质上是多类分类问题,损失将是稀疏的分类交叉熵损失,配置从 logits 计算。 有了损失后,编译模型,将损失和优化器联系在一起,优化器在训练期间更新权重以减少损失。 开始训练模型,选择训练的时期,进行多次训练,并提供回调确保训练期间保存权重。 从实际字符串中提取字符序列,使用 TensorFlow 的 TF 字符串 Unicode 拆分功能。 将字符序列转化为数字,使用 TF Keras 层中的 StringLookup 函数进行字符到 ID 的映射,也可通过设置参数获取反向映射。 将处理后的数据作为神经网络的训练数据集,使用 TF Data Dataset API。 call 函数指定网络架构,输入是代表字符的 ID 序列,有嵌入层、循环层和密集层。 完成模型构建后,可使用 model.summary查看模型结构。 包括创建初始向量层、字符向量的演进、构建密集输出层等步骤。
2024-11-06
如何训练AI
训练 AI 通常是指通过大数据训练出一个复杂的神经网络模型,使其能够适应特定的功能。具体来说: 训练需要大量标记过的数据,通过这些数据来训练相应的系统。 训练需要较高的计算性能,以处理海量的数据。 训练具有一定的通用性,以便完成各种各样的学习任务。 例如,在医疗保健领域,为了让 AI 产生真正的改变,我们可以通过使用彼此堆叠的模型来训练 AI,而不是仅仅依靠大量的数据,并期望一个生成模型解决所有问题。比如先训练生物学的模型,然后是化学的模型,在这些基础上添加特定于医疗保健或药物设计的数据点。 此外,机器学习是人工智能的一个分支,是实现人工智能的一个途径之一,近 30 多年已发展为一门多领域科际集成,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。自然语言处理是人工智能和语言学领域的分支学科,包括认知、理解、生成等部分。推理是指利用训练好的模型,使用新数据推理出各种结论。
2024-10-29
通义千问是怎么训练的?
通义千问是阿里推出的一款超大规模预训练语言模型,其训练过程包括以下方面: 1. 大规模预训练:基于先进的深度学习技术进行研发。 2. 精细微调:提升智能水平,使其表现更接近人类,进一步提升代码、数学、推理、指令遵循、多语言理解等能力,并学会对齐人类价值观,变得更有帮助、诚实和安全。 探索多种自动方法获取高质量、可靠、有创造力的指令和偏好数据,如针对数学的拒绝采样、针对代码和指令遵循的代码执行反馈、针对创意写作的回译、针对角色扮演的 scalable oversight 等。 结合有监督微调、反馈模型训练以及在线 DPO 等方法,并采用在线模型合并的方法减少对齐税。 不久后,通义千问团队将推出 Qwen2 的技术报告。Qwen 系列模型在全球爆火,近一个月内总下载量翻倍,已突破 1600 万次。海内外开源社区已经出现了超过 1500 款基于 Qwen 二次开发的模型和应用。
2024-10-24
Lora模型训练数据集
以下是关于 Lora 模型训练数据集的相关内容: 创建数据集: 1. 进入厚德云模型训练数据集(https://portal.houdeyun.cn/sd/dataset)。 2. 在数据集一栏中,点击右上角创建数据集,输入数据集名称。 3. 可以上传包含图片+标签 txt 的 zip 文件,也可以只有图片(之后可在 c 站使用自动打标功能),还可以一张一张单独上传照片,但建议提前把图片和标签打包成 zip 上传。 4. Zip 文件里图片名称与标签文件应当匹配,例如:图片名“1.png”,对应的达标文件就叫“1.txt”。 5. 上传 zip 以后等待一段时间,确认创建数据集。返回到上一个页面,等待一段时间后上传成功,可以点击详情检查,能预览到数据集的图片以及对应的标签。 Lora 训练: 1. 点击 Flux,基础模型会默认是 FLUX 1.0D 版本。 2. 选择数据集,点击右侧箭头,会跳出所有上传过的数据集。 3. 触发词可有可无,取决于数据集是否有触发词。模型效果预览提示词则随机抽取一个数据集中的标签填入即可。 4. 训练参数这里可以调节重复次数与训练轮数,厚德云会自动计算训练步数。如果不知道如何设置,可以默认 20 重复次数和 10 轮训练轮数。 5. 可以按需求选择是否加速,点击开始训练,会显示所需要消耗的算力。然后等待训练,会显示预览时间和进度条。训练完成会显示每一轮的预览图。鼠标悬浮到想要的轮次模型,中间会有个生图,点击会自动跳转到使用此 lora 生图的界面。点击下方的下载按钮则会自动下载到本地。 用 SD 训练一套贴纸 LoRA 模型的工作流: 1. 原始形象:MJ 初步产出符合设计想法的贴纸原始形象。 2. 二次加工:完成贴纸的白色边线等细节加工。 3. 处理素材:给训练集图片打 tag,修改 tag。 4. 训练模型:将上述处理好的数据集做成训练集,进行训练。 用 SD 训练一套贴纸 LoRA 模型的原始形象:MJ 关键词: A drawing for a rabbit stickers,in the style of hallyu,screenshot,mori kei,duckcore plush doll art exaggerated poses,cry/happy/sad/...ar 3:4 niji 5 style cute s 180 。会得到不同风格的贴图,我们可以先看看自己喜欢哪一种。出图过程可以有意识地总结这一类贴图的特征,比如都是可爱的兔子,有不同的衣服和头饰,都有一双大大的卡通眼睛,会有不同的面部表情。 注意事项: 1. 关键词中限制了颜色,因此 MJ 生成的图片会一种情绪对应一种颜色,所以同一种情绪最好多生成几张不同色系的,可以减少后续训练中模型把情绪和颜色做挂钩(如果需要这样的话,也可以反其道而行之)。 2. 数据集中正面情绪与负面情绪最好比例差不多,如果都是正面积极的,在出一些负面情时(sad,cry)的时候,可能会出现奇怪的问题(如我们训练的是兔子形象,但 ai 认知的 sad 可能是人的形象,可能会出现人物特征)。 3. 如果训练 256266 大小的表情包,这样的素材就已经够用了。如果要训练更高像素的图片,则需要进一步使用 MJ 垫图和高清扩展功能。 高清化: 左(256)→右(1024),输入左图,加入内容描述,加入风格描述,挑选合适的,选出新 30 张图片(卡通二次元类型的 lora 训练集 30 张差不多,真人 60100 张)。
2024-10-22
Lora模型训练
以下是关于 Lora 模型训练的相关内容: 一、用 SD 训练一套贴纸 LoRA 模型的要点 1. 训练数据集准备:包括训练素材处理、图像预处理、打标优化。 2. 训练环境参数配置:选择本地或云端训练环境,进行训练环境配置和训练参数配置。 3. 模型训练:基于 kohyass 训练模型。 4. 模型测试:通过 XYZ plot 测试模型。 二、郑敏轩:Flux 的 Lora 模型训练 1. 所需模型下载:t5xxl_fp16.safetensors、clip_l.safetensors、ae.safetensors、flux1dev.safetensors。 注意事项: 不使用时,模型放置位置不限,只要知道路径即可。 训练时,建议使用 flux1dev.safetensors 版本的模型和 t5xxl_fp16.safetensors 版本的编码器。 2. 下载脚本: 夸克网盘链接:https://pan.quark.cn/s/ddf85bb2ac59 百度网盘链接:https://pan.baidu.com/s/1pBHPYpQxgTCcbsKYgBi_MQ?pwd=pfsq 提取码:pfsq 三、100 基础训练大模型 1. 步骤一·创建数据集 进入厚德云模型训练数据集:https://portal.houdeyun.cn/sd/dataset 在数据集一栏中,点击右上角创建数据集,输入数据集名称。 可以上传包含图片+标签 txt 的 zip 文件,也可以只有图片(之后可在 c 站使用自动打标功能),或者一张一张单独上传照片。 Zip 文件里图片名称与标签文件应当匹配,例如:图片名"1.png",对应的达标文件就叫"1.txt"。 上传 zip 以后等待一段时间,确认创建数据集,返回到上一个页面,等待一段时间后上传成功,可点击详情检查,预览数据集的图片以及对应的标签。 2. 步骤二·Lora 训练 点击 Flux,基础模型会默认是 FLUX 1.0D 版本。 选择数据集,点击右侧箭头,选择上传过的数据集。 触发词可有可无,取决于数据集是否有触发词。 模型效果预览提示词则随机抽取一个数据集中的标签填入即可。 训练参数可调节重复次数与训练轮数,厚德云会自动计算训练步数,若不知如何设置,可默认 20 重复次数和 10 轮训练轮数。 可按需求选择是否加速,点击开始训练,会显示所需要消耗的算力,然后等待训练,会显示预览时间和进度条。 训练完成后会显示每一轮的预览图,鼠标悬浮到想要的轮次模型,中间会有个生图,点击会自动跳转到使用此 lora 生图的界面。点击下方的下载按钮则会自动下载到本地。
2024-10-22
AI可以通过扫描我从而精准的判断出我骨头的位置并基于丰富的医疗学识制作出医疗思路,从而使我避免人工的失误且人类医生的刻意为难
目前的 AI 技术在医疗领域虽然取得了显著的进展,但还无法仅仅通过扫描您就精准判断出骨头的位置,并基于丰富的医疗学识直接制作出完整的医疗思路。AI 在医疗中的应用更多是辅助医生进行诊断和治疗决策,例如通过图像识别技术帮助医生更准确地识别病变部位,但最终的诊断和治疗方案仍需要人类医生综合多方面的因素进行判断和制定。而且,大多数人类医生都是秉持着职业道德和专业精神为患者服务的,不存在刻意为难的情况。
2024-08-26
GPT-4如何避免数据偏见
GPT4 在避免数据偏见方面主要采取了以下几个措施: 1. 通过领域专家的对抗训练来提升安全性 OpenAI 邀请了大量不同领域的专家参与对抗训练,帮助识别和纠正 GPT4 在特定领域的偏见。 2. 采集多样化的训练数据 OpenAI 尽量收集来自不同背景、年龄、性别等的数据,以减少训练数据的偏差。 3. 使用 RBRM 和 RM 作为奖励函数 在训练 GPT4 时,OpenAI 采用了基于奖励建模(RBRM)和奖励模型(RM)的方法,以此来引导模型避免产生有害或偏见的输出。 4. 进行模型自提升训练 GPT4 的训练可能是一个循环迭代的过程,模型会自动生成更多数据,如专家反馈的测试案例等,并将其反馈到训练过程中,不断优化和纠正偏差。 5. 限制模型的访问权限 OpenAI 没有公开 GPT4 的具体架构和参数信息,部分出于对数据偏见和安全性的考虑。 总的来说,OpenAI 在 GPT4 的训练过程中采取了多种措施来识别和缓解数据偏差问题,包括专家对抗、多样化数据采集、奖励函数设计以及模型自提升等方法。这些努力旨在提高 GPT4 的安全性和公平性。
2024-04-23