建设自己的数据集可以参考以下步骤:
展望未来,拥有足够的自有知识产权库可供借鉴的内容创作者可以考虑构建自己的数据集来训练和成熟人工智能平台。由此产生的生成人工智能模型不需要从头开始训练,而是可以建立在使用合法来源内容的开源生成人工智能的基础上。这将使内容创建者能够以与自己的作品相同的风格制作内容,并对自己的数据集进行审计跟踪,或者向在人工智能的训练数据及其输出中拥有明确所有权的感兴趣的各方许可使用此类工具。已经发展了在线追随者的内容创建者可能会考虑与追随者共同创作作为获取培训数据的另一种方式,认识到应征得这些共同创作者的同意,以根据随着法律变化而更新的服务和隐私政策来使用其内容。生成式人工智能将改变内容创作的本质,使许多人能够完成迄今为止只有少数人拥有高速完成的技能或先进技术的事情。随着这项新兴技术的发展,用户必须尊重那些支持其创造的人的权利——那些可能会被它取代的内容创作者。虽然我们了解生成式人工智能对创意成员构成威胁,也给那些使用视觉效果精心塑造自己形象的品牌带来了风险。与此同时,创意人员和企业利益都有巨大的机会来构建他们的作品和品牌材料的组合,对它们进行元标记,并训练他们自己的生成人工智能平台,该平台可以生成授权的、专有的、商品作为即时收入流的来源。
大家可以看到,我将主要的提示词放到了System中,正如刚才所讲,我们需要控制模型的行为与设定,所以会放在此处。而User提示词,我预置了一句提问的话(当然你也可以在此基础上修改,对单次交互提出更多要求),重点在于{Query},这种写法是特殊的变量形式写法,如果在实际运行中,{Query}会被替代成具体问题,这个效果在后面我们将会看到。创建并保存后,你将会在“Registry”中看到你所创建的提示词。第三步:准备数据集在这一步中,你可以上传自己的测试数据集,也可以使用PromptLayer提供的测试数据集,目前PromptLayer支持的数据集格式有Json和CSV两种。请注意,经过测试后发现上传中文数据集可能会出现乱码,所以在构建数据集时请大家多多留意为了方便演示,我使用了PromptLayer提供的数据集样例和我自己编写的一套测试集。当然,在真实环境中,肯定需要一套真实的测试集进行提示词调试,详情可至[Hugging Face](https://huggingface.co/)的“Datasets”中查看。第四步:开始测试点击你刚刚创建的数据集,进入到数据中,我们就可以开始进行测试前的配置了。(免费账户可一次性测试4个Q&A对,付费账户可以进行大批量测试。)点击“Add Step”后,出现如下操作框,这一步选择“Prompt Template”在点击“Prompt Template”后,会出现具体配置,首先我们给测试列起一个名字,然后方可配置后两项。配置好列名后,点击“Select template”,选择你刚创建的提示词。
进入厚德云-模型训练-数据集https://portal.houdeyun.cn/sd/dataset[heading2]步骤一·创建数据集[content]在数据集一栏中,点a击右上角创建数据集输入数据集名称这个zip文件可以是包含图片+标签txt,也可以只有图片没有打标文件(之后你可以在c站使用它的自动打标功能)你也可以一张一张单独上传照片,但还是建议提前把图片和标签打包成zip上传Zip文件里图片名称与标签文件应当匹配例如:图片名"1.png",对应的达标文件就叫"1.txt"。上传zip以后等待一段时间确认创建数据集返回到上一个页面,等待一段时间后就会上传成功,可以点击详情检查可以预览到数据集的图片以及对应的标签[heading2]步骤二· Lora训练[content]点击Flux,基础模型会默认是FLUX 1.0D版本选择数据集,点击右侧箭头,会跳出你所有上传过的数据集触发词可有可无,取决于你的数据集是否有触发词模型效果预览提示词则随机抽取一个你数据集里的标签填入即可训练参数这里可以调节重复次数与训练轮数,厚德云会自动计算训练步数如果不知道如何设置,可以默认20重复次数和10轮训练轮数可以按需求选择是否加速,点击开始训练,会显示所需要消耗的算力然后就可以等待训练了,会显示预览时间和进度条训练完成的会显示出每一轮的预览图鼠标悬浮到你想要的轮次模型,中间会有个生图,点击会自动跳转到使用此lora生图的界面。点击下方的下载按钮则会自动下载到本地