怎么用大模型帮你图片转文字 -WayToAGI

回答

以下是使用大模型进行图片转文字的相关方法：

选择 ControlNet 模型：

将字体参考图放进 ControlNet 中，预处理器选择 invert（from white bg&black line)，控制类型不要选择预设的。invert 比较适合完全还原字体的细节，若字形本身识别度很高，也可使用 Canny 等模型。选好预处理后点击💥按钮预览。
然后选择 Control 模型，如 Depth 景深模型或 Scribble 涂鸦模型，使用 Canny 描边的预处理也可用 Canny 模型，但控制力稍差。选择好之后，记得点击启用，开启 ControlNet。

选择生图大模型：大模型决定最终的风格，如真实系、动画二次元等。生成真实场景下的字体时，经过尝试可选择真人效果卓绝的大模型 lofi.v2，不同的大模型对 ControlNet 模型的控制力有不同的适应度，需要微调参数。

制作思路：

将中文字做成白底黑字，存成图片样式。
使用文生图的方式，使用大模型真实系，如作者用的 realisticVisionV20_v20.safetensors[e6415c4892]ControlNet 预设置。
输入关键词，如奶油的英文单词 Cream + Cake（加强质感），反关键词：Easynegative（负能量），反复刷机，得到满意的效果。
同理可输出 C4D 模型，可自由贴图材质效果，3d,blender,oc rendering。
如果希望有景深效果，也可以打开 depth（增加阴影和质感）。
打开高清修复，分辨率建议 1024 以上，步数：29 - 60。

此外，可图大模型是由快手可图团队开发的基于潜在扩散的大规模文本到图像生成模型。Kolors 在数十亿图文对下进行训练，在视觉质量、复杂语义理解、文字生成（中英文字符）等方面有优势，支持中英双语，在中文特色内容理解方面更具竞争力。更多信息可查看其技术报告。

相关教程：

Nenly 同学的视频教程：【“牛逼”的教程来了！一次学会 AI 二维码+艺术字+光影光效+创意 Logo 生成，绝对是 B 站最详细的 Stable Diffusion 特效设计流程教学！AI 绘画进阶应用 - 哔哩哔哩】https://b23.tv/c33gTIQ
群友根据教程制作的视频教程也很详细。

另外，https://firefly.adobe.com/也可以实现类似功能，但 Stable Diffusion 的可操控性更强，尤其是中文字体。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

SD的优势区间，ControlNet做字体！(实战篇）

这里不是绝对唯一答案，因为很多CN模型能实现相似效果，或者更有故事性的效果的。以比较容易出效果为例：将字体参考图放进ControlNet中，预处理器选择invert（from white bg&black line)，注意控制类型就不要选择预设的了，因为很有可能处理模型不是一一对应的。invert比较适合完全还原字体的细节。当然如果字形本身识别度很高的话，也可以使用Canny等模型。选好预处理可以点击💥按钮预览一下。然后选择Control模型，可以选择Depth景深模型，也可以选择Scribble涂鸦模型，使用Canny描边的预处理这里也可以用Canny的模型，但控制力稍差。选择好之后，记得点击启用，开启ControlNet。[heading1]选择生图大模型[content]插件暂时简单的设置完毕，要选择生图模型了，大模型决定了我们的最终的风格，是真实系，是动画二次元，还是什么，这决定你对模型熟悉程度。生成一个真实场景下的字体，文章开始图片相似的风格，是我的目标，以此为例：经过一些尝试，我选了真人效果卓绝的大模型lofi.v2，（还有一些其他比较真实的模型都可以备选，只是会有一些参数变化需要注意）不同的大模型，会对CN模型的控制力有不同的适应度，所以需要微调参数。

延伸阅读

可图大模型是由快手可图团队开发的基于潜在扩散的大规模文本到图像生成模型。Kolors在数十亿图文对下进行训练，在视觉质量、复杂语义理解、文字生成（中英文字符）等方面，相比于开源/闭源模型，都展示出了巨大的优势。同时，Kolors支持中英双语，在中文特色内容理解方面更具竞争力。更多的实验结果和细节请查看我们的[技术报告](https://github.com/Kwai-Kolors/Kolors/blob/master/imgs/Kolors_paper.pdf)。

教程：SD 做中文文字-持续更新中

Nenly同学的视频教程来了：【“牛逼”的教程来了！一次学会AI二维码+艺术字+光影光效+创意Logo生成，绝对是B站最详细的Stable Diffusion特效设计流程教学！AI绘画进阶应用-哔哩哔哩】https://b23.tv/c33gTIQ还有个群友根据下面的教程自己做了个视频教程非常详细1.将中文字做成白底黑字，存成图片样式2.使用文生图的方式，使用大模型真实系，作者用的realisticVisionV20_v20.safetensors[e6415c4892]ControlNet预设置3.输入关键词，如奶油的英文单词，Cream + Cake（加强质感），反关键词：Easynegative（负能量），反复刷机，得到满意的效果即可。4.同理可输出C4D模型，可自由贴图材质效果，3d,blender,oc rendering5.如果希望有景深效果，也可以打开depth（增加阴影和质感）6.打开高清修复，分辨率联系1024以上，步数：29-60本来想方一个b站视频，但是没有按照上面的实测，等看完之后再推荐当然https://firefly.adobe.com/也可以，但是sd感觉可操控性更强，尤其是中文字体