以下是关于图片生成图片模型的相关信息:
输入:图像+ prompt输出:图像其中Load Checkpoint模块代表对SD模型的主要结构进行初始化(VAE,U-Net),CLIP Text Encode表示文本编码器,可以输入prompt和negative prompt,来控制图像的生成,Load Image表示输入的图像,KSampler表示调度算法以及SD相关生成参数,VAE Encode表示使用VAE的编码器将输入图像转换成低维度的隐空间特征,VAE Decode表示使用VAE的解码器将低维度的隐空间特征转换成像素空间的生成图像。与文字生成图片的过程相比,图片生成图片的预处理阶段,先把噪声添加到隐空间特征中。我们设置一个去噪强度(Denoising strength)控制加入多少噪音。如果它是0,就不添加噪音。如果它是1,则添加最大数量的噪声,使潜像成为一个完整的随机张量,如果将去噪强度设置为1,就完全相当于文本转图像,因为初始潜像完全是随机的噪声。去噪强度(Denoising strength)控制噪音的加入量
[title]Sora 原理解释[heading1]Sora:可作为世界模拟器的视频生成模型[heading2]Image generation capabilities 图像生成功能[content]Sora is also capable of generating images.We do this by arranging patches of Gaussian noise in a spatial grid with a temporal extent of one frame.The model can generate images of variable sizes—up to 2048x2048 resolution.Sora也能够生成图像。我们通过在具有一个帧的时间范围的空间网格中排列高斯噪声的分块来实现这一点。该模型可以生成不同大小的图像——分辨率高达2048x2048。和MJ V6的对比博主:https://twitter.com/doganuraldesign/status/1758444092328194217
输入文本后会文生图,不满意可重复生成图片,图片满意后即可点击GENERATING生成3D很快你会获得一个快速生成的粗模右上可以选择是否对称、是锋利边缘还是光滑边缘,是否简单几何模式选择后可以查看模型是否满意,不满意可以redo,满意后选择confirm进行下一步,这里可以先选择产出的面数(开始扣积分)完成后下一步是生成材质,可选材质的复杂度以及参考图片的影响生成后,可以在左边查看,满意点击confirm左侧预览区可以选择多种形式查看进行到这里,模型基本就完成了可以选择对应的格式规格下载即可,压缩包里会有以下文件(obj格式+PBR材质)也可以发布到sketchfab