Chat with Wiki - 怎么训练模型进行标题改写

Answer

训练模型进行标题改写可以参考以下方法：

Sora 模型：
- 对于视频标题改写，首先训练一个能够为视频生成详细描述的视频标题生成器。可利用 CoCa 架构进行视频标题生成，如 VideoCoCa，通过取视频的多个帧并将每个帧输入到图像编码器，产生的帧令牌嵌入被展平并连接成一个长序列的视频表示，再由生成性池化器和对比性池化器处理，与对比损失和标题生成损失一起联合训练。构建视频标题生成器的其他替代方法包括 mPLUG-2、GIT、FrozenBiLM 等。为确保用户提示与训练数据中的描述性标题格式一致，执行额外的提示扩展步骤，用 GPT-4V 将用户输入扩展为详细的描述性提示。
- 对于语言指令跟随，通过开发一个能够生成长而详细标题的字幕器，然后用这些标题来训练模型。但收集用于训练此类字幕器的数据的过程未知，且可能需要大量劳动。
DALL·E 3 模型：通过用详细、描述性的标题重新标注现有图像来解决指令遵循问题。首先训练一个图像标题生成器，这是一个视觉-语言模型，用于生成精确和描述性的图像标题。然后，使用标题生成器生成的描述性图像标题来微调文本到图像模型。具体来说，DALL·E 3 遵循对比标题生成器（CoCa）的方法，联合训练一个图像标题生成器，该生成器具有 CLIP 架构和一个语言模型目标。进一步在详细描述图像的主要对象、周围环境、背景、文本、风格和颜色方面进行微调后，图像标题生成器能够为图像生成详细的描述性标题。文本到图像模型的训练数据集是由图像标题生成器生成的重新标注数据集和真实人类编写的数据混合而成，通过上采样来解决实际用户提示与训练数据中的描述性图像描述之间的不匹配问题。

关于 Midjourney 的训练 prompt： The issue with DMs is that the powerful ones often consume hundreds of GPU days,and inference is quite expensive due to sequential evaluations.To enable DM training on limited computational resources without compromising their quality as well as flexibility,DMs are applied in the latent space of powerful pre-trained autoencoders. Training a diffusion model on such a representation makes it possible to achieve an optimal point between complexity reduction and detail preservation,significantly improving visual fidelity.Introducing a cross attention layer to the model architecture turns the diffusion model into a powerful and flexible generator for generally conditioned inputs such as text and bounding boxes,enabling high-resolution convolution-based synthesis.

Midjourney 会例行发布新的模型版本以提高效率、连贯性和质量。最新的模型是默认的，但可以使用 --version 或 --v 参数或通过 /settings 命令选择其他模型版本。不同的模型在不同类型的图像上表现出色。Midjourney V5 模型是最新和最先进的模型，于 2023 年 3 月 15 日发布。使用此模型，可在 prompt 末尾添加 --v 5 参数，或使用 /settings 命令并选择 MJ Version 5。该模型具有很高的连贯性，擅长解释自然语言提示，分辨率更高，并支持诸如 --tile 等高级功能。其新特点包括更广泛的风格范围、对提示更敏感、更高的图像质量、更详细的图像、细节更可能正确以及更少不需要的文本。

Content generated by AI large model, please carefully verify (powered by aily)

References

Sora：大型视觉模型的背景、技术、局限性和机遇综述【官方论文】

为了增强指令遵循能力，Sora采用了类似的标题改进方法。该方法首先通过训练一个能够为视频生成详细描述的视频标题生成器来实现。然后，将这个视频标题生成器应用于训练数据中的所有视频，以生成高质量的（视频，描述性标题）对，这些对被用来微调Sora，以提高其指令遵循能力。Sora的技术报告没有透露视频标题生成器是如何训练的。鉴于视频标题生成器是一个视频到文本的模型，构建它有许多方法。一种直接的方法是利用CoCa架构进行视频标题生成，通过取视频的多个帧并将每个帧输入到图像编码器，称为VideoCoCa。VideoCoCa基于CoCa，并重用预训练的图像编码器权重，独立地应用于采样的视频帧。结果产生的帧令牌嵌入被展平并连接成一个长序列的视频表示。这些展平的帧令牌随后被一个生成性池化器和一个对比性池化器处理，这两者与对比损失和标题生成损失一起联合训练。构建视频标题生成器的其他替代方法包括mPLUG-2、GIT、FrozenBiLM等。最后，为了确保用户提示与训练数据中的描述性标题格式一致，Sora执行了一个额外的提示扩展步骤，其中GPT-4V被用来将用户输入扩展为详细的描述性提示。[heading3]3.4.4讨论[content]对于Sora来说，遵循指令的能力对于生成忠实于用户意图的、包含复杂场景的一分钟长视频至关重要。根据Sora的技术报告，这种能力是通过上述方法获得的。通过开发一个能够生成长而详细的标题的字幕器，然后用这些标题来训练模型。然而，收集用于训练此类字幕器的数据的过程是未知的，且可能需要大量劳动，因为它可能需要视频的详细描述。此外，描述性视频字幕器可能会虚构视频的重要细节。我们认为，如何改进视频字幕器值得进一步研究，并且对于增强文本到图像模型的遵循指令能力至关重要。

Sora：大型视觉模型的背景、技术、局限性和机遇综述【官方论文】

DALL·E 3中的指令遵循通过一种假设为基础的标题改进方法来解决，即模型训练所依赖的文本-图像对的质量决定了最终文本到图像模型的性能。数据的低质量，特别是噪声数据的普遍存在和省略大量视觉信息的简短标题，导致了许多问题，如忽略关键词和词序，以及误解用户意图。标题改进方法通过用详细、描述性的标题重新标注现有图像来解决这些问题。该方法首先训练一个图像标题生成器，这是一个视觉-语言模型，用于生成精确和描述性的图像标题。然后，使用标题生成器生成的描述性图像标题来微调文本到图像模型。具体来说，DALL·E 3遵循对比标题生成器（CoCa）的方法，联合训练一个图像标题生成器，该生成器具有CLIP架构和一个语言模型目标。这个图像标题生成器结合了一个图像编码器、一个单模态文本编码器用于提取语言信息，以及一个多模态文本解码器。它首先使用单模态图像和文本嵌入之间的对比损失，然后是多模态解码器输出的标题生成损失。进一步在详细描述图像的主要对象、周围环境、背景、文本、风格和颜色方面进行微调后，图像标题生成器能够为图像生成详细的描述性标题。文本到图像模型的训练数据集是由图像标题生成器生成的重新标注数据集和真实人类编写的数据混合而成，以确保模型能够捕捉用户输入。这种图像标题改进方法引入了一个潜在问题：实际用户提示与训练数据中的描述性图像描述之间的不匹配。DALL·E 3通过上采样来解决这个问题，其中LLMs被用来将简短的用户提示重写为详细且冗长的指令。这确保了模型在推理时接收到的文本输入与模型训练中的输入一致。

训练Midjourney的prompt

The issue with DMs is that the powerful ones often consume hundreds of GPU days,and inference is quite expensive due to sequential evaluations.To enable DM training on limited computational resources without compromising their quality as well as flexibility,DMs are applied in the latent space of powerful pre-trained autoencoders.Training a diffusion model on such a representation makes it possible to achieve an optimal point between complexity reduction and detail preservation,significantly improving visual fidelity.Introducing a cross attention layer to the model architecture turns the diffusion model into a powerful and flexible generator for generally conditioned inputs such as text and bounding boxes,enabling high-resolution convolution-based synthesis.先不用多做回复，请问答是否收到即可？3——————————————————————————————————————VersionMidjourney routinely releases new model versions to improve efficiency,coherency,and quality.The latest model is the default,but other models can be used using the--version or--v parameter or by using the/settings command and selecting a model version.Different models excel at different types of images.Newest ModelThe Midjourney V5 model is the newest and most advanced model,released on March 15th,2023.To use this model,add the--v 5 parameter to the end of a prompt,or use the/settings command and select MJ Version 5.This model has very high Coherency,excels at interpreting natural language prompts,is higher resolution,and supports advanced features like repeating patterns with–tile.What's new with the V5 base model?-Much wider stylistic range and more responsive to prompting-Much higher image quality(2x resolution increase)improved dynamic range-More detailed images.Details more likely to be correct.Less unwanted text-Improved performance with image prompting