图像识别模型通常包括编码器和解码器部分。以创建图像描述模型为例:
另外,还有一些相关模型的安装配置,如 siglip-so400m-patch14-384(视觉模型),由 Google 开发,负责理解和编码图像内容,其工作流程包括接收输入图像、分析图像的视觉内容并将其编码成特征向量。image_adapter.pt(适配器)连接视觉模型和语言模型,优化数据转换。Meta-Llama-3.1-8B-bnb-4bit(语言模型)负责生成文本描述。
09:00和不。所以我们用零值填充移位的部分看起来不错。所以下一部分是模型。大部分模型代码已经在之前的视频中解释过了,所以我将快速过一遍。09:17但是,如果您对此不是很熟悉并且对此很有信心,那么您可以返回到上一张幻灯片并检查编码器和解码器内部发生了什么。09:28所以在这段视频中。所以让我们快速运行这些东西。所以这是编码器,正如你所看到的,我们只是将inception resnet V2应用于图像数据。09:43请注意,在这种情况下,我们冻结了这个cnn的大部分部分,因为我们不需要接受培训。这个模型,基本上这种骨干是预训练的09:56通过在这种情况下使用庞大的数据集图像网络数据集。所以当然,如果你想训练,再次微调,这是可能的,但在这种情况下,我们希望你只保留权重10:10预训练。那么接下来让我们继续解码器。正如我们讨论的那样它有点复杂,在这里你可以找到很多关于注意力层的说明10:25以及解码器的步骤,我们在之前的视频中讨论过。在这里我们可以找到一个定义,这样你就可以找到嵌入层来创建嵌入和第一个GRU层10:41注意力层添加层归一化层和最终的密集层。所以让我们这样定义。所以模型看起来像这个嵌入层GRU attention add layer normalization,然后这个。11:01在定义解码器和编码器之后它有这么多参数,我们可以创建最终模型TF Keras模型并定义输入和输出。正如你所看到的,它有两个输入,11:23图像输入进入编码器,文字输入进入解码器,输出应该是解码器输出。现在模型已准备就绪,但在运行训练之前,我们需要像往常一样定义丢失的功能。11:45因此,就损失而言,我们的模型基本上是一个分类模型,因为解码器为每个类、每个词类、每个词汇生成了很多概率。
模型的下载如果因为环境问题,可以在网盘中下载[heading4]siglip-so400m-patch14-384(视觉模型)[content]siglip由Google开发的视觉特征提取模型,负责理解和编码图像内容。工作流程:a.接收输入图像b.分析图像的视觉内容(如物体、场景、颜色、纹理等)c.将这些视觉信息编码成一组特征向量打开ComfyUI\models\clip,在地址栏输入CMD回车,打开命令行输入下面的命令,拉取模型(需要环境,也可以在网盘里下载)下载好之后,目录的文件[heading4]image_adapter.pt(适配器)[content]连接视觉模型和语言模型,优化数据转换。工作流程:a.接收来自视觉模型的特征向量b.转换和调整这些特征,使其适合语言模型处理c.一些特定任务的优化或微调(如图片到文字)通过https://huggingface.co/spaces/fancyfeast/joy-caption-pre-alpha/tree/main/wpkklhc6下载放到models的Joy_caption文件夹里如果Joy_caption文件夹不存在,就新建一个[heading4]Meta-Llama-3.1-8B-bnb-4bit(语言模型)[content]大型语言模型,负责生成文本描述。工作流程:a.接收经过适配器处理的特征b.基于这些特征生成相应的文本描述c.应用语言知识来确保描述的连贯性和准确性打开ComfyUI\models\LLM,地址栏输入CMD回车在命令行里面输入下面命令下载后的完整目录文件[heading4]
00:01大家好,我是谷歌高级解决方案实验室的机器学习工程师Takumi。目前,很多人都在谈论生成式人工智能及其新进展。正如你们中的一些人可能知道的那样,谷歌和谷歌云也发布了如此多的生成人工智能00:22相关的新产品和功能。但在这个视频系列中,我们的目标不是创建最先进的生成式AI,也不是介绍Google Cloud新产品。相反,我们将解释它们背后的技术类型。00:43特别是在本视频中,我将讨论如何通过使用编码器-解码器、注意力机制和一些Transformer等技术实际创建一个非常简单的生成模型,即图像捕获模型。01:01如果您不熟悉这些概念,我建议您在此之前查看其他讨论它们的视频。好吧,如果你准备好了,让我们首先谈谈图像捕捉任务和数据集。01:19我们将使用这种数据集。如您所见,有很多成对的图像和文本数据。我们的目标是建立和训练一个可以生成这些类型的文本说明的模型01:32基于图像。我们将通过构建这种模型来实现它。如您所见,它是一个编码器-解码器模型。但在这种情况下,编码器和解码器处理不同形式的数据、图像和文本。01:51我们将图像传递给编码器,它从图像中提取信息,并创建一些特征向量。然后将向量传递给实际构建标题的解码器,通过生成02:07一个接一个的话。我们将通过构建这种模型来实现它。如您所见,它是一个编码器-解码器模型。但在这种情况下,编码器和解码器处理不同形式的数据、图像和文本。02:14我们将图像传递给编码器,它从图像中提取信息,并创建一些特征向量。然后将向量传递给实际构建标题的解码器,通过生成02:22一个接一个的话。所以代码也很简单。在代码方面,我们将在下一个视频中看到整个笔记本,所以这里我们只关注一些重要的行。