请问什么大模型可以提供从给出的视频中精准提取图片的？-WayToAGI

回答

目前，一些大模型具备从给出的视频中精准提取图片的能力。例如，多模态大模型可以实现这一功能。

多模态技术能够从图像中提取文本，理解图像或视频中发生的事情，识别物体、场景甚至情绪。像谷歌的 Gemini 多模态大模型，它可以处理多种不同的任务，应用范围广泛。

在实际应用中，比如有人想为一只猫买新衣服，可以给模型提供两张猫的图片，同时提供一个文本提示，询问什么样的衣服适合这只猫，模型会给出响应。又比如在解决物理问题时，提供包含问题和学生答案的图像以及文本提示，模型能够逐步推理并判断答案是否正确。

但需要注意的是，不同的大模型在具体的提取效果和精度上可能会有所差异，具体的应用效果还需要根据实际情况进行评估和选择。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

[title]从原理到应用一次讲清楚 Prompt[heading1] 3、用数学来理解 Prompt[content]传统的机器学习是p(y|x; a)假设a是我们训练出来的模型。【训练】我们用大量人工标志，训练出来一个模型a。给了大量猫的照片，就返回cat。模型里面包含了大量猫照片的特征。【预测】给一个新的照片，根据模型特征按照一定概率返回猫或者其他动物。大模型是p(y|x; a)假设a我们训练出来的通用模型。这个模型没有经过人工的标注，但是他什么都可以学会。我们给出的Prompt其实就是x，然后让大模型基于这个x知道概率最大的y，这样就避免了人工的标注，但是依赖于x给入的信息，去更大概率找到合适的y。我们给一张照片，然后我们输入这是一个动物，这是什么，然后大模型根据这个输入，提取照片的特征和我们的提示作为输入，最终返回猫。

十七问解读生成式人工智能

“小模型”确实有其优势，尤其是在特定任务上表现得非常出色。比如，如果你训练了一个专门识别猫🐱或狗🐶的模型，它在这个任务上可能非常精准。然而，这个模型就无法用于其他任务（因为用来训练模型的数据主要是由猫猫狗狗的照片组成的）。而“大模型”则不同，它像一个多功能的基础平台（有时也被称为“基座模型”）。大模型可以处理多种不同的任务，应用范围非常广泛，并且拥有更多的通识知识。这就是为什么尽管“小模型”在某些特定领域内表现优异，我们仍然需要“大模型”的原因：它们能够在更广泛的场景中提供支持和解决问题。

谷歌Gemini多模态提示词培训课——Part1

多模态技术可以从图像中提取文本，使从表情包或文档扫描中提取文本成为可能。它还能理解图像或视频中发生的事情，识别物体、场景，甚至情绪。假设有人想为一只猫买新衣服，他可以给模型提供两张猫的图片。同时，他可以提供一个文本提示，询问什么样的衣服适合这只猫。图像和文本将作为模型的输入。模型随后会给出响应，建议最适合这只猫的衣服。基于这两张图片，输入可以是交错的，意味着它可以是文本、图像、音频的混合。在这个例子中，有一个图像，然后是文本提示，接着是另一个图像。这个顺序可以改变，而且顺序很重要。课程稍后会详细讨论这一点。这是一个关于学生解决物理问题答案的例子。有一个包含问题和学生答案的图像，以及一个文本提示。模型被要求逐步推理这个问题，然后判断学生是否给出了正确答案。如果解决方案是错误的，模型需要解释错误之处并解决问题。在这个例子中，提供了一个文本提示和一个图像。在输出部分，可以看到模型的答案。值得注意的是，模型能够跨文本和图像进行推理。图像中包含文字和绘图，而模型的响应既包含文本，又包含一些LaTeX公式。