时间序列模型是用于分析和处理随时间变化的数据的一类模型。
例如,在评估 GPT-4V 对时间序列和视频内容的理解时,会考虑其对现实世界中随时间展开的事件的理解能力,像时间预测、排序、定位、推理和基于时间的理解等。
在视频生成方面,如 Video LDM 模型,先训练图像生成器,再微调添加时间维度以生成视频。
总的来说,时间序列模型旨在理解和预测数据在时间上的变化规律和趋势。
1.选择自定义提示词(当然你也可以选之前预定义的话题,也就是黑色的按钮):PS:黑色的按钮会带着你做新手使用指引。然后左边会出现我们熟悉的chat界面,就不详细介绍这个界面。网站上提供的模型是Llama-3.1 8B Instruct:1.输入你的对话内容,等待左右两边的内容生成。如果这时右边的分析没刷新成上图的样子,在这两个按钮之间做做切换。由于它的归因聚类也是用了大模型,所以稍微等等,它也有个反应时间,过程中可能是这样的:最终你得到的结果可能和我不同,甚至可能是正确的答案,猜测是这个模型用的温度temprature不是最低,因此你会得到不同的结果。Activation Mode:你将获得整段的推理判断。Attribution Mode:你需要选中一个token,它会帮你分析对应的内容里最大的关联。1.从结果中,你会发现模型认知的9.11大概率是那个著名的时间,也可能是一个日期。这种情况下,模型就判断9月11日比9月3日大。而如果我们用一个显然不是日期的数字对比,比如9.31和9.4比,大概率答案是正确的:解释也回归到了数字范畴:它从侧面证明了LLM的基本原理:LLM是采用多头注意力机制预测下一个token的,因此训练数据中相关的语句如果越多,它们之间的相关性概率会越高。在这个案例里,9.11作为日期“概念”的权重显然比它是个数字“概念”的权重大。
在这一节中,我们讨论时间和视频理解能力。虽然GPT-4V主要以图像为输入,但评估其对时间序列和视频内容的理解仍然是其整体评估的重要方面。这是因为现实世界的事件是随着时间的推移而展开的,AI系统理解这些动态过程的能力在现实世界应用中具有重要意义。例如,时间预测、时间排序、时间定位、时间推理和基于时间的理解等能力有助于衡量模型在理解事件序列、预测未来事件和随时间在一系列静态图像中上下文分析活动方面的熟练程度。尽管GPT-4V主要关注图像,但它能够以类似于人类的方式理解视频和时间序列。为了增强像GPT-4V这样复杂的AI模型的多功能性和适用性,这方面的测试对其开发和完善至关重要。在本节的接下来的实验中,我们将使用多个选定的视频帧作为输入,以测试模型在理解时间序列和视频内容方面的能力。[heading2]6.1多图像序列[content]在这个小节中,我们展示了GPT-4V可以准确理解和分析视频帧序列的能力。在逐帧分析中,GPT-4V识别了活动发生的场景,提供了更深层次的上下文理解。如图53所示,模型不仅仅局限于识别环境,它还准确解释了视频中个体执行的动作。GPT-4V理解了各种人体姿势的序列和上下文,并且聪明地将它们与正在进行的活动关联起来。通过理解超越单纯识别的姿势变化,GPT-4V可以从人类动作和动作的微妙之处中获得意义。由于这种详细理解的水平,GPT-4V可以捕捉到视频中正在发生的事物的实质,提供丰富而微妙的见解,超越了仅仅识别对象和场景。
Blattmann et al.在2023年提出的Video LDM首先是训练一个LDM(隐扩散模型)图像生成器。然后微调该模型,使之得到添加了时间维度的视频。这个微调过程仅用于那些在编码后的图像序列上新增加的时间层。Video LDM中的时间层(见图10)会与已有的空间层交错放置,而这些空间层在微调过程中会保持冻结。也就是说,这里仅微调新参数𝜙,而不会微调预训练的图像骨干模型参数𝜃。Video LDM的工作流程是首先生成低帧率的关键帧,然后通过2步隐含帧插值过程来提升帧率。长度为𝑇的输入序列会被解释成用于基础图像模型𝜃的一批图像(即𝛣・𝑇),然后再调整为用于时间层的视频格式。其中有一个skip连接通过一个学习到的融合参数𝛼导向了时间层输出𝐳'和空间输出𝐳的组合。在实践中,实现的时间混合层有两种:(1)时间注意力,(2)基于3D卷积的残差模块。图10:一个用于图像合成的预训练LDM被扩展成一个视频生成器。B、𝑇、𝐶、𝐻、𝑊分别是批量大小、序列长度、通道数、高度和宽度。𝐜_S是一个可选的条件/上下文帧。