Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

SOTA是什么意思?

Answer

SOTA 是“State Of The Art”的缩写,意思是“最先进的”“当前最佳水平”。

在 AI 领域中,例如在多模态的研究中,(c)类方法虽然是 SOTA,但很多想法都受到(d)类的代表作 ViLT 启发。ViLT 把 VE 彻底换成简单的 patch projection 模块,借鉴了 ViT 的思维,其出发点是对视觉数据处理方式的创新。

以往的许多研究通过使用各种方法对视频数据进行生成建模,包括循环网络、生成对抗网络、自回归变换器和扩散模型。但这些工作通常存在一些局限性,而 Sora 作为一个视觉数据的通用模型,可以生成持续时间、纵横比和分辨率各异的视频和图像,长达一分钟的高清视频。

Content generated by AI large model, please carefully verify (powered by aily)

References

Sora 原理解释

Much prior work has studied generative modeling of video data using a variety of methods,including recurrent networks,generative adversarial networks,autoregressive transformers,and diffusion models.These works often focus on a narrow category of visual data,on shorter videos,or on videos of a fixed size.Sora is a generalist model of visual data—it can generate videos and images spanning diverse durations,aspect ratios and resolutions,up to a full minute of high definition video.以往的许多研究通过使用各种方法对视频数据进行生成建模,包括循环网络、生成对抗网络、自回归变换器和扩散模型。这些工作通常关注于视觉数据的狭窄类别、较短视频或固定大小的视频。Sora是一个视觉数据的通用模型——它可以生成持续时间、纵横比和分辨率各异的视频和图像,长达一分钟的高清视频。[heading2]Turning visual data into patches

(4)多模态的大一统之路

(c)类方法虽然是SOTA,但是很多想法都受到(d)类的代表作ViLT启发,因此在介绍SOTA之前,我们先详细看看(d)类的ViLT是怎么做的。本节开头的VE,TE和MI的分类方法就是来源于ViLT,ViLT的出发点是把VE彻底换成简单的patch projection模块,借鉴了ViT的思维,如下所示Region Feature。就是传统的CNN backbond+Det head的方式,本质做检测,然后用ROI Align把对应的feature抽出来作为vision token,计算量比较大Grid Feature。只过CNN backbond,把最后的feature作为vision token,计算量也很大Patch Projection。受到ViT启发,上来就过个简单的conv把$$32\times 32$$的像素区域变成一个patch,然后就直接作为vision token,这样推理速度奇快无比网络结构整体网络架构图如下所示,典型(d)类没跑了跟ViT非常像,是个encoder结构。Text经过embedding之后是$$L\times H$$,Image经过embedding之后是$$N\times H$$。Text和Image前面各有一个CLS token,因此总的输入尺寸是$$(L+H+2)\times H$$注意这里的PE(Position Encoding)有两部分首先是0和1分别编码text部分和image部分其次是在text内和image内的常规的位置编码Loss设计训练loss相对比较复杂,得好好说说,包含3个Image Text Matching(ITM)-类似于constrastive los,从text的CLS token出来

Sora: First Impressions

[August Kamp](https://linktr.ee/augustkamp)is a musician,researcher,creative activist and multidisciplinary artist.“Sora represents a real turning point for me as an artist whose scope has always been limited by imagination being at odds with means,”she explains.“Being able to build and iterate on cinematic visuals this intuitively has opened up categorically new lanes of artistry to me...I truly cannot wait to see what other forms of storytelling will come into reach with the future of these tools."[heading2]Josephine Miller,Creative Director[content][Josephine Miller](https://www.instagram.com/josephinemiller?igsh=ZWdodzdwZW5rZmVx&utm_source=qr)is the Co-Founder and Creative Director of London based Oraar Studio,specializing in the design of 3D visuals,augmented reality and digital fashion."Sora has opened up the potential to bring to life ideas I've had for years,ideas that were previously technically impossible,”she states.“The ability to rapidly conceptualize at such a high level of quality is not only challenging my creative process but also helping me evolve in storytelling.It's enabling me to translate my imagination with fewer technical constraints."

Others are asking
音频质量检测方面SOTA模型有?
Gemini 模型在音频质量检测方面达到了 SOTA 水平。该模型是天生多模态的,在文本、图像、音频和视频上进行联合训练,在广泛的音频基准测试中表现出色。
2024-10-16
目标检测领域最新sota模型
以下是目标检测领域的一些最新模型: YOLOv8 目标检测跟踪模型:快速准确的多对象识别和定位,支持实例分割、人体姿态估计等,多平台兼容,是一站式视觉识别解决方案。详细介绍:https://docs.ultralytics.com/models/ ,GitHub:https://github.com/ultralytics/ultralytics 。 OpenAI 在 2024 年 2 月发布的 Sora 模型,是一个文本到视频的生成式 AI 模型,能够根据文本提示生成现实或想象场景的视频,在目标检测方面也有一定的应用和潜力。
2024-10-10
AGI 是什么意思
AGI 是 artificial general intelligence 的缩写,意思是通用人工智能,即能够做任何人类可以做的事。目前 AI 分为 ANI 和 AGI,ANI(artificial narrow intelligence 弱人工智能)得到了巨大发展,可应用于智能音箱、网站搜索、自动驾驶、工厂与农场等领域,但 AGI 还未取得巨大进展。在生成式 AI 的发展中,也对 AGI 有所展望,期待其成为技术发展的下一个阶段。同时,Web3 和人工智能初创公司 AGII 获得了 1500 万美元融资,AGII 是一个 AI 驱动的平台,能为用户提供多种生成内容的功能。
2025-01-08
GPT是什么意思
GPT 是“生成式预训练变换器”(Generative Pretrained Transformer)的缩写,是一种大型语言模型(LLM),也是生成式人工智能的重要框架。 首个 GPT 由 OpenAI 于 2018 年推出。GPT 模型是基于 Transformer 模型的人工神经网络,在大型未标记文本数据集上进行预训练,并能够生成类似于人类自然语言的文本。 截至 2023 年,大多数 LLM 都具备这些特征,并广泛被称为 GPT。而所谓的生成式预训练,其实是机器学习领域一个由来已久的概念。 2018 年,OpenAI 发表了一篇名为《通过生成式预训练提高语言理解能力》的文章,首次介绍了基于转换器的生成式预训练模型(GPT)系统,即我们所说的“GPT1”。 ChatGPT 是一种基于 GPT 架构的人工智能模型,由 OpenAI 开发。它是一种自然语言处理(NLP)工具,能够理解和生成接近人类水平的文本。目前 ChatGPT 官网有 GPT3.5 和 GPT4 两个版本。
2025-01-07
API是什么意思
API 就像是一个信差,它接受一端的请求,告诉那边的系统您想要做的事情,然后把返回的信息发回给您。 以搜索“奥本海默”电影为例,在这个过程中,通过特定的网址(如 https://www.themoviedb.org/search?query=奥本海默 ),其中域名(www.themoviedb.org)指定了网站的位置,路径(/search)指定了特定页面的位置,而 query(奥本海默)则是查询参数。 在 GPT 中,它可以通过预先配置的 Action 里的 TMDB API 获取电影相关的专有信息。当您询问“奥本海默”这部电影讲了什么时,GPT 会识别您的意图,使用 Action 去 The Movie DB 寻找相关数据,处理并返回最终结果。 配置一个 Action 通常需要:Schema(相当于操作手册,告诉它可以去哪、干什么、需要准备什么)、Available actions(可用行动)、Authentication(认证)、Privacy policy(隐私政策)。但 Schema 的结构可能涉及前端工程师相关领域的知识。 如果您对 Action 很感兴趣,可以从系统学习 API 相关知识、寻找可用的 API 练习、发掘 GPT Action 更多潜力等方向继续深入。
2025-01-07
多模态大模型是什么意思
多模态大模型(MLLM)是一种在统一框架下,集成多种不同类型数据处理能力的深度学习模型,这些数据包括文本、图像、音频和视频等。通过整合多样化的数据,MLLM 能够更全面地理解和解释现实世界中的复杂信息,在面对复杂任务时表现出更高的准确性和鲁棒性。其架构通常包括一个编码器、一个连接器和一个 LLM,还可选择性地在 LLM 上附加一个生成器以生成除文本之外的更多模态。连接器大致可分为基于投影的、基于查询的和基于融合的三类。 Google 的人工智能多模态大模型叫 Gemini,是 Google DeepMind 团队开发的。Gemini 不仅支持文本、图片等提示,还支持视频、音频和代码提示,能够理解和处理几乎任何输入,结合不同类型的信息,并生成几乎任何输出,被称为 Google 迄今为止最强大、最全面的模型,从设计之初就支持多模态,能够处理语言、视觉、听觉等不同形式的数据。 学习多模态大模型很有必要,因为它可以从图像中提取文本,理解图像或视频中发生的事情,识别物体、场景甚至情绪。例如,有人想为猫买新衣服,可给模型提供猫的图片和文本提示,模型会给出适合猫的衣服建议;在学生解决物理问题的例子中,模型能根据包含问题和答案的图像以及文本提示,进行推理并判断答案是否正确。输入可以是文本、图像、音频的混合,顺序很重要。
2025-01-02
scalinglaw什么意思
Scaling Law(规模定律)指的是在模型预训练中,只要三个关键因素——模型大小、数据量、训练时间(计算量)不断增长,模型性能就能大斜率指数级爆发式提升。足够的规模带来——“涌现”,即自发地产生复杂智能,完成复杂问题的推理、并形成非同分布下的泛化性提升。 2024 年整年,一个争论笼罩着 AI 界——Scaling Law 是正确的,但在现实中,Scaling Law 是不是已经触及天花板。算力需求已达惊人规模,基础设施跟不上发展速度,优质数据接近极限,合成数据训练存在“近亲繁殖”问题可能导致模型能力长期衰退。 在 OpenAI 的相关研究中,“良好且通用的数据表示,良好且通用的数据标注,良好且通用的算法”为检测 Scaling Law 做好了准备。同时,在 Sora 的研究中,也遵循了 Scaling Law,即在足量的数据、优质的标注、灵活的编码下,Scaling Law 在 transformer+diffusion model 的架构上继续成立,其想法很大程度上沿袭了大语言模型的经验。
2024-12-30
绘画提示词中的“P”是什么意思?
在绘画提示词中,“P”通常不是一个具有特定普遍含义的独立符号或缩写。但“POV”是“Point of View”的缩写,意为“视角”。在美术创作中,尤其是绘画和摄影领域,视角指的是观察者或摄像机所在的位置和角度。选择不同的视角可以极大地影响作品的视觉效果和观众对作品的感受。 视角在绘画中的作用包括: 1. 视觉引导:可以用来引导观众的视线,通过选择特定的角度,艺术家可以强调作品中的某些元素,使它们更加突出。 2. 情感表达:不同的视角可以传达不同的情感和氛围。例如,从高处看的视角可能会让物体显得更小、更脆弱,而从低处看的视角可能会让物体显得更强大、更有威严。 3. 空间感:通过精确的透视技巧,视角可以帮助艺术家在二维平面上创造出深度和空间感,使画面更加立体和真实。 4. 故事叙述:视角可以用来讲述故事,通过选择与故事内容相匹配的视角,艺术家可以增强叙事的力度和清晰度。 在创作提示词时,有一些技巧: 1. 透视:了解和运用透视原理是掌握不同视角的关键。透视可以创造出深度感和空间感,使画面更加逼真。 2. 构图:选择合适的视角可以帮助艺术家更好地构图,通过角度和视点的选择来平衡画面,创造出和谐的画面效果。 3. 光影:不同的视角会影响光线的方向和强度,艺术家需要根据所选的视角来调整光影效果,以增强画面的真实感和表现力。 在提示词的语法方面,根据自己想画的内容写出提示词,多个提示词之间使用英文半角符号。一般而言,概念性的、大范围的、风格化的关键词写在前面,叙述画面内容的关键词其次,最后是描述细节的关键词。提示词的顺序很重要,越靠后的权重越低。关键词最好具有特异性,措辞越不抽象越好,尽可能避免留下解释空间的措辞。还可以使用括号人工修改提示词的权重。
2024-12-26