vLLM 是由加州大学伯克利分校开发的。其核心技术是 PageAttention,吞吐量比 HuggingFace Transformers 高出 24 倍。相较于 FasterTrainsformer,vLLM 更加简单易用,不需要额外进行模型的转换,支持 fp16 推理。详细的推理文档见:inference-speed/GPU/vllm_example 。同时,随着大模型参数规模的不断增长,在有限的算力资源下,提升模型的推理速度逐渐变为一个重要的研究方向,常用的推理加速框架包含 lmdeploy、TensorRT-LLM、vLLM 和 JittorLLMs 等。
[TensorRT-LLM](https://github.com/NVIDIA/TensorRT-LLM/tree/main)由NVIDIA开发,高性能推理框架详细的推理文档见:[inference-speed/GPU/TensorRT-LLM_example](https://github.com/LlamaFamily/Llama-Chinese/tree/main/inference-speed/GPU/TensorRT-LLM_example)[heading5]vLLM[content][vLLM](https://github.com/vllm-project/vllm)由加州大学伯克利分校开发,核心技术是PageAttention,吞吐量比HuggingFace Transformers高出24倍。相较与FasterTrainsformer,vLLM更加的简单易用,不需要额外进行模型的转换,支持fp16推理。详细的推理文档见:[inference-speed/GPU/vllm_example](https://github.com/LlamaFamily/Llama-Chinese/blob/main/inference-speed/GPU/vllm_example/README.md)
视觉模型的规模化定律。有了LLMs的规模化定律,自然会问视觉模型的发展是否遵循类似的规模化定律。最近,Zhai等人[24]展示了,有足够训练数据的ViT模型的性能-计算前沿大致遵循(饱和)幂律。继他们之后,谷歌研究[25]提出了一种高效稳定训练22B参数ViT的方法。结果显示,使用冻结模型产生嵌入,然后在顶部训练薄层可以实现出色的性能。Sora作为一个大型视觉模型(LVM),符合这些规模化原则,揭示了文本到视频生成中的几种新兴能力。这一重大进展强调了LVMs实现类似LLMs所见进步的潜力。新兴能力。LLMs中的新兴能力是在某些规模上——通常与模型参数的大小有关——表现出的复杂行为或功能,这些行为或功能并未被开发者明确编程或预期。这些能力被称为“新兴”,因为它们源于模型在多样化数据集上的全面训练,以及其庞大的参数数量。这种组合使模型能够形成联系并做出超越简单模式识别或死记硬背的推断。通常,这些能力的出现不能通过从小规模模型的性能外推来直接预测。虽然许多LLMs,如ChatGPT和GPT-4,展示了新兴能力,但直到Sora的出现,展示类似能力的视觉模型还很少。根据Sora的技术报告,它是第一个展示确认新兴能力的视觉模型,标志着计算机视觉领域的一个重要里程碑。除了其新兴能力,Sora还展示了其他显著能力,包括遵循指令、视觉提示工程和视频理解。Sora的这些功能方面代表了视觉领域的重大进步,并将在后续部分进行探讨和讨论。
当前视觉-语言模型(vision-language model,VLM)的商业化场景局限在视频的分析搜索。然而,其更广阔的应用前景在于将这些模型作为信息输入的媒介,进而驱动程序或模型完成其他操作。例如,CogAgent、AppAgent和AutoRT等系统将VLM作为核心组件,使机器得以理解和处理多模态信息。在视觉学习过程中,模型主要学习的是图像表征,而不是内在的逻辑联系,这与语言学习不同。而如果能将视觉模型与大型语言模型结合,利用后者来解读更复杂的概念,视觉模型将更接近于理解真实世界的通用人工智能。进一步而言,视觉语言模型的精进在现实世界,有助于机器更深层次地理解和交互物理世界,本质上是将复杂的视觉信息转化为更直观、易于理解的语言形式,从而深化对物理世界的认识。视觉作为人类获取信息的主要方式之一,通过视觉到语言的转换,机器能够更直观地理解物理世界,例如分析图像或视频内容,描述场景中的物体、动作和事件,这对理解物理世界的动态变化至关重要。语言作为人类交流的基本工具,当机器能够将视觉信息转化为语言,其交互能力将显著提升。这意味着机器可以更自然地与人类沟通,提供有关视觉环境的信息,实现更有效的人机交互,从而为我们畅想具身智能提供可能性。