Gemini 是在 Google 的 TPU AI 加速器上训练的,似乎没有使用英伟达的 GPU。Google 还推出了全新的 Cloud TPU v5p 和 AI Hypercomputer 超级计算机,将加速 Gemini 的开发,使 AI 模型的训练更快。
Cloud TPU v5p 是目前 Google 最强大、可扩展和灵活的 AI 加速器。它在 TPU v4 的基础上提供了超过 2 倍的 FLOPS(浮点运算次数/秒)和 3 倍的高带宽内存(HBM)。TPU v5p 可以比前一代 TPU v4 更快地训练大型语言模型(LLM),对于嵌入密集型模型,其训练速度比 TPU v42 快 1.9 倍。TPU v5p 的可扩展性是 TPU v4 的 4 倍。
AI Hypercomputer 是一个突破性的超级计算机架构,它采用了集成的系统,包括性能优化的硬件、开放软件、领先的机器学习框架,以及灵活的消费模型。通过系统级协同设计来提高 AI 训练、调优和服务的效率和生产力。具有性能优化的计算、存储和网络硬件,建立在超大规模数据中心基础设施之上,利用高密度占地面积、液体冷却和 Jupiter 数据中心网络技术。通过开放软件使开发者能够调整、管理和动态编排 AI 训练和推理工作负载。提供了一系列灵活和动态的消费选择,包括传统的承诺使用折扣(CUD)、按需定价和现货定价,以及为 AI 工作负载量身定制的消费模型。
Gemini 模型是在一个既包含多模态又包含多语言的数据集上进行训练的。预训练数据集使用来自网络文档、书籍和代码的数据,并包括图像、音频和视频数据。使用 SentencePiece 分词器,发现在整个训练语料库的大样本上训练分词器可以改善推断的词汇,并进而提高模型性能。对所有数据集进行过滤,使用启发式规则和基于模型的分类器,还进行安全过滤以删除有害内容。从训练语料库中筛选出评估集。在训练过程中进行分阶段训练,通过增加领域相关数据的权重来改变混合组合,直到训练结束。
来源Gemini是在Google的TPU AI加速器上训练的,似乎没有使用英伟达的GPU。Google还推出了全新的Cloud TPU v5p和AI Hypercomputer超级计算机,将加速Gemini的开发,使AI模型的训练更快。Cloud TPU v5p:性能:Cloud TPU v5p是目前Google最强大、可扩展和灵活的AI加速器。它在TPU v4的基础上提供了超过2倍的FLOPS(浮点运算次数/秒)和3倍的高带宽内存(HBM)。速度:TPU v5p可以比前一代TPU v4更快地训练大型语言模型(LLM),提供了2.8倍的速度提升。对于嵌入密集型模型,其训练速度比TPU v42快1.9倍。可扩展性:TPU v5p的可扩展性是TPU v4的4倍,意味着它可以在单个pod中提供更多的FLOPS。AI Hypercomputer:集成系统:AI Hypercomputer是一个突破性的超级计算机架构,它采用了集成的系统,包括性能优化的硬件、开放软件、领先的机器学习框架,以及灵活的消费模型。系统级协同设计:与传统方法相比,AI Hypercomputer采用系统级协同设计来提高AI训练、调优和服务的效率和生产力。性能优化硬件:AI Hypercomputer具有性能优化的计算、存储和网络硬件,建立在超大规模数据中心基础设施之上,利用高密度占地面积、液体冷却和Jupiter数据中心网络技术。开放软件:AI Hypercomputer通过开放软件使开发者能够调整、管理和动态编排AI训练和推理工作负载。灵活消费模型:AI Hypercomputer提供了一系列灵活和动态的消费选择,包括传统的承诺使用折扣(CUD)、按需定价和现货定价,以及为AI工作负载量身定制的消费模型。详细:[https://cloud.google.com/blog/products/ai-machine-learning/introducing-cloud-tpu-v5p-and-ai-hypercomputer](https://t.co/6rTc9DlIGw)
我们在Google开发了一系列高性能的多模态模型Gemini。我们通过图像、音频、视频和文本数据共同训练了Gemini,目的是构建一个在各个模态中具有强大的通用能力以及在各个领域中具有尖端的理解和推理性能的模型。Gemini 1.0,我们的第一个版本,有三种尺寸:Ultra适用于高度复杂的任务,Pro提供增强性能和可扩展性,适用于大规模部署,Nano适用于设备上的应用程序。每个尺寸都经过特别设计以满足不同的计算限制和应用要求。我们对Gemini模型在广泛的语言、编码、推理和多模态任务上进行了全面的内部和外部基准测试。Gemini在多个任务中获得了SOTA性能,包括语言模型(Anil等,2023;Brown et al.,77.7%2023;Hoffmann et al.,2022年;OpenAI,2023a;Radford等人,2019;Rae等人,2021年),图像理解(Alayrac等人,2022年;Chen等人,2022年;Dosovitskiy等人,音频处理(Radford等人,Google的2023年;张等人,2023年),以及视频理解(Alayrac等人,2022年;Chen等人,2023年。它基于大量的序列模型的工作,机器学习分布式系统来巡礼那大规模模型。
Gemini模型是在一个既包含多模态又包含多语言的数据集上进行训练的。我们的预训练数据集使用来自网络文档、书籍和代码的数据,并包括图像、音频和视频数据。我们使用SentencePiece分词器(Kudo和Richardson,2018),发现在整个训练语料库的大样本上训练分词器可以改善推断的词汇,并进而提高模型性能。例如,我们发现Gemini模型可以高效地标记非拉丁脚本,这反过来可以提高模型质量以及训练和推理速度。训练最大模型所使用的标记数量是根据Hoffmann等人(2022)的方法确定的。为了在给定的推理预算下提高性能,较小的模型被训练了更多的token,类似于(Touvron等人,2023a)提倡的方法。我们对所有数据集进行过滤,使用启发式规则和基于模型的分类器。我们还进行安全过滤以删除有害内容。我们从训练语料库中筛选出我们的评估集。通过对较小的模型进行消融实验,确定了最终的数据混合和权重。我们在训练过程中进行分阶段训练,通过增加领域相关数据的权重来改变混合组合,直到训练结束。我们发现数据质量对于一个高性能的模型至关重要,并且相信在寻找预训练的最佳数据集分布方面还存在许多有趣的问题。