GPT-4o 是 OpenAI 迈向更自然人机交互的重要一步:
关于型号可用性:
在语言标记化方面,20 种语言被选为新分词器跨不同语言系列压缩的代表,例如英语可实现 1.1 倍更少的代币(从 27 到 24)。
GPT-4o(“o”代表“omni”)是迈向更自然的人机交互的一步——它接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像输出的任意组合。它可以在短短232毫秒内响应音频输入,平均为320毫秒,这与对话中的人类响应时间相似。它在英语文本和代码上的GPT-4 Turbo性能相匹配,在非英语语言的文本上也有显著改进,同时在API中也更快且便宜50%。与现有模型相比,GPT-4o在视觉和音频理解方面尤其出色。
GPT-4o is our latest step in pushing the boundaries of deep learning,this time in the direction of practical usability.We spent a lot of effort over the last two years working on efficiency improvements at every layer of the stack.As a first fruit of this research,we’re able to make a GPT-4 level model available much more broadly.GPT-4o’s capabilities will be rolled out iteratively(with extended red team access starting today).GPT-4o是我们突破深度学习界限的最新一步,这一次是朝着实用可用性的方向发展。在过去的两年里,我们花了很多精力来提高堆栈每一层的效率。作为这项研究的第一个成果,我们能够更广泛地提供GPT-4级别的模型。GPT-4o的功能将迭代推出(从今天开始扩展红队访问)。GPT-4o’s text and image capabilities are starting to roll out today in ChatGPT.We are making GPT-4o available in the free tier,and to Plus users with up to 5x higher message limits.We'll roll out a new version of Voice Mode with GPT-4o in alpha within ChatGPT Plus in the coming weeks.GPT-4o的文本和图像功能今天开始在ChatGPT中推出。我们将GPT-4o在免费套餐中提供,并向Plus用户提供高达5倍的消息限制。我们将在未来几周内在ChatGPT Plus中推出带有GPT-4o的新版本语音模式。
这20种语言被选为新分词器跨不同语言系列压缩的代表|||<br>|-|-|<br>|English 1.1x fewer tokens(from 27 to 24)<br>中文(简体)1.1x更少的代币(从27到24)|Hello,my name is GPT-4o.I'm a new type of language model,it's nice to meet you!<br>大家好,我叫GPT-4o。我是新型语言模型,很高兴见到你!|