Chat with Wiki - 【深度拆解】ChatGPT-4o背后的技术革新：从语言模型到多模态跨越

Answer

ChatGPT-4o 背后的技术革新具有重要意义。人类的感知多样，仅靠语言描述世界远远不够，多模态理解非常有用，能更全面学习世界、理解人类需求等。2023 年 9 月 GPT-4v 发布，将大语言模型竞赛带入多模态模型时代，如 ChatGPT 能看图说话、画图，Google 的 Gemini 支持多种模态，但 OpenAI 常抢先发布。今年 5 月 OpenAI 发布 GPT-4o，向智能体方向迈进，其是之前技术的集大成者，通过端到端神经网络混合训练视觉、语音和文本数据，平均音频输入反应时间为 300 毫秒，能感悟人类表达的情绪等。OpenAI 未公开 GPT-4o 技术细节，唯一线索来自内部炼丹师的博客 AudioLM。此外，GPT-4 是 OpenAI 的多模态工具，在编程任务中表现出色，ChatGPT 是用户友好界面，可与高级语言模型交互。2024 年 5 月 14 日 OpenAI 发布 GPT-4o，效率高、价格降低、延迟缩短。9 月 16 日 OpenAI 推出 o1 系列模型，在复杂任务中表现优异，o1-mini 适合编码任务，两个模型已在 ChatGPT 中提供，有免费或收费版本。

Content generated by AI large model, please carefully verify (powered by aily)

References

智变时代 / 全面理解机器智能与生成式 AI 加速的新工业革命

人类可以边看、边交谈，还能同时听着背景音乐和察觉危险。虽然大语言模型仅靠语言就能理解世界，但大千世界的多样性，只靠语言来描述和理解是远远不够的，因此智能不仅限于单一模态。根据伊利亚之前的观点，多模态理解虽然不是绝对必要，但确实非常有用。比如，你能亲眼看到什么是“红色”，比你用语言去描述什么是“红色”要直观的多，这就是对同一概念的多维度理解。拥有这种能力的模型可以更全面地学习世界，理解人类的行为和需求，提高任务解决能力，并克服单一模态的局限性，是让AI能在现实世界中运行极为重要一环。配图1.07：多模态解释2023年九月GPT-4v的发布把大语言模型的竞赛带入了多模态模型（LMM-Large Multimodal Models）的时代，ChatGPT可以看图说话，还能通过内置的Dall-E 3直接画图；几个月后Google的Gemini正式推出，直接就支持了文本、视频和声音多种模态。虽然Gemini模型一开始就是按照LMM方式设计训练的，但每次都能被OpenAI的产品发布捷足先登。。今年年五月，OpenAI完成了GPT-4的实时听说和视频模态输入的拼图，再一次抢在Google之前的发布了GPT-4o，一款全能模态模型OmniModel。这次OpenAI向智能体方向的研发迈进了一大步，让GPT模型有能力进入现实世界了。

智变时代 / 全面理解机器智能与生成式 AI 加速的新工业革命

每一次平台型技术的出现，都会催生出新的人机交互方式，个人电脑时代的鼠标与键盘，移动时代的触摸屏，现在是智能时代，我们一度认为ChatGPT的LUI（自然语言对话式界面）就是这个时代交互的终点，但事实并非如此，知名科幻电影HER中，那种人类与AI全感知无障碍的对话形式，才是我们想要的。“通过语音、文本和视觉进行推理非常重要，因为我们正在研究与机器交互的未来”，Muri Murati在今年五月十三日那场不到半小时的超快发布会上这样告诉大家。那天OpenAI发布了最新的模型GPT-4o，并且用了个很前卫的新概念，全模态模型-Omnimoda Model。GPT-4o是OpenAI之前所有技术的集大成者，新模型通过端到端的神经网络，把视觉、语音和文本数据混合训练，而不是用大家常用的工程手段，先各种数据先转换成文本后，交给LLM处理，然后再把输出的文本转换成对应的媒体形式。这样，GPT-4o对音频输入的平均反应时间为300毫秒，与人类对话的反应时间相似；而且直接拿音频数据来训练的好处就是模型能从数据中感悟到人类表达的情绪、语调、风格等等，你能听到几乎真实的人类的声音，在一段演示中感觉连训练时的环境声音都给还原出来了。OpenAI并没有公开GPT-4o的任何技术细节，唯一的线索就是来自他们内部模型炼丹师的一篇博客，项目名是AudioLM，2023年中启动，目标是用端到端的方式扩大语音模型的能力。

【翻译】不止Cursor，2024年AI代码工具终极指南，还有这么多努力的探索

GPT-4是OpenAI的最新AI模型，它是一种多模态工具，能够[在编程任务中表现出色](https://www.youtube.com/watch?v=outcGtbnMuQ)。它可以理解并解释代码、编写新代码，在Python编程任务上超越了现有的模型。尽管它能处理复杂任务，但也存在一些问题，例如推理错误和代码中的潜在安全漏洞。[ChatGPT是OpenAI提供的用户友好界面](https://chatgpt.com)，允许用户与GPT-4和o 1-mini等高级语言模型进行交互。虽然ChatGPT常常被称作模型，其实它是一个平台，可以让您通过与AI模型对话来生成或调试代码以及执行其他文本相关任务。2024年5月14日更新：OpenAI刚刚发布了GPT-4 o——他们的新旗舰模型，与GPT-4 Turbo一样智能，但效率更高。价格降低了50%，延迟缩短了一倍，表现非常出色。[相关信息](https://aider.chat/docs/leaderboards/)。2024年9月16日更新：[o1是OpenAI推出的新系列AI模型](https://openai.com/index/introducing-openai-o1-preview/)，旨在通过更长时间的思考来增强推理能力，尤其在科学、编程和数学等复杂任务中表现优异。OpenAI o 1-mini是一个更快速、更具成本效益的模型，特别适合编码任务，为需要推理但不需要大量世界知识的应用程序提供了经济高效的解决方案。这两个模型现已在ChatGPT中提供，用户还可以通过API解决复杂问题。!价格：免费或GPT Plus版本20美元