OpenAI发布新交互界面Canvas-WayToAGI

回答

OpenAI 于 10 月 4 日推出了新功能 Canvas，旨在提升用户在写作和编码方面的协作体验。该界面允许用户实时编辑和反馈，提供自动化建议、代码审查和错误修复等功能，能根据任务复杂性自动启用，提升交互质量与工作效率。

此外，OpenAI 于 10 月 2 日宣布完成 66 亿美元融资，估值达 1570 亿美元。此资金将加速其 AI 研究和计算能力的发展，服务超过 2.5 亿用户。近期，核心技术人员变动，研究副总裁 Barret Zoph 离职并计划创业，Mark Chen 接任首席研究官。

在技术方面，OpenAI 发布的 GPT-4o 是之前所有技术的集大成者，是一种全模态模型（Omnimoda Model）。新模型通过端到端的神经网络，把视觉、语音和文本数据混合训练，而非常用的工程手段。其对音频输入的平均反应时间为 300 毫秒，与人类对话的反应时间相似，能从数据中感悟到人类表达的情绪、语调、风格等，甚至能还原训练时的环境声音。但 OpenAI 并未公开 GPT-4o 的任何技术细节，唯一线索来自内部模型炼丹师的一篇博客，项目名是 AudioLM，2023 年中启动，目标是用端到端的方式扩大语音模型的能力。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

通往 AGI 之路

《[刚刚，ChatGPT发布重磅更新！让我看到了AGI时代的终极交互形态](https://mp.weixin.qq.com/s/kiN1Ql-iDwGm5q-rZRH3-A)》ChatGPT最近推出了新功能Canvas，旨在提升用户在写作和编码方面的协作体验。该界面允许用户实时编辑和反馈，提供自动化建议、代码审查和错误修复等功能。Canvas能根据任务复杂性自动启用，提升交互质量与工作效率。《[刚刚，OpenAI官宣完成66亿美元融资！最新估值1570亿美元](https://mp.weixin.qq.com/s/B1kueYJ2T5fnP-YDRQaQCg)》OpenAI于10月2日宣布完成66亿美元融资，估值达1570亿美元。此资金将加速其AI研究和计算能力的发展，服务超过2.5亿用户。近期，核心技术人员变动，研究副总裁Barret Zoph离职并计划创业，Mark Chen接任首席研究官。[heading3]10月3日[content]《[我，资深i人，想让AI变成我的本命旅游搭子](https://mp.weixin.qq.com/s/qZixu-dBNew9d-FpD6wyLw)》作者四木相对论，本文分享了资深“i人”利用AI制定国庆旅游攻略的经历。选择目的地时，结合多款AI工具推荐，最终确定去人少的乌兰察布。通过携程和小红书的AI助手，制定了详细的行程安排，包括景点、美食和交通等，减少社交压力，体验个性化旅行。

智变时代 / 全面理解机器智能与生成式 AI 加速的新工业革命

[title]智变时代/全面理解机器智能与生成式AI加速的新工业革命[heading1][heading3]2.3全模态智能体每一次平台型技术的出现，都会催生出新的人机交互方式，个人电脑时代的鼠标与键盘，移动时代的触摸屏，现在是智能时代，我们一度认为ChatGPT的LUI（自然语言对话式界面）就是这个时代交互的终点，但事实并非如此，知名科幻电影HER中，那种人类与AI全感知无障碍的对话形式，才是我们想要的。“通过语音、文本和视觉进行推理非常重要，因为我们正在研究与机器交互的未来”，Muri Murati在今年五月十三日那场不到半小时的超快发布会上这样告诉大家。那天OpenAI发布了最新的模型GPT-4o，并且用了个很前卫的新概念，全模态模型- Omnimoda Model。GPT-4o是OpenAI之前所有技术的集大成者，新模型通过端到端的神经网络，把视觉、语音和文本数据混合训练，而不是用大家常用的工程手段，先各种数据先转换成文本后，交给LLM处理，然后再把输出的文本转换成对应的媒体形式。这样，GPT-4o对音频输入的平均反应时间为300毫秒，与人类对话的反应时间相似；而且直接拿音频数据来训练的好处就是模型能从数据中感悟到人类表达的情绪、语调、风格等等，你能听到几乎真实的人类的声音，在一段演示中感觉连训练时的环境声音都给还原出来了。OpenAI并没有公开GPT-4o的任何技术细节，唯一的线索就是来自他们内部模型炼丹师的一篇博客，项目名是AudioLM，2023年中启动，目标是用端到端的方式扩大语音模型的能力。