AI 的泛化能力在自媒体创业中可以从以下几个方面加以应用:
需要注意的是,这是一个残酷的时代,科技巨头竞争激烈,自媒体创业者要保持耐心,不断探索和创新,以应对智变时代的挑战。
这种随着模型规模以及模态类型的提升,衍生出新的能力的特性,就是大家常说的泛化,也是Sam Altman提到的广泛的通用性增强。OpenAI每一次升级模型,就会让很多专用的AI模型和一批小的创业公司所做的事情毫无意义,从最早的翻译和写作工具的替代,到最新GPT-4o多模态实现的语音智能助理。很明显,训练模型的下一阶段竞争,除了合成文本数据之外,就是对话语音、音频、视频、动作控制与反馈等各种模态数据的竞争了,要让语言模型先进化成智能体,才有机会AGI。。这是一个残酷的时代,我们开篇就看到了过去十来年科技巨头之间从未有过的激烈竞赛,囤积算力、笼络人才,还要小心翼翼的看护好自己的护城河,大家都期望能锻造出最好的AI模型,获得进入AGI时代的门票;另一方面,做为智能生态下的创业公司,也正经历和移动互联网时代完全不同的环境,模型不是手机操作系统,它的进化速度是非线性和泛化的,你做很多事情就不能用通用性做为出发点,必须有独特的场景,你得绕着大模型的火力覆盖范围前进。。最后,做为一个普通用户,现在的AI是在帮你提高效率,但最终它们会在很多工作场景来替代你。那么,应该如何理解和应对这个智变时代呢?保持耐心,下文更精彩?
Dwarkesh Pa tel:在模型进行过多模态数据训练后,以后为AI设计的网页和现在为人类设计的网页UI会有什么不同吗?AI会怎么用优势弥补劣势?John Schulman:这个问题很有意思。我觉得一旦模型的视觉能力得到提升,它们就会像人类一样用视觉来浏览网站,所以我们不需要现在就改造升级网页的UI。还有一些网站能很明显地因为AI能访问而受益,我们可能需要为这些网站设计更好的AI用户体验,但具体要怎么去贴合AI的特性来改造网站交互现在还不确定。如果我们的模型仍然更擅长处理文本而不是从图像中提取文本,也许就需要为模型提供清晰、基于文本的界面,并且明确出所有可以交互的元素。但我觉得并不需要把整个互联网完全重新设计,到处都加上API接口,我们可以让模型直接来使用和我们相同类型的用户界面。Dwarkesh Pa tel:回到前面说的,模型能够通过pre-training具备更高的样本效率,在遇到新挑战或困难时找到解决办法,你曾经见过最有力的泛化和迁移学习的例证是什么?未来模型能力的一大关键点似乎就是能多大程度泛化,在你过去的经验中,模型有没有通过泛化学到过你意料之外的东西?John Schulman:在post-training阶段确实有一些很有意思的例子。大家都知道,即便模型所有finetune都用英语数据进行,模型也会自动迁移到其他语言场景,并且也表现得不错。比如你在英语数据上训练一个assistant,它也能用西班牙语和你交互。也许有时候在决定是用英语还是西班牙语回复的时候,它会出现混乱,但通常都是用对应语言去回复prompt。模型能够自动适应和改变不同语言给出回答,这是泛化的一个很好的体现。我们在多模态数据上也看到了类似的现象,比如如果只给模型做了文本的finetune,它会自动迁移到图像这个模态上。