未来智驾的发展具有以下几个方面的趋势:
经过几天的深度测试,AutoGLM给我留下了深刻的印象。它让我看到了AI Agent真正落地的希望。还记得一年前,当我第一次尝试开发类似功能时,遇到的种种困境:API对接难、多模态识别差、操作不精准...这些问题让人觉得AI Agent离真正可用还很遥远。但AutoGLM用一种巧妙的方式解决了这些难题。它没有执着于传统的API集成路线,而是借助RPA的思路,通过模拟人类操作来实现跨应用的控制。这种方案虽然不完美,但确实让AI Agent从实验室走向了现实。在测试过程中,最让我惊喜的是它的场景理解能力。当我说"帮我买一杯咖啡"和"帮我买一包咖啡豆"时,它能准确地分别打开美团和淘宝。这不是简单的规则匹配能力可以实现的。它展现出了真正的智能理解能力,能够根据用户意图选择最合适的应用场景。当然,AutoGLM现在离好用还差很长的路。语音识别有时会出现偏差,复杂界面下的操作稳定性还需提升,只支持安卓也限制了不少用户。但这些都是可以通过技术迭代来解决的问题。重要的是,它已经证明了AI Agent落地是可行的。我特别欣赏智谱团队的产品思路。他们没有一上来就追求全能,而是选择了几个高频场景深耕细作。点外卖、写点评、看公众号,这些看似简单的日常操作,背后其实涉及复杂的技术难题。能把这些场景做好,已经足够证明产品的价值。展望未来,我觉得AutoGLM的发展空间还很大。随着多模态理解能力的提升,支持场景会越来越丰富;随着操作精准度的提高,用户体验会越来越自然。它的出现,或许会改变我们与手机交互的方式,就像当年第一款智能手机改变了我们的生活一样。
很明确,未来的完全自主智能体可能会拥有所有四个构建块,但今天的LLM应用程序和智能体还没有达到这个水平。例如,流行的RAG架构不是智能体式的,而是以推理和外部记忆作为其基础。一些设计,如[OpenAI的结构化输出](https://openai.com/index/introducing-structured-outputs-in-the-api/)甚至支持工具使用。但重要的区别在于,这些应用程序将LLM作为语义搜索、综合或生成的"工具",但它们采取的步骤(即逻辑流)仍由代码预先确定。对比来说,当您将LLM置于应用程序的控制流中并让它动态决定要采取的行动、要使用的工具以及如何解释和响应输入时,智能体就会出现。只要这是真的,有些智能体甚至不需要与外部工具交互或采取行动。在Menlo,我们确定了三种不同主要用例和应用程序进程控制自由度的智能体类型。受到最严格限制的是"决策智能体"设计,它们使用语言模型来遍历预定义的决策树。"轨道智能体"则提供了更大的自由度,为智能体配备了更高层次的目标,但同时限制了解决空间,要求遵循标准作业程序并使用预先设定的"工具"库。最后,在光谱的另一端是"通用人工智能体"——本质上是没有任何数据支架的for循环,完全依赖于语言模型的推理能力来进行所有的计划、反思和纠正。以下,我们将探讨五种参考架构和每种智能体类型的人工智能体示例。
简单概括:深度学习有效,随规模扩大预期改善,我们持续增加相关资源投入。就是这样;人类发现了一种算法,可以真正地学习任何数据分布(或者说,产生任何数据分布的潜在"规则")。令人震惊的是,计算能力和数据量越大,它帮助人们解决难题的能力就越强。不管我花多长时间思考这个问题,我都无法完全理解它的重要性。我们还有很多细节需要解决,但被任何特定挑战分散注意力是一个错误。深度学习是有效的,我们将解决剩余的问题。我们可以谈论很多关于下一步可能发生的事情,但主要的是,人工智能将随着规模而变得更好,这将导致对全球人民生活产生有意义的改善。人工智能模型将很快作为自主的个人助理,代表您执行特定任务,如帮助您协调医疗护理。未来,人工智能系统将变得如此出色,它们将帮助我们构建更好的下一代系统,并在各个领域取得科学进展。技术将我们从石器时代带到农业时代,再到工业时代。从这里开始,通往智能时代的道路由计算、能源和人类意志铺就。如果我们想让尽可能多的人接触到人工智能,我们需要降低计算成本,使其更加普及(这需要大量的能源和芯片)。如果我们不能建立足够的基础设施,人工智能将成为一种非常有限的资源,会导致战争,并主要成为富人的工具。我们需要聪明而坚定地采取行动。智能时代的曙光是一个历史性的发展,同时也带来极其复杂且高风险的挑战。这并非完全是个积极的故事,但潜在的正面影响如此巨大,我们有责任找出如何应对眼前的风险。我相信未来会非常光明灿烂,以至于现在任何人都无法对之进行公正的描述;智能时代的一个决定性特征将是巨大的繁荣。尽管这将逐步发生,但令人惊叹的胜利——修复气候、建立太空殖民地以及发现物理学的所有内容——最终将成为寻常。拥有近乎无限的智慧和丰富的能源——产生伟大创意和实现它们的能力——我们可以做很多事情。