Chat with Wiki - 为什么大模型在往智能体的方向发展

Answer

大模型之所以往智能体的方向发展，主要有以下原因：

决策模块的需求：决策模块是具身智能系统的核心，早期的决策方式存在局限，大模型的出现极大地增强了具身智能体的智能程度，大幅提高了环境感知、语音交互和任务决策的能力。
能力提升：随着大模型技术的成熟和规模增大，为 AI Agent 提供了强大能力，有望构建具备自主思考、决策和执行能力的智能体，进一步提升应用能力，广泛应用于多个行业和领域。
特点优势：基于大模型的智能体具有强大的学习能力、灵活性和泛化能力，能够适应不同任务和环境，解决新的类似问题。
应用拓展：在多模态的视觉语言模型基础上，具身智能的大模型的发展方向是视觉语言动作模型和视觉语言导航模型，实现从自然语言指令到可执行动作指令的直接转换。

Content generated by AI large model, please carefully verify (powered by aily)

References

决策模块是整个具身智能系统的核心，它负责接收来自感知模块的环境信息，进行任务规划和推理分析，以指导行动模块生成动作。在早期的技术发展中，决策模块主要依赖于人工编程的规则判断和专用任务的算法设计。然而，这些定制化的算法很难应对动态变化的环境和未知情况。基于近端策略优化算法（Proximal Policy Optimization,PPO）和Q-learning算法的强化学习方法在具身智能自主导航、避障和多目标收集等任务中展现出更好的决策灵活性。然而，这些方法在复杂环境的适应能力、决策准确度和效率方面仍存在局限。大模型的涌现，极大地增强了具身智能体的智能程度，大幅提高了环境感知、语音交互和任务决策的能力。相较于“软件智能体”的AIGC（AI-generated Content），即由大模型生成文字、图片等内容，调用的工具是函数；具身智能体的大模型是AIGA（AI-generated Actions），即由大模型生成动作，调用的工具是机械臂、相机等身体部件。在多模态的视觉语言模型（Vision Language Model,VLM）的基础上，具身智能的大模型的发展方向是视觉语言动作模型（Vision Language Action Model,VLA）和视觉语言导航模型（Vision Language Navigation Model,VLN）。VLA：输入是语言、图像或视频流，输出是语言和动作。在一个统一的框架内融合了互联网、物理世界以及运动信息，从而实现了从自然语言指令到可执行动作指令的直接转换。VLN：输入是语言、图像或视频流，输出是语言和移动轨迹。针对导航任务中的语言描述、视觉观测对象以及运动轨迹等多个阶段的任务需求，VLN用于统一的指令输入框架，使得大模型可以直接生成运动方向、目标物体位置等操作信息。

开发：AI应用大模型商业化落地现状与思考

大家下午好！很荣幸能够作为本次活动的分享嘉宾，我是甲木，LangGPT团队成员，很高兴给大家带来《大模型商业化落地现状与思考》的分享。本次分享的内容主要分为五个模块，从大模型的背景入手、深入探讨其在商业领域的现状和应用。接着，我们将分析在商业化过程中所遇到的挑战，并分享一些实战经验，最后将展望AI作为通用技术能够发挥生产力效能所要经历的几个阶段。[heading2]一、大模型的背景和趋势[content]首先，我们先来看大模型的背景和发展趋势。关于AI的演进历程，很多媒体包括各类研究资料都已经做过详细的介绍，相信今天在座的各位对AI的基本情况都已有所了解，因此我不会过多赘述AI的演进历程。（有兴趣的小伙伴可以多从公开资料中查找一下~）我们的重点将放在大模型当前的应用能力上，随着大模型技术的愈发成熟，规模增大，大模型为AI Agent()提供强大能力。Agent+大模型将有望构建具备自主思考、决策和执行能力的智能体，进一步提升大模型的应用能力，广泛应用于多个行业和领域。

提示词培训课——Part2

现在，我们将进入智能体的学习环节。在开始之前，我们首先需要了解智能体是什么。我们现在接触到的智能体大多是建立在大模型之上的。这些智能体的发展历程是从一个基于符号推理的专家系统逐步演进而来的。随着时间的推移，技术的进步使得我们能够开发出更加复杂和高级的智能体。这些基于大模型的智能体具有以下特点：1.强大的学习能力：它们能够通过大量的数据进行学习，从而获得对语言、图像等多种信息的理解和处理能力。2.灵活性：这些智能体可以适应不同的任务和环境，表现出较高的灵活性和适应性。3.泛化能力：它们能够将学到的知识泛化到新的情境中，解决之前未见过的类似问题。智能体的核心在于如何有效地控制和利用这些大型模型，以达到我们设定的目标。这通常涉及到精确的提示词设计，以引导模型朝着期望的方向发展。提示词的设计直接影响到智能体的表现和输出结果。接下来，我们可以展示一张图来更直观地说明这一点。在这张图的中心是提示词，它代表了智能体与用户或其他智能体交互的设定和逻辑。[heading1]十三、LangGPT结构化提示词[heading1]十四、动手实践——Chat GPT版本[content]在介绍了智能体的基本概念之后，我们将继续深入探讨，并动手实践制作智能体。我鼓励大家基于一些公开的大模型应用产品（如Chat GLM、Chat GPT、Kimi等），尝试开发属于自己的智能体。记住，智能体的开发是一个不断学习和进步的过程。不要害怕犯错，每一次尝试都是向成功迈进的一步。通过实践，您将能够更好地理解智能体的潜力，并发掘其在各种应用场景中的可能性。Step.1点击“浏览GPTs”按钮Step.2点击“Create”按钮创建自己的智能体Step.3使用自然语言对话进行具体设置Step.3使用手工设置Step.4开始调试你的智能体并发布