Chat with Wiki - AI agent 能重构哪些场景

Answer

AI agent 在 2024 年实现了从概念到实践的关键突破，能够重构以下场景：

手机操作场景：例如对着手机说“帮我给同事的朋友圈点赞”，AI 就能识别屏幕，找到相应按钮并完成操作。
工作流搭建场景：可以通过自然语言构建 DSL 并还原工作流，降低用户上手门槛，例如用于 MVP 的产品测试。
文案生成场景：像“Pailido｜AI 拍立得”这样的产品，各个场景由 AI Agent 驱动，仅需选中场景后点击拍摄即可快速生成对应文案，包括小红书文案、外卖点评写作、闲鱼商品发布文案等。

Content generated by AI large model, please carefully verify (powered by aily)

References

码观 | 共识与非共识：从模型到应用，2024 AI 趋势回首与展望

应用形态重构Agent最接近魔法的AI术在人工智能的发展历程中，Agent（智能代理）一直是最令人着迷的概念之一。Agent技术在2024年实现了从概念到实践的关键突破。想象一下，当你对着手机说：“帮我给同事的朋友圈点赞”，AI就能识别屏幕，找到相应的按钮，完成操作。这不再是简单的语音助手，而是一个能真正理解和执行复杂指令的数字伙伴。这种进化令人惊叹，因为它展示了AI不仅能“听懂”，还能“思考”和“行动”。它会分析任务、规划步骤、选择工具，甚至在遇到问题时及时调整策略。这种能力让AI从一个被动的响应工具，进化成了一个主动的问题解决者。2024年，这样的场景从概念变为现实。Anthropic的Computer Use、智谱AI的AutoGLM，以及Google的Gemini 2.0，都展示了AI Agent的突破性进展。这些能力，在理论上，并不难实现。大模型可以识别屏幕中的像素点，通过足够多的训练数据，就可以理解朋友圈点赞是什么样的UI，调用系统工具，进行操作。但实际上，在过往，类似的Agent的能力，成功率并不高，泛化能力也不够强。训练模型只识别微信的UI容易，而所有App的UI都能识别则很难。同时模型进行自主操作也是难点——或者模型要成功控制无数标准化的工具，或者模型可以完全接管系统权限，直接模拟点击。这种接近成型的工程化的Agent核心在于四个关键能力的进展：

2024 年历史更新（归档）

最近上传的一些报告：爱分析发布的《[2024 AI Agent开发管理平台市场厂商评估报告](https://waytoagi.feishu.cn/record/WupirEfvwe735kc5nKYcaxdLnAd)》聚焦于AI Agent开发管理平台市场，特别评估了火山引擎的HiAgent平台。报告指出，AI Agent作为大模型应用的主流形态，正重塑科技和商业领域。《[Gen AI新时代：采用逻辑数据管理](https://waytoagi.feishu.cn/record/JXxLrfMTLe7YEscCj4XcCGmPnZe)》白皮书由Denodo Technologies发布，强调了生成式人工智能（Gen AI）在商业和财务价值实现中的潜力。书中指出，Gen AI应用的可靠性依赖于数据质量，而数据管理是实施AI的关键挑战。《[智谱AI：2024开启AI智能化新纪元白皮书](https://waytoagi.feishu.cn/record/Iq9krltwUeAc9Lc3Zz3cTIKVnCh)》《[高通AI白皮书：让AI触手可及](https://waytoagi.feishu.cn/record/ZJlarVYgzeiR5UcfJrMcU94mnPf)》

Inhai: Agentic Workflow：AI 重塑了我的工作流

复杂的工作流搭建怎么会如此麻烦...这似乎跟我我理想中的Agentic Workflow并不太一样！有没有一种更加方便高效的方式，让我能够在短时间内创作一个符合我预期的Agentic Workflow原型？有了，通过自然语言来构建DSL并还原工作流。我在之前就比较喜欢使用自然语言描述，然后使用Mermaid语法进行创建流程图表，其实DSL也是可以遵循一套约定俗成的规范进行创作。我认为可以通过口喷需求的方式，在0-1的时候辅助我快速生成一个看上去还不错的工作流程，然后我再修修改改，这会降低用户上手的门槛。一个小思考题，Agentic Workflow该给谁用？之前在讨论Agentic Workflow的可用性观点，有人给我说了这么一句话：“研发看不上，产品看不懂，小白不知所云。”目前我觉得Agentic Workflow拿来做MVP的产品测试是非常好的一个途径，能够在短时间内通过低代码或者零代码的方式进行创作一个小而美的应用。我的AI-Native应用就是这么玩的。Pailido｜AI拍立得这是一款文案快速生成的AI-Naitive产品，各个场景由AI Agent驱动，仅需选中场景后点击拍摄即可快速生成对应文案。它的服务端可以是使用类似Dify.AI、Coze这种在线编辑好一个Agent应用，然后再通过API的方式进行集成，你仅仅需要关心你的前端、用户输入、你的输出反馈就可以了，打磨好一款小而美的产品。使用多模态模型，理解图片特征和输出场景期待，搞定小红书文案、外卖点评写作、闲鱼商品发布文案...真的太快了！所以有个问题要问问诸位了：Reshape your workflow with AI?orReshape your AI workflow?