AutoGLM 目前处于内测阶段,安装步骤如下:
AutoGLM目前还处于内测阶段,申请入口在智谱清言APP中,直接跟AutoGLM内测申请小助手对话提交申请即可。(智谱把传统表单的提交通过Tools的方式做到了对话中,体验提升很多,顺便赞一个。我们以前在做拟人客服的时候也用到了这样的思路,对话式的交互,从自然语言中提取信息并通过Tools提交,更像是跟人类在交流,而不是冰冷的表单。)目前只能在安卓设备上使用,iOS应该很长时间内都不会支持。因为数据的获取和操作,都是通过安卓的无障碍权限来控制的。无障碍服务(AccessibilityService)是一套可以模拟操作的系统级别的API。用户同意我们的应用获取无障碍服务的权限之后就可以模拟操作,来控制用户的手机。无障碍被广泛用于抢红包、自动回复、一键获取权限等应用中。但是开启了无障碍服务之后,因为需要实时监控手机,理论上是会引起手机的卡顿的,另外一个就是隐私问题。所以在登录AutoGLM后的第一件事情就是引导你去开启无障碍权限和悬浮球权限,不然就没有办法继续体验。在权限授权正常之后,你就会进入到首页。
[title]【智谱AutoGLM】深度体验报告及原理分析[heading1]前言[heading2]写大众点评[20241028212042_rec_.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/Mhsfb67IdoIQdtxzatZcpdMFneb?allow_redirect=1)这个是让它帮我写点评的测试。我一直都想有个Agent来帮我写大众点评刷等级,所以之前还动手试了试,但是发现这个事情实现起来特别难。因为想要想要让Agent去替我写点评,它至少得具备三个能力:1.完整的上下文信息,比如餐厅信息,热门菜,评价内容,以及正确的应用操作路径,点评在哪里写,怎么路径到编写页面;2.操作应用的能力,包括但不限于:打开应用,点击,滑动,双击,输入(粘贴),长按...;3.多模态识别及Grounding能力(识别目标并给出坐标,用于精准点击);4.Agent ReAct能力,能够根据任务目标,当前页面信息,判断下一步应该做什么;1的前半部分不难,至少可以通过给出更详细准确的指令来传递上下文信息(智谱演示视频中的指令都说的很详细)。后半部分理论也可以去通过指令来传达的,比如“帮我在大众点评我的-待点评列表中的第二家店铺写一个五星好评”,但是这肯定不是用户想要的体验,说那么多,够类的。测试下来发现,AutoGLM基本能把提到的场景中的路径走正确,应该是专门做了大量的训练的,让模型知道各种App的正确路径,或者能够根据多模态识别来判断这是什么页面。2是最简单的部分。做过Android自动化测试的同学应该都很熟悉。在大模型之前就有成熟的工具,我之前用的就是ui automator2。封装成给Agent的Tools进行调用即可。
[title]【智谱AutoGLM】深度体验报告及原理分析[heading1]前言我不常写智谱,因为智谱总是默默地在埋头研究技术,也不给商单。上一次写还是在一年前GLMs发布的时候,结果那篇文章写的是GLMs,最先做出来的却是Coze。[从GPTs/GLMs如何赚钱谈起:AI应用的曙光在哪?](http://mp.weixin.qq.com/s?__biz=MzIzMjAxMzYyNQ==&mid=2653601438&idx=1&sn=4ab61b40f5044531083d8a1fc093cd4c&chksm=f34574c8c432fddeaa1b6754f14f5a153622b6d2ecd240a6253901ebb270033dfc76f3e4c9d2&scene=21#wechat_redirect)AI Agent要做好的核心是Tools,如果想让Agent变得有用,用户想要用,那么核心要解决的其实是Tools的问题,把跟用户日常使用、常用的东西都做成工具接入到Agent里,它才能变得有用和好用。但是这个事情基本不可能,微信会给接口么?淘宝会?还是美团点评小红书会?都不会。要么各大内容平台自己下场做,字节做了,支付宝也做了(小程序),微信不知道会不会,但他们也只能在是自己的生态中去做,其它的厂家可能都比较难。不过其实还有另外一种通过类似RPA的方式去做,比如荣耀的手机自动驾驶,智谱的AutoGLM,模拟人类操作,不用跟应用厂家去直接对接,你省事我也省事,拒绝无障碍服务的话可能又会误伤其它用户,厂家也会掂量掂量。