AppAgent 是由腾讯开发的一种基于大型语言模型(LLM)的多模态 Agent 框架。
其主要特点和功能包括:
对于之后模仿数据的反利用也有不错的应用场景,例如互联网或 AI 或涉及到原型+UE 的工作都可以在基于模仿数据的基础上进行反推,进而让设计出的产品原型和 UE 交互更优解。
AppAgent 在 50 个任务上进行了广泛测试,涵盖了 10 种不同的应用程序。该项目由腾讯和德州大学达拉斯分校的研究团开发。
相关链接:
|技术名称|应用场景|技术类型|简介|主要特点|工作原理|其他|官方网站|项目及演示|论文|Github|在线体验|附件|最后更新时间||-|-|-|-|-|-|-|-|-|-|-|-|-|-||AppAgent:让AI模仿人类在手机上操作APP|通过appagent的模仿能力不断提升,<br>对于之后模仿数据的反利用也有不错的应用场景,<br>例如互联网或AI或涉及到原型+UE的工作都可以在基于模仿数据的基础上进行反推,<br>进而让设计出的产品原型和UE交互更优解。|AI学习模型|AppAgent可以通过自主学习和模仿人类的点击和滑动手势,能够在手机上执行各种任务。<br>它可以在社交媒体上发帖、帮你撰写和发送邮件、使用地图、在线购物,甚至进行复杂的图像编辑...<br>AppAgent在50个任务上进行了广泛测试,涵盖了10种不同的应用程序。<br>该项目由腾讯和德州大学达拉斯分校的研究团开发。|主要功能特点:<br>-多模态代理:AppAgent是一个基于大语言模型的多模态代理,它能够处理和理解多种类型的信息(如文本、图像、触控操作等)。这使得它能够理解复杂的任务并在各种不同的应用程序中执行这些任务。<br>-直观交互:它能通过模仿人类的直观动作(如点击和滑动屏幕)来与智能手
Gemini是由Google开发的一系列新的多模态模型,其最大亮点之一是其原生多模态大模型的设计。它能够处理不同形式的数据(语言+听力+视觉),并在一开始就在不同模态上进行预训练,利用额外的多模态数据进行微调以提升有效性。Agent能力:调用多模态,完成实时场景交互,通过不同模态之间的准确推理,能够概括和无缝理解、操作以及结合不同类型的信息,包括文本、代码、音频、图像和视频,为用户提供了自然的交互体验演示案例:在烹饪场景中,Gemini Ultra通过一系列图像和音频的交互展示了其在处理用户提问、图像细节以及多模态推理中的出色表现,模型准确回答了用户的问题,体现其调用多模态能力的统一性腾讯:AppAgent多模态Agent框架AppAgent是由腾讯开发的一种基于大型语言模型(LLM)的多模态Agent框架,由大型语言模型驱动,能够掌握并使用任何应用程序来执行复杂任务。它通过直观的点击和滑动手势与应用程序交互,模仿类似人类的动作,操作复杂功能演示案例:在使用Adobe Lightroom进行图像编辑的测试中,AppAgent通过实时截图和展示应用程序UI的XML文件,可以准确感知、推理并响应任务要求的能力
🔔Xiaohu.AI日报「12月22日」✨✨✨✨✨✨✨✨1⃣️🔥OpenSaaS-免费开源的SaaS模板:提供预配置的功能丰富平台,便于构建应用。包含用户认证、内置博客、支付系统等。特别适合小型团队和个人开发者。🔗http://opensaas.sh🔗https://x.com/xiaohuggg/status/1738129354243383719?s=202⃣️🍲TasteTime Machine-味道时光机:宮下芳明教授开发,模拟不同时间段食物味道。可使新鲜食物味道变成放置数日的味道,反之亦然。例:即刻享受放置一晚的咖喱浓郁味道。🔗https://x.com/xiaohuggg/status/1738113688794763739?s=203⃣️📱AppAgent-人类操作模拟AI:自主学习模仿人类手势,执行多种手机任务。由腾讯和德州大学达拉斯分校研究团队开发。🔗https://appagent-official.github.io🔗https://x.com/xiaohuggg/status/1738083914193965528?s=204⃣️🗣️DREAM-Talk-照片说话项目:字节跳动开发,单张图片生成说话面部动画。支持多种情感表达和多语言。🔗https://magic-research.github.io/dream-talk/🔗https://x.com/xiaohuggg/status/1738061130034266560?s=205⃣️