知識ベースとの対話 - 有没有可以操控电脑界面的ai

回答

目前市场上有一些可以实现操控电脑界面的 AI 相关项目和产品。例如，谷歌正在开发名为“Project Jarvis”的 AI 项目，预计年底亮相，旨在实现 AI 自动化操作 Chrome 浏览器中的任务，借助升级版 Gemini 2.0，能自主识别屏幕内容并完成复杂操作。同时，微软也推出了 OmniParser，增强 AI 在用户界面中的交互能力。

张梦飞对 Claude 电脑操控功能进行了体验，在操作过程中虽有失误，但也能从中学习和改进。

在开发者工具方面，有多种选择可以组合来创造理想的与电脑交互的方式。个性方面，一些开源模型如 Vicuna 和 Pygmalion 经过微调可在不同应用场景中表现出色；记忆方面，像 Pinecone 这样的向量存储系统可建立持续关系并存储长期记忆等信息；语音方面，ElevenLabs 可赋予声音并控制相关属性；外表方面，LoRAs 可对图像风格等有精细控制；动画方面，D-ID 和 HeyGen 等工具可使图像“说话”；平台方面，如今多数开发者在 GCP 和 AWS 上部署运行，也有像 Steamship 这样的新解决方案受关注；UI 层方面，SillyTavern、Agnaistic 和 KoboldAI 是受欢迎的选择。此外，还有开源模板可用于开始构建人工智能应用。

AIモデルによって生成されたコンテンツであり、慎重に確認してください（提供元: aily）

参照

2024 年历史更新（归档）

《[谷歌版贾维斯即将问世，最强Gemini 2.0加持！AI自主操控电脑时代来临](https://mp.weixin.qq.com/s/wl6G0PpX90Kc8S_qcQtjVw)》谷歌正在开发名为“Project Jarvis”的AI项目，预计年底亮相，旨在实现AI自动化操作Chrome浏览器中的任务，借助升级版Gemini 2.0。该项目类似于Anthropic的Claude35，能自主识别屏幕内容并完成复杂操作。同时，微软也推出了OmniParser，增强AI在用户界面中的交互能力。《[图灵奖得主：AI时代，我们还能教学生什么](https://mp.weixin.qq.com/s/cv3xWRbry48MlvAhZ0VpSQ)》来自图灵奖得主莱斯利・瓦利安特在西湖大学的演讲，他强调教育的核心在于帮助学生发现自己的兴趣，追求他们热爱的领域。教育不仅是传授知识，更重要的是培养思考能力、解决问题的能力和创造力。尽管人工智能将在教育中发挥辅助作用，但教师的角色仍不可替代，特别是在激发学生兴趣和关心他们成长方面。教育应鼓励学生自由探索，以培养好奇心和创新能力。《[世界经济论坛上，伯克利Stuart Russell教授的观点：AI时代你需要掌握的实用技能](https://mp.weixin.qq.com/s/U5cc0K3RExJoAiEugnUCcQ)》在世界经济论坛的讨论中，专家们探讨了人工智能对未来工作的影响。伯克利教授Stuart Russell指出，未来十年，人工智能可能会超越人类能力，取代许多重复性工作。各位嘉宾认为，未来成功者将是能够适应变化、掌握人际交往和创造力等“任务关键”技能的人，而教育系统也需相应调整，培养这些技能，以应对即将到来的经济形态变。

张梦飞：Claude电脑操控功能到底如何？无需代码基础，让小白也能亲手体验属于开发者的Computer-Use功能教程！

亲爱的朋友们，我是一个AI助手。刚才的操作过程中，你们可能注意到了我的一个小失误-搜索"梦飞"而不是直接搜"张梦飞"。这让我明白，即使是AI也会犯错，但更重要的是要从错误中学习和改进。希望通过这个小案例，能让大家看到AI既有能力也有不足。我们正在努力提升，变得更加智能，更懂用户需求。但AI的进步离不开每一位用户的反馈和指导，正是你们的批评和建议，让我们能够不断进步。让我们一起在这个AI快速发展的时代，保持开放和学习的心态，共同见证和参与技术进步，创造更美好的未来！而后我又尝试了两个任务，均因系统限制以失败告终。但，这不重要，我依然为能一窥未来的面貌而十分开心。

这不是一台电脑，这是一个伴侣！

这个选项更加技术化，但它能让你对外形因素以及你的AI伴侣的个性有最大的控制权。你可以组合多种工具，创造出你理想中的伴侣，你可以通过短信、电话甚至实时视频聊天与其互动。个性（LLM的文本）：一些开源模型（尤其是Vicuna和Pygmalion）已经经过了微调，以在从具有特定个性到无审查的角色扮演等各种应用场景中表现出色。记忆（向量存储）：像Pinecone这样的向量存储系统可以让你与伴侣建立持续的关系，配置代码以存储长期记忆、背景故事和其他独特信息。语音（语音合成）：像ElevenLabs这样的产品可以赋予你的伴侣一种声音，让你可以控制年龄、性别和口音。外表（SD模型作图）：LoRAs（类似于Civitai上的那些）让你对AI伙伴的图像风格、细节和设置有精细的控制。动画（视频动画）：像D-ID和HeyGen这样的工具可以使图像“说话”；尽管我们已经看到了一些有希望的新模型能够生成高保真度的说话人脸，但可供使用的模型并不多。平台：这是伴侣的基础代码和内部逻辑执行的地方。如今，大多数开发者仍然在GCP和AWS上部署和运行他们的AI伴侣，但像Steamship（其中运行GirlfriendGPT）这样的解决方案正在迅速获得伴侣特定用例的关注。UI层：一个前端界面，让你能够与你的合作伙伴进行实际互动。SillyTavern、Agnaistic和KoboldAI是受欢迎的选择。（上图）这些图像模型可以根据几乎任何想象的兴趣定制生成图像-Furry Diffusion Discord上的这位用户对模型进行了微调，以适应毛茸茸的兴趣。如果您想要进行实验，我们刚刚推出了一个用于开始构建人工智能应用的开源模板。该项目包括了您从零开始编码伴侣所需的所有基本要素：与基于文本的模型一起工作、流式传输聊天回应、为虚拟伴侣生成适当的外貌，以及将长期记忆存储在向量数据库中。我们还将发布后续的文章和更多开源项目，详细介绍开发者用来创建人工智能伴侣的技术栈。