Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

我要做一场关于AI agent 的分享会,教大家如何制作agent,请问我要参考哪些文档

Answer

以下是一些您在准备关于 AI agent 制作的分享会时可以参考的文档:

  1. 文章《🌈通往 AGI 之路 - 分享会》中提到:Agent 是执行特定任务的 AI 实体。Agent(智能体)=一个设置了一些目标或任务,可以迭代运行的大型语言模型。与大型语言模型在像 ChatGPT 这样的工具中的使用方式不同,Agent 拥有复杂的工作流程,模型本质上可以自我对话,而无需人类驱动每一部分的交互。参考文章:https://logankilpatrick.medium.com/what-are-gpt-agents-a-deep-dive-into-the-ai-interface-of-the-future-3c376dcb0824 。最有名的案例:斯坦福 25 人小镇,https://waytoagi.feishu.cn/record/1sfvuej0sATQfbO6zbeEAWk02 。Lilian Weng(OpenAI 应用人工智能研究负责人)的这篇 Blog 可以说是目前 AI Agent 领域优质论文的系统综述,她将 Agents 定义为 LLM、记忆(Memory)、任务规划(Planning Skills)以及工具使用(Tool Use)的集合,其中 LLM 是核心大脑,Memory、Planning Skills 以及 Tool Use 等则是 Agents 系统实现的三个关键组件,在文章中,她还对每个模块下实现路径进行了细致的梳理和说明。到今天,构建 AI Agent 的工具箱已经相对完善,但仍需要面对一些限制,例如上下文长度、长期规划和任务分解,以及 LLM 能力的稳定性等。https://lilianweng.github.io/posts/2023-06-23-agent/ 。
  2. 《5 月 8 日大圣分享《Coze 全流程搭建》》中提到:会议讨论了 AI agent 的入门知识、产品介绍、实际应用和未来发展方向,以及自然语言处理模型的使用、调试技巧、工作流设计等内容,包括共学小组的目的和课程安排、AI GEN agent 的入门和 COS 的搭建、大圣与 COS 结缘的历程、分享的大纲(包括大圣与 COS 结缘的历程、扣子的两个站点及产品基本使用、产品资料问答机器人案例、调试工作流的小技巧)、创建 AI 机器人的步骤和方法、扣子(Kazi)平台的基本使用方法、知识库的使用方法和注意事项、工作流的创建和应用。
  3. 《大圣:胎教级教程:万字长文带你使用 Coze 打造企业级知识库》中提到:在了解 AI Agent 之前,先考虑一个写书的场景,对比了在没有大模型和有大模型时的不同流程,指出大模型写书存在的问题,而 AI Agent 就是为了解决这些问题。AI Agent 是应用了大模型(LLM)能力的 Agent。以 GPT 为代表的大模型的出现,将 Agent 的能力提高到了前所未有的高度。AI Agent 又被称为智能体。OpenAI 的 Lilian Weng 将以 LLM 为驱动的 AI Agent,形式化为特定的公式。
Content generated by AI large model, please carefully verify (powered by aily)

References

🌈通往AGI之路-分享会

[title]🌈通往AGI之路-分享会[heading1]什么是AgentAgent是执行特定任务的AI实体。Agent(智能体)=一个设置了一些目标或任务,可以迭代运行的大型语言模型。这与大型语言模型(LLM)在像ChatGPT这样的工具中“通常”的使用方式不同。在ChatGPT中,你提出一个问题并获得一个答案作为回应。而Agent拥有复杂的工作流程,模型本质上可以自我对话,而无需人类驱动每一部分的交互。参考文章:https://logankilpatrick.medium.com/what-are-gpt-agents-a-deep-dive-into-the-ai-interface-of-the-future-3c376dcb0824能干什么最有名的案例:斯坦福25人小镇https://waytoagi.feishu.cn/record/1sfvuej0sATQfbO6zbeEAWk02Lilian Weng(OpenAI应用人工智能研究负责人)的这篇Blog可以说是目前AI Agent领域优质论文的系统综述,她将Agents定义为LLM、记忆(Memory)、任务规划(Planning Skills)以及工具使用(Tool Use)的集合,其中LLM是核心大脑,Memory、Planning Skills以及Tool Use等则是Agents系统实现的三个关键组件,在文章中,她还对每个模块下实现路径进行了细致的梳理和说明。到今天,构建AI Agent的工具箱已经相对完善,但仍需要面对一些限制,例如上下文长度、长期规划和任务分解,以及LLM能力的稳定性等。https://lilianweng.github.io/posts/2023-06-23-agent/与普通模式有什么不同

5月8日 大圣分享《Coze全流程搭建 》

会议讨论了AI agent的入门知识、产品介绍、实际应用和未来发展方向,以及自然语言处理模型的使用、调试技巧、工作流设计等内容,主要包括以下几点:1.共学小组的目的和课程安排。2.AI GEN agent的入门和COS的搭建。3.大圣与COS结缘的历程。4.分享的大纲,包括大圣与COS结缘的历程、扣子的两个站点及产品基本使用、产品资料问答机器人案例、调试工作流的小技巧。5.创建AI机器人的步骤和方法。6.扣子(Kazi)平台的基本使用方法。7.知识库的使用方法和注意事项。8.工作流的创建和应用。[heading2]待办[content][未完成]罗文、大圣、陈琪、陈杰和AJ共创超大型文档,给扣子的插件写使用说明指南,并在文档中署名;AJ私下找陈琪沟通,并现场演示海外的扣子公众号的使用方法@AJ[未完成]大圣在文档里告知大家如何联系自己,并在文档最后分享一句话;AJ将大圣的联系方式发出来@AJ

大圣:胎教级教程:万字长文带你使用Coze打造企业级知识库

[title]大圣:胎教级教程:万字长文带你使用Coze打造企业级知识库[heading1]一、AI Agent指南[heading2]1.2什么是AI Agent在了解AI Agent之前,我们先考虑一个场景:我们要写一本20万字的关于人工智能最新技术的书在没有大模型之前,我们一般会按照如下流程第一步:先使用搜索引擎搜索一些相关书籍和信息进行阅读,为我们打开思路第二步:形成本书的大纲,并且考虑清楚每一章节要编写的内容第三步:针对每一个章节进行内容的编写,在编写过程中可能会调整文章的大纲第四步:在编写后面章节的时候可能会忘记前面写的内容,需要去翻阅前面已经写的内容第五步:文章初步完成之后,我们可能会找相关专业人士帮忙修改最后:经过几番调整之后,书籍最终成型在大模型出现之后,我们可能会这样使用:请你帮忙生成一篇20万字的关于人工智能最新技术的书这个时候我们会发现AI写出来的书根本就无法阅读,是大模型的能力不行么?不仅仅因为这个,相比于第一种写书的方式,第二种方式明显缺少了几个环节没有办法使用Google获取最新的外部信息(大模型的训练数据是有日期限制的)没有对整个事情进行规划(比如先写大纲,再编写每个章节,然后和别人讨论,最后成文)大模型没有记忆的能力,由于上下文(脑容量)的限制,无法一次性完成20万字的文章,会造成前言不搭后语的现象而AI Agent就是为了解决这个问题。AI Agent是应用了大模型(LLM)能力的Agent。以GPT为代表的大模型的出现,将Agent的能力提高到了前所未有的高度。AI Agent又被称为智能体。OpenAI的Lilian Weng将以LLM为驱动的AI Agent,形式化为如下的公式:

Others are asking
我要配置一台跑ComfyUI的电脑,请给我最具性价比的推荐
以下是为您推荐的跑 ComfyUI 最具性价比的电脑配置: 系统:Windows 7 以上。 显卡:建议使用 6GB 以上显存的 NVIDIA 显卡(N 卡),最低要求 NVDIA 独立显卡且显存至少 4G 起步。SDXL 出来后,最低需要 8GB 显存+32GB 运行内存,12GB 可流畅运行,推荐 16GB 以上。运行内存最低 32GB,越高越好,最低配可能会经常爆显存。 硬盘:留有足够的空间,最低 100G 起步(包括模型)。最好把软件和模型部署在 SSD(固态硬盘)上,以提高加载模型的速度。 CPU:无特别要求,但如果您的电脑能顺畅清晰地玩 3A 游戏,那运行 ComfyUI 通常也没问题。 需要注意的是,ComfyUI 相比 WebUI 配置更低,系统资源占用更少,出图速度更快,最低可在小于 3G 的 GPU 上运行,甚至没有 GPU 光用 CPU 也可以运行,但速度极慢。配置上不封顶,您可以根据自己的需求和预算来选择。
2025-02-15
我想用deepseek 写微信公众号文章,我将要写的主题告诉他,让它为我生成个人角度的文章,我要写的主题一般围绕着软件分享,技术分享等。请你根据我的要求为我写一份适用的提示词
以下是为您生成的适用于使用 DeepSeek 写微信公众号文章的提示词: 我要写一篇关于软件分享或技术分享的微信公众号文章,文章标题要足够吸引人,以便能广泛传播。文章内容要详细且有条理,先介绍分享的软件或技术的基本情况,包括其功能、特点和优势;然后结合实际案例或个人使用体验,阐述其在实际应用中的效果和价值;最后总结并展望其未来的发展前景。请为我生成这样一篇完整的文章。
2025-02-12
我要查找医学论文文献,用哪种AI最合适?
如果您要查找医学论文文献,以下几种 AI 工具可能较为合适: 1. Scite.ai:这是一个为研究人员、学者和行业专业人员打造的创新平台,能增强对科学文献的洞察,提供引用声明搜索、自定义仪表板和参考检查等工具,简化学术工作。 2. Scholarcy:一款科研神器,能从文档中提取结构化数据,并通过知识归纳引擎生成文章概要,包含关键概念、摘要、学术亮点、学术总结、比较分析、局限等板块的内容。 3. ChatGPT:强大的自然语言处理模型,可以提供有关医学课题的修改意见。您可以向它提供您的文章,并提出您的问题和需求,它将尽力为您提供帮助。 此外,在论文写作领域,还有以下常用的 AI 工具和平台: 1. 文献管理和搜索: Zotero:结合 AI 技术,可自动提取文献信息,帮助管理和整理参考文献。 Semantic Scholar:由 AI 驱动的学术搜索引擎,能提供相关文献推荐和引用分析。 2. 内容生成和辅助写作: Grammarly:通过 AI 技术提供文本校对、语法修正和写作风格建议,提高语言质量。 Quillbot:基于 AI 的重写和摘要工具,可帮助精简和优化论文内容。 3. 研究和数据分析: Google Colab:提供基于云的 Jupyter 笔记本环境,支持 AI 和机器学习研究,便于进行数据分析和可视化。 Knitro:用于数学建模和优化的软件,可进行复杂的数据分析和模型构建。 4. 论文结构和格式: LaTeX:结合自动化和模板,高效处理论文格式和数学公式。 Overleaf:在线 LaTeX 编辑器,提供丰富模板库和协作功能,简化论文编写过程。 5. 研究伦理和抄袭检测: Turnitin:广泛使用的抄袭检测工具,确保论文原创性。 Crossref Similarity Check:通过与已发表作品比较,检测潜在抄袭问题。 使用这些工具时,要结合自己的写作风格和需求,选择最合适的辅助工具。请注意,内容由 AI 大模型生成,请仔细甄别。
2025-02-11
我要文生图
以下是文生图的相关教程: Tusiart 简易上手教程 1. 定主题:明确要生成的图片的主题、风格和表达的信息。 2. 选择基础模型 Checkpoint:根据主题选择贴近的模型,如麦橘、墨幽的系列模型。 3. 选择 lora:寻找与生成内容重叠的 lora,以控制图片效果和质量。 4. ControlNet:可控制图片中特定的图像,如人物姿态、生成特定文字等,属于高阶技能。 5. 局部重绘:下篇再教。 6. 设置 VAE:选择 840000 即可。 7. Prompt 提示词:用英文写想要生成的内容,使用单词和短语组合,用英文半角逗号隔开。 8. 负向提示词 Negative Prompt:用英文写想要避免产生的内容,单词和短语组合,用英文半角逗号隔开。 9. 采样算法:一般选 DPM++2M Karras,也可参考模型作者推荐的采样器。 10. 采样次数:选 DPM++2M Karras 时,采样次数在 30 40 之间。 11. 尺寸:根据个人喜好和需求选择。 Liblibai 简易上手教程 1. 定主题:明确要生成的图片的主题、风格和表达的信息。 2. 选择 Checkpoint:根据主题选择贴近的模型,如麦橘、墨幽的系列模型。 3. 选择 lora:寻找与生成内容重叠的 lora,以控制图片效果和质量。 4. 设置 VAE:选择 840000 即可。 5. CLIP 跳过层:设成 2 。 6. Prompt 提示词:用英文写想要生成的内容,使用单词和短语组合,用英文半角逗号隔开。 7. 负向提示词 Negative Prompt:用英文写想要避免产生的内容,单词和短语组合,用英文半角逗号隔开。 8. 采样方法:一般选 DPM++2M Karras,也可参考模型作者推荐的采样器。 9. 迭代步数:选 DPM++2M Karras 时,迭代步数在 30 40 之间。 10. 尺寸:根据个人喜好和需求选择。 11. 生成批次:默认 1 批。 第二十四期 FLUX 之 PULID 换脸 如果无法科学上网,可通过以下方式: 1. 注册 bizyair(https://cloud.siliconflow.cn/i/juDv09Wj),拿到 key。 2. 在 comfyui 中安装 bizyair 最新的节点,直接支持 pulid,无需安装各种模型。节点也可在网盘获取。 3. 没有独立显卡的笔记本也可体验,下载相关包(链接:https://pan.baidu.com/s/1iUF1JXidizkHh0kKthcQ7g?pwd=w36m 提取码:w36m 解压即用,前提是拿到 key。 目前 fluxpulid 只有文生图,关于图生图的做法:准备两张图,一张是参考图,一张是要换脸的图,然后用 joy 反推,把文字再贴到 pulid 工作流里,也可直接合在一个工作流里。并附上相关工作流(链接:https://pan.baidu.com/s/1NTMiaQdgu5y9iK_9v0jhTQ?pwd=rkqr 提取码:rkqr )。
2025-02-10
我要做短剧推广,应该用哪个ai
如果您要做短剧推广,可以考虑以下 AI 工具和方法: 1. 视频工具:Pika、Pixverse、Runway、SVD 等。 2. 故事来源: 原创(直接经验):您或您周围人的经历、您做过的梦、您想象的故事等。 改编(间接经验):经典 IP、名著改编、新闻改编、二创等。 3. 剧本写作: 编剧是有一定门槛的手艺,不能单纯套剧作理论和模版,要多写多实践,再结合看书总结经验,循环往复。 短片创作篇幅较小,情节和角色相对简单,可从自己或朋友的经历改编入手,或者对触动您的短篇故事进行改编。 多跟别人讨论您的故事,有助于修改和进步。 4. 商业化方面: AI 降低了影视制作门槛,非专业人员也能做出优秀作品。 AI 短剧是介于个性化创作与艺术创作之间的良好折中点,门槛较低,创作者易接触。 在上影的全球 AI 电影马拉松大赛中一人拿两个奖,非技术专业出身也能分享前沿技术及创作思路。 创作不能一直为爱发电,商业目的分直接和间接两种,间接如参加比赛获得曝光度从而产生商业行为,直接如接受付费创作。 商业短剧是创作商品,要为用户提供情绪价值,让用户有获得感,否则难以让用户消费。 AIGC 短剧面向 ToC 人群,全民可参与,制作门槛低,创作者偏自我性,收益地板不稳定、天花板高,两级分化严重。 AIGC 广告宣传片面向 ToB,个人难接大单,多为固定渠道供应,制作具有甲方性,地板稳定、天花板有限,可能面临价格恶性竞争。
2025-02-10
我是一个新手,我要学习Ai的使用入门,我不是要用去做Ai的,我应该从哪里开始入门?
对于新手学习 AI 的入门,您可以按照以下步骤进行: 1. 了解 AI 基本概念:建议阅读「」部分,熟悉 AI 的术语和基础概念,包括其主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。同时,浏览入门文章,了解 AI 的历史、当前的应用和未来的发展趋势。 2. 开始 AI 学习之旅:在「」中,您将找到一系列为初学者设计的课程,特别推荐李宏毅老师的课程。您还可以通过在线教育平台(如 Coursera、edX、Udacity)上的课程,按照自己的节奏学习,并有机会获得证书。 3. 选择感兴趣的模块深入学习:AI 领域广泛,比如图像、音乐、视频等,您可以根据自己的兴趣选择特定的模块进行深入学习。同时,建议您掌握提示词的技巧,它上手容易且很有用。 4. 实践和尝试:理论学习之后,实践是巩固知识的关键。尝试使用各种产品做出您的作品,在知识库提供了很多大家实践后的作品、文章分享,欢迎您实践后的分享。 5. 体验 AI 产品:与现有的 AI 产品进行互动是学习 AI 的另一种有效方式。尝试使用如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人,了解它们的工作原理和交互方式。 记住,学习 AI 是一个长期的过程,需要耐心和持续的努力。不要害怕犯错,每个挑战都是成长的机会。随着时间的推移,您将逐渐建立起自己的 AI 知识体系,并能够在这一领域取得自己的成就。完整的学习路径建议参考「通往 AGI 之路」的布鲁姆分类法,设计自己的学习路径。
2025-02-09
AI agent 是什么?
AI Agent 是基于大型语言模型(LLM)和其他技术实现的智能实体,其核心功能在于自主理解、规划决策、执行复杂任务。 AI Agent 包括以下几个概念: 1. Chain:通常一个 AI Agent 可能由多个 Chain 组成。一个 Chain 视作是一个步骤,可以接受一些输入变量,产生一些输出变量。大部分的 Chain 是大语言模型完成的 LLM Chain。 2. Router:我们可以使用一些判定(甚至可以用 LLM 来判定),然后让 Agent 走向不同的 Chain。例如:如果这是一个图片,则 a;否则 b。 3. Tool:Agent 上可以进行的一次工具调用。例如,对互联网的一次搜索,对数据库的一次检索。 总结下来我们需要三个 Agent: 1. Responser Agent:主 agent,用于回复用户(伪多模态) 2. Background Agent:背景 agent,用于推进角色当前状态(例如进入下一个剧本,抽检生成增长的记忆体) 3. Daily Agent:每日 agent,用于生成剧本,配套的图片,以及每日朋友圈 这三个 Agent 每隔一段时间运行一次(默认 3 分钟),运行时会分析期间的历史对话,变更人物关系(亲密度,了解度等),变更反感度,如果超标则拉黑用户,抽简对话内容,提取人物和用户的信息成为“增长的记忆体”,按照时间推进人物剧本,有概率主动聊天(与亲密度正相关,跳过夜间时间)。 此外,心灵社会理论认为,智能是由许多简单的 Agent(分等级、分功能的计算单元)共同工作和相互作用的结果。这些 Agent 在不同层次上执行不同的功能,通过协作实现复杂的智能行为。心灵社会将智能划分为多个层次,从低层次的感知和反应到高层次的规划和决策,每个层次由多个 Agent 负责。每个 Agent 类似于功能模块,专门处理特定类型的信息或执行特定任务,如视觉处理、语言理解、运动控制等。智能不是集中在单一的核心处理单元,而是通过多个相互关联的 Agent 共同实现。这种分布式智能能够提高系统的灵活性和鲁棒性,应对复杂和多变的环境。同时,在《心灵社会》中,还存在专家 Agent(拥有特定领域知识和技能,负责处理复杂的任务和解决特定问题)、管理 Agent(协调和控制其他 Agent 的活动,确保整体系统协调一致地运行)、学习 Agent(通过经验和交互,不断调整和优化自身行为,提高系统在不断变化环境中的适应能力)。 从达特茅斯会议开始讨论人工智能(Artificial Intelligence),到马文·明斯基引入“Agent”概念,往后,我们都将其称之为 AI Agent。
2025-02-17
有关agent的介绍
AI Agent 是当前 AI 领域中较为热门的概念,被认为是大模型未来的主要发展方向之一。 从原理上看,中间的“智能体”通常是 LLM(语言模型)或大模型。为其增加的四个能力分别是工具、记忆、行动和规划。目前行业中主要使用 langchain 框架,将 LLM 与 LLM 之间以及 LLM 与工具之间通过代码或 prompt 的形式进行串接。例如,给大模型提供长期记忆,相当于给予一个数据库工具让其记录重要信息;规划和行动则是在大模型的 prompt 层进行逻辑设计,如将目标拆解并输出不同的固定格式 action 指令给工具。 从产品角度,Agent 可以有不同的设定。比如是一个历史新闻探索向导,身份为历史新闻探索向导,性格知识渊博、温暖亲切、富有同情心,角色是主导新闻解析和历史背景分析,还可以为其设计背景故事使其更加生动。 在人工智能领域,Agent 智能代理是一种能够感知环境并根据感知信息做出决策以实现特定目标的系统,能够自动执行任务,如搜索信息、监控系统状态或与用户交互。
2025-02-16
AIagent的发展方向
AI Agent 被认为是大模型未来的主要发展方向之一,其发展具有以下特点和阶段: 从原理上看,中间的“智能体”通常是 LLM 或大模型,为其增加了工具、记忆、行动、规划四个能力。目前行业里主要用到的是 langchain 框架,它通过代码或 prompt 的形式将 LLM 与 LLM 之间以及 LLM 与工具之间进行串接。 在人工智能的发展历程中,AI Agent 并非一蹴而就,其发展可分为几个阶段,并受到符号主义、连接主义、行为主义的影响。在人工智能的黎明时期,符号人工智能作为主导范式,以对符号逻辑的依赖著称,代表之作是基于知识的专家系统。其特点是基于逻辑和规则系统,使用符号来表示知识,通过符号操作进行推理。优点是推理过程明确、可解释性强,缺点是知识获取困难、缺乏常识、难以处理模糊性。时间为 20 世纪 50 70 年代。 近期出现的各类 AI 搜索引擎不断颠覆传统搜索引擎,如 perplexity.ai、metaso、360 搜索、ThinkAny 等。AI Agent 在辅助高效处理信息和简便信息表达方面表现出色,例如智能摘要能辅助快速筛选信息,自然语言描述可生成美观可用的图片。在工作流方面,每个人应根据自身情况找到适合的工具,如产品经理可使用 AI 进行用户画像、竞品调研、设计产品测试用例、绘制产品功能流程图等。关于 AI Agent 的未来,曾被认为异想天开的想法都可能成为现实,技术迭代会不断向前。
2025-02-15
AI Agent 或者 工作流, 落地的场景
以下是 AI Agent 或工作流的一些落地场景: Long horizon task 长期任务执行:Agent 能像称职的项目经理,分解大任务为小步骤,保持目标导向并适时调整策略。 多模态理解:Agent 能同时理解文字、图像、声音等多种交流方式,全方位感知世界和任务上下文。 记忆与行动:通过先进的记忆机制,Agent 能积累经验,记住对话、操作步骤和效果,行动更精准高效。 自适应学习:从每次交互中吸取经验,不断完善策略,实现“智慧成长”。 在技术层面,有两条技术路线:以自主决策为核心的 LLM 控制流和以工作流(Workflow)编排为重点的工具集成系统。Anthropic 提出的 MCP(Model Context Protocol)提供了通用接口协议,将外部资源抽象为“上下文提供者”,便于模型与外部世界交互。 工作流驱动的 Agent 搭建,简单情况分为 3 个步骤:规划,包括制定任务关键方法、总结目标与执行形式、分解子任务等;实施,在 Coze 上搭建框架并分步构建和测试功能;完善,全面评估并优化效果。 典型例子如利用 Kimi Chat 进行网页搜索和总结分析。 包括 Agent 自行规划任务执行的工作流路径,适用于简单或线性流程。 多 Agent 协作,如吴恩达通过开源项目 ChatDev 举例,让大语言模型扮演不同角色共同开发应用或复杂程序。 OpenAI 研究主管 Lilian Weng 提出 Agent 的基础架构为“Agent=LLM+规划+记忆+工具使用”,规划包括子目标分解、反思与改进。
2025-02-15
腾讯agent开发
AppAgent 是由腾讯开发的一种基于大型语言模型(LLM)的多模态 Agent 框架。 其主要特点和功能包括: 多模态代理:能够处理和理解多种类型的信息(如文本、图像、触控操作等)。 直观交互:通过模仿人类的直观动作(如点击和滑动屏幕)来与手机应用程序交互,能够在手机上执行各种任务,例如在社交媒体上发帖、帮用户撰写和发送邮件、使用地图、在线购物,甚至进行复杂的图像编辑等。 对于之后模仿数据的反利用也有不错的应用场景,例如互联网或 AI 或涉及到原型+UE 的工作都可以在基于模仿数据的基础上进行反推,进而让设计出的产品原型和 UE 交互更优解。 AppAgent 在 50 个任务上进行了广泛测试,涵盖了 10 种不同的应用程序。该项目由腾讯和德州大学达拉斯分校的研究团开发。 相关链接: 官方网站:https://appagentofficial.github.io 相关报道:https://x.com/xiaohuggg/status/1738083914193965528?s=20
2025-02-14
什么是Agent
Agent(智能体)是一种能够在环境中自主感知、思考并采取行动以实现特定目标的实体。它可以是软件程序,也可以是硬件设备。 从产品角度来看,比如我们的 Agent 可以是一个历史新闻探索向导,具有知识渊博、温暖亲切、富有同情心的性格,主导新闻解析和历史背景分析。为使角色更生动,可设计背景故事,明确其起源、经历和动机,定义性格特点、说话方式和风格,以及设计对话风格和角色技能。 在结合大型语言模型(LLM)的情况下,LLM Agent 能够利用大型语言模型的自然语言处理能力,理解用户的输入,并在此基础上进行智能决策和行动。其组成部分包括规划(负责将复杂任务分解成可执行的子任务,并评估执行策略)、记忆(包括短期记忆用于存储对话上下文,长期记忆存储用户特征和业务数据)、工具(如 API 调用、插件扩展等辅助手段)和行动(将规划和记忆转换为具体输出,包括与外部环境的互动或工具调用)。 在 LLM 支持的自主 Agent 系统中,LLM 充当 Agents 的大脑,还包括规划(子目标分解、反思完善)、记忆(短期记忆、长期记忆)和工具使用(调用外部 API 获取额外信息)等方面。
2025-02-14
如何可以通过ai语音转文字
以下是关于通过 AI 实现语音转文字的相关内容: 可以使用 GVoice 提供的语音录制和识别能力,其中文识别率优秀。语音识别的少量错误,ChatGPT 能正常理解和纠错,衔接较为流畅。 推荐 OpenAI 的 wishper,相关链接:https://huggingface.co/openai/whisperlargev2 。还有一个项目:https://huggingface.co/spaces/sanchitgandhi/whisperjax ,此项目在 JAX 上运行,后端支持 TPU v48,与 A100 GPU 上的 PyTorch 相比,快 70 多倍,是目前最快的 Whisper API。 对于有字幕的 B 站视频,可通过安装油猴脚本获取字幕,然后将字幕文字内容复制发送给 GPTs 进行总结。
2025-02-17
如何利用AI进行变现
以下是利用 AI 进行变现的一些方式: 1. 电商:婴儿的四维彩超 AI 预测 思路和玩法:通过 AI 工具将宝宝的四维彩超还原出模样进行变现。孕妇妈妈在孕期 22 26 周会进行四维彩超检查,很多准爸爸妈妈期待宝宝模样,从而产生市场需求。在小红书、抖音等公域平台发布相关笔记吸引咨询,将客户引流到私域接单变现。 操作流程:客户提供四维彩超原图,在 Midjourney 里进行垫图和特定描述词,整个流程不超过 10 分钟就能出图。 注意事项:平台引流要隐蔽,避免被检测导致限流或封号。 2. 写作:AI 写作变现 项目启动:确定目标客户群体,如大学生、职场人士、自媒体从业者等,选择合适的 AI 写作工具。 准备阶段:学习并实践 AI 写作技术,构建团队。 商业模式构建:确定服务内容,如提供论文、报告、文案等写作服务,制定质量控制标准。 运营与推广:在淘宝等电商平台开设店铺销售写作服务,建立写作培训社群,通过社交媒体和线下活动进行品牌和社群建设,与其他团队合作开发新项目。 项目优化与发展:持续关注 AI 技术进展,根据市场需求拓展新服务和产品,收集客户反馈优化服务。 3. 韦恩:扣子“AI 应用”进阶 变现方式:在公司给自己贴 AI 大神标签,在社交网络分享扩大影响力,承接项目开发。 二创方向:增加画板节点,结合公司 Logo 生成公司主题产品邮票,承接类似需求扩充工作流,修改提示词调整生图内容方向。 总之,技术很关键,创意更重要,好技术加上好创意才能成就好产品,祝您在 AI 应用之路增加收入。
2025-02-17
如何利用ai进行表现
以下是利用 AI 进行表现的一些方式和案例: 1. 在角色动画制作方面,如 Playhouse ,可以使用人工智能为 2D 或 3D 角色制作动画。输入文字,或打开相机并表演,无需再为 3D 角色进行绑定。生成 3D 资产,只需输入文字或上传图像,我们将其转换为 3D,并控制 3D 场景中的每个元素。前 5000 名注册用户可享受 1 个月的 Playhouse 独立计划。 2. 在 3D 场景引擎方面,Playbook 是一个基于扩散的 3D 场景引擎,利用 ComfyUI 进行图像和视频生成。它基于网络的工具和 Blender 插件,并提供 300 渲染积分。 3. 在 3D 模型生成方面,Tripo AI 是由 VAST 推出的生成式 3D 模型,可以在 8 秒内生成带纹理的 3D 网格模型,在 2 分钟内生成详细模型。此外,Tripo 还开发了自动绑定、动画和风格化功能,以使生成的模型更易于在流程中使用。Tripo API 与 ComfyUI 集成良好,可实现迭代和可控流程。Tripo AI 还拥有一个热门的 3D 创作者/开发者社区。Tripo 的最终目标是在即将到来的 3D 时代让每个人都成为超级创作者。1 个月的 Tripo 专业订阅。 4. 在剧本创作方面,SAGA 是第一款也是最好的剧本创作和故事板应用程序,由针对电影输出而精心调整的最新和最强大的生成式人工智能模型提供支持,包括 GPT 4、Claude 3.5 和 Luma Dream Machine。具有精心开发的故事、引人入胜的角色和精心策划的摄影的人工智能短片甚至音乐视频在比赛中表现更好。SAGA 为您提供最佳创意,让您在一个地方完成所有操作,无需购买一系列人工智能工具以及像 Final Draft 或 Storyboarder 这样的应用程序来将其整合在一起。1 个月的 Saga 高级订阅。 5. 在文旅宣传片创作方面,AI 离谱设工作流分享中,创作策略包括主题明确,聚焦文旅融合,展示地域文化多样性,融合现代科技,创新表现形式,讲好中国故事,传递正能量,以及鼓励互动与参与。通过这样的创作策略,“两会 AI 全国文旅宣传片”旨在通过巧妙运用 AIGC 技术手段展现中国文化旅游的魅力,同时强调文旅融合的重要性和前景,促进文化旅游行业的发展。 6. 在虚拟人物形象生成方面,Meta AI 可以从多人对话中语音中生成与对话相对应的逼真面部表情、完整身体和手势动作。这些生成的虚拟人物不仅在视觉上很逼真,而且能够准确地反映出对话中的手势和表情细节,如指点、手腕抖动、耸肩、微笑、嘲笑等。其工作原理包括数据集捕获、运动模型构建、面部运动生成、身体运动生成、虚拟人物渲染和结果展示等步骤。
2025-02-17
精选最好的AI提示词
以下是为您精选的一些 AI 提示词相关的网站和资源: 图像类 Prompt 网站: :AI 艺术提示词生成器。 :玩游戏也能练习 Prompt 书写。 NovelAI tag 生成器:设计类 Prompt 提词生成器, 。 魔咒百科词典:魔法导论必备工具,简单易用的 AI 绘画 tag 生成器, 。 KREA:设计 AI 的 Prompt 集合站,create better prompts, 。 Public Prompts:免费的 prompt 合集,收集高质量的提示词, 。 AcceleratorI Prompt:AI 词汇加速器,加速 Prompt 书写,通过按钮帮助优化和填充提示词, 。 提示词相关教程和资源: 拘灵遣将:关于律师如何写好提示词用好 AI 这件事,提到要接受 AI 的“不稳定性”,将提示词设计为相对完善的“谈话方案”,成果在对话中产生。 SD 新手入门图文教程中的提示词模板: Majinai: 。 词图: 。 Black Lily: 。 Danbooru 标签超市: 。 魔咒百科词典: 。 AI 词汇加速器: 。 NovelAI 魔导书: 。 鳖哲法典: 。 Danbooru tag: 。 AIBooru: 。
2025-02-17
现在有什么好用的AI
以下是为您整理的关于好用的 AI 及相关技巧的内容: 好用的图生图产品: 1. Artguru AI Art Generator:在线平台,生成逼真图像,为设计师提供灵感,丰富创作过程。 2. Retrato:AI 工具,可将图片转换为非凡肖像,有 500 多种风格选择,适合制作个性头像。 3. Stable Diffusion Reimagine:新型 AI 工具,通过稳定扩散算法生成精细、具细节的全新视觉作品。 4. Barbie Selfie Generator:专为喜欢梦幻童话风格的人设计,能将上传的照片转换为芭比风格,效果佳。 但这些模型存在一些局限,如偶尔性能不稳定、生成内容不当等。 与 AI 交流的技巧: 1. 设定角色:给 AI 设定一个角色,如“你是一个XXXX 角色”,蕴含角色背景和输出要求,让 AI 更明确如何应对问题。 2. 举例子:通过实际例子能使 AI 更准确了解您的要求。 3. 连续提问:对于一个问题可连续提问,根据回复不断细化要求,AI 能处理多轮对话。 4. 不知如何提问时,可先问 AI 如何提问,再用其产生的问题问它。 AI 的能力: 1. 文本生成:涵盖写文章、对话聊天、编程写代码、翻译、阅读理解、推理等领域。 2. 图像和视频理解:能理解真实世界图像、网页截图和文字数据的图片,甚至能看懂抽象表达并推理作答,包括医学等专业图像,还能理解人类“笑点”。 3. 图像生成:能生成多种风格的图像,如写实、油画、超现实、写意中国水墨画等,应用广泛,可帮助做设计,电商平台上很多商品图片已由 AI 生成。
2025-02-17
AI绘画课程
以下为您推荐的 AI 绘画课程: 【野菩萨】课程: 预习周课程:包括 AI 绘画电脑配置要求、高效 AIGC 创意者的数字人工具包、SD 插件安装方法、画静为动的 AIGC 视频制作讲解等。 基础操作课:涵盖 AI 绘画通识课、AI 摄影虚拟的真实、AI 电影 穿越的大门等内容。 核心范式课程:涉及词汇的纸牌屋、核心范式应用、控制随机性等方面。 SD WebUi 体系课程:包括 SD 基础部署、SD 文生图、图生图、局部重绘等。 ChatGPT 体系课程:有 ChatGPT 基础、核心 文风、格式、思维模型等内容。 ComfyUI 与 AI 动画课程:包含部署和基本概念、基础工作流搭建、动画工作流搭建等。 应对 SORA 的视听语言课程:涉及通识 欢迎参加电影的葬礼、影像赏析、基础戏剧影视文学等。 免费课程机会:参与 video battle,获胜者可获得课程奖励,包括冠军 4980 课程一份、亚军 3980 课程一份、季军 1980 课程一份,入围奖励 598 野神殿门票一张。 扫码添加菩萨老师助理,了解更多课程信息。 【Stable Diffusion 零基础入门宝典】课程: 作者从事平面设计行业,基于对 Stable Diffusion 的学习和研究,开发了这套课程。 课程初衷是为刚入门或想了解 SD 的小伙伴做全面梳理,因为新人面对众多内容往往不知所措。 课程特色暂未提及。 SD 新手视频教程: 章节教学视频: 第一节课:AI 绘画原理与基础界面 第二节课:20 分钟搞懂 Prompt 与参数设置,你的 AI 绘画“咒语”学明白了吗? 第三节课:打破次元壁!用 AI“重绘”照片和 CG 第四节课:AI 绘画模型,“画风”自由切换 第五节课:提高 AI 绘画分辨率的方式 第六节课:LoRa|Hypernetwork 概念简析 第七节课:定向修手修脸,手把手教你玩转局部重绘! 第八节课:提示词补全翻译反推,“终极”放大脚本与细节优化插件 第九节课:LoRA 从原理到实践 第十节课:零基础掌握 ControlNet!
2025-02-17
我想用ai自动化把我的文档内容生成漂亮的ppt
以下是一些可以将文档内容生成漂亮 PPT 的方法和工具: 1. 歌者 PPT(gezhe.com): 功能: 话题生成:一键生成 PPT 内容。 资料转换:支持多种文件格式转 PPT。 多语言支持:生成多语言 PPT。 模板和案例:海量模板和案例库。 在线编辑和分享:生成结果可自由编辑并在线分享。 增值服务:自定义模板、字体、动效等。 简介:是一款永久免费的智能 PPT 生成工具,能将任何主题或资料转化为 PPT,并提供便捷操作和智能化体验。 产品优势: 免费使用:所有功能永久免费。 智能易用:通过 AI 技术简化制作流程,易于上手。 海量案例:大量精美模板和优秀案例可供选择和下载。 资料转 PPT 很专业:支持多种文件格式,转换过程中尊重原文内容。 AI 翻译:保持 PPT 原始排版不变,多语言在线即时翻译。 推荐理由: 完全免费,对学生和职场人士是福音。 智能化程度高,通过 AI 技术快速将资料转换成精美 PPT,高效准确。 模板和案例库丰富,适合各种场景。 对多语言支持实用,可一键生成目标语言的 PPT 或翻译。 几乎无需学习成本就能上手使用。 2. Process ON: 网址:https://www.processon.com/ 输入大纲和要点: 导入大纲和要点: 手动复制,相对比较耗时间。 导入方式: 复制最终大纲的内容到本地的 txt 文件后,将后缀改为.md。如果看不见后缀,可以自行搜索开启后缀。 打开 Xmind 软件,将 md 文件导入 Xmind 文件中。 Process ON 导入 Xmind 文件。 输入主题自动生成大纲和要求: 新增思维导图。 输入主题,点击 AI 帮我创作。 选择模版并生成 PPT: 点击下载,选择导入格式为 PPT 文件。 选择模版,再点击下载。 3. 增强版 Bot: 场景: 图片理解与生成:在对话框输入诉求,可生成相应图片,也可根据图片提取关键知识内容。 PPT 一键生成:根据上下文在对话框输入诉求,可生成幻灯片内容及相关模板选择。 PDF 智能制作:根据上下文在对话框输入诉求,可生成相应的可选模板。 系统架构论文一键创作。
2025-02-14
有没有自动化文档处理的
以下是关于自动化文档处理的相关信息: 在使用 AI 进行数据分析时,可将数据清洗、提取、模型选择、训练和结果解释等环节分开处理,以优化性能并便于发现和修正问题。对于复杂问题,律师可采用逐步深化和细化的提问方式。 为提高 AI 性能,需提供大量数据和示例,以及高质量的参考材料、操作指南、行业最佳实践、案例研究等,并编写详细的流程和知识。在自动化文档处理中,可编写详细指南说明如何处理不同类型文档及使用工具提高效率。 在 Prompt 中使用专业领域术语引导 AI 回答方向,如在法律领域处理合同纠纷时给出特定提示。 大模型的语料存在滞后性,使用 AI 回答后要进行交叉验证,结合自身专业知识筛选和判断,确保符合法律伦理、立法目的和实务。 此外,以下是一些 AI 文章排版工具: Grammarly:不仅是语法和拼写检查工具,还提供排版功能,可改进文档风格和流畅性。 QuillBot:AI 驱动的写作和排版工具,能改进文本清晰度和流畅性。 Latex:常用于学术论文排版,使用标记语言描述格式,有许多 AI 辅助的编辑器和插件。 PandaDoc:文档自动化平台,使用 AI 帮助创建、格式化和自动化文档生成,适合商业和技术文档。 Wordtune:AI 写作助手,可重新表述和改进文本。 Overleaf:在线 Latex 编辑器,提供丰富模板和协作工具,适合学术写作和排版。 选择合适的工具取决于具体需求,如文档类型、出版标准和个人偏好。学术论文常用 Latex 和 Overleaf,一般文章和商业文档常用 Grammarly 和 PandaDoc 等。
2025-02-13
有没有能帮助生成特殊格式文档的ai工具
以下是一些能帮助生成特殊格式文档的 AI 工具: 对于文章排版: Grammarly:不仅是语法和拼写检查工具,还提供排版功能,可改进文档风格和流畅性。 QuillBot:AI 驱动的写作和排版工具,能改进文本清晰度和流畅性,保持原意。 Latex:常用于学术论文排版,使用标记语言描述格式,有许多 AI 辅助的编辑器和插件简化排版。 PandaDoc:文档自动化平台,用 AI 帮助创建、格式化和自动化文档生成,适合商业和技术文档。 Wordtune:AI 写作助手,重新表述和改进文本,使其更清晰专业,保持原始意图。 Overleaf:在线 Latex 编辑器,提供丰富模板和协作工具,适合学术写作和排版。 对于论文写作: 文献管理和搜索: Zotero:结合 AI 技术,自动提取文献信息,管理和整理参考文献。 Semantic Scholar:AI 驱动的学术搜索引擎,提供文献推荐和引用分析。 内容生成和辅助写作: Grammarly:提供文本校对、语法修正和写作风格建议,提高语言质量。 Quillbot:基于 AI 的重写和摘要工具,精简和优化论文内容。 研究和数据分析: Google Colab:提供基于云的 Jupyter 笔记本环境,支持 AI 和机器学习研究,便于数据分析和可视化。 Knitro:用于数学建模和优化,帮助进行复杂的数据分析和模型构建。 论文结构和格式: LaTeX:结合自动化和模板,高效处理论文格式和数学公式。 Overleaf:在线 LaTeX 编辑器,提供丰富模板库和协作功能,简化论文编写过程。 研究伦理和抄袭检测: Turnitin:广泛使用的抄袭检测工具,确保论文原创性。 Crossref Similarity Check:检测潜在抄袭问题。 对于制作 PPT: Gamma:在线 PPT 制作网站,通过输入文本和想法提示快速生成幻灯片,支持嵌入多媒体格式。 美图 AI PPT:通过输入简单文本描述生成专业 PPT 设计,包含丰富模板库和设计元素。 Mindshow:AI 驱动的 PPT 辅助工具,提供智能设计功能,如自动布局、图像选择和文本优化等。 讯飞智文:科大讯飞推出的 AI 辅助文档编辑工具,利用语音识别和自然语言处理技术,提供智能文本生成、语音输入、文档格式化等功能。 选择合适的工具取决于您的具体需求,如文档类型、出版标准和个人偏好。
2025-02-13
deepseek简历、求职相关的文档
以下是关于 deepseek 简历、求职相关的文档内容: 直播准备及陈星分享求职相关内容:直播前进行设备调试,陈星开场介绍直播主题,分享用 AI 工具提升职场生产力经历,重点讲求职场景,剖析职场人士简历常见问题,展示简历模板,还将演示用 DS 生成定制自我介绍及实际操作求职。 不同 AI 工具的使用及设备适配情况:陈星从分析岗位差异入手,指出过往人工分析岗位费劲,可借助 AI 工具增强简历定制化。还分享了不同 AI 工具的使用及设备适配情况,针对职场人和学生简历问题给出建议,介绍用 AI 增加工作经验和作品的方法,如参加比赛、生成视频等,最后进行 PPT 生成等实操演示并互动答疑。 胡凯翔分享 Deepseek 相关案例:介绍其能做文本生成等多种事,使用时可用更少词让模型做更多事。分享了在育儿、知识探讨、学科学习方面的应用案例。 简历常见问题及解决办法:指出简历存在过于简单、内容与工作描述混淆、排版不专业、内容过长或过短等问题,并提供了相应解决办法。 标准化简历模板:介绍了一份标准化的简历模板,涵盖了甲方和 HR 比较关心的关键元素,如年龄、居住地、求职意向等。 AI 生成自我介绍:演示如何使用 DS 及 chatbox 根据岗位和简历生成定制化且诚恳的自我介绍,以增强面试竞争力。 简历修改要点:包括将姓名脱敏、补充具体数据、避免内容冲突、突出个人优势等,以增强简历的吸引力。 岗位分析重要性:指出不同岗位的要求和关注点存在差异,需仔细分析职位描述,避免盲目投递简历。 利用 AI 工具辅助:借助 AI 工具增强简历定制化内容,提高与岗位的匹配度。 应对简历问题:如处理简历中的语法错误、断层、缺乏职业目标等问题,空窗期可通过补充相关活动来完善。 增加经验与作品:鼓励参加比赛、积累知识、利用 AI 生成创意等方式,为简历增添项目经验和个人作品。 AI 工具在职场中的应用技巧:视频号繁忙时可新开对话,DS 模型对国内用户较合适,ChatGPT 免费用户有使用限制。利用吉梦图片生成、哪吒相关话题创作玩偶等生成作品,将图片等整理为 PDF 作品集。介绍了 Kimi、通义等免费的 PPT 生成工具及使用方法。指出很多 AI 工具刚推出很火,但用户使用一段时间后可能会遗忘,造成会员充值浪费。 多维表格中 AI 工具的应用与分享:官网 API 申请每人有 10 元额度,但目前因用量大暂停注册。在多维表格字段简介中可调用,提供官方、火山、轨迹流动三家服务商选择。选方舟和轨迹流动需写自定义模型 ID,配置处理字段和指令。可批量处理上千上万条数据,避免单个会话处理。新 R1 版本能显示推理过程,处理效果好。有内测版本,明天或上线无免费额度的 RE 版本。字节内部同学用英文书写场景让 AI 推理过程,对学习和做方案有益。联网搜索方面,GPC 官方网站独有联网搜索能力,目前 API 未见到。工作流搭建方面,在 code 上用工作流搭成联网版,多维表格或可结合 AI 搜索插件实现类似功能。 AI 在招聘与生活场景中的应用:利用 AI 加 RPA 加飞书招聘打通智能招聘,用 DeepSeek 进行简历筛选和打分,并与招聘网站对接。AI 可用于优化简历,包括定向优化,提高简历通过概率。在人机共生挑战中,用 AI 解决家庭生活中不好玩的问题,如做家务、学习等,通过 AI 会话和辅助编程给出解决方案,并总结方法论。
2025-02-12
deepseek相关的学习文档
以下是关于 DeepSeek 的学习文档: 2025 年 2 月 6 日的智能纪要中,分享了 DP 模型的使用,包括其功能(能进行自然语言理解与分析、编程、绘图等)、使用优势(能用更少的词让模型做更多事,思维发散,能给出创意思路和高级内容)、存在问题(思维链长不易控制,可能输出看不懂或胡编乱造的内容,增加纠错成本)、审核方法(可用其他大模型来解读其给出的内容)、使用建议(使用时要有自己的思维雏形,多看思考过程,避免被模型冲刷原有认知)、使用场景(包括阅读、育儿、写作、随意交流等方面),还展示了案例,如与孩子共读时制作可视化互动游戏,以及左脚踩右脚式的模型交互。此外,还涉及音系学研究和与大模型互动的分享,如通过对比不同模型的回答来深入理解音系学,与大模型进行多轮对话来取队名。 全新 AI 整活第六期|DeepSeek 小说家的相关资料: 宝玉日报 2 月 6 日中提到 Dario Amodei 认为 DeepSeek 进入前沿 AI 竞赛,但美国应保持领先优势,还提到 OpenAI 向所有免费用户开放 AI 搜索,Andrej Karpathy 发布 3 小时 31 分钟 LLM 深度讲解视频。
2025-02-11
什么工具能实现和多个pdf或word文档对话
以下工具可以实现和多个 PDF 或 Word 文档对话: 1. ChatDOC(海外官网:chatdoc.com):是一个 AI 文档阅读助手,能在数秒内总结长文档、解释复杂概念和查找关键信息。在可靠性和准确性方面,它在所有 ChatPDF 类产品中居首。其优势包括精通表格理解、多文档对话、每个回答均可溯源至原文,还支持多种文档类型,如扫描件、ePub、HTML 和 docx 格式文档。 2. IncarnaMind:是一个可以使用大型语言模型(如 GPT)与个人文档(PDF、TXT)进行聊天的工具。它通过滑动窗口分块机制和检索器,能高效查询细粒度和粗粒度信息,支持多文档查询和稳定的解析,还具有自适应分块、多文档对话问答、文件兼容性和模型兼容性等特点。
2025-02-11