Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

agent最新动态

Answer

以下是关于 Agent 的最新动态:

  • 吴恩达在美国红杉 AI 活动上指出,Agent 工作流程与传统使用 LLM 的方式不同,更加迭代和对话式。目前有 4 种主要的 Agent 设计模式:
    • Reflection:让 Agent 审视和修正自己生成的输出。
    • Tool Use:LLM 生成代码、调用 API 等进行实际操作。
    • Planning:让 Agent 分解复杂任务并按计划执行。
    • Multiagent Collaboration:多个 Agent 扮演不同角色合作完成任务。 这些设计模式还在快速发展中,有的比较成熟可靠,有的仍存在不确定性,但都展现了提高 AI 能力的潜力。吴恩达认为未来 AI Agent 能力将大幅扩展,我们需要学会将任务委托给 Agent 并耐心等待结果,快速 token 生成也很重要。
  • 从词源和历史变迁来看,“Agent”在不同时期和领域有着不同的应用和含义。随着大航海时代及全球贸易的兴起,其在商业领域的角色日益重要,如贸易代理和公司代理商。在工业革命期间,职能拓展到保险、房地产等新兴行业,19 世纪在政府及情报领域也广泛使用,如情报特工和便衣警察。在现代社会(20 世纪至 21 世纪),涵盖了多种职业角色,尤其在娱乐和体育行业,指艺人经纪人和运动员经理等,还包括劳务代理和招聘代理(猎头)。“Agent”这个词本身具有行动的含义,后期又附加了“替身”的意思,多数情况下指“拥有行动的替身,都是替代他人做某事”。
Content generated by AI large model, please carefully verify (powered by aily)

References

红杉 AI Ascent 2024 会议

转自有新公众号:https://mp.weixin.qq.com/s/4ky_OSLrHh2MxdT3AjqW1Q今天分享的是吴恩达教授在美国红杉AI活动上关于Agent的最新趋势与洞察。吴恩达表示Agent工作流程与传统使用LLM的方式不同,它更加迭代和对话式。目前,有4种主要的Agent设计模式,分别是:1.Reflection:让Agent审视和修正自己生成的输出;2.Tool Use:LLM生成代码、调用API等进行实际操作;3.Planning:让Agent分解复杂任务并按计划执行;4.Multiagent Collaboration:多个Agent扮演不同角色合作完成任务;这些设计模式目前还在快速发展中,有的比较成熟可靠,有的仍存在不确定性,但都展现了提高AI能力的潜力。吴恩达认为,未来AI Agent能力将大幅扩展,我们需要学会将任务委托给Agent并耐心等待结果,而不是追求即时响应。另外,快速token生成也很重要,即使基于质量较低的LLM,快速迭代生成新token也可能获得良好结果。以下为这次分享的全部内容:我期待与大家分享我对AI Agent所见到的东西,这是一个我认为每个人在构建AI时都应该注意的激动人心的趋势。同时,我也对所有其他的“接下来会发生什么”的展示感到兴奋。

AI-Agent系列(一):智能体起源探究

随着大航海时代及全球贸易的兴起,“Agent”的角色在商业领域变得日益重要。16至17世纪间,贸易代理和公司代理商开始在全球范围内进行商品交易,如荷兰东印度公司的代理人。18至19世纪工业革命期间,“Agent”的职能进一步拓展到保险、房地产等新兴行业。此外,在19世纪,政府及情报领域也开始广泛使用“Agent”,比如情报特工和便衣警察,在维护国家安全与社会秩序方面发挥了不可或缺的作用。现代(20世纪至21世纪):在20世纪至21世纪的现代社会中,“Agent”一词涵盖了多种职业角色,尤其在娱乐和体育行业中,它指的是艺人经纪人和运动员经理等职位。这些专业经理人负责安排试镜、进行合同谈判以及规划职业生涯,确保客户能在竞争激烈的行业中获得成功。此外,“Agent”还包括劳务代理和招聘代理(猎头)。劳务代理提供劳动力匹配服务,帮助求职者找到合适的工作,并为雇主提供所需的人才,如劳务派遣公司将临时员工派遣到需要额外支持的企业单位。而猎头则专门为公司招募高技能或高级管理职位的专业人士,通过筛选简历、安排面试并评估候选人来帮助企业找到最合适的员工。凭借深厚的行业知识与广泛的联系网络,这些猎头为企业与顶尖人才之间搭建了重要桥梁。从词源和词的历史变迁中,大家就能看到,“Agent”这个词本身就具有行动的含义,到了后期又附加了“替身”的意思。且无论哪个领域,“Agent”都多数情况下都在指:“拥有行动的替身,都是替代他人做某事“

AI-Agent系列(一):智能体起源探究

随着大航海时代及全球贸易的兴起,“Agent”的角色在商业领域变得日益重要。16至17世纪间,贸易代理和公司代理商开始在全球范围内进行商品交易,如荷兰东印度公司的代理人。18至19世纪工业革命期间,“Agent”的职能进一步拓展到保险、房地产等新兴行业。此外,在19世纪,政府及情报领域也开始广泛使用“Agent”,比如情报特工和便衣警察,在维护国家安全与社会秩序方面发挥了不可或缺的作用。现代(20世纪至21世纪):在20世纪至21世纪的现代社会中,“Agent”一词涵盖了多种职业角色,尤其在娱乐和体育行业中,它指的是艺人经纪人和运动员经理等职位。这些专业经理人负责安排试镜、进行合同谈判以及规划职业生涯,确保客户能在竞争激烈的行业中获得成功。此外,“Agent”还包括劳务代理和招聘代理(猎头)。劳务代理提供劳动力匹配服务,帮助求职者找到合适的工作,并为雇主提供所需的人才,如劳务派遣公司将临时员工派遣到需要额外支持的企业单位。而猎头则专门为公司招募高技能或高级管理职位的专业人士,通过筛选简历、安排面试并评估候选人来帮助企业找到最合适的员工。凭借深厚的行业知识与广泛的联系网络,这些猎头为企业与顶尖人才之间搭建了重要桥梁。从词源和词的历史变迁中,大家就能看到,“Agent”这个词本身就具有行动的含义,到了后期又附加了“替身”的意思。且无论哪个领域,“Agent”都多数情况下都在指:“拥有行动的替身,都是替代他人做某事“

Others are asking
什么是AI AGENT
AI Agent 是基于大型语言模型(LLM)和其他技术实现的智能实体,其核心功能在于自主理解、规划决策、执行复杂任务。 AI Agent 包括以下几个概念: 1. Chain:通常一个 AI Agent 可能由多个 Chain 组成。一个 Chain 视作是一个步骤,可以接受一些输入变量,产生一些输出变量。大部分的 Chain 是大语言模型完成的 LLM Chain。 2. Router:我们可以使用一些判定(甚至可以用 LLM 来判定),然后让 Agent 走向不同的 Chain。例如:如果这是一个图片,则 a;否则 b。 3. Tool:Agent 上可以进行的一次工具调用。例如,对互联网的一次搜索,对数据库的一次检索。 总结下来我们需要三个 Agent: 1. Responser Agent:主 agent,用于回复用户(伪多模态)。 2. Background Agent:背景 agent,用于推进角色当前状态(例如进入下一个剧本,抽检生成增长的记忆体)。 3. Daily Agent:每日 agent,用于生成剧本,配套的图片,以及每日朋友圈。 这三个 Agent 每隔一段时间运行一次(默认 3 分钟),运行时会分析期间的历史对话,变更人物关系(亲密度,了解度等),变更反感度,如果超标则拉黑用户,抽简对话内容,提取人物和用户的信息成为“增长的记忆体”,按照时间推进人物剧本,有概率主动聊天(与亲密度正相关,跳过夜间时间)。 此外,心灵社会理论认为,智能是由许多简单的 Agent(分等级、分功能的计算单元)共同工作和相互作用的结果。这些 Agent 在不同层次上执行不同的功能,通过协作实现复杂的智能行为。心灵社会将智能划分为多个层次,从低层次的感知和反应到高层次的规划和决策,每个层次由多个 Agent 负责。每个 Agent 类似于功能模块,专门处理特定类型的信息或执行特定任务,如视觉处理、语言理解、运动控制等。智能不是集中在单一的核心处理单元,而是通过多个相互关联的 Agent 共同实现。这种分布式智能能够提高系统的灵活性和鲁棒性,应对复杂和多变的环境。同时,在《心灵社会》中,还存在专家 Agent(拥有特定领域知识和技能,负责处理复杂的任务和解决特定问题)、管理 Agent(协调和控制其他 Agent 的活动,确保整体系统协调一致地运行)、学习 Agent(通过经验和交互,不断调整和优化自身行为,提高系统在不断变化环境中的适应能力)。从达特茅斯会议开始讨论人工智能(Artificial Intelligence),到马文·明斯基引入“Agent”概念,往后,我们都将其称之为 AI Agent。
2025-03-06
用ai作为自己的教练agent如何实现
要将 AI 作为自己的教练 Agent 实现,需要考虑以下几个方面: 1. 构建数字人灵魂: AI Agent:需要编写像人一样的 Agent,工程实现所需的记忆模块、工作流模块、各种工具调用模块的构建具有挑战性。 驱动躯壳的实现:定义灵魂部分的接口,躯壳部分通过 API 调用,如 HTTP、WebSocket 等,但要处理好包含情绪的语音表达以及躯壳的口型、表情、动作和语音的同步及匹配。 实时性:由于算法部分组成庞大,几乎不能单机部署,需解决网络耗时和模型推理耗时导致的响应慢问题。 多元跨模态:不仅要有语音交互,还可根据实际需求加入其他感官,如通过添加摄像头数据获取视觉信息。 拟人化场景:处理好插话、转移话题等非线性对话情景。 2. 借助开源社区力量: 推荐使用像 dify、fastgpt 等成熟的高质量 AI 编排框架,可快速编排出自己的 AI Agent。 例如在开源项目中使用 dify 框架,能利用其编排和可视化交互修改流程,构造不同的 AI Agent,实现复杂功能,如知识库搭建、工具使用等,无需编码和重新部署。 Dify 的 API 暴露了 audiototext 和 texttoaudio 接口,可用于数字人的语音识别和生成控制。 对于高度定制的模型,可在 Dify 中接入 XInference 等模型管理平台并部署自己的模型,同时数字人 GUI 工程保留多个模块以保持扩展。 然而,在实际操作中也存在一些问题,如沉淀领域知识喂给 AI 并不断调教并非能保持愉悦,可能会从兴奋转为嫌弃,且国产大模型存在一些桎梏,调优反复,多数人尝试后又回到舒适模式。但仍可通过不断探索和尝试来实现将 AI 作为教练 Agent 的目标。
2025-03-06
有类似cherrystudio这种专门用于生图的Agent?
目前尚未有像 CherryStudio 这样专门用于生图的知名 Agent 。但在 AI 领域,不断有新的工具和技术出现,您可以持续关注相关的科技动态以获取最新信息。
2025-03-06
纯小白,要如何入行Ai Agent
对于纯小白入行 AI Agent,以下是一些建议: 1. 学习与实践并进:像元子一样,从简单的需求表达开始,逐渐熟练掌握,多尝试不同的 AI 工具,选定自己感兴趣的方向,如 AI Agent。可以参考社区小伙伴的 100 天 AI 之路,如《雪梅 May 的 AI 学习日记》。 2. 勇于提问:不要害怕问“笨”问题,多直接向 AI 提问。 3. 注重积累:解决一个小问题也是进步,不积跬步无以至千里。 4. 多试多练:这是掌握 AI Agent 的关键,还可以加入社区共同学习。 5. 学以致用:将 AI 融入生活和工作,学完就用,保持学习的动力和持久性。 在实际操作方面,参考一泽 Eze 的方法: 1. 梳理思路:理解 Prompt 工程中通过逻辑思考从知识经验中抽象关键方法与要求的理念,并将其应用于 Coze 中创建 AI Agent。 2. 搭建工作流驱动的 Agent 分为三个步骤: 规划:制定任务的关键方法,包括总结任务目标与执行形式,将任务分解为可管理的子任务,确立逻辑顺序和依赖关系,设计每个子任务的执行方法。 实施:在 Coze 上搭建工作流框架,设定每个节点的逻辑关系,详细配置子任务节点,并验证每个子任务的可用性。 完善:整体试运行 Agent,识别功能和性能的卡点,通过反复测试和迭代,优化至达到预期水平。然后从制定关键方法与流程,梳理「结构化外文精读专家」Agent 的任务目标。
2025-03-06
ai agent 好用的软件
以下是一些好用的 AI Agent 软件: 1. Coze:新一代一站式 AI Bot 开发平台,集成丰富插件工具,适用于构建各类问答 Bot,能拓展 Bot 能力边界。 2. Microsoft 的 Copilot Studio:主要功能包括外挂数据、定义流程、调用 API 和操作,以及将 Copilot 部署到各种渠道。 3. 文心智能体:百度推出的基于文心大模型的智能体平台,支持开发者打造产品能力。 4. MindOS 的 Agent 平台:允许用户定义 Agent 的个性、动机、知识,以及访问第三方数据和服务或执行工作流。 5. 斑头雁:2B 基于企业知识库构建专属 AI Agent 的平台,适用于客服、营销、销售等场景,提供多种成熟模板,功能强大且开箱即用。 6. 钉钉 AI 超级助理:依托钉钉强大的场景和数据优势,在处理高频工作场景如销售、客服、行程安排等方面表现出色。 此外,还有以下相关的新产品: 1. ThinkGPT by Jina AI:来自中国创业团队 Jina AI(作者来自德国),让 LLM 拥有更强的推理与执行能力,构建模块包括记忆、自我改进、压缩知识、推理与自然语言环境,实现的功能有用长期记忆和压缩知识解决有限上下文问题、通过更高阶的推理基元增强 LLM 的单次推理能力、为代码库增加智能决策能力。链接:https://github.com/jinaai/thinkgpt 2. Gradiotools:Hugging Face Spaces 上可以将成千上万个 Gradio 应用程序转换为工具的 Python 库,基于 LLM 的代理可利用这些工具完成任务,目前支持 LangChain 和 MiniChain 代理库,附带一组预先搭建的工具,如 StableDiffusionTool、ImageCaptionTool、ImageToMusicTool 等。
2025-03-05
ai agent
AI 智能体在多个领域有着广泛的应用和发展。 在品牌卖点提炼中,AI 智能体可以发挥作用。AI 在逻辑推理、数据分析、内容理解和输出方面有优势,但在应用前需明确其能力边界,例如它对公司的主要产品、产品解决的用户需求、产品独特之处、获得的认可、核心渠道、核心购买人群、营销手段、期望的新渠道结果等了解程度接近于 0。因此,更适合将其构建为引导型的助手,在寻找卖点过程中提供思考维度和灵感。 Menlo Ventures 认为生成式 AI 应用有搜索、合成和生成三个核心用例与强大的产品市场契合度,其中心是少样本推理能力。但生成式人工智能的潜力不止于此,领先的应用程序构建商正在建立解决方案处理大量人力工作流程。借助新型构建块,下一波智能体正在拓展 AI 能力边界,实现端到端流程自动化。未来的完全自主智能体可能拥有多构建块,而当前的 LLM 应用和智能体尚未达到此水平。例如流行的 RAG 架构不是智能体式的,而将 LLM 置于应用程序控制流中让其动态决定行动等时智能体才出现。Menlo 确定了决策智能体、轨道智能体和通用人工智能体三种智能体类型,并探讨了五种参考架构和每种类型的示例。
2025-03-04
如何把图片生成动态立体图
目前在将图片生成动态立体图方面,相关技术和方法还在不断发展和探索中。常见的途径可能包括使用专业的图形设计软件,如 3D 建模工具,通过对图片进行深度分析和建模来实现动态立体效果。但具体的操作过程会因软件的不同而有所差异。另外,一些新兴的 AI 图像生成技术也可能在未来为这一需求提供更便捷的解决方案。
2025-03-05
最新的AI行业动态和进展有哪些,包含2025年
以下是关于最新的 AI 行业动态和进展(包含 2025 年)的内容: 2024 年: 图片超短视频的精细操控:包括表情、细致动作、视频文字匹配。 有一定操控能力的生成式短视频:风格化、动漫风最先成熟,真人稍晚。 AI 音频能力长足进展:带感情的 AI 配音基本成熟。 “全真 AI 颜值网红”出现,可以稳定输出视频,可以直播带货。 游戏 AI NPC 有里程碑式进展,出现新的游戏生产方式。 AI 男/女朋友聊天基本成熟:记忆上有明显突破,可以较好模拟人的感情,产品加入视频音频,粘性提升并开始出圈。 实时生成的内容开始在社交媒体内容、广告中出现。 AI Agent 有明确进展,办公场景“AI 助手”开始有良好使用体验。 AI 的商业模式开始有明确用例:数据合成、工程平台、模型安全等。 可穿戴全天候 AI 硬件层出不穷,虽然大多数不会成功。 中国 AI 达到或超过 GPT4 水平;美国出现 GPT5;世界上开始现“主权 AI”。 华为昇腾生态开始形成,国内推理芯片开始国产替代(训练替代要稍晚)。 AI 造成的 DeepFake、诈骗、网络攻击等开始进入公众视野,并引发担忧。 AI 立法、伦理讨论仍然大规模落后于技术进展。 2025 2027 年: AI 3D 技术、物理规则成熟:正常人无法区别 AI 生成还是实景拍摄。 全真 AI 虚拟人成熟:包含感情的 AI NPC 成熟,开放世界游戏成熟;游戏中几乎无法区别真人和 NPC。 AR/VR 技术大规模商用。 接近 AGI 的技术出现。 人与 AI 配合的工作方式成为常态,很多日常决策开始由 AI 来执行。 AI 生产的数据量超过全人类生产数据量,“真实”成为稀缺资源。 具身智能、核聚变、芯片、超导、机器人等技术有明显进展突破。 “人的模型”出现,出现“集中化 AGI”与“个人 AGI”的历史分叉。 AI 引发的社会问题开始加重,结构性失业开始出现。 AGI 对于地缘政治的影响开始显露。 此外,还有以下相关动态: 算力瓶颈不只是单纯的技术和建设问题,而是影响整个行业竞争格局的重要变量。 逐渐进入多模态灵活转换的新时代,实现文本、图像、音频、视频及其他更多模态之间的互相理解和相互转换。 人类劳动形式逐步“软件化”,复杂劳动被抽象为可调用的软件服务,劳动流程被大幅标准化和模块化,劳动能力像“即插即用”的工具一样易于获取。 AI 行业目前仍处于严重亏损的阶段,商业化进程仍有巨大提升空间。 云厂商是产业链中毋庸置疑的“链主”。 2024 年,头部 AI 应用的品类变化并不显著。创意工具(如图像和视频内容创作)依然占据最大比重。To P(面向专业用户)应用展现出强大的市场潜力,ToB(面向企业)应用发展路径相对复杂,ToC 应用面临较大的挑战。 在 AI 应用领域,Copilot 和 AI Agent 是两种主要的技术实现方式。 北美和欧洲贡献了 AI 移动应用市场三分之二的份额,众多中国 AI 公司积极出海。 2024 年 10 月的大事记包括: Gartner 发布 2025 年十大战略技术趋势。 DeepSeek 开源多模态 LLM 框架 Janus。 司南开源大模型能力评估模型 CompassJudger。 Anthropic 发布新功能 computer use,发布 Claude 3.5 Haiku,更新 Claude 3.5 Sonnet。 Stability AI 发布 Stable Diffusion 3.5。 x.AI 正式推出 API。 ComfyUI V1 官方桌面版开放内测。 华为发布纯血操作系统鸿蒙 OS NEXT。 Jina AI 推出高性能分类器 Classifier API。 OpenAI 发布图像生成模型 sCM。 Midjourney 上线外部图片编辑器。 Runway 发布动画视频功能 ActOne。 Ideogram 推出 AI 画板工具 Canvas。 Genmo 开源视频生成模型 Mochi 1。 荣耀发布操作系统 MagicOS 9.0。 美国 14 岁少年与 C.AI 聊天后离世。 新华社发文表示警惕「AI 污染」乱象。 港中文&趣丸推出 TTS 模型 MaskGCT。 科大讯飞发布讯飞星火 4.0 Turbo。 阿里通义代码模式开始内测。 Anthropic Claude 新增数据分析功能。 北京市大中小学推广 AI 学伴和 AI 导学应用。 稚晖君开源「灵犀 X1」全套资料。 OpenAI 高管 Miles Brundage 离职。
2025-02-17
最新的AI行业动态和进展有哪些
以下是最新的 AI 行业动态和进展: 1. 《2024 年度 AI 十大趋势报告》发布,其中提到大模型创新方面,架构优化加速涌现,融合迭代大势所趋;Scaling Law 泛化方面,推理能力成皇冠明珠,倒逼计算和数据变革;AGI 探索方面,视频生成点燃世界模型,空间智能统⼀虚拟和现实;AI 应用格局方面,第⼀轮洗牌结束,聚焦 20 赛道 5 大场景;AI 应用竞争方面,多领域竞速运营大于技术,AI 助手兵家必争;AI 应用增长方面,AI+X 赋能类产品大干快上,原生 AI 爆款难求;AI 产品趋势方面,多模态上马,Agent 席卷⼀切,高度个性化呼之欲出;AI 智变千行百业,左手变革生产力,右手重塑行业生态;AI 行业渗透率方面,数据基础决定初速度,用户需求成为加速度;AI 创投方面,投融资马太效应明显,国家队出手频率提升。 2. 2024 年 9 月的 AI 行业大事记: 9 月 12 日:李继刚再现神级 Prompt,玩法持续翻新;Mistral 发布首个多模态模型 Pixtral 12B。 9 月 13 日:商汤 Vimi 相机开放微博小程序;元象开源中国最大 MoE 大模型 XVERSEMoEA36B;OpenAI 发布 o1 模型。 9 月 14 日:人工智能生成合成内容标识办法(征求意见稿);Jina AI 发布 ReaderLM 和 Jina Embeddings V3。 9 月 18 日:DeepSeek 发文庆祝登上 LMSYS 榜单国产第一,几小时后 Qwen 新模型表示不服。 9 月 19 日:云栖大会;通义万相 AI 生视频上线;快手可灵 1.5 模型新增运动笔刷能力。 9 月 20 日:腾讯元器智能体对外发布;秘塔科技产品经理 JD 走红 AI 圈;阶跃跃问接入 Step2 万亿参数 MoE 语言大模型。 9 月 21 日:大模型测试基准研究组正式成立。 9 月 23 日:钉钉 365 会员上线。 9 月 24 日:讯飞星火 API 全新升级;豆包大模型全系列发布&更新。 9 月 25 日:Vidu API 正式开放,加速企业级视频创作;OpenAI 发布高级语音功能;西湖心辰开源 WestlakeOmni。 3. 2024 年,国内 AI 行业融资总金额增加,但事件数同比下降,马太效应越发明显,资本更青睐热点和高成熟度赛道。智能驾驶在各细分赛道中独占鳌头,AI+教育、AI+游戏、AI+医疗等赛道投资总额也有增长。政府积极推进 AI 原生行业发展,北京、上海、武汉等城市出台系列政策吸引人才和企业,国家队频繁投资体现政策支持。
2025-02-17
最新的AI行业动态和进展有哪些
以下是最新的 AI 行业动态和进展: 1. 《2024 年度 AI 十大趋势报告》发布,其中提到: 大模型创新方面,架构优化加速涌现,融合迭代大势所趋。 Scaling Law 泛化,推理能力成皇冠明珠,倒逼计算和数据变革。 AGI 探索中,视频生成点燃世界模型,空间智能统⼀虚拟和现实。 AI 应用格局方面,第一轮洗牌结束,聚焦 20 赛道 5 大场景。 AI 应用竞争中,多领域竞速运营大于技术,AI 助手兵家必争。 AI 应用增长方面,AI+X 赋能类产品大干快上,原生 AI 爆款难求。 AI 产品趋势为多模态上马,Agent 席卷一切,高度个性化呼之欲出。 AI 智变千行百业,左手变革生产力,右手重塑行业生态。 AI 行业渗透率方面,数据基础决定初速度,用户需求成为加速度。 AI 创投方面,投融资马太效应明显,国家队出手频率提升。 2. 2024 年 9 月的 AI 行业大事记: 9 月 12 日:李继刚再现神级 Prompt,玩法持续翻新;Mistral 发布首个多模态模型 Pixtral 12B。 9 月 13 日:商汤 Vimi 相机开放微博小程序;元象开源中国最大 MoE 大模型 XVERSEMoEA36B;OpenAI 发布 o1 模型。 9 月 14 日:人工智能生成合成内容标识办法(征求意见稿);Jina AI 发布 ReaderLM 和 Jina Embeddings V3。 9 月 18 日:DeepSeek 发文庆祝登上 LMSYS 榜单国产第一,几小时后 Qwen 新模型表示不服。 9 月 19 日:云栖大会;通义万相 AI 生视频上线;快手可灵 1.5 模型新增运动笔刷能力。 9 月 20 日:腾讯元器智能体对外发布;秘塔科技产品经理 JD 走红 AI 圈;阶跃跃问接入 Step2 万亿参数 MoE 语言大模型。 9 月 21 日:大模型测试基准研究组正式成立,国家队来了。 9 月 23 日:钉钉 365 会员上线。 9 月 24 日:讯飞星火 API 全新升级;豆包大模型全系列发布&更新。 9 月 25 日:Vidu API 正式开放,加速企业级视频创作;OpenAI 发布高级语音功能;西湖心辰开源 WestlakeOmni。 3. 从行业视角来看,2024 年国内 AI 行业融资总金额增加,但事件数同比下降,马太效应越发明显,资本更青睐热点和高成熟度赛道。智能驾驶在各细分赛道中独占鳌头,AI+教育、AI+游戏、AI+医疗等赛道投资总额也有增长。在政策方面,政府积极推进 AI 原生行业发展,北京、上海、武汉等城市出台系列政策吸引人才和企业,国家队频繁出手投资体现政策支持。
2025-02-17
想在手机上通过宠物照片给宠物建模,是宠物可以有一些动态性,需要怎么做?利用 AIGC 能快速的实现吗?
在手机上通过宠物照片给宠物建模并实现一定的动态性,可以考虑以下几种方式: 1. 利用 3D 引擎:目前有一些公司提供通过手机摄像头快速创建虚拟人身体的服务,例如 NextHuman。不过,3D 引擎在拟真程度高的同时,定制化成本也较高。 2. 借助 AIGC:虽然 AIGC 省去了建模流程,能直接生成数字人的展示图片,但可能存在数字人难以保持 ID 一致性、帧与帧连贯性不佳等问题。典型的相关项目有 wav2lip等。但需要注意的是,如果对模型真实度要求较高,AIGC 方式可能不太理想,因为算法发展很快,未来可能会有更好的连贯度生成方式。 目前利用 AIGC 来快速实现可能存在一些挑战,但随着技术的发展,未来有可能更便捷高效地达成您的需求。
2025-02-13
AI的最新动态
以下是 AI 的一些最新动态: 《2024 年度 AI 十大趋势报告》发布,其中包括大模型创新,架构优化加速涌现,融合迭代大势所趋;Scaling Law 泛化,推理能力成皇冠明珠,倒逼计算和数据变革;AGI 探索,视频生成点燃世界模型,空间智能统⼀虚拟和现实;AI 应用格局,第⼀轮洗牌结束,聚焦 20 赛道 5 大场景;AI 应用竞争,多领域竞速运营大于技术,AI 助手兵家必争;AI 应用增长,AI+X 赋能类产品大干快上,原生 AI 爆款难求;AI 产品趋势,多模态上马,Agent 席卷⼀切,高度个性化呼之欲出;AI 智变千行百业,左手变革生产力,右手重塑行业生态;AI 行业渗透率,数据基础决定初速度,用户需求成为加速度;AI 创投,投融资马太效应明显,国家队出手频率提升。 对于新手学习 AI,要持续学习和跟进,AI 是快速发展的领域,新的研究成果和技术不断涌现。关注 AI 领域的新闻、博客、论坛和社交媒体,保持对最新发展的了解。考虑加入 AI 相关的社群和组织,参加研讨会、工作坊和会议,与其他 AI 爱好者和专业人士交流。 《2024 年度 AI 十大趋势报告》从技术、产品、行业三个维度勾勒 AI 现状、展望未来走势。区别于其他智库和研究机构,量子位智库基于长期理解把握和深厚积淀,持续跟踪领域在产学研届的创新、洗牌、动态,结合对近百家初创公司、研究院、投资机构的深度交流。报告不仅深入剖析前沿科技如何迭代技术能力、重塑商业版图、引领产业升级,还敏锐洞察变革趋势,对未来路径进行前瞻性展望。该报告得到了产学研领域众多机构的支持。
2025-02-04
最新AI大模型
以下是关于最新 AI 大模型的相关知识: 1. 概念:生成式 AI 生成的内容称为 AIGC。 2. 概念与关系: AI 即人工智能。 机器学习是电脑找规律学习,包括监督学习、无监督学习、强化学习。 监督学习是利用有标签的训练数据,学习输入和输出之间的映射关系,包括分类和回归。 无监督学习是在学习的数据没有标签的情况下,算法自主发现规律,经典任务如聚类。 强化学习是从反馈中学习,以最大化奖励或最小化损失,类似训小狗。 深度学习是一种参照人脑有神经网络和神经元(因层数多而称为深度)的方法,神经网络可用于监督学习、无监督学习、强化学习。 生成式 AI 可以生成文本、图片、音频、视频等内容形式。 LLM 是大语言模型,对于生成式 AI,生成图像的扩散模型不是大语言模型;对于大语言模型,生成只是其中一个处理任务,如谷歌的 BERT 模型,可用于语义理解(不擅长文本生成),如上下文理解、情感分析、文本分类。 3. 技术里程碑:2017 年 6 月,谷歌团队发表论文《Attention is All You Need》,首次提出了 Transformer 模型,它完全基于自注意力机制(SelfAttention)来处理序列数据,而不需要依赖于循环神经网络(RNN)或卷积神经网络(CNN)。
2025-03-06
最近ai有什么最新发展或者大事件?
以下是 AI 领域的一些最新发展和大事件: 3 月:AI 发展持续升温,潞晨科技发布 OpenSora,Suno 发布 V3 版本爆火。 4 月:英伟达发布硬件,股价飙升。 5 月:苹果发布 AI 芯片,张吕敏发布 IC light,AI 竞争白热化,伊莉雅离开 OpenAI 并成立新公司,估值超五亿美金。 7 月:快手开源 LivePortrait 模型,用于表情迁移。 8 月:StabilityAI 老板成立新公司发布 flux 大模型。 9 月:阿里云发布模型,海螺 AI 参战;Google 发布 GameGen 实时生成游戏;通义千问 2.5 系列全家桶开源;华为发布 cloud matrix 云计算基础设施;GPT 高级语音模式上线;Meta 发布 AI 眼镜 Orion;AI 代码编辑器 cursor 爆火。 10 月:Pika 发布 1.5 模型;诺奖颁发给 AI 奠基人;特斯拉发布机器人;Adobe 发布 Illustrator+Al 生成矢量图;智谱 AI 发布 autoGLM;腾讯混元开源 3D 模型。 此外,在法律法规方面,《促进创新的人工智能监管方法》指出:AI 概念并非新事物,但数据生成和处理方面的近期进展改变了该领域及其产生的技术。AI 已在许多领域带来重大进步和效率提升,如交通监控、银行账户欺诈检测、工业中的大规模安全关键实践、新药发现和应对气候变化的技术等。随着 AI 变得更强大,创新者探索新的使用方式,将有更多应用出现,其具有巨大的增长潜力和创造就业的能力。同时,也对 AI 特定风险及其潜在危害进行了初步评估,并提及了一些交叉的高级风险。
2025-03-05
你现在有哪些最新更新的内容呢?
以下是最新更新的内容: 1. GPTs 实战:“摩斯密码” 作者景淮为平衡用户能力对内容做了调整,降低提示词复杂度。 文章风格调整,希望帮助为孩子接触 AI 的家长找到切入点。 内容包括需求分析、分步实现需求、提示词编写测试、GPTs 使用链接和总结。 2. 2024 年历史更新(归档) 2024 年 5 月 26 日更新了多份研究报告和演讲报告,包括《PublicFirst:公众如何看待 AI?(英译中)》《通义灵码:软件开发新范式》《人工智能行业:AI 时代最不该焦虑的,其实是内容创作者》《麦肯锡:人工智能行业:工作的新未来》《惠普&上海人工智能研究院:2024AIPC 赋能新质生产力》《百度智能云&长江云:面向 AIGC 的数智广电新质生产力构建白皮书》《COPU&IBM:2024 可信赖的企业级生成式 AI 白皮书》。 3. PixVerse V3 使用指南 本次更新包括已有能力升级,如提供更精准的提示词理解能力和更惊艳的视频动态效果,支持多种视频比例和风格化选择,文生视频和图生视频的风格化。 全新功能上线,如对口型功能、8 个创意效果和视频延长功能。
2025-03-05
AI在人力资源方面的最新应用实践
AI 在人力资源方面的最新应用实践包括以下几个方面: 1. 招聘初期:如职位描述生成、简历分析、面试题设计。 2. 员工绩效评估:分析员工工作表现,识别绩效趋势和提升点,为管理层提供数据支持的绩效反馈。 3. 员工培训与发展:辅助员工的培训和职业发展规划。 在全行业中,基础办公提效方面,如 PPT、Excel、会议报告、策划会、文案包装、图文海报、客服机器人 bot 等,都可以从【单个任务 task>角色 role>角色间协同 collaboration】显著提高工作效率。 例如在游戏行业,网易推出的首款 AI 手游《逆水寒》,将 AIGC 应用于美术开发,在 NPC 与玩家的交互上呈现独特的剧情体验,还内嵌了全自动“AI 作词机”。 在文科白领方面,AI 在个人助理、呼叫中心、文本处理和教育等领域表现出色,能完成 80%到 90%的工作。 用友的调研报告预测,随着技术进步,AI 将进一步推动个性化人力资源管理,创造无人值守的 HR 平台,推动企业持续发展。
2025-03-03
最新agi新闻
以下是为您整理的最新 AGI 新闻: 2024 年 7 月: 苹果发布 AI 原生操作系统,加强硬件和模型布局;Claude Sonnet 3.5 发布,挑战 OpenAI;视频生成领域 Runway Gen3 和快手可灵表现优秀;AI 3D 技术逐渐崭露头角;Google 和月之暗面推出长上下文缓存技术。 快手发布可灵网页版及大量模型更新;阶跃星辰发布多款模型;商汤打造类似 GPT4o 的实时语音演示;GraphRAG:微软开源新型 RAG 架构。 红杉资本美国合伙人 Pat Grady 在最新访谈中表示,AI 技术将为服务行业带来变革机遇,而非取代软件公司。AI 的潜力在于赋能服务行业,但人际关系和实际执行仍需人工。对于基础模型公司,Grady 认为它们可能像数据库公司一样发展,提供开发者 API,有机会进入应用层。他认为现有模型已足够强大,关键在于工程化优化和认知架构设计。 2024 年 10 月: 《Orange AI 的 9 月小结:AI 自媒体、AI 播客、AI 酒吧…AI 浓度太高了》提到鼓励建立自媒体,推出中文版 AI 播客 Demo 并吸引大量参与者,开设 AI 酒吧 Bar2AGI,参与 Demo Inn 和云栖大会,感受到行业快速发展和乐观氛围。 《AIGC Weekly91》指出国庆节期间的重要 AI 新闻,包括 OpenAI 推出 Canvas 功能和实时 API,微软发布新版 Copilot,具备深度系统集成和实时语音功能;Meta 发布 Meta Movie Gen 视频生成模型,自动配音质量高;LiquidAI 发布非 Transformer 模型 LFMs,推理效率显著提高。此外,Sora 项目负责人离职、多个新模型和工具发布,以及 OpenAI 完成新一轮融资,估值达到 1570 亿美元。 下篇:2024,分叉与洪流中提到,如果从“AGI 已经出现”的阴谋论出发,AGI 所需要的基本资源一定无法回避,它会在能源、算力、机器人等领域全力“协助”人类。比如在能源领域,有着“永远还差 50 年”称号的可控核聚变技术在 AI 的协助下开始有了松动,普林斯顿大学等离子体物理实验室通过 AI 成功在离子体撕裂前 300ms 进行了预测。从全人类能源供给的角度,唯一有希望提升全人类能源供给数量级的就是可控核聚变。在能源即将开始成为 AI 瓶颈的今天,AGI 如果有了意识,那一定会全力“协助”人类突破核聚变技术。
2025-02-28
通义千问最新模型
通义千问最新模型情况如下: 发布了一个模型并开源了两个模型。 Qwen2.5Max:全新升级发布,比肩 Claude3.5Sonnet,几乎全面超越 GPT4o、DeepSeekV3 及 Llama3.1405B。是阿里云通义团队对 MoE 模型的最新探索成果,预训练数据超过 20 万亿 tokens。在多项公开主流模型评测基准上录得高分,开发者可在 Qwen Chat(https://chat.qwenlm.ai/)平台免费体验模型,企业和机构也可通过阿里云百炼平台直接调用新模型 API 服务。 Qwen2.5VL:全新视觉模型实现重大突破,增强物体识别与场景理解,支持文本、图表、布局分析,可处理长达 1 小时视频内容,具备设备操作的 Agent 能力。 Qwen2.51M:推出 7B、14B 两个尺寸,在处理长文本任务中稳定超越 GPT4omini,同时开源推理框架,在处理百万级别长文本输入时可实现近 7 倍的提速,首次将开源 Qwen 模型的上下文扩展到 1M 长度。在上下文长度为 100 万 Tokens 的大海捞针任务中,7B 模型出现少量错误。在更复杂的长上下文理解任务中,Qwen2.51M 系列模型在大多数长上下文任务中显著优于之前的 128K 版本,Qwen2.514BInstruct1M 模型不仅击败了 Qwen2.5Turbo,还在多个数据集上稳定超越 GPT4omini。
2025-02-26