Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

李飞飞提出的Agent AI的核心观点是什么

Answer

李飞飞提出的核心观点包括:

  • 人工智能的下一步应从大型语言模型转向大型模型,强调视觉智能在理解和与世界互动中的重要性,计算机需要具备空间智能,能够建模、推理并在三维空间中互动。
  • 通过空间智能,AI 将理解真实世界,能够处理视觉数据,做出预测并根据这些预测采取行动。空间智能使机器不仅能够相互交互,还能与人类以及真实或虚拟的三维世界进行交互。
Content generated by AI large model, please carefully verify (powered by aily)

References

2024 年历史更新(归档)

《[李飞飞:理解世界运作方式是AI的下一步,我们需要从大语言模型转向大世界模型](https://mp.weixin.qq.com/s/mYUau7QMt82rS_iE7TPFJg)》李飞飞认为,人工智能的下一步应从大型语言模型转向大型模型,强调视觉智能在理解和与世界互动中的重要性。计算机需要具备空间智能,能够建模、推理并在三维空间中互动。通过最新的AI技术,机器可以根据文本提示完成任务,并在虚拟环境中导航。未来,这种以人为中心的人工智能将在家庭护理、医疗支持等领域发挥重要作用。《[吴恩达最新演讲——AI四大趋势](https://mp.weixin.qq.com/s/aZaOVVut-t1OenbidpFAjQ)》在吴恩达的主题演讲中,他探讨了智能体(AI Agents)和智能体推理(Agentic Reasoning)的崛起,强调非结构化数据的重要性。演讲指出,生成式AI使得应用开发速度大幅提升,快速实验成为创新的新路径,但同时带来了评估的挑战。吴恩达还提出了智能体AI的四大设计模式,并强调图像处理革命的潜力。他总结了四大趋势:加速的生成式工作流、工具优化的大模型、非结构化数据的重要性以及图像处理技术的发展。《[OpenAI主推的AI PDF工具,一年50万用户,团队只有5个人](https://mp.weixin.qq.com/s/ep4neZsa-q1a0awaQJthKA)》AI PDF是一款专注于处理PDF文件的工具,创始人Vicente Silveira认为小团队可以通过精细化功能在竞争中生存。尽管ChatGPT已允许用户上传PDF,AI PDF仍凭借支持多文件夹管理和用户特定需求,吸引了大量专业用户,如律师和研究员。团队通过聚焦特定用户群体和高效文档处理,取得了50万注册用户和3000名付费用户的成绩。

智变时代 / 全面理解机器智能与生成式 AI 加速的新工业革命

在上一篇《机器之心的进化》中,还在把纯视觉方式的FSD当作自动驾驶领域值得探索的前沿方向在讨论,不到两年时间,全北美一百多万辆Tesla里面已经预装了最新的FSD 12,就像在系统升级说明里面写到的:“我们移除了最后几万行人类写的C++代码,把自动驾驶改成了完全由神经网络端到端控制”,也就是光子进入,行动输出,中间完全由神经网络黑箱操作,软件2.0的成功范本。今年三月底升级到FSD 12.3.3之后,我现在大部分时间的驾驶都是让AI代劳的。第一趟体验就让我和之前的版本有了强烈的对比,头脑里的第一反应这就是自动驾驶的ChatGPT时刻,虽然还有许多小问题,但已经确立了纯视觉加上神经网络控制的可行性,接下来就和训练LLMs一样,靠算力和数据就能提升效果了。让车在物理世界中自我行动,这是空间智能(Spatial Intelligence)的第一步。路透社报道,在计算机视觉上有过杰出成就的李飞飞教授,正在打造一家与“空间智能”有关的初创公司。她在2024年最新的TED演讲中解释了这个概念:“通过空间智能,AI将理解真实世界,它们能够处理视觉数据,做出预测并根据这些预测采取行动”。配图3.09:李飞飞TED演讲(With Spatial Intelligence,AI Will Understand the Real World)

智变时代 / 全面理解机器智能与生成式 AI 加速的新工业革命

就像李飞飞在TED演讲中所描述的:“在那片原始海洋中,也就是我们的远古时代,眼睛的出现引发了寒武纪生命的大爆发。今天,这束光正在照进数字的心灵。空间智能使机器不仅能够相互交互,还能与人类以及真实或虚拟的三维世界进行交互。随着这个未来成为现实,它将对许多人的生活产生深远的影响。”回应本章开头的结论,如果我们能够提升全世界的智能供应,那将普惠到所有行业,尤其是通过人工来进行生产与服务的行业。当智能让机器更加灵巧,能源的充沛让智能无限便宜的时候,我们复制原子的成本就会将接近复制比特的成本,在《数字重塑人生》一文中详细讨论了这个话题。在智能时代,将劳动力支出转化为研发支出将改变公司的成本结构,虽然这需要更多的前期投资,但能降低生产和服务的边际成本。软件行业是这里的代表,它应该是法律许可的行业内,利润率最高的行业之一了。软件业的研发投入的平均比例为17.7%,科研服务的投入略高一些,大约为26.3%,这里包括了生物技术、纳米技术、先进材料和可再生能源等;但相比之下,制造业的占比为5%,而金融和保险业仅为为0.6%。如果这些行业的研发投入比能提高,那每个行业都会看起来更像软件行业,更快的增长,更高的利润和更多的研发。然而,这里真正的大机会是:大部分经济可能看起来像SaaS模式,有更深的护城河、更高的转换成本、有意义的经济规模,甚至是网络效应。例如,还在萌芽期的RoboTaxi服务如果能够顺利启动和运行,它将具备上述所有的特点。

Others are asking
AI办公赛道有什么agent
以下是关于 AI 办公赛道中一些 agent 的相关信息: 陈财猫在 AI 写作方面开发了小财鼠程序版 agent,认为 AI+内容创作是现阶段较好的赛道。 一些常见的 Agent 构建平台包括: Coze:新一代一站式 AI Bot 开发平台,集成丰富插件工具。 Microsoft 的 Copilot Studio:具备外挂数据、定义流程等功能。 文心智能体:百度推出的基于文心大模型的智能体平台。 MindOS 的 Agent 平台:允许用户定义 Agent 的个性、动机等。 斑头雁:2B 基于企业知识库构建专属 AI Agent 的平台。 钉钉 AI 超级助理:依托钉钉优势,在高频工作场景表现出色。 此外,还有关于生成式 AI 季度数据报告 2024 年 1 3 月中 Agents 的相关图谱和数据,如 a16z 图谱、E2B Agent 系列图谱等,其中提到该赛道天花板潜力达几百亿美金,总体趋势高速增长,竞争方面存在一定特点,Top1 公司如 GitLab 等相关情况。
2025-01-14
AI日常办公写作的agent可以怎么做
以下是关于 AI 日常办公写作的 agent 的一些相关内容: Notion CEO 认为,在未来 1 2 年内 AI 会有明显突破,其中被低估的领域是 RAG。现在可以直接询问 Notion AI 想要搜寻的问题获取答案,另外值得期待的是 Work Agent 也已受到很多关注。 陈财猫指出,AI + 内容创作是现阶段最好的赛道,基于对大模型发展现状的观察和对“开车”“写作”两类任务的对比,该赛道有完美的产品 模型匹配和产品 市场匹配,且天花板高。在 AI 写作的实践方面,业务包含营销和小说、短剧创作,开发了智能营销矩阵平台,参与喜马拉雅短故事和短剧写作课程,捣鼓出小财鼠程序版 agent。 用 AI 写出好文字的方法包括:选好模型,评估模型的文风和语言能力、是否有过度道德说教与正面描述趋势、in context learning 能力和遵循复杂指令的能力;克服平庸,平衡“控制”与“松绑”;显式归纳想要的文本特征,通过 prompt 中的描述与词语映射到预训练数据中的特定类型文本,往 prompt 里塞例子。 在实践中,例如从场景出发裂变,有很多场景类种子,如血月降临、电梯卡 bug 等新场景可打破旧规则与世界。由一个现实生活中不存在的假设出发去衍生好看的故事也是很好的凝结核,像女频网络小说中的特定流派套路或事件类型也可作为种子。故事灵感的裂变是专门化腐朽为神奇的小说点子工具,对于刚接触写作的学员,随机性的引入有用,输入不同的日常可生长出不同的精彩故事设定。
2025-01-14
AI写作的agent可以怎么做
以下是关于 AI 写作的 agent 的相关内容: AI 写作是现阶段较好的赛道,具有完美的产品模型匹配和产品市场匹配,且天花板高。其业务包含营销和小说、短剧创作,并开发了智能营销矩阵平台,参与喜马拉雅短故事和短剧写作课程,捣鼓出小财鼠程序版 agent。 用 AI 写出好文字的方法包括:选好模型,评估模型的文风和语言能力、是否有过度道德说教与正面描述趋势、in context learning 能力和遵循复杂指令的能力;克服平庸,平衡“控制”与“松绑”;显式归纳想要的文本特征,通过 prompt 中的描述与词语映射到预训练数据中的特定类型文本,往 prompt 里塞例子。 在实践方面,例如小财鼠程序版,从场景出发裂变,有很多场景类种子,如血月降临、电梯卡 bug 等新场景打破旧规则;由现实生活中不存在的假设出发衍生好看的故事也是很好的凝结核,像知乎体短故事中的常见类型;特定流派如女频网络小说中稳定的套路或事件类型也可作为种子。故事灵感的裂变是专门化腐朽为神奇的小说点子工具,学员输入日常等不同内容可生长出不同的精彩故事设定。 从赚钱和应用开发角度,有多种方式,如 Key 商、写书、卖课、接项目、做镜像站等。WebPilot 作者开发了长文写作的 Agent 并对外提供接口,效果惊艳。熟悉业务结合 AI 能力打磨产品是护城河,是 AI 应用开发者应坚持的方向。
2025-01-14
AI agent 能重构哪些场景
AI agent 在 2024 年实现了从概念到实践的关键突破,能够重构以下场景: 1. 手机操作场景:例如对着手机说“帮我给同事的朋友圈点赞”,AI 就能识别屏幕,找到相应按钮并完成操作。 2. 工作流搭建场景:可以通过自然语言构建 DSL 并还原工作流,降低用户上手门槛,例如用于 MVP 的产品测试。 3. 文案生成场景:像“Pailido|AI 拍立得”这样的产品,各个场景由 AI Agent 驱动,仅需选中场景后点击拍摄即可快速生成对应文案,包括小红书文案、外卖点评写作、闲鱼商品发布文案等。
2025-01-14
智能体(AI Agent)对比大模型在应用中的优势是什么
智能体(AI Agent)对比大模型在应用中的优势主要包括以下方面: 1. 能够回答私有领域问题,例如公司制度、人员信息等,而大模型存在无法回答此类问题的局限性。 2. 可以及时获取最新信息,如实时天气、比赛结果等,大模型在这方面有所不足。 3. 能准确回答专业问题,如复杂数学计算、图像生成等,大模型在这些方面表现欠佳。 4. 适用于多种客户场景,如有企业官网、钉钉、微信等渠道,期望为客户提供产品咨询服务的场景,以及缺少技术人员开发大模型问答应用的情况。 5. 基于大模型,通过集成特定的外部能力,弥补大模型的不足。例如集成实时信息获取、回答私有领域问题等外部能力。 6. 典型场景丰富,包括私有领域知识问答、个性化聊天机器人、智能助手等。如私有领域知识问答,只需准备好相关知识库文件,就可在百炼控制台快速创建应用;个性化聊天机器人可通过长期记忆保存关键历史对话信息,并集成夸克搜索和图像生成等插件扩展功能;智能助手可引入 RAG 能力、长期记忆和自定义插件等功能提升工作效率。 在基准测评方面,AI Agent 智能体正在最大程度释放 LLM 潜能,逐渐成为通向 AGI 的技术共识。现有关于 Agent 能力的测评,主要在英文场景或任务,目前还没有一个在中文任务和场景上针对中文大模型的全面测评。通过测评结果发现,在 Agent 核心基础能力上,国内模型已经较为接近或部分超过 GPT3.5 水平。 从原理上看,智能体中间的“智能体”就是 LLM 或大模型,通过为其增加工具、记忆、行动、规划四个能力来实现。行业里主要用到的是 langchain 框架,它把 LLM 之间以及 LLM 和工具之间通过代码或 prompt 的形式进行串接,在 prompt 层和工具层完成主要的设计逻辑。
2025-01-13
AI Agents的课程在哪里呢
以下是关于 AI Agents 课程的相关信息: 1. 在 AI 课程目录下新增了《》。 2. 同步更新到 1.8 版本,该图表由 E2b 团队制作。 3. 翻译了《》这篇文章,由 OpenAI 开发者关系负责人 Logan Kilpatrick 所写,介绍 Agents 是什么,这个领域的发展趋势,以及大量这种早期技术在实践中的精彩示例。 此外,如果您是新手学习 AI,还可以参考以下步骤: 1. 了解 AI 基本概念:首先,建议阅读「」部分,熟悉 AI 的术语和基础概念。了解什么是人工智能,它的主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。浏览入门文章,这些文章通常会介绍 AI 的历史、当前的应用和未来的发展趋势。 2. 开始 AI 学习之旅:在「」中,您将找到一系列为初学者设计的课程。这些课程将引导您了解生成式 AI 等基础知识,特别推荐李宏毅老师的课程。通过在线教育平台(如 Coursera、edX、Udacity)上的课程,您可以按照自己的节奏学习,并有机会获得证书。 3. 选择感兴趣的模块深入学习:AI 领域广泛(比如图像、音乐、视频等),您可以根据自己的兴趣选择特定的模块进行深入学习。建议您一定要掌握提示词的技巧,它上手容易且很有用。 4. 实践和尝试:理论学习之后,实践是巩固知识的关键,尝试使用各种产品做出您的作品。在知识库提供了很多大家实践后的作品、文章分享,欢迎您实践后的分享。 5. 体验 AI 产品:与现有的 AI 产品进行互动是学习 AI 的另一种有效方式。尝试使用如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人,了解它们的工作原理和交互方式。通过与这些 AI 产品的对话,您可以获得对 AI 在实际应用中表现的第一手体验,并激发您对 AI 潜力的认识。 在通往 AGI 之路知识库中,还有关于 AI 相关技术与应用的介绍及活动分享: 1. AI agent 的介绍:大语言模型衍生出 AI agent,治理进阶可用此方式,如 GPTS、code、千帆百炼等,建议先吃透 prompt 再学习 AI agent,cost 平台有丰富教程和比赛,社区小伙伴参与能获奖。 2. AI 会话相关内容:通过关键词学设进行 AI 会话学习,如每日选词丢入稳定扩散模型,积累了大量提示词,建有飞书群供感兴趣的同学加入练习。 3. AI 视频相关词汇:收集了通过词汇控制 AI 视频的相关词典,如环绕、过曝、缩放等,更具象的描述词汇能让模型发挥更好效果。 4. AI 相关活动:包括 prompt battle、AI 神经大赛等,如 prompt battle 在每周六和周日晚上进行,有多种玩法,还有早晨的 PB 活动。
2025-01-13
李飞飞提出的空间智能是什么
李飞飞在其 TED 演讲中介绍了空间智能,认为空间智能能够赋予 AI 了解真实世界的能力。她将生物的视觉能力与寒武纪大爆发进行类比,指出数字寒武纪大爆发需要通过空间智能来实现。您可以通过以下链接获取更多详细信息: 原版视频:https://ted.com/talks/fei_fei_li_with_spatial_intelligence_ai_will_understand_the_real_world 文字版翻译:https://xiaohu.ai/p/8105
2024-12-12
自媒体可以用哪些AI
自媒体可以使用的 AI 包括以下方面: AI 绘画:个体成为自媒体博主、个体商户应用、实体印刷(如 T 恤、杯子实物等)、AI 摄影、设计接单、AI 定制萌娃头像、电商商品、自媒体素材、AI 服装预售、AI 视频接单、培训老师等;公司方面可用于设计质量和效率提升、AI 绘画相关应用开发、CV 方面算法应用。 案例方面: 创作:社群的每日资讯、写科普内容等。 分发:内容分发。 沟通:小团队与甲方沟通。 创作:换脸应用。 语音:语音转文字,如 OpenAI 的 wishper。 创作:AI 博主素材,如 2023 年让你月赚 5w 的 48 个 AI 工具。
2025-01-14
AI对于自媒体有什么帮助的网站
以下是一些 AI 对于自媒体有帮助的网站和相关信息: 10 分钟在网站上增加一个 AI 助手: 方案概览:在网站中引入一个 AI 助手,只需 4 步。 创建大模型问答应用:先通过百炼创建一个大模型应用,并获取调用大模型应用 API 的相关凭证。 搭建示例网站:通过函数计算,快速搭建一个网站,模拟企业官网或者其他站点。 引入 AI 助手:通过修改几行代码,实现在网站中引入一个 AI 助手。 增加私有知识:准备一些私有知识,让 AI 助手能回答原本无法准确回答的问题,帮助更好地应对客户咨询。 AI 绘画在自媒体中的应用: 个体方面:成为自媒体博主、个体商户应用、实体印刷(T恤,杯子实物等)、AI 摄影、设计接单、AI 定制萌娃头像、电商商品、自媒体素材、AI 服装预售、AI 视频接单、培训老师。 公司方面:设计质量和效率提升、AI 绘画相关应用开发、CV 方面算法应用。 2024 年 10 月 8 日的相关信息: 《》鼓励每个人建立自媒体。AI 播客方面,推出中文版 Demo 并吸引大量参与者。同时,开设了 AI 酒吧 Bar2AGI,成为行业交流的新场所。参与了活动,包括 Demo Inn 和云栖大会,感受到行业的快速发展和乐观氛围。 《》国庆节期间的重要 AI 新闻,如 OpenAI 推出 Canvas 功能和实时 API,微软发布新版 Copilot,具备深度系统集成和实时语音功能;Meta 发布 Meta Movie Gen 视频生成模型,自动配音质量高;LiquidAI 发布非 Transformer 模型 LFMs,推理效率显著提高。此外,Sora 项目负责人离职、多个新模型和工具发布,以及 OpenAI 完成新一轮融资,估值达到 1570 亿美元。
2025-01-14
AI工具站
以下是一些 AI 工具站相关的信息: AI 工具大全网站: 产品经理 AI 工具集: 用户研究、反馈分析:Kraftful kraftful.com 脑图:Whimsical whimsical.com/aimindmaps 、Xmind https://xmind.ai 画原型:Uizard 项目管理:Taskade taskade.com 写邮件:Hypertype 会议信息:AskFred 团队知识库:Sense 需求文档:WriteMyPRD writemyprd.com 敏捷开发助理:Standuply standuply.com 数据决策:Ellie AI 企业自动化:Moveworks moveworks.com 10 分钟在网站上增加一个 AI 助手: 搭建示例网站: 创建应用:请点击打开函数计算应用模板,参考下图选择直接部署、并填写前面获取到的百炼应用 ID 以及 APIKEY。然后其他表单项保持默认,点击页面左下角的创建并部署默认环境,等待项目部署完成即可(预计耗时 1 分钟)。 访问网站:应用部署完成后,您可以在应用详情的环境信息中找到示例网站的访问域名,点击即可查看,确认示例网站已经部署成功。 为网站增加 AI 助手: 增加 AI 助手相关代码:回到应用详情页,在环境详情的最底部找到函数资源,点击函数名称,进入函数详情页。在代码视图中找到 public/index.html 文件,然后取消③所在位置的代码注释即可。最后点击部署代码,等待部署完成即可。 验证网站上的 AI 助手:重新访问示例网站页面以查看最新效果。此时您会发现网站的右下角出现了 AI 助手图标,点击即可唤起 AI 助手。
2025-01-14
免费AI效率工具
以下是一些免费的 AI 效率工具: 辅助编程的 AI 工具: GitHub Copilot:由 GitHub 联合 OpenAI 和微软 Azure 团队推出,支持多种语言和 IDE,能为程序员快速提供代码建议。 通义灵码:阿里巴巴团队推出,提供多种编程相关能力。 CodeWhisperer:亚马逊 AWS 团队推出,由机器学习技术驱动,为开发人员实时提供代码建议。 CodeGeeX:智谱 AI 推出的开源免费编程助手,基于 130 亿参数的预训练大模型,可快速生成代码。 Cody:代码搜索平台 Sourcegraph 推出的 AI 代码编写助手,借助强大的代码语义索引和分析能力了解开发者的整个代码库。 CodeFuse:蚂蚁集团支付宝团队为国内开发者提供的免费 AI 代码助手。 Codeium:一个由 AI 驱动的编程助手工具,提高编程效率和准确性。 更多辅助编程 AI 产品,可查看:https://www.waytoagi.com/category/65 。 绘制逻辑视图、功能视图、部署视图的工具: Lucidchart:流行的在线绘图工具,支持多种视图创建,有拖放界面。 Visual Paradigm:全面的 UML 工具,提供多种架构视图创建功能。 ArchiMate:开源建模语言,与 Archi 工具配合使用,支持逻辑视图创建。 Enterprise Architect:强大的建模、设计和生成代码工具,支持多种视图创建。 Microsoft Visio:广泛使用的图表和矢量图形应用程序,有丰富模板。 draw.io(diagrams.net):免费在线图表软件,支持多种视图创建。 PlantUML:文本到 UML 转换工具,通过描述文本自动生成视图。 Gliffy:基于云的绘图工具,支持视图创建。 Archi:免费开源工具,支持逻辑视图创建。 Rational Rose:IBM 的 UML 工具,支持多种视图创建。 思维导图相关的 AI 工具: GitMind:免费跨平台,支持多种模式,可通过 AI 自动生成思维导图。 ProcessOn:国内思维导图+AIGC 工具,能利用 AI 生成思维导图。 AmyMind:轻量级在线工具,无需注册登录,支持自动生成节点。 Xmind Copilot:Xmind 推出的基于 GPT 的 AI 思维导图助手,可一键拓展思路生成文章大纲。 TreeMind:“AI 人工智能”思维导图工具,输入需求由 AI 自动生成思维导图。 EdrawMind:提供一系列 AI 工具,包括头脑风暴功能。 需要注意的是,这些工具的功能和适用场景可能不同,您可以根据自身需求选择最适合的工具。同时,部分内容由 AI 大模型生成,请仔细甄别。
2025-01-14
什么是AI智能体
AI 智能体简单来说就是 AI 机器人小助手。参照移动互联网,类似 APP 应用的概念。它拥有各项能力,可以帮助人们做特定的事情。目前有不少大厂推出自己的 AI 智能体平台,如字节的扣子、阿里的魔搭社区等。体验过 GPT 或文心一言大模型的小伙伴应该知道,现在基本能用自然语言来编程,降低了编程门槛。但之前使用 GPT 或文心一言大模型时会出现胡编乱造、时效性差、无法满足个性化需求等问题,而 AI 智能体的出现正是解决这些问题的绝佳方式。AI 智能体包含了自己的知识库、工作流,还可以调用外部工具,再结合大模型的自然语言理解能力,就可以完成比较复杂的工作。所以 AI 智能体的出现就是结合自身的业务场景,针对自身需求,捏出自己的 AI 智能体来解决问题。 例如在社交方向,用户注册之后先捏一个自己的 Agent,然后让自己的 Agent 和其他人的 Agent 聊天,两个 Agent 聊到一起后再真人介入,这是一个有趣的场景。在 B 端,如果字节扣子和腾讯元器是面向普通人的低代码平台,类似 APP 时代的个人开发者,那还有一个机会就是帮助 B 端商家搭建 Agent,类似 APP 时代专业做 APP 的。
2025-01-14
AI换背景
以下是关于 AI 换背景的相关内容: 使用 Segment Anything 进行人物背景更换: 有时需要更精确的蒙版,如人物眼睛或配饰等,可使用 Segment Anything 中的 GroundingDINO。启用 GroundingDINO 时,AI 会自动下载模型,若无法使用魔法,可去云盘下载并放到指定文件目录。在检测提示词中输入“eye”,可自动检测出眼睛部分并设置蒙版,还能通过预览箱体得到眼睛编号进行单一调整。上传生成的背景蒙版,选择大模型和正向提示词,如“简单背景、花、国画、工笔”,蒙版模式选择“重绘非蒙版内容”。若头发部分没抠好,可放入图生图中用 tile 模型细化,或在 PS 中用创成式填充修复。 使用 Photoshop 2023 Beta 进行背景更换: 大致使用下来,PS 凭空生成的图形质量可能不如 MJ 和 SD 的效果,但其擅长对原有图像扩充。利用“创成式填充”可去掉主体以外人物,在水面画选区添加渔船,选择头部区域添加棒球帽,选择草地部分创成式填充为沙滩,选择树添加椰树,调整颜色和构图并用创成式填充补全。但在换背景时可能生成质量不高的图,添加物品可能不匹配,“创成式填充”能快速提供素材,还需更多尝试和后期处理。 AE 套模版相关: 可在 ae 插件模版网站 1talk ae(https://www.talkae.com/)搜索安装插件。免费模版网站有 envato(带可商用版权有证书,可淘宝代下或包月),代下网站:https://sucai.ixling.com/login。付费可商用网站有 vj 师(https://www.vjshi.com/),视频背景可替换成 AI 生成的素材。
2025-01-14
人类在使用AI工具中的核心作用
人类在使用 AI 工具中的核心作用主要体现在以下几个方面: 1. 保持创造热情:这是人与 AI 在动机上的最大差异,人类需要提供立意与想法,具备对观察的抽象化能力和对定义的具象化能力。 2. 善于叙事和引导:对 AI 给出的选择做出关键决策。 3. 深刻理解 AI 系统:包括其工作方式和边界。 4. 设定目标:让 AI 依据目标来驱动工具。 5. 整合与分析信息:行动模块接收来自感知模块的多模态数据并进行整合与分析,类似于人类大脑的处理过程。 6. 决策与转化指令:评估不同行动方案并选择最优路径,将决策转化为具体行动指令,如同人类大脑通过神经系统控制身体。 7. 利用工具:人类在面对复杂任务时使用工具来提高效率,AI 若学会使用工具也能增强能力。 8. 发挥语言生成能力:如 LLMbased Agent 利用基于 Transformer 的语言生成模型展现出出色的文本生成能力。
2025-01-09
从集团标准化管理、应用赋能、运营定位、迭代提升四个方面展开阐述人工智能赋能连锁药店运营管理的核心竞争力
很抱歉,目前知识库中没有关于从集团标准化管理、应用赋能、运营定位、迭代提升四个方面阐述人工智能赋能连锁药店运营管理核心竞争力的相关内容。但我可以为您提供一个大致的框架思路供您参考: 集团标准化管理方面: 利用人工智能制定统一的药品分类、库存管理和服务流程标准,确保各连锁药店的运营一致性和规范性。 通过智能数据分析,监测各门店对标准的执行情况,及时发现并纠正偏差。 应用赋能方面: 借助人工智能的图像识别技术,实现药品的快速准确盘点和库存监控。 利用智能客服系统,为顾客提供 24 小时不间断的咨询服务,提高服务效率和质量。 运营定位方面: 基于大数据和人工智能算法,分析不同地区、不同消费群体的需求特点,为各连锁药店精准定位目标市场和商品品类。 运用智能营销工具,实现个性化的促销活动推送,提高营销效果和顾客满意度。 迭代提升方面: 利用人工智能收集和分析顾客反馈、市场变化等数据,持续优化运营策略和服务模式。 建立基于人工智能的预测模型,提前洞察市场趋势和顾客需求变化,为连锁药店的发展提供前瞻性指导。 希望以上内容对您有所帮助,您可以根据实际情况进一步细化和完善。
2024-12-24
AI领域最前沿技术的最核心的论文
以下是为您整理的关于 AI 领域最前沿技术核心论文的相关内容: 1. 《Attention is All You Need》:这篇由 Google Brain 团队撰写的论文介绍了 Transformer 架构,彻底改变了 AI 领域的格局。它能够处理未标记的、混乱的数据,并且比以前的方法更加高效。 2. 杰弗里·辛顿(Geoffrey E. Hinton)的相关论文: 描述极化子的“The Contribution of Excitons to the Complex Dielectric Constant of Crystals”(1958 年)。 描述长程电子转移量子力学的“Electron transfer between biological molecules by thermally activated tunneling”(1974 年)。 “Kinetic Proofreading:1974 年)。 “神经网络和具有突发性集体计算能力的物理系统”(1982 年)(被称为 Hopfield 网络)。 与 D.W.Tank 合著的“优化问题中决策的神经计算”(1985 年)。 在这篇文章中,作者分享了一份用于更深入了解现代 AI 的精选资源列表,称其为“AI 典藏”。这些论文、博客文章、课程和指南在过去几年中对该领域产生了巨大影响。同时,还介绍了 AI 技术的发展历程,如 2015 年 AI 系统的局限性,以及 Transformer 架构出现后为 OpenAI 发展带来的影响。
2024-12-19
大模型核心能力是什么
大模型的核心能力主要包括以下几个方面: 1. 泛化能力:指模型在未曾见过的数据上表现良好的能力,通俗来说就是“举一反三”的能力。人类具有较强的泛化能力,无需见过世界上的每一只猫就能认识猫的概念。 2. 多模态:指多数据类型交互,能够提供更接近人类感知的场景。大模型对应的模态包括文本、图像、音频、视频等。 3. 对齐能力:指与人类价值观与利益目标保持一致的能力。但目前在“和谁对齐”的问题上存在争议,同时也存在通过提示词注入绕过限制的情况。 在大型语言模型中,Encoder(编码器)是模型的核心部分,具有以下关键作用: 1. 词嵌入:将词语映射为低维密集向量表示,作为模型的输入。 2. 位置编码:引入序列中每个位置的位置信息,使模型能捕捉输入序列的顺序特征。 3. 注意力机制:通过自注意力层计算输入序列中每个词与其他词的关系,捕捉长程依赖关系。 4. 层叠编码:通过多层 Transformer Encoder 块的堆叠,对输入序列进行深度的特征提取和语义建模。 5. 上下文建模:整合输入序列中每个位置词的全局上下文信息,形成其语义表示。 基于多模态大模型的应用具有以下优点: 1. 适应性极好,通过提示词工程,方便“适应各种奇葩需求”。 2. 对算法的要求降低,大部分功能由大模型提供,特别是非结构化信息的处理。 3. 大模型的 API 访问方式简化了边缘设备的要求,在多种操作系统或嵌入式设备上都能方便适配。 但也存在以下缺点: 1. 大模型的推理时长目前仍是最大的障碍,传统目标检测或人脸识别优化后能达到 100 300ms,而大模型动则需要 10 秒的延时,限制了许多场景。 2. 模型的幻象和错误率仍然较高,导致上述推理时长问题,在多链路的复杂应用中迅速变得不可行。 3. 在大多数生产模式下,仍然需要使用云服务数据中心,提交的画面不可避免地涉及到隐私问题。 4. 商业私有化部署是刚需,当下的开源模型与 GPT4 代差在半年以上,技术人员任重道远。
2024-12-11
写一个关于AI面试B端软件的需求文档,里面核心功能包括AI面试功能、背调功能(比如线上、证明人、应聘者提供的材料)、简历筛选关键词功能(比如UI设计里面负责项目包括用户调研、原型设计、需求缝隙、高保真设计、切图)、提取简历证书项目功能(比如初级设计师、建筑设计师、一级建造师)。
以下是为您生成的关于 AI 面试 B 端软件的需求文档: 一、核心功能 1. AI 面试功能 用友大易 AI 面试产品:具有强大技术底座、高度场景贴合度、招聘全环节集成解决方案、先进防作弊技术及严密数据安全保障,能完成面试、初筛并自动发送面试邀约。 海纳 AI 面试:通过在线方式自动面试、评估,精准度高达 98%,面试效率比人工提升 5 倍以上,候选人到面率提升最高达 30%。 InterviewAI:在线平台提供面试职位相关问题及 AI 生成的推荐答案,候选人用设备麦克风回答,每个问题最多回答三次,会收到评估、建议和得分。 2. 背调功能 线上背调。 证明人背调。 对应聘者提供材料的背调。 3. 简历筛选关键词功能 UI 设计方面,负责项目包括用户调研、原型设计、需求缝隙、高保真设计、切图。 4. 提取简历证书项目功能 初级设计师。 建筑设计师。 一级建造师。 二、案例参考 1. HR 相关案例 HR:团队绩效管理,根据团队和个人绩效的往期数据,分析员工绩效排名,输出绩效考评和迭代改进建议。 HR:面试工具,作者开发使用 GPT4 技术的实时转录工具,帮助求职者在面试中生成完美回答。 2. 其他工作场景案例 销售:话术总结优缺点,涵盖产品特点、服务优势等方面。 销售:定制销售解决方案,涉及企业产品和服务内容等方面。 客服:定制客服话术,包含产品知识、使用方法等关键词库。 三、提示词工程师面试经验分享 某岗位面试一面完不到 2 个小时就通知二面,效率较高。 技术面:面试官直接给出同行美妆 GPT 案例,让判断实现方式,应试者提出 C 端优化方案及补充 B 端商业化方案后通过。 BOSS 面:了解学业情况、经历和意向,询问经典问题。
2024-12-02
写一个关于AI面试B端软件的需求文档,里面核心功能包括AI面试功能、背调功能、简历筛选关键词功能、提取简历证书项目功能。
以下是一份关于 AI 面试 B 端软件的需求文档,核心功能包括 AI 面试功能、背调功能、简历筛选关键词功能、提取简历证书项目功能: 一、AI 面试功能 目前市场上有一些相关产品,例如: 1. 用友大易 AI 面试产品:具有强大的技术底座、高度的场景贴合度、招聘全环节集成的解决方案、先进的防作弊技术以及严密的数据安全保障。能帮助企业完成面试,借助人岗匹配模型自主完成初筛,并对符合企业要求的候选人自动发送面试邀约。 2. 海纳 AI 面试:通过在线方式、无需人为干预完成自动面试、自动评估,精准度高达 98%,面试效率比人工方式提升 5 倍以上。同时候选人体验也得到改善,到面率比之前提升最高达 30%。 3. InterviewAI:这是一个在线平台,提供与面试职位相关的问题和由 AI 生成的推荐答案。候选人可以使用设备上的麦克风回答每个问题,每个问题最多回答三次。对于每个答案,候选人将收到评估、建议和得分。 二、背调功能 (此处可详细描述背调的具体流程、涵盖的内容、数据来源等) 三、简历筛选关键词功能 (说明如何设置关键词、关键词的匹配规则等) 四、提取简历证书项目功能 (阐述如何准确提取简历中的证书和项目信息) 需要注意的是,使用这些产品时,企业需要考虑到数据安全性和隐私保护的问题。
2024-12-02