Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

2024年AI应用趋势

Answer

以下是 2024 年 AI 应用的一些趋势:

  1. 在机器人研究领域,苹果 Vision Pro 成为重要工具,其高分辨率、高级跟踪和处理能力被用于远程操作控制机器人的运动和动作。
  2. 在医学中,利用大模型生成合成数据,如微调 Stable Diffusion 中的 U-Net 和 CLIP 文本编码器,从大量真实胸部 X 射线及其相应报告中生成大型数据集。
  3. 企业自动化方面,传统机器人流程自动化面临问题,新颖方法如 FlowMind 和 ECLAIR 使用基础模型来解决限制,提高工作流理解准确率和完成率。
  4. 算力瓶颈影响行业竞争格局,逐渐进入多模态灵活转换的新时代,实现文本、图像、音频、视频等模态的互相理解和转换。
  5. 人类劳动形式“软件化”,复杂劳动被抽象为可调用的软件服务,劳动流程标准化和模块化。
  6. AI 行业仍处于严重亏损阶段,商业化进程有待提升。
  7. 云厂商是产业链中的“链主”,掌握庞大商业生态和技术资源以及巨大市场规模。
  8. 2024 年头部 AI 应用中,创意工具仍占最大比重,To P 应用市场潜力大,ToB 应用发展路径复杂,ToC 应用面临挑战。
  9. 在 AI 应用领域,Copilot 和 AI Agent 是两种主要技术实现方式,分别适合不同类型的企业。
  10. 北美和欧洲贡献了 AI 移动应用市场三分之二的份额,中国 AI 公司积极出海。
Content generated by AI large model, please carefully verify (powered by aily)

References

2024人工智能报告|一文迅速了解今年的AI界都发生了什么?

苹果Vision Pro成为必备的机器人研究工具尽管消费者对Vision Pro的需求平淡无奇,但它在机器人研究领域引起了轰动,在那里其高分辨率、高级跟踪和处理能力被研究人员用于远程操作控制机器人的运动和动作。如Open-TeleVision和Bunny-Vision Pro使用它来帮助实现精确控制多指机械手(例如前者距离为3000英里),展示比以前的方法更复杂的任务的改进性能,如实时控制、通过碰撞避免的安全性和有效的双臂协调。在医学中利用大模型生成合成数据微调Stable Diffusion中的U-Net和CLIP文本编码器,从大量真实胸部X射线(CXR)及其相应的放射科医生报告中生成一个大型数据集,从而产生由权威放射科医生评估为高保真度和概念正确性的合成CXR扫描数据,并且生成的X射线图像可用于数据增强和自监督学习。企业自动化获得人工智能后将优先升级传统的机器人流程自动化(RPA),如UiPath,面临着高昂的设置成本、脆弱的执行和繁重的维护。两个新颖的方法,FlowMind(JP Morgan)和ECLAIR(斯坦福大学),使用基础模型来解决这些限制。FlowMind专注于金融工作流,通过API使用LLM来生成可执行的工作流。在对NCEN-QA数据集进行实验时,FlowMind在工作流理解方面达到了99.5%的准确率。ECLAIR采取了更广泛的方法,使用多模态模型从演示中学习,并直接与各种企业环境中的图形用户界面交互。在网页导航任务上,ECLAIR将完成率提高了从0%到40%。

展望2025,AI行业有哪些创新机会? | 峰瑞报告

算力瓶颈不只是单纯的技术和建设问题,而是影响整个行业竞争格局的重要变量。我们逐渐进入一个多模态灵活转换的新时代。简单来说,就是用AI实现文本、图像、音频、视频及其他更多模态之间的互相理解和相互转换。在人类劳动的未来图景中,劳动形式正在逐步“软件化”。复杂劳动被抽象为可调用的软件服务,劳动流程被大幅标准化和模块化,劳动能力像“即插即用”的工具一样易于获取。AI行业目前仍处于严重亏损的阶段,商业化进程仍有巨大提升空间。云厂商不仅掌握着庞大的商业生态和技术资源,还拥有数千亿美元的云服务市场规模。它们是产业链中毋庸置疑的“链主”。2024年,头部AI应用的品类变化并不显著。创意工具(如图像和视频内容创作)依然占据最大比重。To P(面向专业用户)应用展现出强大的市场潜力,ToB(面向企业)应用发展路径相对复杂,ToC应用面临较大的挑战。在AI应用领域,Copilot和AI Agent是两种主要的技术实现方式。Copilot可以理解为“辅助驾驶”,适合拥有先发优势的大厂。AI Agent可以视作“自动驾驶”,或许适合有足够创新能力的创业公司。北美和欧洲贡献了AI移动应用市场三分之二的份额,这也是众多中国AI公司积极出海的重要原因之一。希望能带来新的思考角度。我们持续关注AI赛道的发展,如果你是AI领域的创业者或者从业者,欢迎联系本文作者峰瑞资本投资合伙人陈石(chenshi@freesvc.com)。p.s.我们使用GPT辅助编辑了部分内容。互动福利

Top100 AI 消费者应用(第三版)

原文:https://a16z.com/100-gen-ai-apps-3/发表时间:2024年8月21日[无论我们是在构建节省时间的新工作流程](https://a16z.com/ai-voice-agents/)、探索[实际](https://x.com/omooretweets/status/1808897223645933709)[用途](https://x.com/omooretweets/status/1761069953736945823),还是试验新的[创意](https://a16z.com/category/consumer/creativity/#arts-and-crafts),跟上不断扩大的消费级AI产品领域都是一项动态、快速发展的工作。但在产品发布、投资公告和大肆宣传的功能不断涌现的过程中,值得一问的是:这些生成AI应用中,哪些是真正被[人们](https://x.com/omooretweets/status/1823380097531093232)使用的?哪些行为和类别在消费者中获得了关注?而哪些AI应用是人们反复使用的,而不是随便尝试后就放弃的?欢迎来到Top100 AI消费者应用第三版。每六个月,我们会深入挖掘数据,对前50款AI优先Web产品进行排名(排名依据每月独立访问量)和前50个AI优先移动应用(由每月活跃用户[)与我们之前的2024年3月报告](https://a16z.com/100-gen-ai-apps/)相比,这一次,近30%的公司是新公司。然而,除了这些排名所体现的标志意义之外,数据还揭示了一些值得注意的趋势,包括新兴和不断扩大的类别、新兴竞争对手和参与模式。以下是我们的一些重要结论:

Others are asking
2024大模型典型应用案例集
以下是 2024 大模型的一些典型应用案例及相关信息: 《2024 大模型典型示范应用案例集》汇集了 97 个优秀案例,展示了大模型技术在教育、医疗、金融、政务等多个行业和领域的应用。案例由阿里云、百度、华为等领先企业实施,上海成为应用落地的热点地区,大中型企业是主要试验场。AI 智能体和知识库成为提升大模型落地实效的关键手段。 在智能终端行业,中国超半数手机厂商都在使用文心大模型,包括三星、荣耀、vivo、OPPO、小米等主流手机品牌;上汽大众、吉利汽车、蔚来汽车、长安汽车等十余家车企已接入百度文心大模型。 整体来看,在主流大模型厂商中,百度表现突出,拿下最关键的中标项目数量、中标金额两项第一。截至 11 月,其文心大模型日均调用量超过 15 亿次,千帆平台帮助客户精调了 3.3 万个模型、开发了 77 万个企业应用。今年三季度财报披露,百度智能云营收达 49 亿元,同比增长 11%,其增长主要由互联网、教育、金融等行业对模型训练和推理的高需求带动。 企业想要真正将大模型在自身场景落地,需要具备构建算力、数据治理、模型训练、场景落实、应用搭建、持续运营、安全合规等整套能力。 相关报告: 《信达证券:AI 行业设计领域专题报告:Adobe AI 功能覆盖全面,Canva、美图等力争上游》 《中国信通院:大模型基准测试体系研究报告(2024 年)》 《埃森哲:人工智能行业:2024 在生成式人工智能时代重塑工作、劳动力和员工》 此外,还有一些相关活动,如: 2024 年是国内大模型技术加速落地的关键年份,各大厂商如百度、阿里、字节等在 AI 大模型领域展开激烈竞争。百度凭借 40 个中标项目和 2.74 亿元中标金额在行业中处于领先地位。尤其在金融、智能终端等行业,百度文心大模型的应用广泛,表现亮眼。 🏮「非遗贺春」魔多蛇年春节 AI 模型创作大赛,大赛时间 2024 年 12 月 24 日2025 年 1 月 15 日。大赛奖池【¥12000】现金奖励+官方高含金量荣誉证书+会员与算力激励+流量激励。双赛道同时开启,赛道一【春节】+赛道二【爱非遗 AI 传承】。本次活动由浙江省非遗保护中心(浙江省非遗馆)指导×浙江省非遗保护基金会主办×魔多 AI 联合承办,由提供社区传播支持。
2025-01-16
2024年人工智能指数报告 下载
以下是为您提供的 2024 年人工智能指数报告的相关下载信息: 1. 《》由微软和领英联合发布,揭示了人工智能(AI)在工作场所的快速增长和深远影响。 2. 可在知识星球下载的报告: 《》深入分析了 AI Agent 的市场定义、发展阶段、核心组件及其在企业用户场景中的应用。 《》企业实施 AI Agent 的主要目标是降低运营成本,尤其是在知识库管理、数据分析、营销与客户服务等领域。 3. 《》数据处理应从模型为中心转向数据为中心,并强调向量数据库在提升模型服务能力中的核心作用。 4. 斯坦福大学发布的基础模型透明度指数相关报告:在上一届 SOAI 发布后不久,斯坦福大学发布了其首个基础模型透明度指数,模型开发者的平均得分为 37 分。在团队的中期更新中,这一分数攀升至 58 分。2024 年 5 月,该指数的最新一期基于 100 项指标,评估了 14 家领先的基础模型开发者的透明度,这些指标涵盖“上游”因素数据、劳动力、计算、围绕能力和风险的“模型级”因素、围绕分布的“下游”标准以及社会影响。计算和使用政策的评分出现了最强劲的改善,而“上游”评分仍然疲弱。 5. 《2024 年人工智能现状:辉煌、戏谑和“牛市”》报告链接:
2025-01-11
2024年人工智能指数报告
以下是关于 2024 年人工智能指数报告的相关内容: 斯坦福大学发布的基础模型透明度指数显示,模型开发者的平均得分从最初的 37 分攀升至中期更新的 58 分。2024 年 5 月的最新一期基于 100 项指标评估了 14 家领先的基础模型开发者的透明度,其中计算和使用政策的评分改善强劲,“上游”评分仍疲弱。 2024 年 AI 年度报告的十大预测包括:好莱坞级别的制作公司开始使用生成式人工智能制作视觉特效;美国联邦贸易委员会或英国竞争与市场管理局基于竞争理由调查微软/OpenAI 的交易;在全球人工智能治理方面进展有限;一首由人工智能创作的歌曲进入公告牌 Hot 100 前 10 名或 Spotify 2024 年热门榜单;随着推理工作负载和成本的显著增长,一家大型人工智能公司收购或建立专注于推理的人工智能芯片公司。同时也有错误预测,如生成式人工智能媒体公司在 2024 年美国选举期间的滥用行为未受到调查,自我改进的人工智能智能体在复杂环境中未超越现有技术最高水平。 预测还覆盖了人工智能领域的多个方面,如主权国家向美国大型人工智能实验室投资超 100 亿美元引发国家安全审查;完全无编码能力的人创建的应用或网站走红;前沿实验室在案件审判后对数据收集实践方式发生重大转变;早期欧盟人工智能法案实施结果比预期宽松;开源的 OpenAI o1 替代品在推理基准测试中超越;挑战者未能突破英伟达市场地位;对人形机器人投资水平下降;苹果在设备上的研究成果加速个人设备上人工智能的发展;人工智能科学家生成的研究论文被主要机器学习会议或研讨会接受;以“生成式人工智能”为元素互动的视频游戏取得突破性地位。
2025-01-11
2024ai 大事记
以下是 2024 年 AI 大事纪的相关内容: 1 月: 斯坦福大学 Mobile Aloha。 1 月 10 号 LumaAl Genie 文生 3D。 1 月 11 号 GPT store 上线。 MagnificAl 高清放大爆火。 1 月最后一天苹果 Vision Pro 宣布发售。 3 月: 潞晨科技发布 OpenSora。 Suno 发布 V3 版本爆火。 4 月:英伟达发布硬件股价飙升。 5 月: 苹果发布 AI 芯片。 张吕敏发布 IC light。 7 月:快手开源 LivePortrait 模型,表情迁移。 8 月:StabilityAI 老板成立新公司发布 flux 大模型。 9 月: 阿里云发布模型,海螺 AI 参战。 Google 发布 GameGen 实时生成游戏。 通义千问 2.5 系列全家桶开源。 华为发布 cloud matrix 云计算基础设施。 GPT 高级语音模式上线。 Meta 发布 AI 眼镜 Orion。 AI 代码编辑器 cursor 爆火。 10 月: Pika 发布 1.5 模型。 诺奖颁发给 AI 奠基人。 特斯拉发布机器人。 Adobe 发布 Illustrator+Al 生成矢量图。 智谱 AI 发布 autoGLM。 腾讯混元开源 3D 模型。 云深处发布机器人山猫机器狗。 Apple 发布 Mac mini。 12 月: 李飞飞发布空间智能成果。 腾讯开源混元视频模型。 Open AI 开 12 天发布会。 微软发布 Trellis 最强开源图生 3D。 Gemini2.0 视觉交互智能体。 智元机器人开始量产。 谷歌发布 Veo2 能生成 4K 视频。 需要注意的是,本大事记经过一定筛选,带有一定倾向性,但不包含任何广告或其他商业考量,仅以新闻热度与大众反响为依据。仅代表个人看法,如有遗漏请谅解。
2025-01-10
2024AI 大事记
以下是 2024 年 AI 大事纪: 1 月: 斯坦福大学 Mobile Aloha 1 月 10 号 LumaAl Genie 文生 3D 1 月 11 号 GPT store 上线 MagnificAl 高清放大爆火 1 月最后一天苹果 Vision Pro 宣布发售 3 月: 潞晨科技发布 OpenSora Suno 发布 V3 版本爆火 4 月:英伟达发布硬件股价飙升 5 月: 苹果发布 AI 芯片 张吕敏发布 IC light AI 竞争白热化 伊莉雅离开 OpenAI,伊利亚成立新公司,估值超五亿美金 7 月:快手开源 LivePortrait 模型,表情迁移 8 月:StabilityAI 老板成立新公司发布 flux 大模型 9 月: 阿里云发布模型,海螺 AI 参战 Google 发布 GameGen 实时生成游戏 通义千问 2.5 系列全家桶开源 华为发布 cloud matrix 云计算基础设施 GPT 高级语音模式上线 Meta 发布 AI 眼镜 Orion AI 代码编辑器 cursor 爆火 10 月: Pika 发布 1.5 模型 诺奖颁发给 AI 奠基人 特斯拉发布机器人 Adobe 发布 Illustrator+Al 生成矢量图 智谱 AI 发布 autoGLM 腾讯混元开源 3D 模型 云深处发布机器人山猫机器狗 Apple 发布 Mac mini 12 月: 李飞飞发布空间智能成果 腾讯开源混元视频模型 Open AI 开 12 天发布会 微软发布 Trellis 最强开源图生 3D Gemini2.0 视觉交互智能体 智元机器人开始量产 谷歌发布 Veo2 能生成 4K 视频 宇树科技机器狗爆火,似奔着打架去 SORA 兑现引关注,被测试出奇怪问题 需要说明的是,本大事记经过一定筛选,带有一定倾向性,但不包含任何广告或其他商业考量,仅以新闻热度与大众反响为依据。仅代表个人看法,如有遗漏请谅解。
2025-01-10
2024ai大事件
以下是 2024 年 AI 领域的大事纪: 1 月: 斯坦福大学 Mobile Aloha 1 月 10 号 LumaAl Genie 文生 3D 1 月 11 号 GPT store 上线 MagnificAl 高清放大爆火 1 月最后一天苹果 Vision Pro 宣布发售 3 月: 潞晨科技发布 OpenSora Suno 发布 V3 版本爆火 4 月:英伟达发布硬件股价飙升 5 月: 苹果发布 AI 芯片 张吕敏发布 IC light AI 竞争白热化,伊莉雅离开 OpenAI 并成立新公司,估值超五亿美金 7 月:快手开源 LivePortrait 模型,表情迁移 8 月:StabilityAI 老板成立新公司发布 flux 大模型 9 月: 阿里云发布模型,海螺 AI 参战 Google 发布 GameGen 实时生成游戏 通义千问 2.5 系列全家桶开源 华为发布 cloud matrix 云计算基础设施 GPT 高级语音模式上线 Meta 发布 AI 眼镜 Orion AI 代码编辑器 cursor 爆火 10 月: Pika 发布 1.5 模型 诺奖颁发给 AI 奠基人 特斯拉发布机器人 Adobe 发布 Illustrator+Al 生成矢量图 智谱 AI 发布 autoGLM 腾讯混元开源 3D 模型 云深处发布机器人山猫机器狗 Apple 发布 Mac mini 12 月: 李飞飞发布空间智能成果 腾讯开源混元视频模型 Open AI 开 12 天发布会 微软发布 Trellis 最强开源图生 3D Gemini2.0 视觉交互智能体 智元机器人开始量产 谷歌发布 Veo2 能生成 4K 视频 需要注意的是,本大事记经过一定筛选,带有一定倾向性,但不包含任何广告或其他商业考量,仅以新闻热度与大众反响为依据。仅代表个人看法,如有遗漏请谅解。
2025-01-09
Ai高端工作坊
以下是为您整理的两个关于 AI 的高端工作坊相关信息: 全球 AI 视觉分享会 AI 视觉创意大赛 活动日程: 颁奖典礼:10 月 17 日,14:30 18:00,红立方公共艺术馆负一楼大屏幕。包括嘉宾签到、获奖作品欣赏、领导致辞、评委介绍、产业推介、合作项目签约、颁奖点评、AI 创意周启动、合影留念及作品展参观。 AI 视觉创意汇:10 月 18 20 日,10:00 18:00,专业观众日和公众开放日,红立方公共艺术馆 1、2、3 号展馆。体验最新 AI 视觉技术,参与产品发布会和场景对接会。 AI 视觉工作坊:10 月 19 日,9:00 20:00,红立方公共艺术馆及少年宫。深入探讨 AI 在艺术创作中的应用,参与分享会、模型训练、圆桌交流和实时挑战赛。 地点:深圳红立方公共艺术馆(广东省深圳市龙岗区龙翔大道 8028 号) 活动亮点: 颁奖典礼:见证 AI 艺术的新星诞生,与行业领袖共同庆祝。 AI 视觉创意汇:亲身体验最新 AI 视觉技术,探索创意作品。 AI 视觉工作坊:深入了解 AI 艺术创作,与专家面对面交流。 活动报名:记得填写 waytoagi AI 摊主速成脑暴会 AI 摆摊玩什么 AI 娱乐与算命:AI 算命、星盘、八字、人格测试、趣味算命、游戏化互动。示例项目如 AI 算命(15 积分)、星盘解析、职业规划、社交小游戏(如积分狩猎、刮刮乐)。 技术与工具教学:Prompt 技巧、AI 工具安装、提示词优化、复杂模型训练、文档信息提取。示例项目如 Prompt 技巧传授(10 积分)、MJ/Sd 出图(10 积分)、大模型调参(20 积分)、文件抽取(15 积分)。 个性化小工具:小红书账号文案、表情包、爆款名片生成、定制黄历、智能对话、内容分享。示例项目如小红书爆款文案(10 积分)、个人知识笔记(3 积分)、AI 爆款名片(10 积分)。 体验型项目:AI 桌宠、人工智能体互动、数字人互动、项目商业模式咨询、AI 情感陪伴。示例项目如桌宠体验(10 积分)、数字人体验(10 积分)、商业落地场景咨询(20 积分)。 AI 图像处理:图像生成、照片修复与动起来、动漫化头像、老照片复活、创意壁纸制作。示例项目如 AI 写真、老照片动起来(10 积分)、卡通头像(10 积分)、赛博头像定制(多样风格)。 文案与内容创作:文案定制、朋友圈文案生成、爆款文案编写、创意故事、情话生成。示例项目如产品文案优化(10 积分)、AI 土味情话(5 积分)、个性化文案定制(10 积分)、朋友圈鸡汤生成。 音频与音乐制作:专属歌曲创作、音频处理、声音克隆、AI 唱歌、背景音乐定制。示例项目如制作专属歌曲(10 积分)、声音克隆/视频对口型(20 积分)、声音解梦音乐制作。 视频处理:视频换脸、照片转视频、视频动漫化、视频剪辑、数字人制作。示例项目如换脸(60 积分)、视频动漫化、AI 生成的视频脚本(20 积分)、AI 高清处理(10 积分)。 智能体与 Coze:搭建智能体、GPTs 创建、coze 工作流、微信机器人。示例项目如搭建智能体(50 积分)、智能体体验(10 积分)、Coze 工作流(20 积分)、微信机器人搭建(100 积分)。 AI 教育与咨询:AI 应用培训、课程设计、商业化咨询、AI + 行业应用咨询。示例项目如 AI 培训策划(20 积分)、商业化建议(10 20 积分)、产品思路分享(5 积分)、应用场景分析。
2025-01-23
前沿ai学习网站
以下是一些前沿的 AI 学习网站: 1. WaytoAGI:这是一个致力于人工智能(AI)学习的中文知识库和社区平台。为学习者提供系统全面的 AI 学习路径,覆盖从基础概念到实际应用的各个方面。它汇集了上千个人工智能网站和工具,提供最新的 AI 工具、AI 应用、AI 智能体和行业资讯。平台提供丰富的学习资源,包括文章、教程、工具推荐以及最新的 AI 行业资讯等。此外,社区还定期组织活动,如视频挑战赛、模型创作大赛等,鼓励成员在实践中学习,促进交流与合作。 2. 在没有任何推广的情况下,WaytoAGI 一年时间已有超过 100 万用户和超千万次的访问量。其目标是让每个人的学习过程少走弯路,让更多的人因 AI 而强大。目前合作过的公司/产品包括阿里云,通义千问,淘宝,智谱,支付宝,豆包,火山引擎,marscode,coze,堆友,即梦,可灵,MiniMax 海螺 AI,阶跃星辰,百度,Kimi,吐司,liblib,华硕,美团,美的,360,伊利,魔搭,央视频,Civitai,Openart,Tripo3D,青椒云等。 3. 「通往 AGI 之路」的品牌 VI 融合了独特的设计元素,以彩虹色彰显多元性和创新,以鹿的形象象征智慧与优雅,通过非衬线字体展现现代感和清晰性,共同构建了一个充满活力和前瞻性的品牌形象。
2025-01-23
我想学习AI视频创作流程
以下是 AI 视频创作的一般流程: 1. 小说内容分析:使用 AI 工具(如 ChatGPT)分析小说内容,提取关键场景、角色和情节。 2. 生成角色与场景描述:根据小说内容,使用工具(如 Stable Diffusion 或 Midjourney)生成角色和场景的视觉描述。 3. 图像生成:使用 AI 图像生成工具根据描述创建角色和场景的图像。 4. 视频脚本制作:将提取的关键点和生成的图像组合成视频脚本。 5. 音频制作:利用 AI 配音工具(如 Adobe Firefly)将小说文本转换为语音,添加背景音乐和音效。 6. 视频编辑与合成:使用视频编辑软件(如 Clipfly 或 VEED.IO)将图像、音频和文字合成为视频。 7. 后期处理:对生成的视频进行剪辑、添加特效和转场,以提高视频质量。 8. 审阅与调整:观看生成的视频,根据需要进行调整,比如重新编辑某些场景或调整音频。 9. 输出与分享:完成所有编辑后,输出最终视频,并在所需平台上分享。 需要注意的是,具体的操作步骤和所需工具可能会根据项目的具体需求和个人偏好有所不同。此外,AI 工具的可用性和功能也可能会随时间而变化,建议直接访问上述提供的工具网址获取最新信息和使用指南。 另外,在一些具体的创作案例中,比如“AI 离谱社黄师傅”的工作流程中,有以下要点: 创作思路基于深度文化挖掘、自然风光和历史遗迹展示、故事性和情感连接等关键概念和创新方法,旨在通过人工智能技术全面展示中国各省份的文化和旅游魅力。 任务划分方面,制片人搭建整体框架,图像创意者提供有冲击力的图像画面,视频制作者熟悉并运用视频工具,编剧构思故事和创作台词文本,还有配音和配乐等工作。 在 AI 春晚采访问题中提到,脚本创作由 GPT 完成但需要大量人工干预,图像生成由 MJ 完成也需要人工调词,人工比例在 70%以上。
2025-01-23
有用来做网络游戏研发和运营的全套AI工具吗?
目前游戏领域还没有涵盖整个制作过程(包括代码、资产生成、纹理、音频等)的全套生成式人工智能工具,也没有能与流行的游戏引擎(如虚幻和 Unity)紧密结合使用、专为适应典型的游戏生产流程而设计的一体化平台。但有一些相关的工具和平台在不同方面发挥作用,例如: 生成可以互动的角色方面:有很多初创公司在研究,如 Charisma.ai、Convai.com、Inworld.ai 等平台,它们可以为具有情感和自主权的完全渲染的 3D 角色提供动力,并提供工具让创作者给角色设定目标。 语音生成方面:Coqui Studio(https://coqui.ai)、Bark(https://github.com/sunoai/bark)、Replica Studios(https://replicastudios.com)等。 语音识别方面:OpenAI Whisper(https://huggingface.co/openai/whisperbase)、Facebook Wav2Vec2(https://huggingface.co/facebook/wav2vec2largexlsr53)。 对话模型方面:ChatGPT(https://chat.openai.com)、HuggingChat(https://huggingface.co/chat)。 故事讲述模型方面:MPT7BStoryWriter65k+(https://huggingface.co/mosaicml/mpt7bstorywriter)、Claude 100k(https://www.anthropic.com/index/100kcontextwindows)、GTP4 32k(https://platform.openai.com/docs/models/overview)。 游戏设计方面:Ludo.ai(https://ludo.ai)。 搜索引擎方面:Haddock(https://www.haddock.ai)。 AI NPC 方面:Inworld(https://inworld.ai)。
2025-01-23
Ai智能体
AI 智能体在以下方面有重要应用和发展: 1. 在品牌卖点提炼中: 可搭建智能体作为引导型助手,帮助提炼品牌卖点。 但在搭建前需明确 AI 的能力边界,如 AI 对公司的主要产品、产品解决的用户需求、产品独特之处、获得的认可、依赖的核心渠道、核心购买人群、曾使用的营销手段、在新渠道的期望结果等了解程度接近于 0。 AI 真正的能力在于通过分析数据和信息进行逻辑推理、快速处理和分析数据并提取有价值信息和模式、拥有大量训练数据可输出更全面相关信息、理解用户提供内容并按正确结构梳理有效输出。 引导型助手更适合成为灵感提问助手,在寻找卖点思考路径停滞时提供更多思考维度。 2. 企业自动化方面: 生成式 AI 应用有三个核心用例与强大的产品市场契合度:搜索、合成和生成。 领先的应用程序构建商正在建立解决方案,处理之前只能由大量人力解决的工作流程。 借助多步逻辑、外部内存以及访问第三方工具和 API 等新型构建块,下一波智能体正在拓展 AI 能力边界,实现端到端流程自动化。 未来的完全自主智能体可能拥有所有四个构建块,但当前的 LLM 应用程序和智能体还未达到。 如流行的 RAG 架构不是智能体式的,一些设计支持工具使用,但应用程序的步骤仍由代码预先确定。 当将 LLM 置于应用程序的控制流中让其动态决定行动、使用工具等时,智能体出现。 确定了三种不同主要用例和应用程序进程控制自由度的智能体类型:决策智能体、轨道智能体、通用人工智能体。
2025-01-23
初学者如何使用AI学习AI知识
对于初学者学习 AI 知识,建议如下: 1. 了解 AI 基本概念: 阅读「」部分,熟悉 AI 的术语和基础概念,包括其主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。 浏览入门文章,了解 AI 的历史、当前的应用和未来的发展趋势。 2. 开始 AI 学习之旅: 在「」中,找到为初学者设计的课程,特别推荐李宏毅老师的课程。 通过在线教育平台(如 Coursera、edX、Udacity)上的课程,按照自己的节奏学习,并有机会获得证书。 3. 选择感兴趣的模块深入学习: AI 领域广泛(比如图像、音乐、视频等),根据自己的兴趣选择特定的模块进行深入学习。 掌握提示词的技巧,它上手容易且很有用。 4. 实践和尝试: 理论学习之后,实践是巩固知识的关键,尝试使用各种产品做出自己的作品。 在知识库提供了很多大家实践后的作品、文章分享,欢迎实践后的分享。 5. 体验 AI 产品: 与现有的 AI 产品进行互动,如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人,了解它们的工作原理和交互方式。 通过与这些 AI 产品的对话,获得对 AI 在实际应用中表现的第一手体验,并激发对 AI 潜力的认识。 记住,学习 AI 是一个长期的过程,需要耐心和持续的努力。不要害怕犯错,每个挑战都是成长的机会。随着时间的推移,您将逐渐建立起自己的 AI 知识体系,并能够在这一领域取得自己的成就。完整的学习路径建议参考「通往 AGI 之路」的布鲁姆分类法,设计自己的学习路径。
2025-01-23
面向新手个人的AI应用培训课程
以下是为新手个人推荐的一些 AI 应用培训课程: 1. 微软的 AI 初学者课程: 作者/来源:微软 推荐阅读《Introduction and History of AI》从这里起步 链接: 发布日期:2023/02/10 必看星标:👍🏻 2. AI for every one(吴恩达教程): 作者/来源:吴恩达 前 ChatGPT 时代的 AI 综述 链接: 发布日期:2023/03/15 必看星标:👍🏻 3. 大语言模型原理介绍视频(李宏毅): 作者/来源:李宏毅 可以说在众多中文深度学习教程中,李宏毅老师讲的应该是最好的,最通俗易懂 链接: 发布日期:2023/05/01 4. 谷歌生成式 AI 课程: 作者/来源:谷歌 注:前 4 节课为入门课 目录: 5. ChatGPT 入门: 作者/来源:OpenAI 注册、登录、简单使用方法等 目录: 新手学习 AI 的建议: 1. 了解 AI 基本概念: 建议阅读「」部分,熟悉 AI 的术语和基础概念。了解什么是人工智能,它的主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。 浏览入门文章,这些文章通常会介绍 AI 的历史、当前的应用和未来的发展趋势。 2. 开始 AI 学习之旅: 在「」中,你将找到一系列为初学者设计的课程。这些课程将引导你了解生成式 AI 等基础知识,特别推荐李宏毅老师的课程。 通过在线教育平台(如 Coursera、edX、Udacity)上的课程,你可以按照自己的节奏学习,并有机会获得证书。 3. 选择感兴趣的模块深入学习: AI 领域广泛(比如图像、音乐、视频等),你可以根据自己的兴趣选择特定的模块进行深入学习。 建议一定要掌握提示词的技巧,它上手容易且很有用。 4. 实践和尝试: 理论学习之后,实践是巩固知识的关键,尝试使用各种产品做出你的作品。 在知识库提供了很多大家实践后的作品、文章分享,欢迎你实践后的分享。 5. 体验 AI 产品: 与现有的 AI 产品进行互动是学习 AI 的另一种有效方式。尝试使用如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人,了解它们的工作原理和交互方式。 通过与这些 AI 产品的对话,你可以获得对 AI 在实际应用中表现的第一手体验,并激发你对 AI 潜力的认识。 此外,还有“90 分钟从 0 开始打造你的第一个 Coze 应用:证件照 2025 年 1 月 18 日副本”,其中包括: 1. Code AI 应用背景:智能体开发从最初的 chatbot 只有对话框,到有了更多交互方式,因用户需求扣子推出了 AI 应用,其低代码或零代码的工作流等场景做得较好。 2. AI CODING 现状:AI CODING 虽强,但目前适用于小场景和产品的第一个版本,复杂应用可能导致需求理解错误从而使产品出错。 3. 证件照应用案例:以证件照为例,说明以前实现成本高,现在有客户端需求并做了相关智能体和交互。 4. AI 应用学习过程:创建 AI 应用,学习操作界面、业务逻辑和用户界面,包括布局、搭建工作流、用户界面及调试发布,重点熟悉桌面网页版的用户界面。
2025-01-23
制作ai视频的应用推荐
以下是为您推荐的制作 AI 视频的应用: 1. 对于专业创作者(艺术家、影视人等): 低成本动捕能够大幅降低后期制作的门槛和成本,自动识别背景生成绿幕、视频主体跟随运动等能够辅助视频编辑,为后期制作增加更多空间。 目前该应用主要集中在音乐 MV、短篇电影、动漫等方向。 一些 AI 视频平台也积极寻求创意合作,为创作者提供免费支持。例如@valleeduhamel 使用现有的素材、Gen1 和大量合成创作了新电影《After Light》的过程分享,Ammaar Reshi 的团队使用 Stable WarpFusion+Davinci Resolve 制作完整的动漫剧情。 2. 对于自媒体、非专业创作者: 对于科技、财经、资讯类重脚本内容的视频制作,Invideo AI、Pictory 等产品在发力脚本生成分镜、视频,帮助创作者降低视频素材制作门槛。 Gamma AI 已经实现了文章高效转 PPT 的能力,若能结合 Synthesia、HeyGen AI、DID 等产品的 Avatar、语音生成能力也可快速转化为视频内容。 OpusClip 提供的长视频转短视频致力于解决创作者将同一个素材在不同平台分发导致制作成本升高的痛点。 3. 对于企业客户: 对于没有足够视频制作资金的小企业、非盈利机构来说,AI 视频生成可以为其大幅缩减成本。 如果您想用 AI 把小说做成视频,制作流程如下: 1. 小说内容分析:使用 AI 工具(如 ChatGPT)分析小说内容,提取关键场景、角色和情节。 2. 生成角色与场景描述:根据小说内容,使用工具(如 Stable Diffusion 或 Midjourney)生成角色和场景的视觉描述。 3. 图像生成:使用 AI 图像生成工具根据描述创建角色和场景的图像。 4. 视频脚本制作:将提取的关键点和生成的图像组合成视频脚本。 5. 音频制作:利用 AI 配音工具(如 Adobe Firefly)将小说文本转换为语音,添加背景音乐和音效。 6. 视频编辑与合成:使用视频编辑软件(如 Clipfly 或 VEED.IO)将图像、音频和文字合成为视频。 7. 后期处理:对生成的视频进行剪辑、添加特效和转场,以提高视频质量。 8. 审阅与调整:观看生成的视频,根据需要进行调整,比如重新编辑某些场景或调整音频。 9. 输出与分享:完成所有编辑后,输出最终视频,并在所需平台上分享。 制作 AI 视频的相关工具推荐: 1. 最佳动画工具:用于在视频中为人脸制作动画的 DiD(https://www.did.com/),用于从文本创建视频的 Runway v2(https://app.runwayml.com/)。 2. 最佳语音克隆:ElevenLabs(https://beta.elevenlabs.io/speechsynthesis)。 需要注意的是,具体的操作步骤和所需工具可能会根据项目的具体需求和个人偏好有所不同。此外,AI 工具的可用性和功能也可能会随时间而变化,建议直接访问上述提供的工具网址获取最新信息和使用指南。同时,深度伪造是一个巨大的问题,这些系统需要合乎道德地使用。
2025-01-23
有什么应用可以通过每天录一段口水话的语音,然后自动整理为日记
目前尚未有专门针对每天录制一段口水话语音就能自动整理为日记的应用。但一些语音转文字的应用,如讯飞语记、百度语音助手等,结合一些笔记类应用,如印象笔记、有道云笔记等,可能在一定程度上帮助您实现类似的功能。您可以先将语音转换为文字,然后再手动整理到笔记应用中形成日记。
2025-01-23
人工智能的场景应用及其对社会治理的新挑战,注意场景应用和社会治理的对应,同时突出新挑战
以下是关于人工智能的场景应用及其对社会治理新挑战的相关内容: 场景应用: 医疗领域:如利用 AI 技术预测蛋白质结构,加速科学研究和救命药物的开发,在对抗疟疾、抗生素耐药性和塑料垃圾等方面取得巨大进展。 气候领域:通过 AI 技术应对气候变化。 对社会治理的新挑战: 可能产生新的风险,如使用 AI 可能带来的未知问题。 复杂的 AI 技术可能引发公众的不安。 涉及数据获取、计算能力、可持续性以及内容生产者和 AI 开发者权利平衡等重要问题,需要综合考虑。 需确保在保护权利持有者和支持 AI 开发者获取所需数据之间保持恰当平衡。
2025-01-23
人工智能的场景应用
人工智能(AI)的应用场景广泛,涵盖以下多个领域: 1. 医疗保健: 医学影像分析,辅助诊断疾病。 加速药物研发,识别潜在药物候选物和设计新疗法。 提供个性化医疗方案。 控制手术机器人,提高手术精度和安全性。 2. 金融服务: 识别和阻止欺诈行为,降低风险。 评估借款人信用风险,辅助贷款决策。 分析市场数据,辅助投资决策。 提供 24/7 客户服务,回答常见问题。 3. 零售和电子商务: 分析客户数据进行产品推荐。 改善搜索结果和提供个性化购物体验。 实现动态定价。 提供聊天机器人服务,解决客户问题。 4. 制造业: 预测机器故障,避免停机。 检测产品缺陷,提高质量。 优化供应链,提高效率和降低成本。 控制工业机器人,提高生产效率。 5. 交通运输: 开发自动驾驶汽车,提高交通安全性和效率。 优化交通信号灯和交通流量,缓解拥堵。 优化物流路线和配送计划,降低运输成本。 实现无人机送货,送达偏远地区。 6. 其他领域: 教育:提供个性化学习体验。 农业:分析农田数据,提高农作物产量和质量。 娱乐:开发虚拟现实和增强现实体验。 能源:优化能源使用,提高能源效率。 此外,AI 绘画在以下场景也有应用: 广告设计:快速生成创意概念图,为广告策划提供灵感和初稿。 游戏开发:创建游戏场景、角色形象,提高开发效率。 影视制作:辅助生成特效场景、概念设计。 建筑设计:帮助构想建筑外观和内部布局。
2025-01-23
哪些应用或者是web服务可以使用api
以下是一些可以使用 API 的应用和 Web 服务: 1. TMDB 提供了搜索电影的 API,其文档网址为 https://developer.themoviedb.org/reference/searchmovie 。在该网站的开发者相关页面或 API 文档中,可获取 API 规则。通过在右上角的认证里能看到 API 读访问令牌,配置文件中包含了如 url、请求方法 get、查询参数 query 和 language 等。输入关键词和相关语言设置,如“奥本海默”和“zhCN”,点击 Try it 即可获取数据,返回的数据格式为 JSON。 2. RAG 加速器的数据抽取服务,基于 FastAPI 和 Postgresql 搭建,并提供了标准的 REST API 接口,附带有 dockercompose 文件方便搭建服务环境。该服务支持定义并持久化“抽取器”,包含抽取结构的图式(Schema)、抽取上下文的指令(Prompt)和抽取样例(Reference examples)。此外,提供了提交文件进行抽取的端点和通过 RemoteRunnable 使抽取服务在 LangChain Expression Language链中更易用的端点。预设了基于 MIME 类型的解析器,支持 PDF 和 HTML 文档的解析,还可扩展支持其他文件类型。使用时可通过 JSON 模式定义提取信息、指定样例提升提取结果质量,传入原始文本或二进制文件。 如果您对 Action 很感兴趣,可以从以下方向继续学习: 1. 系统学习 API 相关知识。 2. 在网上寻找可用的 API 进行练习。 3. 发掘 GPT Action 的更多潜力。
2025-01-23
2025年的趋势是什么
以下是 2025 年的一些趋势: 数字营销方面:核心会围绕 AI 技术、用户习惯、效率提升,聚焦在五大模块。AI 将继续成为数字营销的基石,使用需具备战略性和明确目的,以提升用户体验。预计到 2025 年,全球 AI 在数字营销领域的市场规模将达 1260 亿美元,采用 AI 技术的公司在广告点击率上可提高 35%,广告成本减少 20%。 AI 行业方面:2025 年或将成为 AI 技术逐渐成熟、应用落地取得阶段性成果的关键节点,同时成为 AI 产业链“资产负债表”逐步修复的年份。行业后续的发展要点包括: 大型基座模型能力的优化与提升,通过创新技术强化复杂推理和自我迭代能力,推动在高价值领域应用,优化模型效率和运行成本。 世界模型与物理世界融合的推进,构建具备空间智能的世界模型,融入物理世界,推动相关领域发展。 AI 的多模态融合,整合多模态数据,提升内容生成的多样性与质量,创造全新应用场景。
2025-01-21
总结一下大模型数据发展的最新趋势,基于历史的事实和数据总结23年以来发生了什么,25年可能发生什么
以下是关于大模型数据发展趋势的总结: 2023 年以来: 大量创新大模型架构涌现,尝试在保留 Transformer 优势的同时解决其算力开销太高的问题,对 Transformer 的绝对统治地位形成有力挑战。 多种有代表性的技术路径出现,如类循环神经网络模型(以 RWKV 为代表)、状态空间模型(以 Mamba 为代表)、层次化卷积模型(以 UniRepLKNet 为代表)、多尺度保持机制模型(以 RetNet 为代表)、液体神经网络模型(以 LFM 为代表)等。这些模型在不同程度保留 Transformer 架构优势的基础上,结合 RNN、CNN 等思想做出创新发展,使得大模型架构呈现出日益明显的混合趋势,更多创新架构具备“博采众家之长”的特点。 对于 2025 年的预测,由于目前的信息有限,难以给出确切的预测。但可能会在现有创新架构的基础上进一步优化和融合,出现更高效、更强大且更具通用性的大模型架构,同时可能在技术应用和行业落地方面取得更显著的成果。
2025-01-16
为什么说人工智能是大趋势
人工智能成为大趋势主要基于以下几个方面: 1. 技术范式的革新:传统的 Scaling Law 遭遇瓶颈后,新的模型开创了从“快思考”到“慢思考”训推双管齐下的道路。 2. 多模态能力的跃迁:从视频生成到原生多模态的崛起,再到世界模型的尝试,AI 开始真正理解和模拟立体世界。 3. 计算与连接的统一:自 ChatGPT 发布以来,AI 在计算和传递信息的基础上,展现出类人的思维能力,实现了计算与连接在大模型中的新统一。 4. 应用场景的拓展:AI 不仅在基础模型能力上提升,更在模型的落地应用和场景化方面发展,经历了从“训练时代”向“推理时代”的转变。 5. 在金融服务行业的重大飞跃:大型语言模型通过生成式人工智能,创造全新内容,结合对大量非结构化数据的训练和无限计算能力,可能带来金融服务市场数十年来最大的变革。 6. 各行业的广泛影响:AI 智变千行百业,变革生产力,重塑行业生态,在不同领域都有深入应用和发展。
2025-01-13
视觉理解技术最新动态和趋势
以下是视觉理解技术的最新动态和趋势: 一、视觉分析技术 1. Transformer 视觉模型优点 2. Transformer 视觉模型的局限 二、图像语言模型 三、视频语言模型 四、LLM 多模态 Agent 五、应用场景 1. 多模态内容理解与处理 2. 智能交互与自动化 3. 具身智能 4. 未来发展趋势(2024 ?) 5. 视频生成模型 mapping 六、未来发展方向 1. 技术路径而言:利用预训练 LLMs 进行指令调整 最初,多模态融合方法常采用预训练的目标检测器,如 ViLBERT、VisualBERT 和 UnicoderVL,通过提取图像特征和执行交叉模态预训练任务,为后续的图像 文本任务奠定基础。 随着 ViT 的出现和普及,更多方法开始利用 ViT 作为图像编码器,强调大规模预训练,以提高模型的性能和泛化能力,例如 Flamingo。 近期,向多模态 LLMs 发展,从进行预训练到向指令调整(instruction tuning)转变,如 LLaVA 和 MiniGPT4,融合视觉和语言信息,能更有效地完成视觉理解相关任务,提升模型对于指令的理解能力和零样本性能,更好地泛化到未见过的任务和领域。 2. 应用场景而言:赋予机器理解多模态的能力 此外,李飞飞在 2015 年的 TED 演讲《我们怎么教计算机理解图片?》中提到了计算机视觉方面的研究进展,指出虽然在科技上取得了很多进步,但在计算机视觉方面仍存在一些问题,如自动驾驶车辆的视觉敏锐度、向盲人传递画面、无人机的视觉技术等。
2025-01-10
大模型成本趋势
大模型的成本趋势如下: 目前存在唱衰大模型的观点,认为其难以找到可商用场景,部分功能存在幻觉问题,且算力成本高,导致商业模式难以形成闭环。 但也有观点认为,关于算力成本,已有许多解决方案,如模型蒸馏、苹果的端云方案等,今年内算力成本问题有望不再是难题。 对于不同规模的模型,小模型在某些特定应用中有其优势且足够好用,但大模型会解锁新的有价值的应用程序。不过并非所有应用都能证明大模型的成本合理。 在多模态大模型方面,随着数据集和模型规模扩大,传统模型带来巨大计算量。研究人员利用现成训练好的单模态基础模型,可减少多模态训练费用、提升效率。不同模态模型分开训练,如何实现模态连接和协同推理是核心挑战。
2024-12-19
AI应用于服装行业的趋势
以下是 AI 应用于服装行业的趋势: 1. 营销应用: DALLE 2 和其他图像生成工具已用于广告,如亨氏使用番茄酱瓶图像和类似标签论证“这就是人工智能眼中‘番茄酱’的样子”,雀巢使用维米尔画作的人工智能增强版帮助销售酸奶品牌,Stitch Fix 用 AI 向客户推荐特定服装并尝试用 DALLE 2 根据客户偏好创建服装可视化,美泰使用该技术生成玩具设计和营销的图像。 2. 协助搭配:InterAlia 可以帮助搭配服装。 3. 人物服装生成:在生成 AI 人物形象时,服装的细致处理需要了解很多相关知识点,可以使用“主题+风格+材质+元素+玄学佐料”的万能固定句式,如“一个穿着中国清代宫廷刺绣旗袍,宽袖渐变红色加上刺绣雪纺面料,镶钻工艺,上面还有金丝雀和白玫瑰元素等刺绣元素”。通过添加材质装饰细节能使生成的服装更精致。
2024-12-12