Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

2025年的趋势是什么

Answer

以下是 2025 年的一些趋势:

  • 数字营销方面:核心会围绕 AI 技术、用户习惯、效率提升,聚焦在五大模块。AI 将继续成为数字营销的基石,使用需具备战略性和明确目的,以提升用户体验。预计到 2025 年,全球 AI 在数字营销领域的市场规模将达 1260 亿美元,采用 AI 技术的公司在广告点击率上可提高 35%,广告成本减少 20%。
  • AI 行业方面:2025 年或将成为 AI 技术逐渐成熟、应用落地取得阶段性成果的关键节点,同时成为 AI 产业链“资产负债表”逐步修复的年份。行业后续的发展要点包括:
    • 大型基座模型能力的优化与提升,通过创新技术强化复杂推理和自我迭代能力,推动在高价值领域应用,优化模型效率和运行成本。
    • 世界模型与物理世界融合的推进,构建具备空间智能的世界模型,融入物理世界,推动相关领域发展。
    • AI 的多模态融合,整合多模态数据,提升内容生成的多样性与质量,创造全新应用场景。
Content generated by AI large model, please carefully verify (powered by aily)

References

[趋势研究]2025年数字营销十大趋势

By 2025,the core of digital marketing will revolve around AI technology,user habits,efficiency improvement,and focus on five major modules.Each module will extend into different trends,driving brands to establish strong competitiveness in the future market.预计在2025年,数字营销的核心会围绕AI技术,用户习惯,效率提升,聚焦在五大模块,每一模块下延展出不同趋势,推动品牌在未来市场中建立深厚的竞争力。[heading2]AI Involved Marketing(AI驱动的营销)[content]AI will remain a cornerstone of future digital marketing,but it requires strategic,purpose-driven use to ensure authenticity and avoid cheapening the brand.Brands should focus on leveraging AI to enhance user experience rather than simply following tech trends.By 2025,the global AI market in digital marketing is expected to reach$126 billion,underscoring AI's indispensable role in marketing.Companies using AI in advertising have reported up to a 35% increase in click-through rates and a 20% reduction in ad costs,illustrating AI’s impact on efficiency and cost-effectiveness.人工智能将继续成为未来数字营销的基石,但它的使用需要具备战略性和明确的目的,以确保品牌的真实性不受影响,避免出现“贬值”效果。品牌在AI技术的应用上应追求提升用户体验,而非简单地追逐技术潮流。预计到2025年,全球AI在数字营销领域的市场规模将达到1260亿美元,强调了AI在营销中不可或缺的角色。采用AI技术的公司在广告点击率上提高了35%,广告成本减少了20%,显示出AI在提升效率和成本优化方面的作用。Data source:[Statista](https://news.qq.com/rain/a/20220311A058H300),[36Kr](https://www.36kr.com/p/2353590854477317)

展望2025,AI行业有哪些创新机会? | 峰瑞报告

无论是OpenAI o1的长思考,还是Anthropic的自动化提示工程,本质都是通过延长推理时间和增加成本,来换取更高的首次通过率(pass@1)和更少的用户输入。综上所述,大型语言模型(LLM)的产品化面临着模型能力提升,算力、算法与数据的协同,以评测为中心的体系构建,以及平衡用户需求与模型推理深度等多重挑战。深入研究并解决这些问题,将有助于推动LLM技术的有效应用和商业化进程。▎行业后续的发展要点业界普遍认为,2025年或将成为AI技术逐渐成熟、应用落地取得阶段性成果的关键节点,同时成为AI产业链“资产负债表”逐步修复的年份。这一年或将标志着行业从高投入、低产出向商业化路径优化迈出的重要一步。在技术突破和产业发展的推动下,AI领域有望开启效率提升与价值释放的探索之路,为未来的稳健商业化奠定基础。1、大型基座模型能力的优化与提升通过创新的训练与推理技术,大幅强化复杂推理和自我迭代能力,推动大模型在科学研究、编程等高价值领域的深入应用。同时,围绕模型效率和运行成本的优化,为大模型的广泛普及和商业化奠定技术基础,进一步加速行业创新与跨领域融合。2、世界模型与物理世界融合的推进致力于构建具备空间智能的世界模型,使系统能够理解和模拟三维环境,并进一步融入物理世界,推动机器人、自主驾驶和虚拟现实等领域的发展。这类技术不仅提升了AI对环境的感知与推理能力,还加强了其执行任务的实际操作能力,为未来人机交互带来更多可能性。3、AI的多模态融合通过整合文本、图像、音频、视频、3D等多模态数据,生成式AI将显著提升内容生成的多样性与质量,为创意产业、教育、娱乐等领域创造全新的应用场景。

[趋势研究]2025年数字营销十大趋势

These five modules establish the strategic direction of digital marketing in 2025.Trends within each module will help brands achieve greater efficiency,flexibility,and customer connection in a rapidly changing market.This overview provides brands and marketing teams with forward-looking insights,equipping them for success in the future of digital marketing.这五大模块奠定了2025年数字营销的战略方向,每个模块的趋势将帮助品牌在高速变化的市场中实现更高的效率、灵活性和用户连接。这一趋势综述为品牌和营销团队提供了前瞻性的洞察,助力他们在未来的数字营销中取得成功。

Others are asking
最新的AI行业动态和进展有哪些,包含2025年
以下是关于最新的 AI 行业动态和进展(包含 2025 年)的内容: 2024 年: 图片超短视频的精细操控:包括表情、细致动作、视频文字匹配。 有一定操控能力的生成式短视频:风格化、动漫风最先成熟,真人稍晚。 AI 音频能力长足进展:带感情的 AI 配音基本成熟。 “全真 AI 颜值网红”出现,可以稳定输出视频,可以直播带货。 游戏 AI NPC 有里程碑式进展,出现新的游戏生产方式。 AI 男/女朋友聊天基本成熟:记忆上有明显突破,可以较好模拟人的感情,产品加入视频音频,粘性提升并开始出圈。 实时生成的内容开始在社交媒体内容、广告中出现。 AI Agent 有明确进展,办公场景“AI 助手”开始有良好使用体验。 AI 的商业模式开始有明确用例:数据合成、工程平台、模型安全等。 可穿戴全天候 AI 硬件层出不穷,虽然大多数不会成功。 中国 AI 达到或超过 GPT4 水平;美国出现 GPT5;世界上开始现“主权 AI”。 华为昇腾生态开始形成,国内推理芯片开始国产替代(训练替代要稍晚)。 AI 造成的 DeepFake、诈骗、网络攻击等开始进入公众视野,并引发担忧。 AI 立法、伦理讨论仍然大规模落后于技术进展。 2025 2027 年: AI 3D 技术、物理规则成熟:正常人无法区别 AI 生成还是实景拍摄。 全真 AI 虚拟人成熟:包含感情的 AI NPC 成熟,开放世界游戏成熟;游戏中几乎无法区别真人和 NPC。 AR/VR 技术大规模商用。 接近 AGI 的技术出现。 人与 AI 配合的工作方式成为常态,很多日常决策开始由 AI 来执行。 AI 生产的数据量超过全人类生产数据量,“真实”成为稀缺资源。 具身智能、核聚变、芯片、超导、机器人等技术有明显进展突破。 “人的模型”出现,出现“集中化 AGI”与“个人 AGI”的历史分叉。 AI 引发的社会问题开始加重,结构性失业开始出现。 AGI 对于地缘政治的影响开始显露。 此外,还有以下相关动态: 算力瓶颈不只是单纯的技术和建设问题,而是影响整个行业竞争格局的重要变量。 逐渐进入多模态灵活转换的新时代,实现文本、图像、音频、视频及其他更多模态之间的互相理解和相互转换。 人类劳动形式逐步“软件化”,复杂劳动被抽象为可调用的软件服务,劳动流程被大幅标准化和模块化,劳动能力像“即插即用”的工具一样易于获取。 AI 行业目前仍处于严重亏损的阶段,商业化进程仍有巨大提升空间。 云厂商是产业链中毋庸置疑的“链主”。 2024 年,头部 AI 应用的品类变化并不显著。创意工具(如图像和视频内容创作)依然占据最大比重。To P(面向专业用户)应用展现出强大的市场潜力,ToB(面向企业)应用发展路径相对复杂,ToC 应用面临较大的挑战。 在 AI 应用领域,Copilot 和 AI Agent 是两种主要的技术实现方式。 北美和欧洲贡献了 AI 移动应用市场三分之二的份额,众多中国 AI 公司积极出海。 2024 年 10 月的大事记包括: Gartner 发布 2025 年十大战略技术趋势。 DeepSeek 开源多模态 LLM 框架 Janus。 司南开源大模型能力评估模型 CompassJudger。 Anthropic 发布新功能 computer use,发布 Claude 3.5 Haiku,更新 Claude 3.5 Sonnet。 Stability AI 发布 Stable Diffusion 3.5。 x.AI 正式推出 API。 ComfyUI V1 官方桌面版开放内测。 华为发布纯血操作系统鸿蒙 OS NEXT。 Jina AI 推出高性能分类器 Classifier API。 OpenAI 发布图像生成模型 sCM。 Midjourney 上线外部图片编辑器。 Runway 发布动画视频功能 ActOne。 Ideogram 推出 AI 画板工具 Canvas。 Genmo 开源视频生成模型 Mochi 1。 荣耀发布操作系统 MagicOS 9.0。 美国 14 岁少年与 C.AI 聊天后离世。 新华社发文表示警惕「AI 污染」乱象。 港中文&趣丸推出 TTS 模型 MaskGCT。 科大讯飞发布讯飞星火 4.0 Turbo。 阿里通义代码模式开始内测。 Anthropic Claude 新增数据分析功能。 北京市大中小学推广 AI 学伴和 AI 导学应用。 稚晖君开源「灵犀 X1」全套资料。 OpenAI 高管 Miles Brundage 离职。
2025-02-17
今日2025.2.13日的AI日报
以下是 2025 年 2 月 13 日的 AI 日报: 近 7 日更新日志: 《》:Codeium 是一款面向企业用户的 AI 编程工具,能提升开发效率,适合非科技企业。其新产品 Windsurf 结合 AI 助手和开发者工作流程,提供无缝协作体验。与 GitHub Copilot 和 Cursor 相比,在代码生成和上下文感知能力上表现更佳,价格有竞争力。 《》:OpenAI 产品负责人 Kevin Weil 称 AI 模型成本下降,智能水平提升。未来将推出 o3 系列模型,具备更强推理能力,并计划在 2025 年让聊天机器人在现实世界实际操作。 《》:OpenAI 即将推出 GPT5,预计所有用户可免费使用。GPT4.5 将是最后一个非推理模型,GPT5 将整合多项技术,具备自主思考和快速响应能力,ChatGPT 多项功能将被整合,用户将享受免费深度研究额度。 社区动态速览: 2000 亿欧元投资,设立 12 个 AI 超算中心,抗衡美国与中国的竞争。 Anthropic CEO:AI 发展将加速至超人级智能 预计 2026 2030 年 AI 将达到“超级天才”级别,若无监管可能失控。 Cerebras 为 Perplexity AI Sonar 搜索模型提供加速,搜索速度提升 10 倍,优化信息准确性与计算成本。 更多详细内容查看
2025-02-13
在2025年2月12日这个时间点,我有哪些方式可以快速,稳定的使用 deepseek r1
在 2025 年 2 月 12 日,您可以通过以下方式快速、稳定地使用 DeepSeek R1: PPIO 派欧云(https://ppinfra.com/modelapi/product/llmapi?utm_medium=article&utm_source=WayToAGI):提供满血版全版本的 DeepSeekR1,输入价格为¥4/百万 tokens,输出价格为¥16/百万 tokens。有开发者福利,新注册立得 500 万 tokens(关注 PPIO 公众号回“deepseek”再领 1 亿),初创企业认证有 10 万算力补贴。产品服务特点为服务稳定性 99.9%,保持 0 故障,与 DeepSeek 官方同价,客户支持通道 10 分钟响应。 百度智能云:DeepSeekR1 限时免费,配额 1000RPM/10000TPM,无调用 tokens 上限。本模型将于 2025 年 2 月 19 日 00:00 起正式商用计费,输入价格 0.002 元/千 tokens,输出价格 0.008 元/千 tokens,有在线体验。 硅基流动:DeepSeekR1 输入价格为¥4/M Tokens,输出价格为¥16/M Tokens,有在线体验。2025 年 2 月 6 日起,未实名用户每日最多请求此模型 100 次。 此外,在 2 月 12 日,还有以下相关内容: 《》,来自社区伙伴 Hua 的投稿,手把手指导您在微软 Azure AI Foundry 平台上完成 DeepSeek R1(671B)模型的完整部署流程,包含环境准备、资源管理、模型测试及 API 调用说明。 《》Anthropic 正式发布 Anthropic AI Economic Index,聚焦 AI 对经济的长期影响。该指数直观展现 AI 如何融入现代经济的各类实际任务,并从职业(occupation)和具体工作任务(task)两个维度,量化 AI 对劳动力市场的影响。 《》DeepSeekR1 的火爆现象背后,企业可以获得显著提升。其强化学习和联网搜索能力,改变了信息获取方式,从“检索—阅读—摘要”转变为“提问—获得答案”,大幅提升工作效率。同时,DeepSeek 的开源策略打破了技术垄断,让国内大模型能力迅速提升。
2025-02-12
2025年 如何使用AGI赚钱
以下是关于 2025 年如何使用 AGI 赚钱的相关信息: 1. OpenAI 方面:到 2025 年,OpenAI 需从实验室和初创企业转型为长期发展的公司,董事会制定了一系列战略目标,包括优化非营利/盈利结构,将现有盈利机构转型为特拉华州公共利益公司(PBC),吸引资本支持使命;增强非营利组织的可持续性,非营利组织对现有盈利机构的权益将以 PBC 股份形式体现,并由独立财务顾问公平估值;强化部门功能分工,新结构下,PBC 将负责运营和业务,而非营利机构将专注于医疗、教育和科学等领域的慈善事业。OpenAI 的发展目标是助力建设一个以 AGI 为核心的新经济,同时确保其造福全人类。 2. DeepSeek 方面:DeepSeek 大模型近日在中国爆红,吸引了大量商家和博主借机“搞钱”,以高价售卖接入教程和培训课程。但官方提醒大部分收费内容均为假冒,用户无需花费。专家指出,普通人完全可以通过自学和开源社区获取知识,避免被虚假宣传误导。同时要警惕假冒网站。 3. 国产 AI 产业方面:东吴证券发布的研究报告指出,国产 AI 产业在 2025 年迎来加速发展机遇,字节跳动的 AI 生态布局尤为关键。2024 年大模型技术差距缩小,国内 AI 应用渗透率快速提升。字节跳动凭借顶级资源和创新姿态,在 AI 领域布局激进,其豆包大模型快速追赶,火山引擎云服务有望弯道超车。 4. 另外,Sam Altman 确信在 2025 年,可能会看到第一批人工智能 Agent“加入劳动力大军”,并对公司的生产力产生实质性的影响。超级智能工具可以极大地加速科学发现和创新,从而显著增加财富和繁荣。
2025-02-09
2025年出的模型有哪些
以下是 2025 年可能出现的一些模型: DeepSeek 发布了最新模型 V3 与 R1,采用混合专家(MoE)架构,V3 引入多头潜注意力(MLA),R1 通过强化学习激活推理能力。 字节跳动推出新技术 OmniHuman,利用单张图片和音频生成生动的视频。 OpenAI 发布新模型 o1,基于思维链和强化学习的新训练和推理方法,展现出明显超出 GPT4 等传统模型的复杂推理能力。 苹果公司发布面向 iPhone、iPad 和 Mac 的个人智能化系统 Apple Intelligence,嵌入一个大约 30 亿参数的本地模型。 此外,2024 年的一些模型发展趋势也可能延续到 2025 年,如: 多模态能力的提升,包括视频生成模型的发展,如 OpenAI 的 Sora 引发业界轰动,带动一众模型公司追逐,到年底视频生成已成为各大模型公司的标配能力。 开源项目的发展,如 Meta 推出的 Llama 3.1 405B 版本,中国的开源项目 Qwen2、DeepSeek 等在全球范围内赢得众多用户。 随着“蒸馏”和“量化”等技术的发展,模型的小型化和端侧化逐渐形成趋势,多家公司推出 40 亿参数以下的专业或端侧小模型。
2025-02-07
2025年AI新年春晚在哪儿直播?几点直播?从哪个平台上可以看得到?微信视频号?抖音?B站还是什么渠道可以看得到?
2025 年 AI 春晚的相关信息如下: 直播视频名称:共创贺新春,AI 中国年,第二届 AI 春晚! 60 字内容简介:30 多个共创 AI 节目,来自 1000 多位共创者 3 个月的辛勤筹备。2025 年 1 月 29 日(大年初一)晚上 6:00 准点开播。 正式开放配置时间:1 月 29 日晚上 5:45 正式直播时间:1 月 29 日晚上 6:00 关于转播: 有转播经验的:能直接接受 https,rtmp 信号源的可以直接用拉流地址。 第一次转播的小伙伴:如果直播平台不能直接接入信号源,请先下载一个 OBS:https://obsproject.com/zhcn/download 。配置教程已置顶主流直播平台推流地址获取方式可以参考这篇文章后半段:https://zhuanlan.zhihu.com/p/653204958?utm_id=0 。 直播技术问题咨询: AI 春晚是由 WaytoAGI 社区组织的一场由 AI 技术驱动的晚会,首届 AI 春晚的完整视频可在 B 站上观看。首届 AI 春晚于 24 年大年初一当晚直播,18 万人在线观看,后续视频播放量超过 200 万,媒体曝光量超过 500 万,被誉为 AI 视频寺庙时代的一部现象级作品。 更多详细信息可参考 WaytoAGI 的官方网站。 完整版:https://www.bilibili.com/video/BV15v421k7PY/?spm_id_from=333.999.0.0 。 相关进度:
2025-01-24
怎么学python,以适应AI时代趋势为导向
以下是一些关于以适应 AI 时代趋势为导向学习 Python 的建议: 1. 学习资源: 微信机器人教程,其中介绍了在 Linux 环境安装 Python 以及 Python 虚拟环境的相关知识。 吴恩达的 AI Python 初学者课程,这是一系列四门短期课程,适合任何技术水平的人。 2. 基础知识: 掌握 Python 的安装和编程基础,包括变量、数据类型、控制结构、函数等。 了解 Python 虚拟环境,它是一个独立的 Python 运行空间,用于隔离不同项目的依赖库,避免与系统的 Python 版本形成冲突。 3. 数学和理论基础: 统计学基础:熟悉均值、中位数、方差等统计概念。 线性代数:了解向量、矩阵等线性代数基本概念。 概率论:基础的概率论知识,如条件概率、贝叶斯定理。 了解人工智能、机器学习、深度学习的定义及其之间的关系,以及 AI 的发展历程和重要里程碑。 4. 算法和模型: 监督学习:了解常用算法,如线性回归、决策树、支持向量机(SVM)。 无监督学习:熟悉聚类、降维等算法。 强化学习:简介强化学习的基本概念。 神经网络基础:理解神经网络的基本结构,包括前馈网络、卷积神经网络(CNN)、循环神经网络(RNN),以及常用的激活函数,如 ReLU、Sigmoid、Tanh。 5. 实践和应用: 学会向 AI 提供线索,这对于快速修复问题非常重要。 可以使用 Cursor 的菜单 Open in intergrated Terminal 直接切换到对应目录,也可以使用 cd 命令。 参考 Cursor 提示词网站:https://cursor.directory/,学习和参考其中大量网友实践后上传的提示词。 通过构建 AI 应用程序进行学习,例如编写与大型语言模型交互的代码,以快速创建有趣的应用程序来定制诗歌、编写食谱和管理待办事项列表。 总之,强烈推荐在 AI 时代掌握 Python 这门编程语言,不断学习和实践,以适应时代的发展趋势。
2025-02-17
有关于数据标注行业发展趋势的文章吗?
以下是关于数据标注行业发展趋势的相关内容: 数据标注行业呈现出以下几个主要的发展趋势: 从量到质的转变:早期大模型训练侧重通过大量算力和大规模数据集来提升性能,但随着技术进步,数据质量成为提高模型性能的关键瓶颈,更注重提高数据的质量和相关性,而非单纯增加数据量和算力。 数据标注向知识密集型转变:多模态模型需处理多种类型数据,使数据标注过程更细致复杂。例如进行情绪判断或推理时,需要更高水平的理解和分析能力。这要求从事标注的人员不仅要接受专业培训,在某些情况下还需要特定领域专家执行。 数据标注的自动化和合成数据的使用:随着人工智能技术发展,数据标注领域正经历自动化转型,可使用大模型自动标注数据,提高标注效率并减少人力成本。合成数据使用越来越普遍,因其成本较低、能避免隐私问题及可生成长尾场景数据。例如在自动驾驶领域,可用于生成罕见但关键的路况场景,提高模型的鲁棒性和准确性。 此外,相关法律法规也对生成式人工智能技术研发过程中的数据标注做出规定,如提供者应制定清晰、具体、可操作的标注规则,开展数据标注质量评估,对标注人员进行必要培训等。
2025-02-17
汽车智能座舱趋势
汽车智能座舱呈现出以下趋势: 1. 车被视为移动的家,座舱内具备优质沙发、空调、音响等,玩游戏成为很爽的体验,除出行需求外,座舱内的可能性增多。 2. 车上已搭载算力和传感器,加上 AI 应用,座舱的可能性进一步增大。但形成类似手机苹果 iOS 的生态系统可能性不大,因其使用场景有限,不过车停下时会有特殊应用场景。 3. 从去年开始,关注点从自动驾驶转向座舱,因座舱优化更易被感知和传播,自动驾驶进展难以测评达到一致性。 4. 许多车企致力于座舱芯片研发,基于语音做大模型,整车厂在这方面更有优势。 5. 驾驶方面更关注辅助功能,如停车、过窄道等实用功能。 6. 当座舱有 AI 算力后,能实现如根据人在车上的位置开窗户等交互功能,还有如父母在车内长时间等待时能看片、躺下等可能性。 7. 大模型终端化是趋势,如上车、上 PC、上手机。在车内控制车身、智能座舱及与自动驾驶融合时,云端时延不够,大模型必须上车。同时,大模型上终端能保护隐私,如苹果自研大模型将与手机深度整合。
2025-01-25
总结一下大模型数据发展的最新趋势,基于历史的事实和数据总结23年以来发生了什么,25年可能发生什么
以下是关于大模型数据发展趋势的总结: 2023 年以来: 大量创新大模型架构涌现,尝试在保留 Transformer 优势的同时解决其算力开销太高的问题,对 Transformer 的绝对统治地位形成有力挑战。 多种有代表性的技术路径出现,如类循环神经网络模型(以 RWKV 为代表)、状态空间模型(以 Mamba 为代表)、层次化卷积模型(以 UniRepLKNet 为代表)、多尺度保持机制模型(以 RetNet 为代表)、液体神经网络模型(以 LFM 为代表)等。这些模型在不同程度保留 Transformer 架构优势的基础上,结合 RNN、CNN 等思想做出创新发展,使得大模型架构呈现出日益明显的混合趋势,更多创新架构具备“博采众家之长”的特点。 对于 2025 年的预测,由于目前的信息有限,难以给出确切的预测。但可能会在现有创新架构的基础上进一步优化和融合,出现更高效、更强大且更具通用性的大模型架构,同时可能在技术应用和行业落地方面取得更显著的成果。
2025-01-16
为什么说人工智能是大趋势
人工智能成为大趋势主要基于以下几个方面: 1. 技术范式的革新:传统的 Scaling Law 遭遇瓶颈后,新的模型开创了从“快思考”到“慢思考”训推双管齐下的道路。 2. 多模态能力的跃迁:从视频生成到原生多模态的崛起,再到世界模型的尝试,AI 开始真正理解和模拟立体世界。 3. 计算与连接的统一:自 ChatGPT 发布以来,AI 在计算和传递信息的基础上,展现出类人的思维能力,实现了计算与连接在大模型中的新统一。 4. 应用场景的拓展:AI 不仅在基础模型能力上提升,更在模型的落地应用和场景化方面发展,经历了从“训练时代”向“推理时代”的转变。 5. 在金融服务行业的重大飞跃:大型语言模型通过生成式人工智能,创造全新内容,结合对大量非结构化数据的训练和无限计算能力,可能带来金融服务市场数十年来最大的变革。 6. 各行业的广泛影响:AI 智变千行百业,变革生产力,重塑行业生态,在不同领域都有深入应用和发展。
2025-01-13
视觉理解技术最新动态和趋势
以下是视觉理解技术的最新动态和趋势: 一、视觉分析技术 1. Transformer 视觉模型优点 2. Transformer 视觉模型的局限 二、图像语言模型 三、视频语言模型 四、LLM 多模态 Agent 五、应用场景 1. 多模态内容理解与处理 2. 智能交互与自动化 3. 具身智能 4. 未来发展趋势(2024 ?) 5. 视频生成模型 mapping 六、未来发展方向 1. 技术路径而言:利用预训练 LLMs 进行指令调整 最初,多模态融合方法常采用预训练的目标检测器,如 ViLBERT、VisualBERT 和 UnicoderVL,通过提取图像特征和执行交叉模态预训练任务,为后续的图像 文本任务奠定基础。 随着 ViT 的出现和普及,更多方法开始利用 ViT 作为图像编码器,强调大规模预训练,以提高模型的性能和泛化能力,例如 Flamingo。 近期,向多模态 LLMs 发展,从进行预训练到向指令调整(instruction tuning)转变,如 LLaVA 和 MiniGPT4,融合视觉和语言信息,能更有效地完成视觉理解相关任务,提升模型对于指令的理解能力和零样本性能,更好地泛化到未见过的任务和领域。 2. 应用场景而言:赋予机器理解多模态的能力 此外,李飞飞在 2015 年的 TED 演讲《我们怎么教计算机理解图片?》中提到了计算机视觉方面的研究进展,指出虽然在科技上取得了很多进步,但在计算机视觉方面仍存在一些问题,如自动驾驶车辆的视觉敏锐度、向盲人传递画面、无人机的视觉技术等。
2025-01-10