Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

为什么说人工智能是大趋势

Answer

人工智能成为大趋势主要基于以下几个方面:

  1. 技术范式的革新:传统的 Scaling Law 遭遇瓶颈后,新的模型开创了从“快思考”到“慢思考”训推双管齐下的道路。
  2. 多模态能力的跃迁:从视频生成到原生多模态的崛起,再到世界模型的尝试,AI 开始真正理解和模拟立体世界。
  3. 计算与连接的统一:自 ChatGPT 发布以来,AI 在计算和传递信息的基础上,展现出类人的思维能力,实现了计算与连接在大模型中的新统一。
  4. 应用场景的拓展:AI 不仅在基础模型能力上提升,更在模型的落地应用和场景化方面发展,经历了从“训练时代”向“推理时代”的转变。
  5. 在金融服务行业的重大飞跃:大型语言模型通过生成式人工智能,创造全新内容,结合对大量非结构化数据的训练和无限计算能力,可能带来金融服务市场数十年来最大的变革。
  6. 各行业的广泛影响:AI 智变千行百业,变革生产力,重塑行业生态,在不同领域都有深入应用和发展。
Content generated by AI large model, please carefully verify (powered by aily)

References

码观 | 共识与非共识:从模型到应用,2024 AI 趋势回首与展望

在硅谷101号公路旁,谷歌总部以南不到十分钟车程的地方,坐落着一座不太起眼的博物馆。从这里向北眺望,能看到Meta的蓝色标志,向南远眺,是苹果的太空环。在科技巨头的包围中,像一位沉默的长者,注视着周围新旧交替的浪潮,记录人类文明最壮丽的生长。这里是计算机历史博物馆,在幽静的展厅里,一个古老的算盘和一段打着绳结的麻绳,讲述着人类最原始的梦想:计算与连接。2024年,这两条线索在人工智能的浪潮中,终于完全交织在了一起。AI不仅在计算,更在创造;不仅在传递信息,更在理解和转化信息。当机器开始展现出类人的思维能力,曾经分立的计算与连接,在大模型中获得了新的统一。这是一个奇特的时刻:计算变成了对话,数据化作了智慧。自ChatGPT发布以来的人工智能的发展,已经远远超出了人类的预期。我们在年末回望,市场的关注焦点,从去年基础模型能力的提升,到今年模型的落地应用和场景化。AI的能力需要转化为实际的产品和服务,满足用户需求才是核心。这背后,是AI产业经历了从“训练时代”向“推理时代”的转变。本文将详述我们看到的AI发展三个关键维度可能性,与各位共享:一、技术范式的革新。当传统的Scaling Law遭遇瓶颈,OpenAI的o系列模型开创了新的道路——从大力出奇迹的“快思考”到“慢思考”训推双管齐下。二、多模态能力的跃迁。从Sora的视频生成到原生多模态的崛起,再到世界模型的尝试,AI开始真正理解和模拟这个立体的世界。

金融服务业将比你想象得更快地接纳生成式 AI

原文地址:https://a16z.com/2023/04/19/financial-services-will-embrace-generative-ai-faster-than-you-think/原文作者:Angela Strange,Anish Acharya,Sumeet Singh,Alex Rampell,Marc Andrusko,Joe Schmidt,David Haber,Seema Amble发表时间:2023年4月19日译者:通往AGI之路,若有瑕疵之处,请在段落评论中斧正,谨此致谢人工智能和机器学习在金融服务行业的应用已经有十多年的历史,它们已经促成了从更好的信贷评估到更精确的基础欺诈评分等一系列的改进。大型语言模型(LLMs)通过生成式人工智能,代表着一次重大的飞跃,正在改变[教育](https://a16z.com/2023/02/08/the-future-of-learning-education-knowledge-in-the-age-of-ai/)、[游戏](https://a16z.com/2022/11/17/the-generative-ai-revolution-in-games/)、[商业](https://a16z.com/2023/02/07/everyday-ai-consumer/)等多个领域。与传统的AI/ML主要侧重于基于现有数据进行预测或分类不同,生成式人工智能可以创造全新的内容。这种能力,结合了对大量非结构化数据的训练和实际上无限的计算能力,可能将带来金融服务市场数十年来最大的变革。与其他平台转变——如互联网、移动设备、云计算——不同,在这些转变中金融服务行业的采用速度较慢,在这里,我们预计最优秀的新公司和现有企业将立即开始接纳生成式人工智能。

《2024年度AI十大趋势报告》发布:技术创新、产品洗牌、行业动态一文看尽

大模型创新:架构优化加速涌现,融合迭代大势所趋Scaling Law泛化:推理能力成皇冠明珠,倒逼计算和数据变革AGI探索:视频生成点燃世界模型,空间智能统⼀虚拟和现实AI应用格局:第⼀轮洗牌结束,聚焦20赛道5大场景AI应用竞争:多领域竞速运营大于技术,AI助手兵家必争AI应用增长:AI+X赋能类产品大干快上,原生AI爆款难求AI产品趋势:多模态上马,Agent席卷⼀切,高度个性化呼之欲出AI智变千行百业:左手变革生产力,右手重塑行业生态AI行业渗透率:数据基础决定初速度,用户需求成为加速度AI创投:投融资马太效应明显,国家队出手频率提升

Others are asking
告诉我211本科人工智能毕业一志愿考研结果不理想,很可能被调剂到一个双非院校,请给我在就业方面一个合适的方向(包括但不限于大学老师、大厂、中小厂、国企、考公考编、选调生等)
对于 211 本科人工智能专业毕业,考研一志愿结果不理想可能被调剂到双非院校的情况,在就业方面可以有以下几个方向: 大学老师:如果您有继续深造的意愿,在研究生阶段取得优异成果,未来仍有机会进入高校任教,但可能相对较难进入重点高校。 大厂:大厂通常对学历和能力都有较高要求。虽然您的研究生院校可能是双非,但如果在研究生期间积累丰富的项目经验、具备扎实的专业技能,仍有机会进入大厂。 中小厂:中小厂对于学历的要求相对宽松,更注重实际能力。您可以在中小厂获得更多实践机会,积累工作经验,为未来的职业发展打下基础。 国企:国企的稳定性较高,对于学历的要求也相对灵活。您可以关注国企的招聘信息,寻找与人工智能相关的岗位。 考公考编:公务员和事业单位的工作稳定性强,一些与科技、信息化相关的部门可能会招聘人工智能专业的人才。 选调生:如果您符合选调生的选拔条件,可以尝试通过选调生途径进入政府部门工作。 总之,无论选择哪个方向,都需要在研究生期间不断提升自己的专业能力和综合素质,增加就业竞争力。
2025-03-03
帮我找出现在成熟的人工智能大模型,列举他们的功能,附上打开链接
以下是一些成熟的人工智能大模型及其功能和链接: 百度(文心一言):https://wenxin.baidu.com 。 抖音(云雀大模型):https://www.doubao.com 。 智谱 AI(GLM 大模型):https://chatglm.cn 。 中科院(紫东太初大模型):https://xihe.mindspore.cn 。 百川智能(百川大模型):https://www.baichuanai.com/ 。 商汤(日日新大模型):https://www.sensetime.com/ 。 MiniMax(ABAB 大模型):https://api.minimax.chat 。 上海人工智能实验室(书生通用大模型):https://internai.org.cn 。 在这些大模型中: 能生成 Markdown 格式的:智谱清言、商量 Sensechat、MiniMax 。 目前不能进行自然语言交流的:昇思、书生 。 受限制使用:MiniMax(无法对生成的文本进行复制输出,且只有 15 元的预充值额度进行体验,完成企业认证后可以进行充值) 。 特色功能:昇思——生图,MiniMax——语音合成 。 此外,还有其他一些大模型: OpenAI 系统:包括 3.5 和 4.0 版本,一个新的变种使用插件连接到互联网和其他应用程序。Code Interpreter 是一个非常强大的 ChatGPT 版本,可以运行 Python 程序。如果未为 OpenAI 付费,只能使用 3.5 。除了插件变种和一个暂时停用的带有浏览功能的 GPT4 版本之外,这些模型都没有连接到互联网。微软的 Bing 使用 4 和 3.5 的混合,通常是 GPT4 家族中首个推出新功能的模型,例如可以创建和查看图像,且可以在网页浏览器中阅读文档,并连接到互联网。 谷歌:一直在测试自己的人工智能 Bard,由各种基础模型驱动,最近是一个名叫 PaLM 2 的模型。 Anthropic:发布了 Claude 2,其最值得注意的是有一个非常大的上下文窗口,本质上是 LLM 的记忆。Claude 几乎可以保存一整本书或许多 PDF,与其他大型语言模型相比,它不太可能恶意行事。
2025-03-03
人工智能生成内容(AIGC)感悟600字
以下是为您生成的 600 字左右关于人工智能生成内容(AIGC)的感悟: AIGC 作为当今科技领域的热门话题,正以惊人的速度改变着我们的生活和工作方式。 AIGC 强调的是利用人工智能技术生成各种内容,包括文本、图像、音频和视频等。它并非简单的技术堆砌,而是多种先进技术融合的成果。例如,Transformer 模型在语言处理和多模态领域的应用,为 AIGC 提供了强大的支撑。 从原理上看,AIGC 涉及多种生成算法,如 VAE、GAN、FlowModel 和 Diffusion Model 等。这些算法使得机器能够创造出具有一定质量和创意的内容。同时,还有像 IS 和 FID 这样的评价指标来衡量生成图片的质量。 在实际应用中,AIGC 展现出了巨大的潜力。它可以自动撰写新闻文章,为媒体行业带来效率的提升;能够生成艺术画作,为艺术创作注入新的活力;可以创作音乐,丰富音乐领域的多样性;还能制作视频游戏内容,为娱乐产业增添新的元素。 ChatGPT 作为 AIGC 在文本生成领域的杰出代表,充分展示了 AIGC 的强大能力。它通过预训练和大量的数据投喂,能够与用户进行流畅且相关的文本交流,仿佛在玩“文字接龙游戏”。 然而,AIGC 也面临一些挑战和问题。比如生成内容的准确性和可靠性需要进一步提高,版权和伦理问题也需要引起重视。但不可否认的是,AIGC 为我们开启了一扇充满无限可能的大门,让我们对未来充满期待。随着技术的不断进步和完善,相信 AIGC 将在更多领域发挥重要作用,为人类创造更多的价值。
2025-03-01
人工智能生成内容(AIGC)的突破、对齐及产业培育,感悟
以下是关于人工智能生成内容(AIGC)的突破、对齐及产业培育的感悟: 一、原理与概念 1. 人工智能(AI):是一种目标,让机器展现智慧,简称 AI。 2. 生成式人工智能(GenAI):目标是让机器产生复杂有结构的内容,简称 GenAI。 3. 机器学习:一种手段,让机器自动从资料中找到公式,包括监督学习、无监督学习、强化学习。 监督学习:有标签的训练数据,学习输入和输出之间的映射关系,包括分类和回归。 无监督学习:学习的数据没有标签,算法自主发现规律,如聚类。 强化学习:从反馈里学习,最大化奖励或最小化损失,类似训小狗。 4. 深度学习:一种更厉害的手段,参照人脑有神经网络和神经元(因有很多层所以叫深度),神经网络可用于多种学习方式。 5. 大语言模型(LLM):是一类具有大量参数的“深度学习”模型。 6. ChatGPT:是 AIGC 技术的一个应用实例,是美国 OpenAI 公司开发的基于大型语言模型的对话机器人,能根据用户输入生成连贯且相关的文本回复。 二、AIGC 的特点与应用 AIGC 是利用人工智能技术生成内容的新型生产方式,包括文本、图像、音频和视频等内容。其技术可用于多种应用,如自动撰写新闻文章、生成艺术画作、创作音乐、制作视频游戏内容等。 三、相关概念的关系与区别 AGI、GenAI、AIGC 几个概念有所区别与联系,具体可参考相关图示。更多概念可问 Kimi、通义千问、文心一言等大模型。 四、技术里程碑 2017 年 6 月,谷歌团队发表论文《Attention is All You Need》,首次提出了 Transformer 模型,它完全基于自注意力机制处理序列数据,不依赖于循环神经网络或卷积神经网络。
2025-03-01
新手如何更好使用该网站,主要了解人工智能或者AGI进展,主流软件的学习和应用
对于新手想要更好地使用该网站来了解人工智能或 AGI 进展以及主流软件的学习和应用,以下是一些相关内容: AE 软件: 基本功能:可通过图层软件抠元素加插件做特效,如利用 auto field 自动填充工具,轨道遮罩功能让图层按特定形状变化等。 与 AI 结合运用:如用 runway 生成烟花爆炸素材,结合 AE 的图层混合模式、遮罩等功能实现特效可控的画面。 其他应用:用内容识别填充功能处理视频画面,如抹掉入镜的人;从素材网站获取粒子素材为画面添加氛围感。 学习路径:可在 B 站找丰富的 AE 软件入门课程自学,也可从包图网下载工程文件学习。 学习方法:通过拆解视频、留意路边广告特效、按层级逻辑思考画面运动来学习 AE,还可参考模板。 与 AI 的关系:AI 出现后,AE 使用减少,有些动效可用 AI 完成。 在短剧中的应用:在火焰、文字、光线等方面有少量应用。 AI 相关技术与活动: AI 音乐创作:通过输入更高级的词汇与 AI 音乐对话能产生更好效果,有 AI 音乐的版块、挑战、分享会和教程,可通过王贝加入 AI 音乐社区。 数字人语音合成:介绍了声音克隆技术,提到了微软、阿里等的相关成果,常用的是 JPT service。 Config UI 的应用:能降低成本、提高效率,在图书出版、引流等方面有应用,岗位稀缺,社区有相关共学课程。 社区共创项目:包括东京的 confii 生态大会、AI 文旅视频、娃卡奖、李普村共创故事、AI 春晚等活动。 作业与报名:作业是询问对 AI 方向的兴趣和想做的项目,活动报名可通过填写名字和申请新增学校参与。 线下寄送物料组织活动:会给大家寄送线下活动物料,在学校内组织。 AI 春晚即将开始:去年 300 人 30 天共创了 AI 春晚,今年的也即将开始,可报名参与多种岗位。 AIPO 活动及相关挑战:10 月 20 日的 AIPO 活动,可提前构思展示项目,有会话和视频相关的挑战赛。 共学活动与技能提升:接下来 10 天有从零基础到建站等内容的讲解,回放会放在链接里,可先从练习提示词入手。 硬件机器人材料购买:若搞硬件机器人,部分材料需尽快购买。 自媒体发布与流量扶持:在小红书发布活动内容带特定标签有流量扶持,作品也可发布在 GitHub 等平台。 活动奖项与历史玩法:设最佳创业奖和最佳投资奖各四个,有线下摆摊展示交流、IPO 路演等玩法,之前在多个城市举办过 AI 切磋大会。 工具使用与新大赛预告:可使用多种 AI 工具,新的大赛即将开启,有百万奖金池,相关动态会在社区活动栏目公布。 AI 音乐和数字人语音合成: AI 音乐方面,提到草爷、格林 king、狗哥带大家入门,有相关课程与教程,且淘宝上有套壳工具抄袭。社区伙伴做的 AI 音乐专辑不错。 数字人语音合成部分提到声音克隆,有新的声音克隆且音质很不错。 提到了微软新出的成果、阿里的 Cozy voice(指出其泛化能力不强)、大家常用的 GPT solve it、刚举办的 AI 3D 活动。 以小田的 config UI 基础工作流一日谈展开,讲述了多个案例,如许建拍摄场景图成本降低,郭佑萌在图书出版行业提升效率,影楼可进行换装等操作,文旅文创场景有有趣的合影生成方式,还提到该工作流岗位稀缺且社区有课程可供学习。 AJ 介绍平台资源,包括共学课程、专栏报告、数据等,还提及就业创业及一些企业专栏的内容。
2025-02-28
人工智能法律
以下是关于人工智能法律的相关内容: 《人工智能权利法案蓝图》提出了人工智能权利法案的相关内容。 《全球人工智能治理大变局之欧盟人工智能治理监管框架评述及启示》中提到: 1. 欧盟人工智能监管体系对中国的启示包括纳入道德伦理和人权考量的以风险为基准的统一人工智能治理。但伦理道德和人权的高度概括性、抽象性和不确定性给融入人工智能治理带来挑战,我国《科技伦理审查办法(试行)》是积极探索,但人工智能的特殊性可能无法体现,且“不可接受的风险”和“高风险”的界定存在不确定性和模糊性,以风险为基准的人工智能管理框架成效有待观望和研讨。 《人工智能法案》的相关规定包括: 1. 通过适当的设计、测试和分析,在开发前和整个开发过程中,用适当的方法(如让独立专家参与)证明对健康、安全、基本权利、环境、民主和法治的合理可预见风险的识别、减少和缓解,以及开发后剩余不可缓解风险的记录。 2. 处理和纳入仅受适当数据治理措施约束的数据集用于基础模型,特别是检查数据源的适用性和可能的偏差以及适当的缓解措施。 3. 设计和开发基础模型,以在其整个生命周期内通过适当的方法(如让独立专家参与模型评估、记录分析和广泛测试)实现适当水平的性能、可预测性、可解释性、可纠正性、安全性和网络安全性。 4. 设计和开发基础模型时,利用适用的标准来减少能源使用、资源使用和浪费,并提高能源效率和系统的整体效率,但不损害相关的现有联盟和国家法律。在第 40 条所述的标准公布之前,此义务不适用。基础模型应具备能够测量和记录能源和资源消耗以及在技术可行的情况下系统部署和使用在整个生命周期内可能产生的其他环境影响的能力。 5. 制定广泛的技术文档和易懂的使用说明,以使下游供应商能够遵守第 16 条和第 28(1)条规定的义务。 6. 建立质量管理体系,以确保并记录对本条的遵守情况,并有可能在满足这一要求方面进行试验。
2025-02-27
怎么学python,以适应AI时代趋势为导向
以下是一些关于以适应 AI 时代趋势为导向学习 Python 的建议: 1. 学习资源: 微信机器人教程,其中介绍了在 Linux 环境安装 Python 以及 Python 虚拟环境的相关知识。 吴恩达的 AI Python 初学者课程,这是一系列四门短期课程,适合任何技术水平的人。 2. 基础知识: 掌握 Python 的安装和编程基础,包括变量、数据类型、控制结构、函数等。 了解 Python 虚拟环境,它是一个独立的 Python 运行空间,用于隔离不同项目的依赖库,避免与系统的 Python 版本形成冲突。 3. 数学和理论基础: 统计学基础:熟悉均值、中位数、方差等统计概念。 线性代数:了解向量、矩阵等线性代数基本概念。 概率论:基础的概率论知识,如条件概率、贝叶斯定理。 了解人工智能、机器学习、深度学习的定义及其之间的关系,以及 AI 的发展历程和重要里程碑。 4. 算法和模型: 监督学习:了解常用算法,如线性回归、决策树、支持向量机(SVM)。 无监督学习:熟悉聚类、降维等算法。 强化学习:简介强化学习的基本概念。 神经网络基础:理解神经网络的基本结构,包括前馈网络、卷积神经网络(CNN)、循环神经网络(RNN),以及常用的激活函数,如 ReLU、Sigmoid、Tanh。 5. 实践和应用: 学会向 AI 提供线索,这对于快速修复问题非常重要。 可以使用 Cursor 的菜单 Open in intergrated Terminal 直接切换到对应目录,也可以使用 cd 命令。 参考 Cursor 提示词网站:https://cursor.directory/,学习和参考其中大量网友实践后上传的提示词。 通过构建 AI 应用程序进行学习,例如编写与大型语言模型交互的代码,以快速创建有趣的应用程序来定制诗歌、编写食谱和管理待办事项列表。 总之,强烈推荐在 AI 时代掌握 Python 这门编程语言,不断学习和实践,以适应时代的发展趋势。
2025-02-17
有关于数据标注行业发展趋势的文章吗?
以下是关于数据标注行业发展趋势的相关内容: 数据标注行业呈现出以下几个主要的发展趋势: 从量到质的转变:早期大模型训练侧重通过大量算力和大规模数据集来提升性能,但随着技术进步,数据质量成为提高模型性能的关键瓶颈,更注重提高数据的质量和相关性,而非单纯增加数据量和算力。 数据标注向知识密集型转变:多模态模型需处理多种类型数据,使数据标注过程更细致复杂。例如进行情绪判断或推理时,需要更高水平的理解和分析能力。这要求从事标注的人员不仅要接受专业培训,在某些情况下还需要特定领域专家执行。 数据标注的自动化和合成数据的使用:随着人工智能技术发展,数据标注领域正经历自动化转型,可使用大模型自动标注数据,提高标注效率并减少人力成本。合成数据使用越来越普遍,因其成本较低、能避免隐私问题及可生成长尾场景数据。例如在自动驾驶领域,可用于生成罕见但关键的路况场景,提高模型的鲁棒性和准确性。 此外,相关法律法规也对生成式人工智能技术研发过程中的数据标注做出规定,如提供者应制定清晰、具体、可操作的标注规则,开展数据标注质量评估,对标注人员进行必要培训等。
2025-02-17
汽车智能座舱趋势
汽车智能座舱呈现出以下趋势: 1. 车被视为移动的家,座舱内具备优质沙发、空调、音响等,玩游戏成为很爽的体验,除出行需求外,座舱内的可能性增多。 2. 车上已搭载算力和传感器,加上 AI 应用,座舱的可能性进一步增大。但形成类似手机苹果 iOS 的生态系统可能性不大,因其使用场景有限,不过车停下时会有特殊应用场景。 3. 从去年开始,关注点从自动驾驶转向座舱,因座舱优化更易被感知和传播,自动驾驶进展难以测评达到一致性。 4. 许多车企致力于座舱芯片研发,基于语音做大模型,整车厂在这方面更有优势。 5. 驾驶方面更关注辅助功能,如停车、过窄道等实用功能。 6. 当座舱有 AI 算力后,能实现如根据人在车上的位置开窗户等交互功能,还有如父母在车内长时间等待时能看片、躺下等可能性。 7. 大模型终端化是趋势,如上车、上 PC、上手机。在车内控制车身、智能座舱及与自动驾驶融合时,云端时延不够,大模型必须上车。同时,大模型上终端能保护隐私,如苹果自研大模型将与手机深度整合。
2025-01-25
2025年的趋势是什么
以下是 2025 年的一些趋势: 数字营销方面:核心会围绕 AI 技术、用户习惯、效率提升,聚焦在五大模块。AI 将继续成为数字营销的基石,使用需具备战略性和明确目的,以提升用户体验。预计到 2025 年,全球 AI 在数字营销领域的市场规模将达 1260 亿美元,采用 AI 技术的公司在广告点击率上可提高 35%,广告成本减少 20%。 AI 行业方面:2025 年或将成为 AI 技术逐渐成熟、应用落地取得阶段性成果的关键节点,同时成为 AI 产业链“资产负债表”逐步修复的年份。行业后续的发展要点包括: 大型基座模型能力的优化与提升,通过创新技术强化复杂推理和自我迭代能力,推动在高价值领域应用,优化模型效率和运行成本。 世界模型与物理世界融合的推进,构建具备空间智能的世界模型,融入物理世界,推动相关领域发展。 AI 的多模态融合,整合多模态数据,提升内容生成的多样性与质量,创造全新应用场景。
2025-01-21
总结一下大模型数据发展的最新趋势,基于历史的事实和数据总结23年以来发生了什么,25年可能发生什么
以下是关于大模型数据发展趋势的总结: 2023 年以来: 大量创新大模型架构涌现,尝试在保留 Transformer 优势的同时解决其算力开销太高的问题,对 Transformer 的绝对统治地位形成有力挑战。 多种有代表性的技术路径出现,如类循环神经网络模型(以 RWKV 为代表)、状态空间模型(以 Mamba 为代表)、层次化卷积模型(以 UniRepLKNet 为代表)、多尺度保持机制模型(以 RetNet 为代表)、液体神经网络模型(以 LFM 为代表)等。这些模型在不同程度保留 Transformer 架构优势的基础上,结合 RNN、CNN 等思想做出创新发展,使得大模型架构呈现出日益明显的混合趋势,更多创新架构具备“博采众家之长”的特点。 对于 2025 年的预测,由于目前的信息有限,难以给出确切的预测。但可能会在现有创新架构的基础上进一步优化和融合,出现更高效、更强大且更具通用性的大模型架构,同时可能在技术应用和行业落地方面取得更显著的成果。
2025-01-16
视觉理解技术最新动态和趋势
以下是视觉理解技术的最新动态和趋势: 一、视觉分析技术 1. Transformer 视觉模型优点 2. Transformer 视觉模型的局限 二、图像语言模型 三、视频语言模型 四、LLM 多模态 Agent 五、应用场景 1. 多模态内容理解与处理 2. 智能交互与自动化 3. 具身智能 4. 未来发展趋势(2024 ?) 5. 视频生成模型 mapping 六、未来发展方向 1. 技术路径而言:利用预训练 LLMs 进行指令调整 最初,多模态融合方法常采用预训练的目标检测器,如 ViLBERT、VisualBERT 和 UnicoderVL,通过提取图像特征和执行交叉模态预训练任务,为后续的图像 文本任务奠定基础。 随着 ViT 的出现和普及,更多方法开始利用 ViT 作为图像编码器,强调大规模预训练,以提高模型的性能和泛化能力,例如 Flamingo。 近期,向多模态 LLMs 发展,从进行预训练到向指令调整(instruction tuning)转变,如 LLaVA 和 MiniGPT4,融合视觉和语言信息,能更有效地完成视觉理解相关任务,提升模型对于指令的理解能力和零样本性能,更好地泛化到未见过的任务和领域。 2. 应用场景而言:赋予机器理解多模态的能力 此外,李飞飞在 2015 年的 TED 演讲《我们怎么教计算机理解图片?》中提到了计算机视觉方面的研究进展,指出虽然在科技上取得了很多进步,但在计算机视觉方面仍存在一些问题,如自动驾驶车辆的视觉敏锐度、向盲人传递画面、无人机的视觉技术等。
2025-01-10