直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

genAI的gen是什么意思?所谓“生成式”有啥特别的

回答

GenAI 全称 Generative AI,即生成式 AI。它是一种基于深度学习技术,利用机器学习算法从已有数据中学习并生成新的数据或内容的 AI 应用。其工作原理是通过大规模的数据集训练深度神经网络模型,学习各种数据的规律和特征,从而实现对输入数据的分析、理解和生成。

生成式 AI 为游戏、娱乐和产品设计等应用提供了新颖且有创意的解决方案,如自动写作、虚拟现实、音乐创作等,甚至协助科学研究开辟了新的可能性。目前典型的 GenAI 包括 OpenAI 推出的语言模型 ChatGPT、GPT-4、图像模型 DALL-E 以及百度推出的文心一言、阿里云推出的通义千问等。

虽然生成式 AI 是一种非常强大的技术,能够应用于诸多专业领域,但在数据处理过程中存在多重潜在合规风险,如未经授权收集信息、提供虚假信息、侵害个人隐私等。

利用 GenAI 创建的内容即 AIGC(全称 AI-Generated Content),AIGC 主要分为语言文本生成、图像生成和音视频生成,可应用于音乐生成、游戏开发和医疗保健等领域。在公众传播层面,GenAI 是相对科学的表述,涵盖了 LLM 和 AIGC 等概念。

内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

2024AIGC法律风险研究报告(更新版).pdf

在引入AIGC的概念之前,本报告将先解释另一相关的热门词条“GenAI”,全称Generative AI,即生成式AI。GenAI是一种基于深度学习技术(deep learning algorithm),利用机器学习(machine learning)算法从已有数据中学习并生成新的数据或内容的AI应用。其工作原理是通过大规模的数据集训练深度神经网络模型,学习各种数据的规律和特征,实现对输入数据的分析、理解和生成。GenAI为游戏、娱乐和产品设计等应用提供了新颖且有创意的解决方案,如自动写作、虚拟现实、音乐创作等,甚至协助科学研究开辟了新的可能性。目前典型的GenAI包括OpenAI推出的语言模型ChatGPT、GPT-4、图像模型DALL-E以及百度推出的文心一言、阿里云推出的通义千问等。虽然生成式AI是一种非常强大的技术,能够应用于诸多专业领域;但其在数据处理过程中存在多重潜在合规风险,如未经授权收集信息、提供虚假信息、侵害个人隐私等。AIGC(全称AI-Generated Content)指利用GenAI创建的内容,如图像、视频、音频、文本和三维模型。具体来讲,AIGC工具使用机器学习算法,通常以自然语言处理为基础,分析大型文本数据集,并学习如何生成风格和语气相似的新内容。

2024AIGC法律风险研究报告(更新版).pdf

1.4本章小结GenAI(即生成式AI)是一种能够从已有数据中学习并生成新的数据或内容的AI应用,利用GenAI创建的内容即AIGC(全称AI-Generated Content)。作为一种强大的技术,生成式AI能够赋能诸多领域,但也存在多重潜在的合规风险。目前,我国对AIGC的监管框架由《网络安全法》《数据安全法》及《个人信息保护法》构成,并与《互联网信息服务算法推荐管理规定》、《互联网信息服务深度合成管理规定》、《生成式人工智能服务管理暂行办法》、《科技伦理审查办法(试行)》等形成了共同监管的形势。AIGC主要分为语言文本生成、图像生成和音视频生成。语言文本生成利用马尔科夫链、RNN、LSTMs和Transformer等模型生成文本,如GPT-4和GeminiUltra。图像生成依赖于GANs、VAEs和Stable Diffusion等技术,应用于数据增强和艺术创作,代表项目有Stable Diffusion和StyleGAN 2。音视频生成利用扩散模型、GANs和Video Diffusion等,广泛应用于娱乐和语音生成,代表项目有Sora和WaveNet。此外,AIGC还可应用于音乐生成、游戏开发和医疗保健等领域,展现出广泛的应用前景。

邬嘉文:大模型应用层

在CES 2024,李飞飞在争论LLM和AIGC名称不能混用,吴恩达觉得在公众传播没关系。李飞飞觉得难以接受,个人猜测是它模糊了大模型的本质。在公众传播层面:AIGC:指用Stable Diffusion或Midjourney生成图像内容,后来泛指用AI生成音乐、图像、视频等内容。LLM:指NLP领域的大语言模型,如ChatGPT。GenAI:生成式人工智能模型,国内官方政策文件使用这个词相对科学,涵盖了LLM和AIGC。AGI:指通用人工智能,部分人觉得LLM具有AGI潜力,LeCun反对。公众传播一般会混用上述名词,但底层是transformer结构。(stable diffusion原采用LDM+UNet,后来改为DiT)而transformer底层是function loss损失函数Transformer是一个大参数(千亿级别)的回归方程。回归方程的Function loss拟合A to B mapping关系,实现数据集的压缩与还原。Transformer是在一定prompt condition情况下,repeat曾经出现过的数据内容,实现“生成”能力。大语言模型的智能体验在两个数据集压缩后,能解释两个数据集之间地带的“连续”能力。(Ilya)所以大语言模型是一个perfect memory,repeat曾经出现的内容。它与Alpha Go差异:Alpha Go是一个增强学习模型,学习结果会调整模型自身参数Alpha Go有推理能力,但大语言模型这块很弱。Transformer决定LLM是一个生成式模型。

其他人在问
生成式AI和AIGC是什么,有什么区别和联系?
生成式 AI(Generative AI)是一种能够生成新内容的人工智能技术,比如文本、图像、音乐等。其工作原理是通过大规模的数据集训练深度神经网络模型,学习各种数据的规律和特征,实现对输入数据的分析、理解和生成。目前典型的生成式 AI 包括 OpenAI 推出的语言模型 ChatGPT、GPT4、图像模型 DALLE 以及百度推出的文心一言、阿里云推出的通义千问等。 AIGC(人工智能生成内容)指利用生成式 AI 创建的内容,如图像、视频、音频、文本和三维模型。AIGC 是一种利用人工智能技术生成各种类型内容的应用方式,在内容创作、广告、媒体等领域有着广泛的应用。 生成式 AI 和 AIGC 的联系在于:AIGC 实际上是生成式 AI 的应用结果。 区别在于:生成式 AI 侧重于技术本身,强调生成新内容的能力;AIGC 侧重于生成的内容,是生成式 AI 所产生的具体成果。
2024-11-04
我计划编写一本关于生成式人工智能的书籍,但是在开始前,我需要确定一个合适的大纲框架来组织我的思路。这个框架应该包括那些部分,以及如何将各个部分连接起来,以便读者能够理解掌握AIGC的概念和应用
以下是为您编写关于生成式人工智能书籍提供的大纲框架建议: 一、引言 介绍编写本书的目的和背景,引导读者进入生成式人工智能的世界。 二、基础概念 1. 什么是生成式人工智能(AIGC) 定义和特点 与传统人工智能的区别 2. 相关技术名词 AI(人工智能) 机器学习(包括监督学习、无监督学习、强化学习) 深度学习(神经网络、神经元) 生成式 AI(可生成文本、图片、音频、视频等内容形式) LLM(大语言模型) 三、AIGC 的应用领域 1. 文字生成(如使用大型语言模型生成文章、故事、对话等) 2. 图像生成(如使用 Stable Diffusion、DALLE 等模型生成艺术作品、照片等) 3. 视频生成(如使用 Runway、KLING 等模型生成动画、短视频等) 四、AIGC 与其他内容生成方式的关系 1. AIGC 与 UGC(用户生成内容) 区别与联系 各自的优势和适用场景 2. AIGC 与 PGC(专业生成内容) 区别与联系 相互的影响和融合 五、技术原理 1. Transformer 模型 自注意力机制 处理序列数据的优势 2. 技术里程碑(如谷歌团队发表的《Attention is All You Need》论文) 六、实际案例分析 展示不同领域中成功的 AIGC 应用案例,分析其实现过程和效果。 七、挑战与展望 1. 面临的挑战(如数据隐私、伦理问题等) 2. 未来发展趋势和前景 八、结论 总结全书重点内容,对 AIGC 的未来发展进行展望。 各个部分之间可以通过逻辑递进、案例引用、对比分析等方式进行连接,使读者能够逐步深入理解掌握 AIGC 的概念和应用。
2024-10-23
生成式AI商业落地白皮书
以下是关于生成式 AI 商业落地的相关信息: 2024 年 7 月 29 日,《》由火山引擎、RollingAI 和 InfoQ 研究中心联合发布,为 CXO 提供 AI 转型战术指南。该白皮书分析了生成式 AI 在各行业的应用现状和挑战,并提供了企业 AI 转型的趋势展望和最佳实践。书中通过 240 个应用场景地图,展示了 AI 在消费零售、金融、汽车等行业的落地案例,探讨了 AI 基础设施构建、项目落地准备和快速补齐能力差距等关键问题,并提出了八步实施大模型接入的方法论。 其它相关报告: 《》 《》 《》 《》 《》 2024 年 8 月 17 日,最近上传的一些报告: 爱分析发布的《》聚焦于 AI Agent 开发管理平台市场,特别评估了火山引擎的 HiAgent 平台。报告指出,AI Agent 作为大模型应用的主流形态,正重塑科技和商业领域。 《》白皮书由 Denodo Technologies 发布,强调了生成式人工智能(Gen AI)在商业和财务价值实现中的潜力。书中指出,Gen AI 应用的可靠性依赖于数据质量,而数据管理是实施 AI 的关键挑战。 《》 《》 此外,关于游戏中的生成式 AI 革命:生成式 AI 是一种机器学习类别,计算机可以根据用户的提示生成原始的新内容。目前,文本和图像是这项技术的最成熟应用,但几乎在每一个创意领域都有工作在进行,从动画、音效、音乐,甚至到创造具有完整性格的虚拟角色。AI 在游戏中并不是新鲜事,早期游戏中的虚拟敌人只是简单脚本程序,不能学习,能力取决于程序员。现在由于更快的微处理器和云技术,有了更多计算能力,可以构建大型神经网络,在高度复杂领域识别模式和表示。这篇博文分为两部分,第一部分包括对游戏领域生成式 AI 的观察和预测,第二部分是对该领域的市场地图,概述各个细分市场并确定每个市场的关键公司。
2024-10-23
生成式AI
生成式 AI 是一种全新的信息获取方式,能够生成新的、未曾存在的内容,包括文本、图像、音频、视频等多模态。其核心机制可拆解为数据、映射和扩散三个简单的词汇。 首先是数据,包括从公共数据库获取图像存档、历史文献图片,或创建特定数据集以覆盖特定风格或元素,目的是获得足够基础以特征化物体、风格或概念。 其次是映射,在数据处理阶段,AI 使用如卷积神经网络的算法,识别和提取图片中的关键视觉特征,如颜色、形状、纹理等,并将信息进行蒸馏,抛弃干扰部分呈现特征。 最后是扩散,利用学习到的数据和视觉特征,AI 能够通过创造性扩散的过程,在现有数据基础上探索和创造新的视觉表达形式。 生成式 AI 的应用场景广泛,例如文档摘要、信息提取、代码生成、营销活动创建、虚拟协助、呼叫中心机器人等。 其工作方式包括训练阶段和应用阶段。训练阶段通过从大量现有内容中学习生成基础模型,应用阶段基础模型可用于生成内容和解决一般性问题,还可使用特定领域新数据集进一步训练以解决特定问题。 生成式 AI 正式称呼为 Gen AI/Generative AI,它是一种能够生成新内容的人工智能技术,如文本、图像、音乐等。而 AIGC 指的是由人工智能生成的内容的创作方式,是 Generative AI 的应用结果。 ChatGPT 是一种依赖 GPT 系列模型运转的应用(服务),早期 OpenAI 推出的 ChatGPT 是一种模型,目前逐渐演变成可兼容多种 GPT 模型的聊天应用。 在 Google Cloud 中,有 Vertex AI 端到端机器学习开发平台,Generative AI Studio 工具允许开发人员快速制作原型和自定义生成式 AI 模型,还有 Model Garden 平台可发现和交互基础及第三方开源模型,并提供 MLOps 工具用于自动化机器学习管道。
2024-10-22
除了生成式ai还有什么ai
以下是除生成式 AI 之外的一些常见的 AI 类型: 1. 监督学习型 AI:使用标记的数据进行训练,以预测未来的值。 2. 无监督学习型 AI:专注于在原始数据中发现模式。 3. 深度学习型 AI:使用人工神经网络处理复杂模式,可使用标记和未标记的数据进行半监督学习。 4. 强化学习型 AI:通过与环境的交互和奖励机制来学习最优策略。 在游戏领域,早期的游戏中的计算机控制对手是简单脚本程序,而现在由于更快的微处理器和云技术,能够构建大型神经网络,在高度复杂的领域中识别模式和表示。未来,多代理系统可能会成为建模推理和社会学习过程的主流方式。在生成式 AI 的下一个阶段,推理研发成果将渗透到应用层,特定领域中获取真实世界数据和构建特定认知架构仍是挑战。
2024-10-18
请搜索生成式对话crm软件
以下是关于生成式对话 CRM 软件的相关信息: 生成式 AI Studio 方面: 创建聊天提示:可与模型进行自由形式聊天,跟踪之前内容并根据上下文响应。返回语言页面,单击 + CREATE CHAT PROMPT 按钮创建新聊天提示,添加上下文到上下文字段,将相关文本复制到 Responses 下的聊天框,按 Enter 键或单击发送消息,模型会根据提供的额外上下文在约束范围内回答问题。 探索提示库:Prompt Gallery 可让您探索生成式 AI 模型在各种用例中的应用。在 Generative AI Studio 菜单中,单击 Language 可在 Get Started 页面上找到 Prompt Gallery,可从总结、分类、提取、写作和构思等用例中选择并探索。 课程字幕:介绍了生成式 AI Studio 中的一些模型参数,如调整温度(选择概率低、比较不寻常的词)、top K(从可能性最高的 K 个词中随机返回一个词)、top P(从 top P 个词中随机返回一个词的概率)等。 AIGC 在 CRM 中的应用: 个性化营销内容创作:根据客户数据生成个性化营销文案、视觉内容等,提高营销效率和转化率。 客户服务对话系统:开发智能客服系统,通过自然语言交互解答客户咨询、投诉等。 产品推荐引擎:生成产品描述、视觉展示等内容结合推荐算法为客户推荐产品,提升销售业绩。 CRM 数据分析报告生成:自动生成数据分析报告,包括多种形式,加快生产流程。 智能翻译和本地化:提供高质量多语种翻译及本地化服务,打造全球化营销内容。 虚拟数字人和营销视频内容生成:快速生成虚拟数字人形象、场景背景和营销视频内容,降低制作成本。 客户反馈分析:高效分析客户反馈文本和多媒体信息,挖掘需求和潜在痛点。 需要注意的是,AIGC 在应用过程中仍需解决算法偏差、版权和知识产权等伦理法律问题。
2024-10-15
genAI是什么
Gen AI(Generative AI)即生成式人工智能,是一种能够生成新内容的人工智能技术,比如文本、图像、音乐等。 生成式 AI 是人工智能的一个细分流派,在 80 年的 AI 发展史中,它相较之前的所有 AI 实现方法有了根本性、跨时代的进步。在某些细分场景应用中,甚至给人通过了图灵测试的感受。 生成式 AI 和 AIGC 密切相关,利用 Gen AI 创建的内容即 AIGC(AIGenerated Content)。 生成式 AI 能够赋能诸多领域,但也存在多重潜在的合规风险。目前我国对 AIGC 的监管框架由多部法律法规构成,并形成了共同监管的形势。 AIGC 主要分为语言文本生成、图像生成和音视频生成等,在多个领域展现出广泛的应用前景。
2024-11-04
请帮我总结AI AGENT的总体架构,帮助我更快学习相关的知识,尽快进行具体场景的商业落地
AI Agent 是一个融合了多学科精髓的综合实体,不仅有实体形态,还有丰富的概念形态,并具备许多人类特有的属性。其总体架构包括以下方面: 1. 大模型 LLM 扮演“大脑”。 2. 规划:包括子目标分解、反思与改进。子目标分解将大型任务分解为较小可管理的子目标以处理复杂任务;反思和改进可对过去的行动进行自我批评和反思,从错误中学习并改进未来步骤,提高最终结果质量。 3. 记忆。 此外,AI Agent 还具有以下特点和应用: 1. 能够自行规划任务执行的工作流路径,面向简单或线性流程的运行。 2. 可以实现多 Agent 协作,例如让大语言模型扮演不同角色,相互协作共同开发应用或复杂程序。
2024-11-04
你能帮我找到这篇报告吗?他的名字是《InfoQ:中国AI Agent应用研究报告2024》
以下是为您找到的《InfoQ:中国 AI Agent 应用研究报告 2024》的链接:https://waytoagi.feishu.cn/record/Y45LrXJiwe4SgYc5tMZcVVtqn6b
2024-10-31
传统的agent是怎么定义的
传统的 agent 定义如下: 在古希腊哲学中,对“行动者”(Agent)的探讨深刻影响了后世对道德责任和个体决策的理解。尽管当时未使用现代意义的“Agent”术语,苏格拉底、柏拉图和亚里士多德等哲学家已为其奠定基础。 亚里士多德在《尼各马科伦理学》中探讨德性伦理学,认为人的善良和幸福源自由理性和智慧引导的德性生活,区分了“被动行为”与“主动行为”,强调有道德价值的行为应是个体自愿且有明确意图的选择,个体作为行动者不仅要靠理性指导行为,还要对自愿行为承担道德责任。 苏格拉底通过独特对话法促使人们自我反省,考察行为是否符合道德标准,提出“无人有意作恶”,认为错误源于无知,主张通过增长智慧和美德引导正确决策。 柏拉图在《理想国》中构建理想社会模型,探讨灵魂三部分关系,认为理性主导时个体才能做出正确选择,将知识与道德紧密相连。 虽然古希腊哲学家未直接讨论“自由意志”,但他们关于个体自主决策及对结果负责的思考,对后世关于自由意志和道德责任的讨论影响深远,亚里士多德强调人作为理性动物应依据内在理性及外在自然法则实现德性和善。 在 20 世纪 60 年代,马文·明斯基定义“Agent”为一个自主、独立运行的计算或认知实体,具备感知、决策和执行任务的能力,有自己的目标、行为和策略,能与其他 Agent 交互和协作,可视为智能系统中的功能模块,在不同层次执行不同功能,通过协作实现复杂智能行为。在其著作《心智社会》中,深入探讨了人类思维和人工智能的复杂关系。
2024-10-28
Agent是什么 AI agent是什么
AI Agent 是基于大型语言模型(LLM)和其他技术实现的智能实体,其核心功能在于自主理解、规划决策、执行复杂任务。 心灵社会理论认为,智能是由许多简单的 Agent(分等级、分功能的计算单元)共同工作和相互作用的结果。这些 Agent 在不同层次上执行不同的功能,通过协作实现复杂的智能行为。心灵社会将智能划分为多个层次,从低层次的感知和反应到高层次的规划和决策,每个层次由多个 Agent 负责。每个 Agent 类似于功能模块,专门处理特定类型的信息或执行特定任务,如视觉处理、语言理解、运动控制等。智能不是集中在单一的核心处理单元,而是通过多个相互关联的 Agent 共同实现,这种分布式智能能够提高系统的灵活性和鲁棒性,应对复杂和多变的环境。 同时,在《心灵社会》中,明斯基还详细描述了不同类型的 Agent 及其功能,包括专家 Agent(拥有特定领域知识和技能,负责处理复杂的任务和解决特定问题)、管理 Agent(协调和控制其他 Agent 的活动,确保整体系统协调一致地运行)、学习 Agent(通过经验和交互,不断调整和优化自身行为,提高系统在不断变化环境中的适应能力)。 从达特茅斯会议开始讨论人工智能(Artificial Intelligence),到马文·明斯基引入“Agent”概念,“AI”和“Agent”就彻底聚齐了,往后,我们都将其称之为 AI Agent。 AI Agent 还包括下面几个概念: 1. Chain:通常一个 AI Agent 可能由多个 Chain 组成。一个 Chain 视作是一个步骤,可以接受一些输入变量,产生一些输出变量。大部分的 Chain 是大语言模型完成的 LLM Chain。 2. Router:可以使用一些判定(甚至可以用 LLM 来判定),然后让 Agent 走向不同的 Chain。例如:如果这是一个图片,则 a;否则 b。 3. Tool:Agent 上可以进行的一次工具调用。例如,对互联网的一次搜索,对数据库的一次检索。 此外,还需要三个 Agent: 1. Responser Agent:主 agent,用于回复用户(伪多模态)。 2. Background Agent:背景 agent,用于推进角色当前状态(例如进入下一个剧本,抽检生成增长的记忆体)。 3. Daily Agent:每日 agent,用于生成剧本,配套的图片,以及每日朋友圈。 Responser Agent、Daily Agent、Background Agent 每隔一段时间运行一次(默认 3 分钟),运行时会分析期间的历史对话,变更人物关系(亲密度,了解度等),变更反感度,如果超标则拉黑用户,抽简对话内容,提取人物和用户的信息成为“增长的记忆体”,按照时间推进人物剧本,有概率主动聊天(与亲密度正相关,跳过夜间时间)。
2024-10-28
建立Agent
以下是一些常见的 Agent 构建平台及相关信息: 1. Coze:是新一代的一站式 AI Bot 开发平台,适用于构建基于 AI 模型的各类问答 Bot,集成丰富插件工具,能拓展 Bot 能力边界。 2. Microsoft 的 Copilot Studio:主要功能包括外挂数据、定义流程、调用 API 和操作,以及将 Copilot 部署到各种渠道。 3. 文心智能体:百度推出的基于文心大模型的智能体(Agent)平台,支持开发者打造产品能力。 4. MindOS 的 Agent 平台:允许用户定义 Agent 的个性、动机、知识,以及访问第三方数据和服务或执行工作流。 5. 斑头雁:2B 基于企业知识库构建专属 AI Agent 的平台,适用于多种场景,提供多种成熟模板。 6. 钉钉 AI 超级助理:依托钉钉强大场景和数据优势,在处理高频工作场景表现出色。 使用扣子 coze.cn 等平台创建智能体 Agent 的过程被创作者形象地比喻为“捏 Bot”,最简单的 Bot 往往 1 分钟内可完成。常见 Bot 有讲故事、减肥提醒、生成 PPT、真假新闻辨识、新闻资讯收集、扮演“甄嬛”等。国内外有多个可在几分钟内完成 Agent 创建的平台,如国内版扣子 coze.cn、海外版 Coze coze.com、百度 AppBuilder、阿里通义千问、智谱 AI 等,可先从扣子 coze.cn 开始。 AgentSims 是国产斯坦福 AI 小镇,在其框架中: command 文件夹下包含所有对外接口,每个接口类实现 execute 方法作为 handler,有关键方法与接口。 系统中有预设的 Agent 样例可选择,初始化沙箱世界时会选默认模板。 游戏界面提供自行创建 Agent 的选项,可选择外观、名字、LLM、记忆系统、计划系统、最终目标、人物特征等,创建后信息保存到 mysql 中,后续可复用,系统宕机也可从数据库进行恢复。 以上信息由 AI 大模型生成,请仔细甄别,您可以根据自己的需求选择适合的平台进行进一步探索和应用。
2024-10-27
现在有哪些GenAI原生应用验证了PMF?
目前,一些 GenAI 原生应用已展现出产品市场契合度(PMF)的早期成功迹象。例如,ChatGPT 成为增长最快的应用,在学生和开发者中具有很强的产品市场契合度;Midjourney 成为集体创意的灵感来源,据报道仅 11 人的团队就实现了数亿美元的收入;Character 推动了 AI 娱乐和伴侣领域的发展,创造了用户平均在应用中花费两小时的消费者“社交”应用。然而,尽管有这些成功案例,仍有许多 AI 公司尚未实现产品市场契合度(PMF)或拥有可持续的竞争优势,整个 AI 生态系统的繁荣也并非完全可持续。
2024-08-30
GenAI视频原理
根据搜索结果,生成式 AI(GenAI)在视频生成方面的原理主要包括以下几点: 1. 利用深度学习技术模拟人类大脑的工作方式 GenAI 系统使用人工神经网络(ANN)来处理数据,模拟人类大脑中神经元之间的信号传递。通过深度学习,GenAI 可以从大量数据中学习提取特征,并建立复杂的内部表征,从而生成新的视频内容。 2. 结合注意力机制提高生成效率 Transformer 模型引入了"注意力"概念,使 GenAI 系统能够更好地理解单词或图像元素之间的关系,从而提高生成视频的质量和效率。注意力机制可以帮助 GenAI 系统聚焦于最相关的信息,生成更加连贯和自然的视频。 3. 利用 GAN 等对抗式生成网络 一些 GenAI 系统采用生成对抗网络(GAN)的架构,包括一个生成器网络和一个判别器网络。生成器负责生成新的视频内容,判别器则负责评估生成内容的真实性。通过两个网络的对抗训练,GenAI 可以不断提高生成视频的逼真度。 4. 结合其他技术实现多模态生成 除了单一的视频生成,GenAI 还可以结合自然语言处理、计算机视觉等技术,实现从文本到视频、从图像到视频等多模态的内容生成。这种跨模态的生成能力大大拓展了 GenAI 在视频创作领域的应用。 总的来说,GenAI 在视频生成方面的核心原理是利用深度学习、注意力机制、对抗式生成等技术,从大量数据中学习提取特征,并生成逼真自然的视频内容。这些技术的结合使 GenAI 在视频创作领域展现出了强大的潜力。
2024-04-23
AGI是什么意思
AGI 指的是通用人工智能(Artificial General Intelligence),它是一种能够像人类一样思考、学习和执行多种任务的人工智能系统。做任何人类可以做的事,涵盖了广泛的认知技能和能力,包括推理、规划、解决问题、抽象思维、理解复杂思想、快速学习和从经验中学习等。在 2000 年代初,“通用人工智能”这一名词开始流行,以强调从“狭义 AI”到更广泛的智能概念的追求。但目前 AGI 还未取得巨大进展。
2024-11-02
boosting 模型是什么意思
Boosting 模型是一种集成学习方法,主要包括以下两种常见类型: 1. Bagging(Bootstrap Aggregating):通过多次有放回抽样生成多个数据集,训练多个相同类型的模型(如决策树、多项式等),对于回归任务将多个模型的预测结果取平均,对于分类任务通过多数投票来决定最终的分类结果,以减少机器学习模型的方差,提高泛化能力。其核心步骤包括从原始数据集中有放回地抽取多个子集,每个子集用于训练一个独立的模型,最后集成这些模型的结果。 2. AdaBoost(Adaptive Boosting):主要用于分类问题,也可用于回归问题。它通过组合多个弱学习器(通常是决策树桩)来构建一个强学习器,以提高模型的预测性能。弱学习器的准确率仅略高于随机猜测,例如在二分类问题中可能略高于 50%。在 AdaBoost 中,强学习器通常是具有高准确率、能很好泛化到新数据的复杂模型,如深度神经网络或支持向量机,能够捕捉数据中的复杂模式。 此外,在 Coze 上,GLM 模型和 MoonShot 模型因对结构化提示词的良好理解适合处理精确输入和输出任务,豆包系列模型在角色扮演和工具调用方面表现出色,将这三种模型结合在工作流或多 Agent 中可实现优势互补。
2024-10-21
国内有适合做新媒体平台创意思路的ai软件,例如抖音、小红书等,
目前对于适合国内新媒体平台(如抖音、小红书等)创意思路的 AI 软件,还没有明确的定论。但我们可以先从内容创作的角度来思考。之前汉青老师分享时提到,生成式 AI 的内容与传统社交媒体内容共存,如小红书、抖音、微信等。短期内,大家可能因新鲜感获得流量红利,但最终人们在意的仍是高质量的内容。 我们虽掌握了各种先进工具,如在 MJ 里用关键词出图、用 SD 做复杂工作流、制作炫酷宣传片等,但在此我们先不讨论工具,而是专注于内容。让节奏慢下来,认真感受真实世界,关注身边通常被一扫而过的普通人。 比如偶然在朋友朋友圈刷到的题材:“这两张照片其实是在同一条街道上拍下的,只不过年轻的女孩在街上,孤独的老人在围墙里。”“这张照片传递两种关系、一种爱意,年轻人手牵着怀孕的爱人,老母亲扶着女儿坐上电动车,这应该是这个世界最稳固的两种关系,而现在他们相遇在一张照片当中。”“很多人把生活当中的便利,比如电商快递外卖速度快便宜看着是我们的移动互联网优势,其实唯一的优势是我们的劳动力,无数个在深夜独自啃着馒头的年轻人支撑着美团阿里的市值...放大镜头看你会发现这其实是一个非常年轻的女孩子,她瘦小,即使戴了头盔也比后面的箱子高不了多少,她进食的时候甚至都没玩手机——我骑车路上看到过很多快递小哥都是边骑车边刷短视频,这至少说明他们对生活中的乐子还充满期待,而图中的女孩看着让人垂头丧气,不仅是她,也包括我。” 关于如何与 AI 结合来为新媒体平台创作优质内容,目前还没想好,也没完全想明白,需要慢慢思考和探索。
2024-10-18
API是什么意思
API 就像是一个信差,它接受一端的请求,告诉那边的系统您想要做的事情,然后把返回的信息发回给您。 以搜索“奥本海默”为例,在网址 https://www.themoviedb.org/search?query=奥本海默 中,域名 www.themoviedb.org 用于定位网站,路径 /search 表示搜索页面,query 是查询参数,其值为“奥本海默”。 对于获取数据的操作,如在 TMDb 中,有些数据虽然不展现,但为了支持筛选会保留。像“backdrop_path”是不完整的图片地址,TMDb 的官方 API 文档里有如何构造完整图片 URL 的说明。对于一些不熟悉的 API,需要在 Prompt 里告知如何使用。 Action 的工作流大致为:先思考要做什么样的 GPT 以及是否需要外部数据;然后寻找所需外部数据的 API 文档,或自己开发 API,寻找可用的 Action;最后基于 API 文档编写 Action 里的 Schema 和 Prompt 来处理取回的信息。 如果对 Action 感兴趣,可以系统学习 API 相关知识、寻找可用的 API 练习、发掘 GPT Action 更多潜力。
2024-10-11
agent什么意思
“智能体”(Agent)在人工智能和计算机科学领域是一个重要概念,指能够感知环境并采取行动以实现特定目标的实体,可以是软件程序或硬件设备。 从以下几个方面详细介绍: 1. 定义:智能体是一种自主系统,通过感知环境(通常通过传感器)并采取行动(通常通过执行器)来达到某种目标。 2. 在 LLM 支持的自主 Agent 系统中,LLM 充当 Agents 的大脑,并辅以几个关键组成部分: 规划:将大型任务分解为更小、可管理的子目标,有效处理复杂任务。 反思和完善:对过去的行为进行自我批评和反思,从错误中吸取教训,完善未来步骤,提高最终结果质量。 记忆:包括短期记忆(所有的上下文学习利用模型的短期记忆来学习)和长期记忆(为 Agents 提供长时间保留和回忆无限信息的能力,通常通过利用外部向量存储和快速检索实现)。 工具使用:学习调用外部 API 来获取模型权重中缺失的额外信息,包括当前信息、代码执行能力、对专有信息源的访问等。 从产品角度思考 Agent 设计: Who:Agent 可以是一个历史新闻探索向导,具有知识渊博、温暖亲切、富有同情心的性格,主导新闻解析和历史背景分析。为使角色生动,可为其设计背景故事,明确起源、经历和动机,定义性格特点、说话方式和风格,设计对话风格,明确核心功能及附加功能。 在 AI 大模型中,agent 是比较火的概念,被认为是大模型未来的主要发展方向。中间的“智能体”其实就是 LLM 或大模型,四个箭头分别是为 LLM 增加的工具、记忆、行动、规划四个能力。目前行业里主要用到的是一个叫 langchain 的框架,它把 LLM 和 LLM 之间以及 LLM 和工具之间通过代码或 prompt 的形式进行串接,在 prompt 层和工具层完成主要的设计逻辑。
2024-10-08
RAG什么意思
RAG 是检索增强生成(RetrievalAugmented Generation)的缩写,是一种结合了检索模型和生成模型的技术。其核心目的是通过某种途径把知识告诉给 AI 大模型,让大模型“知道”我们的私有知识,变得越来越“懂”我们。 RAG 的核心流程是根据用户提问,从私有知识中检索到“包含答案的内容”,然后把“包含答案的内容”和用户提问一起放到 prompt(提示词)中,提交给大模型,此时大模型的回答就会充分考虑到“包含答案的内容”。 RAG 的最常见应用场景包括知识问答系统,用户提出问题,RAG 模型从大规模的文档集合中检索相关的文档,然后生成回答。 大模型存在一些缺点,如无法记住所有知识尤其是长尾知识、知识容易过时且不好更新、输出难以解释和验证、容易泄露隐私训练数据、规模大导致训练和运行成本高,而 RAG 具有一些优点,如数据库对数据的存储和更新稳定、数据更新敏捷且可解释、能降低大模型输出出错的可能、便于管控用户隐私数据、可降低大模型的训练成本。 一个 RAG 的应用可以抽象为 5 个过程:文档加载(从多种不同来源加载文档)、文本分割(把文档切分为指定大小的块)、存储(将切分好的文档块进行嵌入转换成向量形式并存储到向量数据库)、检索(通过检索算法找到与输入问题相似的嵌入片)、输出(把问题以及检索出来的嵌入片一起提交给 LLM 生成答案)。
2024-10-08