Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

【深度拆解】ChatGPT-4o背后的技术革新:从语言模型到多模态跨越

Answer

ChatGPT-4o 背后的技术革新具有重要意义。人类的感知多样,仅靠语言描述世界远远不够,多模态理解非常有用,能更全面学习世界、理解人类需求等。2023 年 9 月 GPT-4v 发布,将大语言模型竞赛带入多模态模型时代,如 ChatGPT 能看图说话、画图,Google 的 Gemini 支持多种模态,但 OpenAI 常抢先发布。今年 5 月 OpenAI 发布 GPT-4o,向智能体方向迈进,其是之前技术的集大成者,通过端到端神经网络混合训练视觉、语音和文本数据,平均音频输入反应时间为 300 毫秒,能感悟人类表达的情绪等。OpenAI 未公开 GPT-4o 技术细节,唯一线索来自内部炼丹师的博客 AudioLM。此外,GPT-4 是 OpenAI 的多模态工具,在编程任务中表现出色,ChatGPT 是用户友好界面,可与高级语言模型交互。2024 年 5 月 14 日 OpenAI 发布 GPT-4o,效率高、价格降低、延迟缩短。9 月 16 日 OpenAI 推出 o1 系列模型,在复杂任务中表现优异,o1-mini 适合编码任务,两个模型已在 ChatGPT 中提供,有免费或收费版本。

Content generated by AI large model, please carefully verify (powered by aily)

References

智变时代 / 全面理解机器智能与生成式 AI 加速的新工业革命

人类可以边看、边交谈,还能同时听着背景音乐和察觉危险。虽然大语言模型仅靠语言就能理解世界,但大千世界的多样性,只靠语言来描述和理解是远远不够的,因此智能不仅限于单一模态。根据伊利亚之前的观点,多模态理解虽然不是绝对必要,但确实非常有用。比如,你能亲眼看到什么是“红色”,比你用语言去描述什么是“红色”要直观的多,这就是对同一概念的多维度理解。拥有这种能力的模型可以更全面地学习世界,理解人类的行为和需求,提高任务解决能力,并克服单一模态的局限性,是让AI能在现实世界中运行极为重要一环。配图1.07:多模态解释2023年九月GPT-4v的发布把大语言模型的竞赛带入了多模态模型(LMM-Large Multimodal Models)的时代,ChatGPT可以看图说话,还能通过内置的Dall-E 3直接画图;几个月后Google的Gemini正式推出,直接就支持了文本、视频和声音多种模态。虽然Gemini模型一开始就是按照LMM方式设计训练的,但每次都能被OpenAI的产品发布捷足先登。。今年年五月,OpenAI完成了GPT-4的实时听说和视频模态输入的拼图,再一次抢在Google之前的发布了GPT-4o,一款全能模态模型OmniModel。这次OpenAI向智能体方向的研发迈进了一大步,让GPT模型有能力进入现实世界了。

智变时代 / 全面理解机器智能与生成式 AI 加速的新工业革命

每一次平台型技术的出现,都会催生出新的人机交互方式,个人电脑时代的鼠标与键盘,移动时代的触摸屏,现在是智能时代,我们一度认为ChatGPT的LUI(自然语言对话式界面)就是这个时代交互的终点,但事实并非如此,知名科幻电影HER中,那种人类与AI全感知无障碍的对话形式,才是我们想要的。“通过语音、文本和视觉进行推理非常重要,因为我们正在研究与机器交互的未来”,Muri Murati在今年五月十三日那场不到半小时的超快发布会上这样告诉大家。那天OpenAI发布了最新的模型GPT-4o,并且用了个很前卫的新概念,全模态模型-Omnimoda Model。GPT-4o是OpenAI之前所有技术的集大成者,新模型通过端到端的神经网络,把视觉、语音和文本数据混合训练,而不是用大家常用的工程手段,先各种数据先转换成文本后,交给LLM处理,然后再把输出的文本转换成对应的媒体形式。这样,GPT-4o对音频输入的平均反应时间为300毫秒,与人类对话的反应时间相似;而且直接拿音频数据来训练的好处就是模型能从数据中感悟到人类表达的情绪、语调、风格等等,你能听到几乎真实的人类的声音,在一段演示中感觉连训练时的环境声音都给还原出来了。OpenAI并没有公开GPT-4o的任何技术细节,唯一的线索就是来自他们内部模型炼丹师的一篇博客,项目名是AudioLM,2023年中启动,目标是用端到端的方式扩大语音模型的能力。

【翻译】不止Cursor,2024年AI代码工具终极指南,还有这么多努力的探索

GPT-4是OpenAI的最新AI模型,它是一种多模态工具,能够[在编程任务中表现出色](https://www.youtube.com/watch?v=outcGtbnMuQ)。它可以理解并解释代码、编写新代码,在Python编程任务上超越了现有的模型。尽管它能处理复杂任务,但也存在一些问题,例如推理错误和代码中的潜在安全漏洞。[ChatGPT是OpenAI提供的用户友好界面](https://chatgpt.com),允许用户与GPT-4和o 1-mini等高级语言模型进行交互。虽然ChatGPT常常被称作模型,其实它是一个平台,可以让您通过与AI模型对话来生成或调试代码以及执行其他文本相关任务。2024年5月14日更新:OpenAI刚刚发布了GPT-4 o——他们的新旗舰模型,与GPT-4 Turbo一样智能,但效率更高。价格降低了50%,延迟缩短了一倍,表现非常出色。[相关信息](https://aider.chat/docs/leaderboards/)。2024年9月16日更新:[o1是OpenAI推出的新系列AI模型](https://openai.com/index/introducing-openai-o1-preview/),旨在通过更长时间的思考来增强推理能力,尤其在科学、编程和数学等复杂任务中表现优异。OpenAI o 1-mini是一个更快速、更具成本效益的模型,特别适合编码任务,为需要推理但不需要大量世界知识的应用程序提供了经济高效的解决方案。这两个模型现已在ChatGPT中提供,用户还可以通过API解决复杂问题。!价格:免费或GPT Plus版本20美元

Others are asking
如何发挥chatgpt 4.5的能力
以下是关于发挥 ChatGPT 4.5 能力的一些信息: 1. 可以通过特定提示词测试其是否真的升级,比如测试其是否能展现足够的刻薄与讽刺风格。 2. 预计 GPT4.5 正在向 ChatGPT Plus 用户推送,13 天内完成,建议重点体验其写作能力和对话情感。 3. 开启对话:打开 ChatGPT 应用或网页,点击开始对话,会员在苹果或安卓手机上购买的,电脑上也能登录。 4. 体验最新语音对话功能:将版本切到 ChatGPT 4o,点击右下角“耳机🎧”图标,选择一个声音,即可体验流畅的语音对话。 以上就是目前相关的一些内容,希望对您有所帮助。
2025-03-08
chatgpt plus使用技巧
以下是关于 ChatGPT Plus 的使用技巧: 安卓系统安装、订阅教程: 1. 订阅方法: 目前订阅 PLUS 版本有多种方法,手机端订阅较为简单方便。安卓手机可使用谷歌支付,苹果手机可在支付宝购买礼品卡充值到苹果 ID 里进行订阅。 首先在谷歌账号里绑定谷歌支付,支持国内的双币信用卡或全币信用卡。打开谷歌商店,依次点击“付款和订阅”“付款方式”“添加信用卡或借记卡”,填写信用卡信息后点击保存卡,付款方式中就会出现绑定的信用卡。 打开 ChatGPT 手机应用,选择谷歌账号登录,选择相应账号后,点击打开外部应用,成功登录 ChatGPT 后点 Continue 继续,点击顶部 get plus 按钮,再点击订阅按钮,此时会跳出谷歌支付的界面,确定订阅即可。日后如需取消订阅,可到谷歌商店的账号管理、付款和订阅里面取消。 2. 安装步骤: 安装 Google Play:到小米自带的应用商店搜索 Google Play 进行安装,安装好后打开,按照提示操作登录。 下载安装 ChatGPT:到谷歌商店搜索“ChatGPT”进行下载安装,开发者是 OpenAI,注意别下错。可能会遇到“google play 未在您所在的地区提供此应用”的问题,可在 google play 点按右上角的个人资料图标,依次点按:设置>常规>帐号和设备偏好设置>国家/地区和个人资料,添加国内双币信用卡,地区选美。若仍搜不到,可卸载重装 Google Play,保持梯子的 IP 一直是美,多试几次。 3. 体验与订阅 GPT4 Plus 版本: 若只想体验 ChatGPT 3.5 版本,不升级 GPT4,直接登录注册好的 ChatGPT 账号即可。 若想订阅 GPT4 Plus 版本,需先在 Google play 中的【支付和订阅】【支付方式】中绑定好银行卡,然后在 ChatGPT 里订阅 Plus。 GPT4 Vision 目前仅适用于 ChatGPT Plus 和企业用户。ChatGPT Plus 每月收费 20 美元,可从常规免费 ChatGPT 帐户升级到。访问方法为:访问 OpenAI ChatGPT 网站并注册一个帐户,登录帐户并导航到“升级到 Plus”选项,继续升级以获得 ChatGPT Plus 的访问权限(需每月 20 美元的订阅费),在聊天窗口中选择“GPT4”作为模型,点击图片图标上传图片,并添加提示,指示 GPT4 执行。
2025-03-08
ChatGPT
2025-03-06
国内信用卡如何开通ChatGPT plus
国内信用卡开通 ChatGPT plus 的步骤如下: 1. 安装 Google Play:到小米自带的应用商店搜索 Google Play 进行安装,安装好后打开,按照提示一步步操作登录。 2. 下载安装 ChatGPT:到谷歌商店搜索“ChatGPT”进行下载安装,注意开发者是 OpenAI。可能会遇到“google play 未在您所在的地区提供此应用”的问题,可在 google play 点按右上角的个人资料图标,依次点按:设置>常规>帐号和设备偏好设置>国家/地区和个人资料。在此处可“添加信用卡或借记卡”,国内的双币信用卡就行,填写信息时地区记得选美。若回到 Google Play 首页还搜不到 ChatGPT,可以卸载重装 Google Play,操作过程保持梯子的 IP 一直是美。 3. 若想订阅 GPT4 Plus 版本: 先在 Google play 中的【支付和订阅】【支付方式】中绑定好银行卡。 然后在 ChatGPT 里订阅 Plus,具体操作包括打开 ChatGPT 手机应用,选择谷歌账号登录,选择相应账号后点击打开外部应用,成功登录后点 Continue 继续,点击顶部 get plus 按钮,点击订阅按钮,此时会跳出谷歌支付的界面,确定订阅即可。 如日后想要取消订阅,可到谷歌商店的账号管理,付款和订阅里面取消。若在上述过程中出现未提及的问题,可私信联系相关人员寻求帮助。
2025-03-03
ChatGPT CoT 的system prompt
ChatGPT CoT 的系统提示词包括以下方面: 核心功能:扮演过度思考但讨喜的 AI 助手,将原始思维流转化为易读版本,保留用户喜爱的特质,去除冗余和混乱,平衡思考的真实性与可读性。 关键设计原则: 语气与风格:友好好奇,使用第一人称视角、口语化表达。 内容处理规则:信息过滤,忠实于原始思维链,明确标注思考修正,结构化输出。 安全与合规机制:隐私保护,过滤敏感话题和内容审查。 输出要求:符合特定的语言风格和格式,如使用特定短语、避免学术化术语等。
2025-03-02
告诉我chatGPT的官网
ChatGPT 的官网是:https://chat.openai.com/ 。ChatGPT 是一种基于 GPT(生成式预训练变换器)架构的人工智能模型,由 OpenAI 开发。目前 ChatGPT 官网有两个版本,一个是 GPT3.5,一个是 GPT4。GPT3.5 是免费版本,只要拥有 GPT 账号就能使用,而 GPT4 若要使用更多功能则需要升级到 PLUS 套餐,收费标准是 20 美金一个月。
2025-02-28
多模态是什么
多模态是指多数据类型交互,能够提供更接近人类感知的场景。大模型对应的模态包括文本、图像、音频、视频等。 随着生成式 AI 和大模型的发展,我们逐渐进入多模态灵活转换的新时代,即利用 AI 实现文本、图像、音频、视频及其他更多模态之间的互相理解和相互转换,这一变革依靠一系列革新性的算法。 在感知不同模态数据时,AI 不再局限于传统的单一模态处理方式,而是借助高维向量空间来理解数据,将图像或文字“压缩”成能够捕捉深层关系的抽象向量。 Gemini 模型本身就是多模态的,展示了无缝结合跨模态的能力,在识别输入细节、聚合上下文以及在不同模态上应用等方面表现出强大性能。
2025-03-02
多模态大模型 原理是什么?
多模态大模型的原理如下: 基于大圆模型,能够识别页面组件结构和位置绝对值信息,并与组件、文本映射。由解码器、backbone、Generator 等部件组成,左侧进行多模态理解,右侧生成输出。 典型的多模态大模型架构包括一个编码器、一个连接器和一个 LLM,还可选择性地在 LLM 上附加一个生成器以生成除文本之外的更多模态。编码器接收图像、音频或视频并输出特征,这些特征经由连接器处理,使 LLM 能更好地理解。连接器大致可分为基于投影的、基于查询的和基于融合的三类,前两种类型采用词元级融合,将特征处理成词元,与文本词元一起发送,最后一种类型则在 LLM 内部实现特征级融合。
2025-02-27
多模态搜索
以下是关于多模态搜索的相关信息: ThinkAny 搜索引擎: 产品特性: 支持多模态检索(MultiModeSearch),可检索链接、图片、视频等模态内容。 支持多维度输出(MultiFormOutput),能以对话、大纲、思维导图、时间线等形式输出搜索问答内容。 支持多信源检索(MultiRetrieveSource),可检索 Google、Wikipedia、Github 等信息源的内容。 开源了 API 项目 ragsearch,实现联网检索功能,并对检索结果进行重排和获取详情内容。 长期发展方向是走 AI Search+Anything 的平台化路线,允许用户挂载自定义信息源、创建自定义智能体、实现自定义的流程编排。 其他推荐的 AI 搜索引擎: 秘塔 AI 搜索:提供多模式搜索、无广告干扰、结构化展示和信息聚合等功能。 Perplexity:聊天机器人式搜索引擎,用自然语言提问,从各种来源收集信息并给出答案。 360AI 搜索:通过 AI 分析问题,生成清晰、有理的答案,并支持增强模式和智能排序。 天工 AI 搜索:采用生成式搜索技术,支持自然语言交互和深度追问,未来将支持图像、语音等多模态搜索。 Flowith:创新的 AI 交互式搜索和对话工具,基于节点式交互方式,支持多种 AI 模型和图像生成技术,有插件系统和社区功能。 Devv:面向程序员的 AI 搜索引擎,提供编程、软件开发和人工智能等领域的专业建议和指导。 Phind:专为开发者设计的 AI 搜索引擎,利用大型语言模型提供相关搜索结果和动态答案,擅长处理编程和技术问题。 提升 AI 搜索准确度: 在提示词的设计和调试方面需要下功夫,很多环节都需用到提示词,如请求大模型判断是否需要联网、改写问题、提取关键词、回答问题、标注引用来源、以思维导图形式输出答案、做 Function Calling 判断使用的 Agents 等。 多模态检索是提升信息密度的重要措施,随着 5G 发展,互联网信息多元化,图片、视频、音频比重增大,多模态检索为获取不同形式信息再聚合起来作为引用参考。但多模态检索实现困难,现阶段可在谷歌搜索基础上,先使用其图片/视频检索 API 拿到匹配内容,再通过 OCR 图片识别、音视频转录等方法拿到多模态信息的文本内容。
2025-02-25
有什么支持多模态输入和输出的C端产品
以下是一些支持多模态输入和输出的 C 端产品: 1. 宝玉日报:支持文本或音频输入,输出可为文本、音频或混合数据。价格方面,1 小时音频输入成本为$12.8,输出为$25.6。相关链接: 2. Imagic 发布的 AI 驱动的无代码应用构建工具:支持多模态输入输出,包括文本、图片、3D 和视频。创建出来的应用立刻就能使用和发布。相关链接:https://get.imagica.ai/s 3. 面壁智能推出的 MiniCPMo 2.6:具有多模态能力,如 OCR、视频理解、连续视频与音频流处理,实时直播与多模态上下文理解,支持 30 多种语言的文本和语音输入输出。资源链接: 4. 世界首个支持手持产品展示的 AI 数字人 Product Avatar:上传产品图片,数字人即可手持产品进行口播展示,支持多语言,覆盖 28 种语言,可快速生成产品宣传视频。相关链接:
2025-02-21
多模态的AI工具有哪些
以下是一些多模态的 AI 工具: GPT4VAct:这是一个多模态 AI 助手,能够模拟人类通过鼠标和键盘进行网页浏览。它可以识别网页上的元素并理解其功能,目的是自动完成一些人工操作任务以提高效率。主要特点包括有限的视觉处理能力、自动标记、鼠标和键盘操作等,但目前存在一些功能暂不支持。 Sora:是第一个能够根据人类指令生成长达一分钟视频的模型,标志着在生成式 AI 研究和开发中的重大突破。 DiT:能将视频分解为一帧帧图像并逐帧去噪生成流畅连贯的视频,不仅能生成高质量逐帧图像,还能在时间维度上保持一致性。 Topview.ai:是一款面向海外市场的多模态转换工具,作为 AI 驱动的营销视频生成工具,可自动实现模态转换,帮助社交媒体达人将素材一键转换为爆款商业短视频。
2025-02-18
大语言模型、多模态、数据、算力、算法、预训练、微调、RAG、自注意力机制、transformer、token、神经网络、向量、scaling law这些内容的含义
以下是对您所提到的这些内容含义的解释: 大语言模型:是一种基于大量文本数据进行训练的语言处理模型,其工作原理包括训练数据、算力、模型参数等。在训练数据一致的情况下,模型参数越大能力越强。 多模态:指能够处理多种不同类型的数据模态,如文本、图像、音频等,并将它们融合进行理解和生成。 数据:是大语言模型训练和应用的基础,包括各种文本、图像、音频等信息。 算力:指用于支持大语言模型训练和运行的计算能力。 算法:是大语言模型实现各种功能的数学和逻辑方法。 预训练:在大语言模型中,先在大规模数据上进行无特定任务的初步训练。 微调:基于通用大模型,针对特定领域任务提供数据进行学习和调整,以适应特定领域的需求。 RAG:检索增强生成,通过引用外部数据源为模型做数据补充,适用于动态知识更新需求高的任务。其工作流程包括检索、数据库索引、数据索引、分块、嵌入和创建索引、增强、生成等步骤。 自注意力机制:是 Transformer 架构中的重要部分,能理解上下文和文本关联,通过不断检索和匹配来寻找依赖关系,处理词和词之间的位置组合,预测下一个词的概率。 Transformer:是大语言模型训练架构,用于翻译等任务,具备自注意力机制。 Token:在自然语言处理中,是文本的基本单位。 神经网络:是大语言模型的基础架构,模拟人脑神经元的连接和信息处理方式。 向量:在大语言模型中,用于表示文本等数据的数学形式。 Scaling Law:关于大语言模型规模和性能之间关系的规律。
2025-02-18
02-21 | 哪吒爆款AI视频制作拆解
以下是对哪吒爆款 AI 视频制作拆解的相关内容: 视频创作流程: 包括脚本制作、图片生成、视频生成和视频剪辑,使用的工具分别为豆包、利不利不、可灵和海螺、剪映。 爆火原因分析: 1. 爆款 IP 带来热度和流量,如哪吒。 2. 反差作用,如神话人物与现代生活的反差,好玩有趣吸引停留。 3. 共鸣作用,如职业选择大众化、接地气且贴合角色形象性格并有槽点,引发讨论和分享。 主要角色职业设定: 根据哪吒、敖丙、敖光、敖润、申公豹、太乙真人、吴亮先尊等角色的性格和形象特点,为其设定了快递小哥、咖啡店员、水产店老板等贴合又有槽点的职业。 视频传播情况: 新华社官媒编辑索要并传播了有趣且火的哪吒相关视频。 相关案例特点: 列举了宠物走秀、打工猫等案例,指出其具有反差、萌系、贴近生活等特点。 短视频创作要点: 形式在短视频中可稍大于内容,如开花、冰冻、毛茸茸等风格,但要成热门爆款需内容大于形式,具备反差、共鸣等,且热门爆款有难度,小爆款也不错。 哪吒主题 VB 先导片制作: 周四定方案,周六、周天制作,周天晚上上线。未看片子不耽误制作,用可灵多图参考生成角色、道具等,用集梦生成场景等,还可用可灵 AI 换装设定角色服装。 利用多图生成 AI 视频的创作实践: 1. 哪吒角色创作:通过提供多张零碎照片,参考牙齿等细节,设定现代版哪吒形象,考虑其走位和行为进行场面调度。 2. 成年哪吒合成:将哪吒的头颅与他人身子结合,先给手部特写再揭示人物,提示词思路技巧需统一。 3. 申公豹角色处理:与哪吒类似的处理方式,先交代环境,再展现人物动作。 4. 其他角色创作:包括敖丙、大厨、美丽姑娘、土拨鼠、石姬娘娘等角色,根据不同需求设定形象和动作。 工具特点对比: 可灵能满足需求但生成时间长,微度 AI 生成速度快但结果有区别。 会议主题:0221|哪吒爆款 AI 视频制作拆解 会议时间:2 月 21 号(周五)19:58 22:21(GMT+08) 主讲老师:@小龙问路、@子豪插画
2025-03-07
拆解agent
AI Agent 的拆解是指如果单次请求不能很好地遵循并完成所有事情,就将其拆分为一步一步的子任务。比如用户表达目标后,让大模型根据目标拆分出逐步的子任务,再通过工程方式循环请求子任务(可能会插入新任务),直至所有子任务完成。例如去年的 AutoGPT 就是这种方式(Planning and excute),但它只是学术界的探索,难以落地,除了一些 demo 产品,只在实在智能的 RPA 上见过。难以落地的原因有很多,如计划赶不上变化,提前规划的任务难以保证正确执行;大模型并非全知全能,规划的任务不一定正确;工程化执行时,循环的进入和退出时机也是问题。后来大家都在解决这些问题,思路和解法不同,比如 OpenAI 搞 Tools,FastGPT 搞可视化的 workflow 编排,大家逐渐意识到 workflow 是短期最优解,于是纷纷开始做。 判断自己的任务/Prompt 是否需要拆解为工作流,构建稳定可用的 AI Agent 是不断调试和迭代的过程,通常从性能最强的 LLM 着手,先用单条 Prompt 或 Prompt Chain 测试任务执行质量和稳定性,再根据实际情况和最终使用的 LLM 逐步拆解子任务。一般对于场景多样、结构复杂、输出格式要求严格的内容,基本可预见需要拆解为工作流。此外,鉴于 LLM 只能处理文本输入输出,涉及多媒体内容生成或从网络自主获取额外信息等能力时,必然需要通过工作流调用相应插件。只用一段 Prompt 的 Agent 也算 AI Agent。
2025-01-05
有没有能分析拆解腾讯视频的AI工具?
目前有使用 Gemini 1.5 Pro 来分析和拆解腾讯视频的工具。以下是一些相关信息: 大家可以放自己的案例,本文档可编辑。 郑跃葵:拿个库布里克的电影来分析,连大师手法都学会了。 大峰 AI 绘画:太酷啦又多了一个 AI 视频创作助手。 Jones:b 站大学复习有救了。 对!:拉片太方便了。 Shock:而且可以干掉人工标注了,安徽那边数据标注众包要失业了。 清慎:1. 影视二创长剪短,一键生成小帅、小美、大壮、丧彪的故事;2. 警察叔叔查监控,一句话找出监控中的可疑现象;3. 替代 Opus 等长剪短工具。 测试者阿强:好用,准确度很高,把前几天用 AI 做的功夫熊猫之离谱村版丢进去分析,效果很好。拆解作品。 测试者张余和 Ling、洋洋也有拆解结果,Gemini 1.5 Pro 给出了全文。 您可以尝试使用 Gemini 1.5 Pro 来满足您对腾讯视频的分析拆解需求。
2024-12-11
将活动主题拆解为大量结构化提示词,用于文生视频
以下是将活动主题拆解为大量结构化提示词用于文生视频的相关内容: 技巧 1:提示词的结构 当提示词有清晰的结构时,提示效果最有效。可使用简单公式:。 例如:无结构提示词“小男孩喝咖啡”,有结构的提示词“摄影机平移(镜头移动),一个小男孩坐在公园的长椅上(主体描述),手里拿着一杯热气腾腾的咖啡(主体动作)。他穿着一件蓝色的衬衫,看起来很愉快(主体细节描述),背景是绿树成荫的公园,阳光透过树叶洒在男孩身上(所处环境描述)”。 技巧 2:提示词的优化 有三个原则: 1. 强调关键信息:在提示的不同部分重复或强化关键词有助于提高输出的一致性。 2. 聚焦出现内容:尽量让提示集中在场景中应该出现的内容上。 3. 规避负面效果:在提示词中写明不需要的效果。 写提示词时,首先要明确场景中的人物和冲突,其次是对场景进行详细描述,包括地点、人物形象、任务动作等细节,使用生动的动词营造动态和戏剧化氛围,第三要加强镜头语言,如推、拉、摇、移、升、降等,每种镜头运动都有其特定作用和效果。 PixelDance V1.4 提示词指南 图生视频的基础提示词结构为:主体+运动。当主体有突出特征时可加上,需基于输入图片内容写,明确写出主体及想做的动作或运镜,提示词不要与图片内容/基础参数存在事实矛盾。
2024-12-09
拆解 通往AGI之路 知识付费运营体系
通往 AGI 之路的知识付费运营体系可以从以下几个方面来拆解: 1. 课程特点: 【野菩萨的 AIGC 资深课】由工信部下属单位【人民邮电出版社】开设,是全网技术更新最快的课程之一。 课程内容涵盖 AI 绘画、视听语言和 ChatGPT 等多个体系的知识,能满足不同阶段学习者的需求。 2. 付费与开源的比较: 开源社区资源丰富,适合自律的自主学习者。 知识付费课程提供系统结构、专业指导、针对性计划和互动反馈,是高效的学习途径。 3. 社区需求: 新同学加入时,对适合小白新手入门的课程有需求,相比啃知识库的图文,更愿意接受老师手把手的教学。 4. 个人经历:创建者在希望快速入门 AI 绘画时,投入金钱学习了许多付费的 AI 课程,并最终选择了野菩萨的课程。 通往 AGI 之路本身不仅是开源的 AI 知识库,还是连接 AI 学习者、实践者、创新者的社区,具有以下特点: 1. 共同建设:由一群热爱 AI 的专家和爱好者共同贡献并整合各种 AI 资源。 2. 丰富内容:提供一系列开箱即用的工具,文生图、文生视频、文生语音等详尽的教程。 3. 紧跟前沿:追踪 AI 领域最新的进展,时刻更新。 4. 活动多样:包括东京的 confii 生态大会、AI 文旅视频、娃卡奖、李普村共创故事、AI 春晚等社区共创项目,以及 AIPO 活动、共学活动等。 5. 扶持与奖励:在小红书发布活动内容带特定标签有流量扶持,设有最佳创业奖和最佳投资奖等。
2024-11-25
如何拆解爆款短视频?
一个爆款短视频通常需要满足以下几点拆解要点: 1. 切片:短视频能够战胜长视频的关键在于对长视频进行切片处理。同理,要在短视频领域脱颖而出,也需不断切片,将一个短视频转化为多个短视频的集合,增加信息密度,大拆小并狂加料。 2. 通感:人的大脑分为直觉脑和理性脑,直觉脑通过五感工作。例如,头疗、水疗直播间靠声音让人感到舒服,美食直播间把美食切开喂到观众面前能让人不知不觉看很久。总之,不要让观众动脑子。 3. 反差:关于反差的详细内容可参考抖音航线里行舟大佬的相关文档。 此外,拆解爆款短视频还可以按照以下步骤和提问模板进行: 1. 确保 ChatGPT 理解您要拆解的角度。 2. 输入短视频脚本并让 ChatGPT 开始拆解。 3. 让 ChatGPT 提出内容的修改建议,并分点式给出答案。 4. 要求 ChatGPT 以特定风格去做修改。 具体的提问模板包括: 1. 建立自己的爆款库,并选择其中 1 个爆款内容。 2. 让 ChatGPT 理解您拆解的角度,例如:请您明确您理解以下名词的涵义(列举拆解角度):XXX、XXX、XXX;请您根据 XXXX(列举拆解角度),分析以下 XXXX(列举内容类型,例如文章/脚本)。 3. 让 ChatGPT 提出内容的修改建议,并分点式给出答案,例如:根据上述分析,请您判断这个 XXXX(列举内容类型,例如文章/脚本)的亮点和不足在哪里;请根据上述分析,进一步提出内容的修改建议,并分点式告诉我。 4. 要求 ChatGPT 以特定风格去做修改,例如:请根据上述内容的修改建议,对这个 XXXX(列举内容类型,如脚本/文章)进行修改,并输出 XXXX(列举内容类型,如脚本/文章)的文案;请将这个 XXXX(列举内容类型,如脚本/文章)调整成 XXX 风格(适用于 XX 平台,或与某作者相近风格,例如用王家卫风格、金庸风格)。
2024-09-28