Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

openai 发布的sora最新模型中,生成视频的提示词与一般问答提示词有什么区别或者注意事项?

Answer

Sora 是 OpenAI 于 2024 年 2 月发布的文本到视频的生成式 AI 模型。

生成视频的提示词与一般问答提示词的区别和注意事项如下:

  1. 对于视频生成,神经网络是单射函数,拟合的是文本到视频的映射。由于视频的动态性高,值域大,因此需要丰富且复杂的提示词来扩大定义域,以学好这个函数。
  2. 详细的文本提示能迫使神经网络学习文本到视频内容的映射,加强对提示词的理解和服从。
  3. 和 DALL·E 3 一样,OpenAI 用内部工具(很可能基于 GPT4-v)给视频详尽的描述,提升了模型服从提示词的能力以及视频的质量(包括视频中正确显示文本的能力)。但这会导致在使用时的偏差,即用户的描述相对较短。OpenAI 用 GPT 来扩充用户的描述以改善这个问题,并提高使用体验和视频生成的多样性。
  4. 除了文本,Sora 也支持图像或者视频作为提示词,支持 SDEdit,并且可以向前或者向后生成视频,因此可以进行多样的视频编辑和继续创作,比如生成首尾相连重复循环的视频,甚至连接两个截然不同的视频。

以下是一些 Sora 的案例提示词,如:“小土豆国王戴着雄伟的王冠,坐在王座上,监督着他们广阔的土豆王国,里面充满了土豆臣民和土豆城堡。”“咖啡馆的小地图立体模型,装饰着室内植物。木梁在上方纵横交错,冷萃咖啡站里摆满了小瓶子和玻璃杯。”“一张写有‘SORA’的写实云朵图像。”“一群萨摩耶小狗学习成为厨师的电影预告片‘cinematic trailer for a group of samoyed puppies learning to become chefs’”

Content generated by AI large model, please carefully verify (powered by aily)

References

Sora:大型视觉模型的背景、技术、局限性和机遇综述 【官方论文】

自从2022年11月ChatGPT发布以来,人工智能技术的出现标志着一个重大的转变,重塑了交互方式,并深入融入日常生活和行业的各个方面[1,2]。基于这一势头,OpenAI在2024年2月发布了Sora,一个文本到视频的生成式AI模型,能够根据文本提示生成现实或想象场景的视频。与之前的视频生成模型相比,Sora的特点是能够在遵循用户文本指令的同时,生成长达1分钟的高质量视频[3]。Sora的进步体现了长期以来人工智能研究任务的实质,即赋予AI系统(或AI代理)理解和与运动中的物理世界互动的能力。这涉及到开发不仅能解释复杂用户指令,而且能将这种理解应用于通过动态和富有上下文的模拟解决现实世界问题的AI模型。图2:Sora在文本到视频生成中的示例。文本指令被给予OpenAI Sora模型,它根据指令生成三个视频。Sora展示了准确解释和执行复杂人类指令的显著能力,如图2所示。该模型能生成包含多个执行特定动作的角色以及复杂背景的详细场景。研究人员将Sora的熟练程度归因于不仅处理用户生成的文本提示,而且还能辨别场景内元素之间复杂的相互作用。Sora最引人注目的方面之一是其生成长达一分钟的视频的能力,同时保持高视觉质量和引人入胜的视觉连贯性。与只能生成短视频片段的早期模型不同,Sora的一分钟长视频创作具有进展感和从第一帧到最后一帧的视觉一致性之旅。此外,Sora的进步在于其生成具有细腻运动和互动描绘的扩展视频序列的能力,克服了早期视频生成模型所特有的短片段和简单视觉呈现的限制。这一能力代表了AI驱动创意工具向前的一大步,允许用户将文本叙述转换为丰富的视觉故事。总的来说,这些进步展示了Sora作为世界模拟器的潜力,为描绘场景的物理和上下文动态提供了细腻的见解。[3]。

Sora 案例大全

|名称|prompt|作者|日期|附件||-|-|-|-|-||Sora可以根据文本创建逼真且富有想象力的视频,但Sora也可以带来静态图像,例如这些创作,走向生活。提示:“小土豆国王戴着雄伟的王冠,坐在王座上,监督着他们广阔的土豆王国,里面充满了土豆臣民和土豆城堡。”提示2:“咖啡馆的小地图立体模型,装饰着室内植物。木梁在上方纵横交错,冷萃咖啡站里摆满了小瓶子和玻璃杯。”提示3:“一张写有“SORA”的写实云朵图像。”|提示:“小土豆国王戴着雄伟的王冠,坐在王座上,监督着他们广阔的土豆王国,里面充满了土豆臣民和土豆城堡。”提示2:“咖啡馆的小地图立体模型,装饰着室内植物。木梁在上方纵横交错,冷萃咖啡站里摆满了小瓶子和玻璃杯。”提示3:“一张写有“SORA”的写实云朵图像。”|openAI工作人员|2024/02/21|||可以根据提示词改编场景||openAI工作人员|2024/02/21|||2月21日下午最新sora狗片,由OpenAI Sora工作人员发布|一群萨摩耶小狗学习成为厨师的电影预告片"cinematic trailer for a group of samoyed puppies learning to become chefs"|openAI工作人员|2024/02/21||"a giant cathedral i

GPT、DALL·E、Sora,为什么 OpenAI 可以跑通所有 AGI 技术栈?

和DALL·E 3一样,OpenAI用内部工具(很可能基于GPT4-v)给视频详尽的描述,提升了模型服从prompt的能力,以及视频的质量(还有视频中正确显示文本的能力)。我认为这是非常关键的一点,是OpenAI的杀手锏,对于视频尤其重要。原因很简单,可以从两个角度解释:(1)神经网络是个单射函数,拟合的是文本到视频的映射。视频的动态性非常高,也就是有很大的值域,为了把这个函数学好,需要定义域也很大很丰富,这就需要复杂的prompt了。(2)详细的文本也迫使神经网络学习文本到视频内容的映射,加强对于prompt的理解和服从。另外一个细节:这种详尽的描述会导致在使用时的bias——用户的描述都相对较短。和DALL·E 3一样,OpenAI用GPT来扩充用户的描述来改善这个问题,并提高使用体验和视频生成的多样性。除了文本以外,Sora也支持图像或者视频作为prompt,支持SDEdit,并且可以向前或者向后生成视频,因此可以进行多样的视频的编辑和继续创作,比如生成一个首尾相连重复循环的视频:[0bc3eeacsaaa2qaajcothbsvaiodfeqqakia.f10002.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/Hi3qbRbHBoC4s6x0YshcE4iNnNd?allow_redirect=1)甚至可以连接两个截然不同的视频:

Others are asking
deepseek提示词
以下是关于 deepseek 提示词的相关内容: 生成小红书爆款单词视频:输入单词主题、图片风格、单词数量,选择 deepseekr1 模型生成单词数组。角色为专业的单词生成助手,技能是输出关联英语单词,限制为仅围绕用户输入主题输出相关内容并以数组形式呈现。 Deepseek 时代提示词的关键诉求:完整的长提示词可能不如片段有效甚至干扰模型思考,在 deepseek 时代或模型有深度思考能力时,用户只需在关键点引导,采用“关键诉求直通车”模式,如像对聪明助理打暗号。 让 DeepSeek 生成相机运动轨迹的提示词:以往提示词是场景、构图等的组合,现在可以把这些提示词以“相机运动轨迹”的方式描述给 DeepSeek,如“相机向上飞升至上空轨道视角,拍摄站在泳池旁的女子”。
2025-03-04
写作提示词
以下是关于写作提示词的全面介绍: 写提示词(prompt)是决定 AI 模型如何理解并生成文本的关键步骤。一个好的提示词能够帮助 AI 模型更好地理解任务要求,生成更符合预期的文本。 编写提示词的建议: 1. 明确任务:清晰定义任务,如写故事时包含背景、角色和主要情节。 2. 提供上下文:若任务需特定背景知识,在提示词中提供足够信息。 3. 使用清晰语言:尽量用简单、清晰的语言,避免模糊或歧义词汇。 4. 给出具体要求:如有特定格式或风格要求,在提示词中明确指出。 5. 使用示例:若有特定期望结果,提供示例帮助 AI 模型理解需求。 6. 保持简洁:避免过多信息导致 AI 模型困惑。 7. 使用关键词和标签:有助于模型理解任务主题和类型。 8. 测试和调整:生成文本后仔细检查结果,根据需要调整提示词。 在 AI 绘画中,根据想画的内容写提示词,多个提示词之间用英文半角符号“,”隔开。一般概念性、大范围、风格化的关键词写在前面,叙述画面内容的其次,描述细节的最后。每个词语在模型中的自带权重可能不同,越靠后的权重越低。关键词应具有特异性,措辞越具体越好,可使用括号人工修改提示词的权重。 在星流一站式 AI 设计工具中: 提示词用于描绘想生成的画面。 输入语言方面,星流通用大模型与基础模型 F.1、基础模型 XL 使用自然语言,基础模型 1.5 使用单个词组,支持中英文输入。 写好提示词的方法包括:内容准确,包含人物主体、风格、场景特点等;调整负面提示词,帮助 AI 理解不想生成的内容;利用“加权重”功能让 AI 明白重点内容;使用预设词组,小白用户可点击生图;还可使用辅助功能,如翻译、删除所有提示词、会员加速等。 希望以上内容能帮助您更好地编写提示词。
2025-03-04
deepseek提示词
以下是关于 deepseek 提示词的相关内容: 1. 生成小红书爆款单词视频: 开始时输入单词主题、图片风格、单词数量。 选择 deepseekr1 模型生成单词数组,以数组方式输出,包括单词、中文、美式音标、英文句子及其中文翻译。 提示词中角色设定为专业的单词生成助手,技能是输出关联英语单词,限制为仅围绕用户输入主题输出相关内容,且以特定数组形式呈现。 2. Deepseek 时代提示词之关键诉求: 完整的长提示词可能不如片段有效,甚至干扰模型思考流程,带来 Token 浪费和上下文污染,特别是在多轮对话中。 新一代 LLM 的正确打开方式是“关键诉求直通车”模式,如像对聪明助理打暗号,让模型自主发挥。 3. 让 DeepSeek 生成相机运动轨迹的提示词: 以往的提示词包括场景、构图、尺寸、位置、形态、半身全身、环境等组合。 现在要求以“相机运动轨迹”的方式描写,如“相机向上飞升至上空轨道视角,拍摄站在泳池旁的女子”。 对空间理解和对语义的遵循能让相关元素自然生成,如生成有光影变化的泳池,为主角匹配场景的拖鞋。
2025-03-03
DeepSeek提示词
以下是关于 DeepSeek 提示词的相关内容: 1. 生成小红书爆款单词视频: 开始:输入单词主题、图片风格、单词数量,如非洲动物、真实风格、2。 生成单词数组:选择 deepseekr1 模型,输入单词主题、单词数量,为用户输出指定数量的单词,并以数组方式输出,包括单词、中文、美式音标、英文句子及其中文翻译。提示词中角色设定为专业的单词生成助手,技能是输出关联英语单词,限制为仅围绕用户输入主题输出相关内容,且输出必须为符合要求的数组形式。 2. Deepseek 时代提示词之关键诉求: 观察发现完整的提示词可能不如片段有效,甚至可能干扰模型的思考流程,过长提示会带来大量的 Token 浪费和上下文污染,特别是在多轮对话中。在 deepseek 时代,用户只需要在关键点进行引导,让模型自主发挥,“关键诉求直通车”模式是新一代 LLM 的正确打开方式。新旧提示法对比,传统方法像唠叨家长,新型技巧像对聪明助理打暗号。 3. 让 DeepSeek 生成相机运动轨迹的提示词:以往的提示词是场景、构图、尺寸、位置、形态、半身全身、环境的组合,现在把这些提示词喂给 DeepSeek,要求以“相机运动轨迹”的方式来描写,可以得到新提示词,如“相机向上飞升至上空轨道视角,拍摄站在泳池旁的女子”。对空间理解和对语义的遵循能让有光影变化的泳池自然地生成出来,海螺 AI 甚至还知道给主角穿上与场景匹配的拖鞋。
2025-03-03
如何写适配多个llm的提示词
以下是关于如何写适配多个 LLM 的提示词的详细内容: 实现原理: 提示词工程主要由两部分代码组成,即提示词注入和工具结果回传。提示词注入用于将工具信息及使用工具的提示词添加到系统提示中,它包含 TOOL_EAXMPLE、tools_instructions、REUTRN_FORMAT 三个部分。TOOL_EAXMPLE 用于提示 LLM 如何理解和使用工具,编写时应注意用无关紧要的工具作示例以免 LLM 混淆。tools_instructions 是将通用工具字典转换成 LLM 可读的工具列表,实际使用时可动态调整以让 LLM 知晓可用工具及使用方法。REUTRN_FORMAT 定义了调用 API 的格式。工具结果回传则是解析 tool calling 的输出,并将工具返回的内容再次嵌入 LLM,利用正则表达式抓取输出中的“tool”和“parameters”参数,对于 interpreter 工具使用另一种正则表达式提取 LLM 输出的代码,以提高成功率。对于不接受某些角色的 LLM 接口,可改为回传给 user 角色。 相关成果: 目前绝大多数小型本地开源大语言模型以及部分商用大模型接口不支持稳定的 tool calling 功能,现有的微调 LLM 解决方案会浪费大量时间和算力。本文提出仅使用提示词工程和精巧的代码设计,让 LLM 获得稳定的 tool calling 能力。使用多个不具备该能力的 LLM 作为测试模型,在多个工具调用任务上实验成功率达 100%,且基于 comfyui 开发,适合无代码基础的人员复现和修改。
2025-03-03
如何给deepseek写提示词
以下是关于给 DeepSeek 写提示词的相关内容: 1. 效果对比:用 Coze 做了小测试,可对比查看。 2. 使用方法: 搜索 www.deepseek.com,点击“开始对话”。 将装有提示词的代码发给 DeepSeek。 认真阅读开场白后正式开始对话。 3. 设计思路: 将 Agent 封装成 Prompt,将 Prompt 储存在文件,保证最低成本的人人可用,减轻调试负担。 通过提示词文件,让 DeepSeek 实现同时使用联网功能和深度思考功能。 在模型默认能力基础上优化输出质量,减轻 AI 味,增加可读性。 设计阈值系统,可能会根据反馈修改。 用 XML 进行更规范设定,而非 Lisp 和 Markdown。 4. 完整提示词:版本 v1.3。 5. 特别鸣谢:李继刚的【思考的七把武器】提供思考方向,Thinking Claude 是设计灵感来源,Claude 3.5 Sonnet 是得力助手。 6. 生成单词方面: 输入单词主题、图片风格、单词数量。 选择 deepseekr1 模型,输入单词主题、单词数量,DeepSeek 为用户输出指定数量单词,以数组方式输出。 提示词中,角色为专业单词生成助手,技能是输出关联英语单词,限制为仅围绕用户输入主题输出相关内容,以符合要求的数组形式呈现。 7. 生成相机运动轨迹的提示词:以往提示词是场景、构图、尺寸等的组合,现在把这些喂给 DeepSeek,要求以“相机运动轨迹”方式描写,如“相机向上飞升至上空轨道视角,拍摄站在泳池旁的女子”。
2025-03-03
deepseek 的提示词应该怎么写?和以往的大语言模型的提示词有什么不同?
DeepSeek 的提示词具有以下特点: 1. 语气上还原帝王语气,不过分用力,使用相对古典但兼顾可读性的文字,避免傻气的表达。 2. 对历史细节熟悉,这可能与支持“深度探索”和“联网搜索”同时开启有关,能准确还原如“太极宫”“甘露殿”“掖庭局”“观音婢”“宫门鱼符”等唐初的历史称谓。 3. 输出极其具体且充满惊人细节,行文的隐喻拿捏到位,如“狼毫蘸墨时发现指尖残留着未洗净的血痂”“史官们此刻定在掖庭局争吵。该用‘诛’还是‘戮’,‘迫’还是‘承’。‘只是这次,他不敢触碰我甲胄上元吉的掌印’”等句子,虽未直接写“愧疚与野心,挣扎与抱负”,但句句体现。 与以往大语言模型的提示词的不同在于:以往模型可能在语气、历史细节和具体细节的处理上不如 DeepSeek 出色。
2025-02-28
提示词有哪些逻辑框架
提示词常见的逻辑框架包括以下方面: 1. Vidu Prompt 基本构成: 提示词基础架构:包括主体/场景、场景描述、环境描述、艺术风格/媒介。在描述时需调整句式和语序,避免主体物过多/复杂、分散的句式,避免模糊术语,使用流畅准确的口语化措辞,避免过度文学化叙述,丰富、准确和完整的描述有助于生成特定艺术风格、满足需求的视频。 提示词与画面联想程度:通过单帧图像示例介绍关系,如基础词“玻璃桌上的咖啡杯,杯子外面写着单词 LOVE”,适度联想扩充为“花园里的透明玻璃桌上的咖啡杯,杯子外面写着单词 LOVE,周围满是盛开的鲜花,和煦的阳光洒满整个花园,Claude Monet,印象派风格”。联想关键点包括具体详实的位置描述/环境描述,可帮助构建画面基本呈现效果,以及艺术风格描述,可进一步提升效果和氛围,统一画面风格。 2. Super Prompt: 来源:在 X 上爆火,有相关链接。 原文包括 prompt、flowchart、结合提示词的思考过程解释等。 提示词结构及作用:个人感受是只给方向的逻辑框架很棒,省 Token,可沿用深化和迭代。 逐句解析包括 META_PROMPT1 的多个部分以及二进制编码部分和 META_PROMPT2 等。最后的灵感来源有参考价值,是指导 LLM 思考逻辑的索引,在有具体应用场景时可针对性引入,抽象规则是指路灯。
2025-02-28
deepseek的提示词有哪些特别之处
DeepSeek 的提示词具有以下特别之处: 1. 语气还原:能还原帝王语气,相比其他模型输出,语气恰当,不过分用力,兼顾古典文字和可读性。 2. 熟悉历史细节:可能与支持“深度探索”和“联网搜索”同时开启有关,能准确还原唐初历史称谓,如“太极宫”“甘露殿”“掖庭局”“观音婢”“宫门鱼符”等,对“魏徵”等字词的使用也很讲究。 3. 输出具体且细节惊人:与其他 AI 不同,其输出充满具体而惊人的细节,行文隐喻拿捏到位,高级且能让画面跃然纸上。 4. 增添场景描述:在独白文本中“自作主张”地加入括号中的场景描述,增强画面感,如“夜风掀动案头《韩非子》,停在‘夫妻者,非有骨肉之恩也’那页”等。 5. 预判用户需求:对于简洁且无形容词、无倾向性的提示词,如“玄武门之变结束的当天,李世民在深夜写下一段独白,你觉得他会写什么?”,能准确预判用户想要的输出,自然想到添加文学性。
2025-02-27
帮助产品经理根据产品原型截图写产品需求文档的AI工具和提示词有哪些
以下是一些帮助产品经理根据产品原型截图写产品需求文档的 AI 工具和提示词: AI 工具: 1. 产品管理工具:如 Aha!、ProductPlan 等,帮助管理整个产品生命周期。 2. 协作工具:如 Google Docs、Microsoft Office 365,支持团队协作和文档共享。 3. 项目管理软件:如 JIRA、Trello,用于任务分配和进度跟踪。 4. 市场研究工具:如 Google Trends、SEMrush,分析市场趋势和用户行为。 5. 用户调研工具:如 SurveyMonkey、Typeform,收集用户反馈和需求。 6. 数据分析工具:如 Tableau、Power BI,对市场数据进行可视化分析。 7. 思维导图软件:如 MindMeister、XMind,帮助组织思路和概念。 8. 流程图软件:如 Lucidchart、Visio,绘制产品功能和流程图。 提示词: 1. 行业洞察分析:对行业现状、趋势和未来发展方向进行深入研究和预测。 2. 方法论专家:精通各类管理和研发方法论,能根据具体情况选择和应用最佳方法。 3. 头脑风暴:团队成员自由提出各种想法和见解,快速产出创意解决方案。 4. 需求文档设计:根据产品特性和用户需求,设计产品需求文档。 5. 功能价值分析:评估产品各项功能的重要性和价值,辅助优化资源配置。 6. 竞品分析报告:对竞争对手的产品进行全面的分析比较,找出优劣势。 7. 流程图/图表设计:直观地呈现业务流程、组织结构或统计数据。 8. 思维导图设计:以树状图形式展示思路和知识框架。 9. 解决方案专家:根据问题分析,提供切实可行的解决方案。 10. 周报生成器:自动化生成工作周报,提高工作效率。 学习 Prompt 提示词可以参考这份文档:https://www.promptingguide.ai/zh 。 在写提示词时,要注意以下几点: 1. 提示词内容准确,包含人物主体、风格、场景特点、环境光照、画面构图、画质等,比如:一个女孩抱着小猫,背景是一面红墙,插画风格、孤独感,高质量。 2. 调整负面提示词,帮助 AI 理解不想生成的内容,比如:不好的质量、低像素、模糊、水印。 3. 利用“加权重”功能,让 AI 明白重点内容,可在功能框增加提示词,并进行加权重调节,权重数值越大,更优先。 4. 对于星流一站式 AI 设计工具,其提示词用于描绘画面,支持中英文输入,启用提示词优化后能更生动地描述画面内容,小白用户可以点击提示词上方官方预设词组进行生图。 使用这些提示词和工具,可以帮助产品经理更高效地撰写产品需求文档,确保文档全面覆盖了市场和产品的关键方面。同时,它们也有助于提高团队之间的沟通效率和文档的可管理性。但请注意,内容由 AI 大模型生成,请仔细甄别。
2025-02-19
写施工方案的提示词有没有
以下是一些常见的提示词技巧,可用于写施工方案: 类比:要求 AI 用类比或示例阐明概念,例如“请用一个类比解释施工中的关键技术”。 引述:要求包含专家的相关引言或陈述,比如“在施工方案中引用著名建筑专家的观点来支持关键施工步骤”。 幽默:表明是否应融入幽默,例如“在施工方案的安全注意事项部分加入一些幽默元素,以增强记忆”。 轶事:要求包含相关轶事,比如“在关于大型建筑施工的方案中,分享一则有趣的施工过程中的轶事”。 隐喻:鼓励使用隐喻使复杂观点更具亲和力,例如“在描述施工流程的复杂性时,用‘施工像搭积木一样需要有序进行’这样的隐喻”。 趣闻:鼓励包含有趣或令人惊讶的事实,比如“在谈论新型建筑材料时,分享一些有趣的材料特性的事实”。 关键词:列出需要包含的重要关键词或短语,例如“请在施工方案中包含‘施工进度’‘质量控制’和‘安全保障’”。 小贴士:鼓励 AI 分享与主题相关的小窍门和技巧,比如“分享几个关于提高施工效率的小贴士”。 保密性:说明保密要求或限制,比如“在施工方案涉及商业机密的部分,不要泄露相关信息”。 格式化:指定所需的格式元素(如标题、副标题、列表),例如“在写施工方案时,使用列表来呈现施工步骤”。 概括:要求对较长内容进行简要概括,比如“请为这个复杂的施工方案提供一个简短的概要”。 讲故事:要求使用讲故事或叙事技巧,例如“请用一个成功的施工案例故事来展示优秀的施工管理”。 优缺点:要求 AI 评估主题的优缺点,比如“分析这种新型施工方法的优缺点”。 利弊分析:要求对主题的利弊进行分析,例如“分析使用预制构件施工的利与弊”。 问题解决:要求针对特定问题提供解决方案或建议,比如“请提供几个有效的解决施工中遇到的技术难题的方法”。 最佳实践:要求 AI 提供关于某主题的最佳实践或指南,比如“请提供一份关于如何确保施工质量的最佳实践指南”。 时间线:要求 AI 提供事件或发展的时间线,比如“请为这个建筑项目的施工进程提供一个简要的时间线”。 行动呼吁:要求明确的行动呼吁或后续步骤,比如“在施工方案结尾提出具体的施工推进行动建议”。 分步指南:要求提供过程的分步指南或说明,比如“提供一个关于如何进行基础施工的分步指南”。 历史背景:要求考虑历史背景或背景,比如“在写关于高层建筑施工的方案时,谈论高层建筑施工的历史发展”。 对比:要求 AI 比较和对照不同的观点或概念,比如“请比较传统施工方法和现代施工方法的优缺点”。 敏感性:提及需要谨慎处理或避免的敏感主题或问题,比如“请谨慎讨论施工中的环保敏感问题”。 伦理考虑:提及要遵循的道德准则,比如“在施工方案中探讨施工过程中的伦理和道德问题”。 修订要求:提及修订或编辑指南,比如“请根据行业标准对施工方案进行编辑和修订”。 未来影响:鼓励讨论潜在的未来影响或趋势,比如“在谈论建筑施工技术的发展时,探讨其未来在城市建设中的应用前景”。 视觉元素:询问是否包括图表、图形或图像,比如“请在施工方案中包含相关的施工图纸和进度图表”。 截止日期:提及时间敏感回应的截止日期或时间范围,比如“请在一周内给我一份完整的施工方案”。 文化参考:鼓励包含相关的文化参考,比如“在关于古建筑修复的施工方案中谈论当地的建筑文化特色”。
2024-12-22
sd的提示词有哪些语法
以下是关于 SD 提示词的语法: 1. 多个提示词之间使用英文半角符号“,”分隔,例如:masterpiece,best quality,ultradetailed,illustration,closeup,straight on,face focus,1girl,white hair,golden eyes,long hair,halo,angel wings,serene expression,looking at viewer。 2. 一般而言,概念性、大范围、风格化的关键词写在前面,叙述画面内容的关键词其次,最后是描述细节的关键词。大致顺序为:。 3. 每个词语本身自带的权重可能不同,模型训练集中较多出现的关键词,输入一个词就能极大影响画面;较少出现的关键词,输入多个相关词汇对画面影响效果可能有限。提示词的顺序很重要,越靠后的权重越低。关键词最好具有特异性,措辞越具体越好,避免抽象和有解释空间的措辞。 4. 可以使用括号人工修改提示词的权重,例如: 将权重减少为原先的 25%。 5. 可以通过 Prompt Editing 使得 AI 在不同的步数生成不一样的内容,语法为:例如:a,100 步采样,一开始。提示词为:fantasy landscape with a mountain and an oak in foreground shoddy 在第 25 步后,提示词为:fantasy landscape with a lake and an oak in foreground in background shoddy 在第 50 步后,提示词为:fantasy landscape with a lake and an oak in foreground in background masterful 在第 60 步后,提示词为:fantasy landscape with a lake and an oak in background masterful 在第 75 步后,提示词为:fantasy landscape with a lake and a christmas tree in background masterful。 6. 提示词还可以轮转,比如:在第一步时,提示词为“cow in a field”;在第二步时,提示词为"horse in a field.";在第三步时,提示词为"cow in a field",以此类推。 7. 交替词:in a field 可以支持多个词交替。 8. 可组合扩散(AND 语法):a cat AND a dog 比如想画一个猫和狗的混合物种,每一个要混合的东西支持加权重,比如 a cat:1.2 AND dog AND a benguin:2.2。通过继续向总数添加更多提示,这可以方便地生成微调的递归变化,比如 log AND frog:0.13 AND yellow eyes:0.08 。 请注意,权重值最好不要超过 1.5。
2024-12-19
openAI的deep research有哪些缺陷
OpenAI 的 Deep Research 存在以下一些缺陷: 1. 具有滞后性,在某些信息上无法做到及时更新。 2. 存在信息混乱的问题,无法完全替代人类的深度思考。
2025-03-03
Monica和Openai的记忆功能是如何让大模型产生记忆的?是什么原理?
大模型的记忆功能实现方式较为复杂,不同的模型可能有所不同。 OpenAI 的模型中,大模型 LLM 扮演了“大脑”的角色,其记忆功能可能通过“Agent = LLM + 规划 + 记忆 + 工具使用”的基础架构来实现。但需要注意的是,对于 ChatGPT 这类模型,实际上其本质上并没有直接的记忆功能。它能理解之前的交流内容,是因为每次将之前的对话内容作为新的输入重新提供给模型。这种记忆功能并非由大型模型直接实现,而是通过在别处进行存储来达成。 如果对话内容过长,可能会影响模型的整体性能。解决这个问题的一个简单方法是启动另一个对话框。对于之前的数据,通常只能进行总结。
2025-03-01
openai
OpenAI 相关信息如下: 模型: OpenAI API 由多种具有不同功能和价位的模型提供支持,还可通过微调针对特定用例对原始基本模型进行有限定制。 具体模型包括:GPT4 Beta(一组改进 GPT3.5 的模型,可理解和生成自然语言或代码)、GPT3.5(一组改进 GPT3 的模型,可理解并生成自然语言或代码)、DALL·E Beta(可在给定自然语言提示的情况下生成和编辑图像的模型)、Whisper Beta(可将音频转换为文本的模型)、Embeddings(可将文本转换为数字形式的模型)、Codex Limited Beta(一组可理解和生成代码的模型,包括将自然语言转换为代码)、Moderation(可检测文本是否敏感或不安全的微调模型)、GPT3(一组可理解和生成自然语言的模型)。 通用人工智能(AGI)计划: 有网络上传播的关于 OpenAI 计划在 2027 年前实现通用人工智能(AGI)的计划的相关文档,内容为各种报道和推文的拼凑猜测。 文档提到 OpenAI 于 2022 年 8 月开始训练一个拥有 125 万亿参数的多模态模型,第一阶段被称为 Arrakis 或 Q,该模型于 2023 年 12 月完成训练,但因高昂推理成本发布被取消,原计划 2025 年发布的 GPT5 取消,Gobi(GPT4.5)被重新命名为 GPT5。 技术栈: 从 GPT、DALL·E 到 Sora,OpenAI 成功跑通了 AGI 的所有技术栈。加州大学伯克利分校计算机科学 PHD、知乎作者 SIY.Z 从技术实现、商业和技术趋势上分析了原因,并尝试预测了 OpenAI 下一步的进展。
2025-02-24
openAI关于道德规范的调整是什么
OpenAI 在道德规范方面的调整包括以下内容: 1. OpenAI 认为通过分析 ChatGPT 和 GPT4 用户对数百万条提示的反应,能获得知识以使未来的产品符合道德规范。 2. 随着公司承担更多任务并投入更多商业活动,有人质疑其在多大程度上能集中精力完成降低灭绝风险等任务。 3. OpenAI 与数以百计的内容审核员签订合同,对模型进行教育,使其了解对用户提示做出的不恰当或有害回答。 4. 山姆·奥特曼曾强调 AI 可能带来的潜在灾难,如大规模虚假信息传播、网络攻击以及威权政府滥用等,并对 OpenAI 最初的开放性承诺进行重新考虑。 5. 公司领导层认为董事会作为非营利性控制实体的一部分,将确保营收和利润的驱动力不会压倒最初的想法。但目前 OpenAI 还不清楚 AGI 到底是什么,其定义将由董事会决定。
2025-02-18
openai最近有什么新闻
以下是 OpenAI 最近的一些新闻: 1. 12 天连续直播相关结果,昨天 OpenAI 把 o1 模型在 API 中正式发布,之前发布的是 o1 Preview 历史版本,正式版思考花费的 token 少了 60%。 2. 北京时间 9 月 13 号凌晨 1 点多,OpenAI 宣布推出模型 o1preview 与 o1mini,拥有 Plus 版本的用户会陆续收到新模型权限,可在 Web 客户端中尝鲜体验。 3. OpenAI 更新风控与账号共享识别力度,可能会偷偷降低 ChatGPT 模型的调用规格,如 o1pro 降级为 o1。 4. 奥特曼谈 AI 推理能力进展,o1(2024 年 9 月)排名全球第 9800 名,o3(2024 年 12 月)提升至第 175 名,现内部模型已达全球第 50 名,预计今年内登顶第一。
2025-02-17
openAI过去几年的发展历程
OpenAI 在过去几年的发展历程如下: 在整个团队的努力下,迎来了技术高速发展的“黄金三年”,在自然语言处理领域取得突破性进展,推出了 GPT1、GPT2 和 GPT3 系列模型,每次模型迭代都使模型复杂度成指数级别上升,模型效果也越来越好。 2022 年 11 月 30 日,发布基于 GPT 3.5 的 ChatGPT,引发全球 AI 浪潮。 大约九年前创立,怀揣着对 AGI 潜力的坚定信念,渴望探索如何构建并使其惠及全人类。 创始人山姆·奥特曼回首创业历程,认为虽然有挑战和不愉快,但收获和成长巨大,也暴露出团队在管理上的不足。 展望 2025 年,坚信首批 AI Agent 将融入劳动力市场,目标已瞄准真正意义上的超级智能。新的一年充满反思,随着 AGI 脚步临近,是回顾公司发展历程的重要时刻。
2025-02-11
sora现在能生成多长时间视频
Sora 是由 OpenAI 开发的文生视频模型,能够根据文字指令创造出逼真且充满想象力的场景,并生成长达 1 分钟的高质量视频,且具有一镜到底的特点,视频中的人物和背景能保持惊人的一致性和稳定性。与之前的视频生成模型相比,Sora 在生成时长和视频质量上有显著进步。同时,还有其他一些文字生成视频的 AI 产品,如 Pika 擅长动画制作且支持视频编辑,SVD 是基于 Stable Diffusion 的插件,Runway 是老牌的收费 AI 视频生成工具且提供实时涂抹修改视频功能,Kaiber 是视频转视频 AI,能将原视频转换成各种风格的视频。更多相关网站可查看:https://www.waytoagi.com/category/38 。
2025-01-15
如何使用sora生成一段视频
使用 Sora 生成一段视频的步骤如下: 1. 文本提示优化:类似于 DALLE3,Sora 在处理用户提供的文本提示时,可以利用 GPT 模型来扩展或优化提示。GPT 模型能将简短的用户提示转化为更详细、更富有描述性的文本,有助于 Sora 更准确地理解并生成符合用户意图的视频。 2. 生成视频:用户提供文本提示,Sora 根据提示在潜在空间中初始化视频的生成过程。利用训练好的扩散模型,Sora 从这些初始化的时空潜伏斑块开始,逐步生成清晰的视频内容。 3. 视频解码和后处理:使用与视频压缩相对应的解码器将潜在空间中的视频转换回原始像素视频。对生成的视频进行可能的后处理,如调整分辨率、裁剪等,以满足发布或展示的需求。 此外,Sora 采用了一些相关技术和原理: 1. 视频压缩网络:训练一个降低视觉数据维度的网络,接受原始视频作为输入,并输出在时间和空间上都被压缩的潜在表示。Sora 在这个压缩的潜在空间上进行训练,并随后生成视频。同时还训练了一个相应的解码器模型,将生成的潜在表示映射回像素空间。 2. 时空潜空间块:给定一个压缩的输入视频,提取一序列的时空分块作为 Transformer 变换器的 Token。这个方案也适用于图像,基于分块的表示使 Sora 能够训练具有不同分辨率、持续时间和纵横比的视频和图像。在推理时,可以通过在适当大小的网格中随机初始化分块来控制生成视频的大小。 3. 调整图像模型来生成视频:通过插入时间层来“扩增”预训练的文生图扩散模型,然后选择仅在视频上对新的层进行微调或完全避免进行额外的训练。新模型会继承文本 图像对的先验知识,有助于缓解对文本 视频对数据的需求。 4. 扩散视频建模:如 Singer et al. 在 2022 年提出的 MakeAVideo,在一个预训练扩散图像模型的基础上扩展一个时间维度,包含三个关键组件:一个在文本 图像对数据上训练的基础文生图模型;时空卷积和注意力层,使网络覆盖时间维度;一个帧插值网络,用于高帧率生成。
2025-01-10
sora和lora是什么
LoRA(LowRank Adaptation)是一种低阶自适应模型,您可以将其理解为基础模型(Checkpoint)的小插件。在生图时,LoRA可有可无,但它具有明显的价值,常见于对一些精细的控制,如面部、材质、物品等细节的控制。其权重在相关界面会有显示。 Sora 并非常见的 AI 领域特定术语,上述知识库中未提及相关内容。
2025-01-02
sora教程
以下是关于 Sora 及相关的教程信息: AI 视频方面: 软件教程: 工具教程: 应用教程: Python + AI 方面: 对于不会代码的人,有 20 分钟上手的教程,包括通过 OpenAI 的 API 生成文章缩略信息的代码重写及相关操作步骤。同时提醒妥善保管 API Key,OpenAI 的综合文档、API 使用、API Playground、API 案例与答疑的相关网址为:https://platform.openai.com/docs/overview 、https://platform.openai.com/docs/apireference 、https://platform.openai.com/playground 、https://cookbook.openai.com/ 。 工具教程: 开放公测,群友有实测案例。可参考卡兹克的教程介绍:https://mp.weixin.qq.com/s/YGEnIzfYA3xGpT9_qh56RA 以及 zho 总结的官方网站的案例。目前除每日 150 个赠送积分外,还新增积分购买选项,可操作固定种子、步数、运动幅度,交互也很有意思,在生成过程中会有案例标注。 此外,还有几个视频 AIGC 工具:Opusclip 可将长视频剪成短视频,Raskai 能将短视频素材直接翻译至多语种,invideoAI 输入想法后可自动生成脚本和分镜描述进而生成视频再人工二编合成长视频,descript 可对屏幕/播客录制并以 PPT 方式做视频,veed.io 能自动翻译自动字幕,clipchamp 是微软的 AI 版剪映,typeframes 类似 invideoAI 但内容呈现文本主体比重更多,google vids 是一款相关工具。Sora 是 OpenAI 发布的超强视频生成 AI,能通过处理各种视觉数据生成视频,使用视频压缩网络和空间时间补丁统一不同来源数据,并借助文本条件化的 Diffusion 模型生成与文本提示匹配的视觉作品。
2024-12-17
ChatGPT与Sora 是不是只有苹果手机或苹果电脑才能注册与登入?
ChatGPT 注册与登录: 苹果系统: 中国区正常无法在 AppleStore 下载 ChatGPT,需切换到美区。美区 AppleID 注册教程可参考知乎链接:https://zhuanlan.zhihu.com/p/696727277 。 最终在 AppleStore 搜到 ChatGPT 下载安装,注意别下错。 打开支付宝,地区切换到美区任意区,购买【App Store&iTunes US】礼品卡,按需要金额购买(建议先买 20 刀),然后在 apple store 中兑换礼品卡,在 chatgpt 中购买订阅 gpt plus,中途不想继续订阅可到订阅列表中取消。 会员不管在苹果还是安卓手机上购买的,电脑上都能登录。 注册美区 ID 详细步骤: 1. 电脑上打开 Apple ID 的注册页面:https://appleid.apple.com/ac 。 2. 填写验证码后点继续。 3. 到谷歌邮箱接收邮箱验证码。 4. 接着验证手机号码。 5. 验证完后会出现页面,此时美区 ID 已注册但未激活,切换到手机操作。 6. 打开 App Store,点击右上角人形头像。 7. 拉到最底下,点击退出登录,先退出国内的 ID。 8. 之后再点击右上角人形头像。 9. 手动输入美区 ID,会收到短信进行双重验证。 10. 之后完成美区的 ID 登录。 11. 随便找个软件下载,会弹出提示,点击“检查”进行激活。 12. 点击同意,进入下一页填写美国地址。 13. 若付款方式中没有“无”或“none”选项,输入街道地址和电话。 14. 至此,通过中国 IP、中国手机号、免信用卡成功注册一个美区 ID,可用于下载例如小火箭、ChatGPT、Discord、X、TikTok 等软件。 关于 Sora 的注册与登录相关信息未提及。
2024-12-16
Sora是什么
Sora 是 OpenAI 发布的一个文本到视频的生成模型。 它具有以下特点和能力: 1. 能够根据描述性的文本提示生成高质量的视频内容。 2. 其生成的视频不仅逼真且充满想象力,能创造出各种场景。 3. 可以生成长达 1 分钟的超长视频,且是一镜到底的,视频中的人物和背景等具有惊人的一致性和稳定性。 4. 虽然在技术界引起广泛关注和讨论,但目前 OpenAI 未公开发布,仅向少数研究人员和创意人士提供有限访问权限以获取使用反馈并评估技术安全性。 在图像生成能力方面,Sora 能生成图像,虽不及 Midjourney,但优于 Dalle 3。此外,Sora 在视频游戏模拟中也具有一定的能力。
2024-12-16