Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

openai 发布的sora最新模型中,生成视频的提示词与一般问答提示词有什么区别或者注意事项?

Answer

Sora 是 OpenAI 于 2024 年 2 月发布的文本到视频的生成式 AI 模型。

生成视频的提示词与一般问答提示词的区别和注意事项如下:

  1. 对于视频生成,神经网络是单射函数,拟合的是文本到视频的映射。由于视频的动态性高,值域大,因此需要丰富且复杂的提示词来扩大定义域,以学好这个函数。
  2. 详细的文本提示能迫使神经网络学习文本到视频内容的映射,加强对提示词的理解和服从。
  3. 和 DALL·E 3 一样,OpenAI 用内部工具(很可能基于 GPT4-v)给视频详尽的描述,提升了模型服从提示词的能力以及视频的质量(包括视频中正确显示文本的能力)。但这会导致在使用时的偏差,即用户的描述相对较短。OpenAI 用 GPT 来扩充用户的描述以改善这个问题,并提高使用体验和视频生成的多样性。
  4. 除了文本,Sora 也支持图像或者视频作为提示词,支持 SDEdit,并且可以向前或者向后生成视频,因此可以进行多样的视频编辑和继续创作,比如生成首尾相连重复循环的视频,甚至连接两个截然不同的视频。

以下是一些 Sora 的案例提示词,如:“小土豆国王戴着雄伟的王冠,坐在王座上,监督着他们广阔的土豆王国,里面充满了土豆臣民和土豆城堡。”“咖啡馆的小地图立体模型,装饰着室内植物。木梁在上方纵横交错,冷萃咖啡站里摆满了小瓶子和玻璃杯。”“一张写有‘SORA’的写实云朵图像。”“一群萨摩耶小狗学习成为厨师的电影预告片‘cinematic trailer for a group of samoyed puppies learning to become chefs’”

Content generated by AI large model, please carefully verify (powered by aily)

References

Sora:大型视觉模型的背景、技术、局限性和机遇综述 【官方论文】

自从2022年11月ChatGPT发布以来,人工智能技术的出现标志着一个重大的转变,重塑了交互方式,并深入融入日常生活和行业的各个方面[1,2]。基于这一势头,OpenAI在2024年2月发布了Sora,一个文本到视频的生成式AI模型,能够根据文本提示生成现实或想象场景的视频。与之前的视频生成模型相比,Sora的特点是能够在遵循用户文本指令的同时,生成长达1分钟的高质量视频[3]。Sora的进步体现了长期以来人工智能研究任务的实质,即赋予AI系统(或AI代理)理解和与运动中的物理世界互动的能力。这涉及到开发不仅能解释复杂用户指令,而且能将这种理解应用于通过动态和富有上下文的模拟解决现实世界问题的AI模型。图2:Sora在文本到视频生成中的示例。文本指令被给予OpenAI Sora模型,它根据指令生成三个视频。Sora展示了准确解释和执行复杂人类指令的显著能力,如图2所示。该模型能生成包含多个执行特定动作的角色以及复杂背景的详细场景。研究人员将Sora的熟练程度归因于不仅处理用户生成的文本提示,而且还能辨别场景内元素之间复杂的相互作用。Sora最引人注目的方面之一是其生成长达一分钟的视频的能力,同时保持高视觉质量和引人入胜的视觉连贯性。与只能生成短视频片段的早期模型不同,Sora的一分钟长视频创作具有进展感和从第一帧到最后一帧的视觉一致性之旅。此外,Sora的进步在于其生成具有细腻运动和互动描绘的扩展视频序列的能力,克服了早期视频生成模型所特有的短片段和简单视觉呈现的限制。这一能力代表了AI驱动创意工具向前的一大步,允许用户将文本叙述转换为丰富的视觉故事。总的来说,这些进步展示了Sora作为世界模拟器的潜力,为描绘场景的物理和上下文动态提供了细腻的见解。[3]。

Sora 案例大全

|名称|prompt|作者|日期|附件||-|-|-|-|-||Sora可以根据文本创建逼真且富有想象力的视频,但Sora也可以带来静态图像,例如这些创作,走向生活。提示:“小土豆国王戴着雄伟的王冠,坐在王座上,监督着他们广阔的土豆王国,里面充满了土豆臣民和土豆城堡。”提示2:“咖啡馆的小地图立体模型,装饰着室内植物。木梁在上方纵横交错,冷萃咖啡站里摆满了小瓶子和玻璃杯。”提示3:“一张写有“SORA”的写实云朵图像。”|提示:“小土豆国王戴着雄伟的王冠,坐在王座上,监督着他们广阔的土豆王国,里面充满了土豆臣民和土豆城堡。”提示2:“咖啡馆的小地图立体模型,装饰着室内植物。木梁在上方纵横交错,冷萃咖啡站里摆满了小瓶子和玻璃杯。”提示3:“一张写有“SORA”的写实云朵图像。”|openAI工作人员|2024/02/21|||可以根据提示词改编场景||openAI工作人员|2024/02/21|||2月21日下午最新sora狗片,由OpenAI Sora工作人员发布|一群萨摩耶小狗学习成为厨师的电影预告片"cinematic trailer for a group of samoyed puppies learning to become chefs"|openAI工作人员|2024/02/21||"a giant cathedral i

GPT、DALL·E、Sora,为什么 OpenAI 可以跑通所有 AGI 技术栈?

和DALL·E 3一样,OpenAI用内部工具(很可能基于GPT4-v)给视频详尽的描述,提升了模型服从prompt的能力,以及视频的质量(还有视频中正确显示文本的能力)。我认为这是非常关键的一点,是OpenAI的杀手锏,对于视频尤其重要。原因很简单,可以从两个角度解释:(1)神经网络是个单射函数,拟合的是文本到视频的映射。视频的动态性非常高,也就是有很大的值域,为了把这个函数学好,需要定义域也很大很丰富,这就需要复杂的prompt了。(2)详细的文本也迫使神经网络学习文本到视频内容的映射,加强对于prompt的理解和服从。另外一个细节:这种详尽的描述会导致在使用时的bias——用户的描述都相对较短。和DALL·E 3一样,OpenAI用GPT来扩充用户的描述来改善这个问题,并提高使用体验和视频生成的多样性。除了文本以外,Sora也支持图像或者视频作为prompt,支持SDEdit,并且可以向前或者向后生成视频,因此可以进行多样的视频的编辑和继续创作,比如生成一个首尾相连重复循环的视频:[0bc3eeacsaaa2qaajcothbsvaiodfeqqakia.f10002.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/Hi3qbRbHBoC4s6x0YshcE4iNnNd?allow_redirect=1)甚至可以连接两个截然不同的视频:

Others are asking
提示词
以下是关于提示词的相关知识: 艺术字生成:模型选择图片 2.1,输入提示词(可参考案例提示词)。案例提示词如:金色立体书法,“立冬”,字体上覆盖着积雪,雪山背景,冬季场景,冰雪覆盖,枯树点缀,柔和光影,梦幻意境,温暖与寒冷对比,静谧氛围,传统文化,唯美中国风;巨大的春联,金色的书法字体,线条流畅,艺术美感,“万事如意”;巨大的字体,书法字体,线条流畅,艺术美感,“书法”二字突出,沉稳,大气,背景是水墨画;巨大的奶白色字体“柔软”,字体使用毛绒材质,立在厚厚的毛绒面料上,背景是蓝天。原文链接:https://mp.weixin.qq.com/s/jTMFYKxsN8dYNZu3VHKBnA 星流一站式 AI 设计工具:在 prompt 输入框中可输入提示词、使用图生图功能辅助创作。提示词用于描绘画面,星流通用大模型与基础模型 F.1、基础模型 XL 使用自然语言(如一个长头发的金发女孩),基础模型 1.5 使用单个词组(如女孩、金发、长头发),支持中英文输入。写好提示词要做到内容准确,包含人物主体、风格、场景特点、环境光照、画面构图、画质等,如一个女孩抱着小猫,背景是一面红墙,插画风格、孤独感,高质量。还可调整负面提示词,利用“加权重”功能让 AI 明白重点内容,使用辅助功能如翻译、删除所有提示词、会员加速等。 提示词要素:提示词由一些要素组成,包括指令(想要模型执行的特定任务或指令)、上下文(包含外部信息或额外的上下文信息,引导语言模型更好地响应)、输入数据(用户输入的内容或问题)、输出指示(指定输出的类型或格式)。但提示词所需的格式取决于想要语言模型完成的任务类型,并非所有要素都是必须的。
2025-01-30
怎么给你提示词
以下是关于如何写提示词(prompt)的相关内容: 在学校通用场景中,有创建课程计划助手、写作素材收集助手、雅思写作助手等,其提示词示例如下: 创建课程计划助手:“我是教{……}的老师,帮我创建一份课程计划” 写作素材收集助手:“提供{指定主题}的结论和数据,帮我提供写作素材” 雅思写作助手:“我希望你作为雅思写作考官,帮我提升英语。我们现在开始,我的第一个问题是……” 编写提示词的方法和技巧包括: 假设情景:鼓励探讨假设性场景,例如“假设全球变暖持续恶化,我们需要采取哪些措施应对?” 数据:鼓励使用统计数据或数据支持主张,比如“在关于电动汽车的文章中提供销售数据和环境影响数据。” 个性化:根据用户偏好或特点要求个性化,如“请根据用户对喜剧电影的喜好推荐几部好看的电影。” 语气:指定所需语气(如正式、随意、信息性、说服性),例如“请用正式语气编写一篇关于气候变化的文章。” 格式:定义格式或结构(如论文、要点、大纲、对话),比如“请为我提供一个关于健康饮食的要点清单。” 限制:指定约束条件,如字数或字符数限制,例如“请提供一个关于太阳能的 100 字简介。” 引用:要求包含引用或来源以支持信息,比如“请在关于全球变暖的文章中引用权威研究。” 语言:如果与提示不同,请指明回应的语言,例如“请用法语回答关于巴黎旅游景点的问题。” 反驳:要求解决潜在的反驳论点,比如“针对抵制疫苗接种的观点提出反驳。” 术语:指定要使用或避免的行业特定或技术术语,例如“请用通俗易懂的语言解释区块链技术。” 编写提示词的建议: 1. 明确任务:清晰地定义任务,如写故事时包含背景、角色和主要情节。 2. 提供上下文:若任务需背景知识,提供足够信息。 3. 使用清晰语言:避免模糊或歧义词汇。 4. 给出具体要求:明确格式或风格等。 5. 使用示例:提供期望结果的示例。 6. 保持简洁:避免过多信息导致困惑。 7. 使用关键词和标签:帮助模型理解主题和类型。 8. 测试和调整:生成文本后检查并调整。 希望这些内容能帮助您更好地编写提示词。请注意,内容由 AI 大模型生成,请仔细甄别。
2025-01-29
提示词是什么
提示词(Prompt)是给大语言模型的输入文本,用于指定模型应执行的任务和生成的输出。它发挥“提示”模型的作用,设计高质量的提示词需根据目标任务和模型能力精心设计,良好的提示词能让模型正确理解人类需求并给出符合预期的结果。 提示词由一些要素组成,包括指令(想要模型执行的特定任务或指令)、上下文(包含外部信息或额外的上下文信息,引导语言模型更好地响应)、输入数据(用户输入的内容或问题)、输出指示(指定输出的类型或格式)。但提示词所需的格式取决于想要语言模型完成的任务类型,并非所有要素都是必须的。 在星流一站式 AI 设计工具中,prompt 输入框可输入提示词,使用图生图功能辅助创作。输入语言方面,不同基础模型有不同要求,支持中英文输入。写好提示词要做到内容准确,包含人物主体、风格、场景特点、环境光照、画面构图、画质等;可调整负面提示词,帮助 AI 理解不想生成的内容;利用“加权重”功能让 AI 明白重点内容;还可使用预设词组、辅助功能如翻译、删除所有提示词、会员加速等。 如果您接触过大量提示工程相关的示例和应用,会注意到提示词是由一些要素组成的。为了更好地演示提示词要素,下面是一个简单的提示,旨在完成文本分类任务。在上面的提示示例中,指令是“将文本分类为中性、否定或肯定”。输入数据是“我认为食物还可以”部分,使用的输出指示是“情绪:”。请注意,此基本示例不使用上下文,但也可以作为提示的一部分提供。例如,此文本分类提示的上下文可以是作为提示的一部分提供的其他示例,以帮助模型更好地理解任务并引导预期的输出类型。
2025-01-29
AI提示词学习资料
以下是为您整理的关于 AI 提示词的学习资料: 《拘灵遣将|不会写 Prompt(提示词)的道士不是好律师——关于律师如何写好提示词用好 AI 这件事》:指出要从古人总结的智慧中学习写提示词,接受 AI 存在的“不稳定性”,提示词应是相对完善的“谈话方案”,成果在对话中产生,不能期待完美的提示词和答案。 《从零开始:AI 视频制作小白的成长之路📹》:提到提示词有很多坑,如有人花钱学习但仍上手困难。提示词的框架为主体(什么东西)+动作(干啥了)+场景+镜头(怎么拍),并举例说明。 《雪梅 May 的 AI 学习日记》:2023 年 ChatGPT 出现后,提示词成为基本功,沉淀了一些经典框架。作者学习了一段时间 Agent 后,打算看吴恩达的体系课程,推荐吴恩达的 prompt 课程,并分享了相关学习链接。作者还通过练习用 prompt 写白皮书,实际体验中 AI 能帮助完成约 20%的工作。
2025-01-29
提示词学习
以下是关于提示词学习的相关内容: 提示词的知识体系: 可分为五个维度,从高到低依次是思维框架、方法论、语句、工具和场景。但对于初学者,舒适的学习顺序应是反过来的。 场景:直接切入提示词的场景去学,对比在不同场景下使用提示词的效果。 工具:使用现成的提示词工具,包括 Meta Prompt、Al 角色定制等。 有效语句:学习大量经典论文中提出的提示词语句。 方法论:将有效语句及其背后的原理整合成稳定可控的方法。 学习 Stable Diffusion 的提示词: 是一个系统性的过程,需要理论知识和实践经验结合。 学习基本概念,包括了解工作原理、模型架构,理解提示词如何影响结果,掌握组成部分。 研究官方文档和教程。 学习常见术语和范例。 掌握关键技巧,如组合词条、控制生成权重、处理抽象概念等。 实践和反馈,对比结果并总结经验。 创建提示词库。 持续跟进前沿。 学习提示词运用的建议: 理解提示词的作用,其质量直接影响模型输出质量。 学习构建技巧,明确任务目标,提供足够背景信息和示例,使用清晰指令,明确特殊要求。 参考优秀案例,可在领域社区、Github 等资源中寻找。 实践、迭代、优化,多与语言模型互动,比较输出差异。 活用提示工程工具,如 Anthropic 的 Constitutional AI。 跟上前沿研究。
2025-01-29
请问我该怎么用精准的提示词
以下是关于如何使用精准提示词的相关内容: 一、星流一站式 AI 设计工具中的提示词 1. 提示词的定义:用于描绘您想生成的画面。 2. 输入语言: 星流通用大模型与基础模型 F.1、基础模型 XL 使用自然语言(如一个长头发的金发女孩),基础模型 1.5 使用单个词组(如女孩、金发、长头发)。 支持中英文输入。 3. 提示词优化:启用提示词优化后,可帮助扩展提示词,更生动地描述画面内容。 4. 写好提示词的方法: 预设词组:小白用户可以点击提示词上方官方预设词组进行生图。 提示词内容准确:包含人物主体、风格、场景特点、环境光照、画面构图、画质等,比如:一个女孩抱着小猫,背景是一面红墙,插画风格、孤独感,高质量。 调整负面提示词:点击提示框下方的齿轮按钮,弹出负面提示词框。负面提示词可以帮助 AI 理解不想生成的内容,比如:不好的质量、低像素、模糊、水印。 利用“加权重”功能:可在功能框增加提示词,并进行加权重调节,权重数值越大,越优先。还可对已有的提示词权重进行编辑。 辅助功能:包括翻译功能(一键将提示词翻译成英文)、删除所有提示词(清空提示词框)、会员加速(加速图像生图速度,提升效率)。 二、DALL·E 自动优化提示词 1. 提示词生成指南:创建能为图像生成绘制清晰画面的提示词。使用精确、视觉化的描述(而非难以捉摸的概念)。尽量保持提示词简短、精确且令人惊叹。 2. 提示词结构:“一个” 媒介:考虑图像应模仿的艺术形式。 主题:主要焦点,包括颜色、姿势、视角等。 背景:环境如何补充主题。 环境:室内、室外、抽象等。 颜色:与主题的对比或和谐关系。 光线:一天中的时间、强度、方向等。 风格特点:独特的艺术特点。 影响:启发作品的艺术流派或艺术家。 技术:对于绘画,如何操纵画笔;对于数字艺术,特定的数字技术。 照片:描述摄影类型、相机设备和相机设置等。 绘画:提及使用的颜料类型、画布的质地和笔触的形状/质地。 数字:注明使用的软件、阴影技术和多媒体方法。 三、【SD】文生图中的提示词 1. 描述逻辑:人物及主体特征(服饰、发型发色、五官、表情、动作),场景特征(室内室外、大场景、小细节),环境光照(白天黑夜、特定时段、光、天空),画幅视角(距离、人物比例、观察视角、镜头类型),画质(高画质、高分辨率),画风(插画、二次元、写实)。 2. 辅助方法: 下次作图时,先选择模板,点击倒数第二个按钮快速输入标准提示词。 对于新手,可通过功能型辅助网站书写提示词,如 http://www.atoolbox.net/ (通过选项卡快速填写关键词信息)、https://ai.dawnmark.cn/ (每种参数有缩略图参考,更直观选择提示词)、C 站(https://civitai.com/ )(可抄作业,复制每一张图的详细参数并粘贴到正向提示词栏,然后点击生成按钮下的第一个按键,Stable Diffusion 会自动匹配所有参数,但要注意图像作者使用的大模型和 LORA,不然即使参数一样,生成的图也会不同。也可取其中较好的描述词使用,比如人物描写、背景描述、一些小元素或者画面质感之类的。 希望以上内容对您有所帮助,祝您在使用提示词生成图像时取得满意的效果!
2025-01-29
写施工方案的提示词有没有
以下是一些常见的提示词技巧,可用于写施工方案: 类比:要求 AI 用类比或示例阐明概念,例如“请用一个类比解释施工中的关键技术”。 引述:要求包含专家的相关引言或陈述,比如“在施工方案中引用著名建筑专家的观点来支持关键施工步骤”。 幽默:表明是否应融入幽默,例如“在施工方案的安全注意事项部分加入一些幽默元素,以增强记忆”。 轶事:要求包含相关轶事,比如“在关于大型建筑施工的方案中,分享一则有趣的施工过程中的轶事”。 隐喻:鼓励使用隐喻使复杂观点更具亲和力,例如“在描述施工流程的复杂性时,用‘施工像搭积木一样需要有序进行’这样的隐喻”。 趣闻:鼓励包含有趣或令人惊讶的事实,比如“在谈论新型建筑材料时,分享一些有趣的材料特性的事实”。 关键词:列出需要包含的重要关键词或短语,例如“请在施工方案中包含‘施工进度’‘质量控制’和‘安全保障’”。 小贴士:鼓励 AI 分享与主题相关的小窍门和技巧,比如“分享几个关于提高施工效率的小贴士”。 保密性:说明保密要求或限制,比如“在施工方案涉及商业机密的部分,不要泄露相关信息”。 格式化:指定所需的格式元素(如标题、副标题、列表),例如“在写施工方案时,使用列表来呈现施工步骤”。 概括:要求对较长内容进行简要概括,比如“请为这个复杂的施工方案提供一个简短的概要”。 讲故事:要求使用讲故事或叙事技巧,例如“请用一个成功的施工案例故事来展示优秀的施工管理”。 优缺点:要求 AI 评估主题的优缺点,比如“分析这种新型施工方法的优缺点”。 利弊分析:要求对主题的利弊进行分析,例如“分析使用预制构件施工的利与弊”。 问题解决:要求针对特定问题提供解决方案或建议,比如“请提供几个有效的解决施工中遇到的技术难题的方法”。 最佳实践:要求 AI 提供关于某主题的最佳实践或指南,比如“请提供一份关于如何确保施工质量的最佳实践指南”。 时间线:要求 AI 提供事件或发展的时间线,比如“请为这个建筑项目的施工进程提供一个简要的时间线”。 行动呼吁:要求明确的行动呼吁或后续步骤,比如“在施工方案结尾提出具体的施工推进行动建议”。 分步指南:要求提供过程的分步指南或说明,比如“提供一个关于如何进行基础施工的分步指南”。 历史背景:要求考虑历史背景或背景,比如“在写关于高层建筑施工的方案时,谈论高层建筑施工的历史发展”。 对比:要求 AI 比较和对照不同的观点或概念,比如“请比较传统施工方法和现代施工方法的优缺点”。 敏感性:提及需要谨慎处理或避免的敏感主题或问题,比如“请谨慎讨论施工中的环保敏感问题”。 伦理考虑:提及要遵循的道德准则,比如“在施工方案中探讨施工过程中的伦理和道德问题”。 修订要求:提及修订或编辑指南,比如“请根据行业标准对施工方案进行编辑和修订”。 未来影响:鼓励讨论潜在的未来影响或趋势,比如“在谈论建筑施工技术的发展时,探讨其未来在城市建设中的应用前景”。 视觉元素:询问是否包括图表、图形或图像,比如“请在施工方案中包含相关的施工图纸和进度图表”。 截止日期:提及时间敏感回应的截止日期或时间范围,比如“请在一周内给我一份完整的施工方案”。 文化参考:鼓励包含相关的文化参考,比如“在关于古建筑修复的施工方案中谈论当地的建筑文化特色”。
2024-12-22
sd的提示词有哪些语法
以下是关于 SD 提示词的语法: 1. 多个提示词之间使用英文半角符号“,”分隔,例如:masterpiece,best quality,ultradetailed,illustration,closeup,straight on,face focus,1girl,white hair,golden eyes,long hair,halo,angel wings,serene expression,looking at viewer。 2. 一般而言,概念性、大范围、风格化的关键词写在前面,叙述画面内容的关键词其次,最后是描述细节的关键词。大致顺序为:。 3. 每个词语本身自带的权重可能不同,模型训练集中较多出现的关键词,输入一个词就能极大影响画面;较少出现的关键词,输入多个相关词汇对画面影响效果可能有限。提示词的顺序很重要,越靠后的权重越低。关键词最好具有特异性,措辞越具体越好,避免抽象和有解释空间的措辞。 4. 可以使用括号人工修改提示词的权重,例如: 将权重减少为原先的 25%。 5. 可以通过 Prompt Editing 使得 AI 在不同的步数生成不一样的内容,语法为:例如:a,100 步采样,一开始。提示词为:fantasy landscape with a mountain and an oak in foreground shoddy 在第 25 步后,提示词为:fantasy landscape with a lake and an oak in foreground in background shoddy 在第 50 步后,提示词为:fantasy landscape with a lake and an oak in foreground in background masterful 在第 60 步后,提示词为:fantasy landscape with a lake and an oak in background masterful 在第 75 步后,提示词为:fantasy landscape with a lake and a christmas tree in background masterful。 6. 提示词还可以轮转,比如:在第一步时,提示词为“cow in a field”;在第二步时,提示词为"horse in a field.";在第三步时,提示词为"cow in a field",以此类推。 7. 交替词:in a field 可以支持多个词交替。 8. 可组合扩散(AND 语法):a cat AND a dog 比如想画一个猫和狗的混合物种,每一个要混合的东西支持加权重,比如 a cat:1.2 AND dog AND a benguin:2.2。通过继续向总数添加更多提示,这可以方便地生成微调的递归变化,比如 log AND frog:0.13 AND yellow eyes:0.08 。 请注意,权重值最好不要超过 1.5。
2024-12-19
Prompts提示词有哪些写作框架?
以下是一些常见的 Prompts 提示词写作框架: 1. 情境:先描述所处的情境,明确要完成的任务,阐述采取的行动,最后说明期望得到的结果。 2. 假设情景:鼓励探讨假设性场景,例如“假设全球变暖持续恶化,我们需要采取哪些措施应对?” 3. 数据:鼓励使用统计数据或数据支持主张,比如“在关于电动汽车的文章中提供销售数据和环境影响数据。” 4. 个性化:根据用户偏好或特点要求个性化,像“请根据用户对喜剧电影的喜好推荐几部好看的电影。” 5. 语气:指定所需语气,如正式、随意、信息性、说服性,例如“请用正式语气编写一篇关于气候变化的文章。” 6. 格式:定义格式或结构,如论文、要点、大纲、对话,比如“请为我提供一个关于健康饮食的要点清单。” 7. 限制:指定约束条件,如字数或字符数限制,例如“请提供一个关于太阳能的 100 字简介。” 8. 引用:要求包含引用或来源以支持信息,比如“请在关于全球变暖的文章中引用权威研究。” 9. 语言:如果与提示不同,请指明回应的语言,例如“请用法语回答关于巴黎旅游景点的问题。” 10. 反驳:要求解决潜在的反驳论点,比如“针对抵制疫苗接种的观点提出反驳。” 11. 术语:指定要使用或避免的行业特定或技术术语,例如“请用通俗易懂的语言解释区块链技术。” 您可以根据具体需求选择适合的框架来编写提示词。如果您觉得这些框架过于复杂,还可以结合自己的生活或工作场景,想一个能帮助简单自动化的场景,比如自动给班级里的每个孩子起个昵称、自动排版微信群经常发的运营小文案、自动帮您安排周一到周日的减脂餐、帮您列一个清晰的学习计划等。
2024-12-09
AI提示词有什么免费的学习课程
以下是一些关于 AI 提示词的免费学习课程: 1. 吴恩达和 OpenAI 合作推出的 Prompt Engineering(提示工程师)课程: 原版网址:https://www.deeplearning.ai/shortcourses/chatgptpromptengineeringfordevelopers/ B 站版本:【合集·AI Course哔哩哔哩】https://b23.tv/ATc4lX0 、https://b23.tv/lKSnMbB 翻译版本: 推荐直接使用 Jupyter 版本学习,效率更高:https://github.com/datawhalechina/promptengineeringfordevelopers/ 视频下载地址:https://pan.quark.cn/s/77669b9a89d7 OpenAI 开源了教程:https://islinxu.github.io/promptengineeringnote/Introduction/index.html 纯文字版本 2. 小七姐的 Prompt 喂饭级系列教程小白学习指南(五): 如果学习提示词有具体小目标,如 AI 写作优化、职场提升效率等,需求不高,可不买贵的课程,考虑相关 AI 课,提示词作为工具掌握。 若为变现,先思考能力和资源优势,有清晰方案可深度学习,还能结识同行。 自学能力强,可不付费,多交流;自学能力不足且有清晰目的,建议选择靠谱课程系统化学习。 3. 藏经阁的个人专栏:
2024-12-05
提示词有没有规律可循
提示词是有规律可循的。 提示工程是人工智能领域中,特别是在自然语言处理和大型语言模型的上下文中一个相对较新的概念,它涉及设计和优化输入提示以引导 AI 模型生成特定类型的输出或执行特定的任务。提示工程的关键点包括精确性、创造性、迭代和上下文理解。提示词通常指直接输入到 AI 模型中的问题、请求或指示,是提示工程的一部分。 在 Stable Diffusion 中,Embedding 相当于提示词打包的功能,能把很多提示词汇总到一个文件里,负向提示词在某些情况下会有大量且固定不变的文本量,此时可使用打包好的负向提示词 Embedding,达到一词顶一百词的效果。 从应用者角度看,提示词应客观对待,它可能只是一个中间阶段。对于企业,追求稳定性和确定性,提示词可能并非可靠工具。提示词技巧具有阶段性和时效性,普通人不必花费过多时间,因为其变化很快。对于大部分人,追求所谓技巧可能意义不大。是否使用提示词框架,应视具体情况而定。
2024-10-01
知识相关的提示词有哪些?
以下是一些与知识相关的提示词示例: 知识图谱自动生成:能够帮助使用者快速提升认知并帮助建立知识图谱,用户提供问题或指定领域,引导并带领用户进行深度分析。 知识探索专家(李继刚):专门用于提问并解答有关特定知识点的 AI 角色,提出并尝试解答有关用户指定知识点的三个关键问题:其来源、其本质、其发展。
2024-09-22
openai发展史
OpenAI 的发展历程如下: 2015 年成立,一直将 AGI 作为战略目标之一。 2022 年 11 月 30 日,发布基于 GPT 3.5 的 ChatGPT,引发全球 AI 浪潮。 在其内部会议上分享了关于通用人工智能(AGI)的五个发展等级,分别为: 聊天机器人(Chatbots):具备基本对话能力,主要依赖预设脚本和关键词匹配,用于客户服务和简单查询响应。 推理者(Reasoners):具备人类推理水平,如 ChatGPT,能够根据上下文和文件提供详细分析和意见。 智能体(Agents):不仅具备推理能力,还能执行全自动化业务,但目前许多产品执行任务后仍需人类参与。 创新者(Innovators):能够协助人类完成新发明,如谷歌 DeepMind 的 AlphaFold 模型,可加速科学研究和新药发现。 组织(Organizations):最高级别,能够自动执行组织的全部业务流程,如规划、执行、反馈、迭代、资源分配和管理等。 AI 的起源最早可追溯到上世纪: 1943 年,心理学家麦卡洛克和数学家皮特斯提出机器的神经元模型,为后续的神经网络奠定基础。 1950 年,图灵最早提出图灵测试,作为判别机器是否具备智能的标准。 1956 年,在美国达特茅斯学院,马文·明斯基和约翰·麦凯西等人共同发起召开著名的达特茅斯会议,人工智能(Artificial Intelligence)一词被正式提出,并作为一门学科确立下来。此后接近 70 年,AI 的发展起起落落。 Sam Altman 于 2025 年 1 月 6 日发表反思,回首创业历程,包括经历解雇等事件,也提到 2025 年首批 AI Agent 将融入劳动力市场,ChatGPT 两周岁时已迈入能进行复杂推理的全新模型时代,强调随着 AGI 临近,要回顾公司发展历程,继续探索。
2025-01-26
openai 的产品分析
OpenAI 的产品具有以下特点和发展情况: 去年 11 月发布了基于 GPT3.5 最新版本的消费级产品 ChatGPT,其具有强大的功能,能提供各种回答和完成多种任务,但也存在捏造事实的问题。ChatGPT 被视为 GPT4 的台标。 OpenAI 内部对于是否发布功能强大的工具存在争论,发布被视为让公众适应 AI 改变日常生活现实的战略一部分。 OpenAI 目前严重受限于 GPU,这影响了其多项计划,包括 API 的可靠性和速度、更长上下文窗口的推广、微调 API 以及专用容量的提供。 Sam Altman 分享了 OpenAI 近期路线,如 2023 年的首要任务是更便宜、更快的 GPT4,以及实现更长的上下文窗口、扩展微调 API 和推出有状态的 API。 2024 年 10 月有相关的视频和文章对 OpenAI 进行分析和介绍新产品,如剖析其从理想主义走向商业化的历程,以及介绍了四款创新 AI 产品。
2025-01-11
openai中学生写作的建议
以下是 OpenAI 针对中学生写作的一些建议: 1. 写作过程分为五个阶段:前期调研、框架构建、论证深化、反馈改进和调整格式。 2. 包含 12 条具体建议,如快速了解主题、创建反向大纲、寻求反馈和规范引用等技巧。 3. 强调将 AI 作为思维的催化剂,而非替代品。 4. 获得更好结果的六种策略: 写清楚说明:包括在问题中包含细节以获取更相关的答案、要求模型采用一个角色、使用分隔符清晰地表示输入的不同部分、指定完成任务所需的步骤、提供示例、指定期望的输出长度。 提供参考文本:指示模型使用参考文本回答、指示模型使用参考文本中的引用来回答。 将复杂任务拆分成更简单的子任务。 给 GPT 时间「思考」。 使用外部工具。 系统地测试更改。
2025-01-10
OpenAI过去12天的发布会总结
以下是 OpenAI 过去 12 天发布会的总结: 自媒体记录方面: 夕小瑶科技说:o3 发布,可能影响码农工作。 孔某人的低维认知:OpenAI 圣诞 12 天总评,感谢大佬赏饭。 MAX 01Founder:一文详解 o3,虽接近 AGI 但使用成本高。 南瓜博士:使用 o3 钱包和脑子可能不够。 数字生命卡兹克:OpenAI 正式发布 o3,通往 AGI 路上已无障碍。 具体发布内容: Day12:o3 与 o3 mini 正式亮相。 Day11:ChatGPT 桌面应用,Option+空格快速唤起。 Day10:OpenAI 发布电话倾诉功能 18002428478。 Day9:o1 满血版 API 和 4o 实时语音 API 更新。 Day8:AI 搜索功能免费开放,并支持实时语音搜索。 Day7:ChatGPT 全新“项目”功能发布。 Day6:实时视频通话&圣诞老人模式正式上线。 Day5:ChatGPT 与 Apple 的深度合作。 Day4:直播“翻车”的 Canvas。 Day3:Sora 终于上线,有案例和功能详解。 Day2:微调 O1 模型,低成本高效率。 Day1:强化学习微调的实操案例。 宝玉日报 12 月 18 日: AI 架构与技术选型的 4 条原则:选主流框架、确保测试覆盖率、避免私有框架、采用模块化设计。 OpenAI 12 天发布会第 9 天:o1 API 正式版速度更快成本降低,支持多种新功能;语音交互升级,引入 WebRTC 支持,处理费用降低;新增偏好微调功能和工具包,简化 API 密钥申请流程。 易观分析报告预测了 AI 技术未来的关键发展方向,德邦证券报告对 OpenAI 十二日发布会进行深度总结,认为随着大模型能力提升和应用场景扩展,AI 应用商业价值有望实现,建议关注相关领域。
2024-12-31
openai
以下是关于 OpenAI 的相关信息: AGI 的 5 个等级: 聊天机器人(Chatbots):具备基本对话能力,主要依赖预设脚本和关键词匹配,用于客户服务和简单查询响应。 推理者(Reasoners):具备人类推理水平,能解决复杂问题,如 ChatGPT,可根据上下文和文件提供详细分析和意见。 智能体(Agents):不仅具备推理能力,还能执行全自动化业务,但目前许多 AI Agent 产品执行任务后仍需人类参与,尚未达到完全智能体水平。 创新者(Innovators):能够协助人类完成新发明,如谷歌 DeepMind 的 AlphaFold 模型,可预测蛋白质结构,加速科学研究和新药发现。 组织(Organizations):最高级别的 AI,能够自动执行组织的全部业务流程,如规划、执行、反馈、迭代、资源分配和管理等。 模型: GPT4(Beta):一组改进 GPT3.5 的模型,可理解和生成自然语言或代码。 GPT3.5:一组改进 GPT3 的模型,可理解并生成自然语言或代码。 DALL·E(Beta):可以在给定自然语言提示的情况下生成和编辑图像的模型。 Whisper(Beta):可以将音频转换为文本的模型。 Embeddings:一组可以将文本转换为数字形式的模型。 Codex(Limited Beta):一组可以理解和生成代码的模型,包括将自然语言转换为代码。 Moderation:可以检测文本是否敏感或不安全的微调模型。 GPT3:一组可以理解和生成自然语言的模型。 GPT、DALL·E、Sora 相关:Sora 的出现证明了 OpenAI 试图让计算机模拟真实物理世界的野心及对自身技术路线的坚持。从 OpenAI 发布的 Sora 的技术报告中可看到对过往大语言模型训练成功经验的复用。加州大学伯克利分校计算机科学 PHD、知乎作者 SIY.Z 从技术实现上分析了 Sora 成功的部分原因,以及从商业和技术趋势上分析了 OpenAI 能跑通全部技术栈的原因,并尝试预测了 OpenAI 下一步的进展。
2024-12-27
openai
OpenAI 的相关信息如下: 模型: OpenAI API 由多种具有不同功能和价位的模型提供支持,还可通过微调针对特定用例对原始基本模型进行有限定制。 具体模型包括:GPT4(Beta),是一组改进 GPT3.5 的模型,能理解和生成自然语言或代码;GPT3.5,是一组改进 GPT3 的模型,能理解并生成自然语言或代码;DALL·E(Beta),能在给定自然语言提示的情况下生成和编辑图像;Whisper(Beta),能将音频转换为文本;Embeddings,能将文本转换为数字形式;Codex(Limited Beta),能理解和生成代码,包括将自然语言转换为代码;Moderation,能检测文本是否敏感或不安全的微调模型;GPT3,能理解和生成自然语言。 为何能跑通所有 AGI 技术栈: 方法论明确:通用模型能用到更多数据,减少技术栈,OpenAI 未来可能会继续走通用模型的道路,降低微调等特化的需求,继续增加模型的上下文长度。 用一个模型为另一个模型提供标注:OpenAI 的 Dall E 和 Sora 都用到了大量可能来自于 GPT vision 的数据标注,未来可能会继续加强各个模型的连接。 Transformer 架构:其在各个模态和技术栈具有优势,能复用模型参数和使用一套基础设施框架训练不同模型,新模型若要取代,需通过缩放定律的检验。 稀疏模型。
2024-12-25
sora现在能生成多长时间视频
Sora 是由 OpenAI 开发的文生视频模型,能够根据文字指令创造出逼真且充满想象力的场景,并生成长达 1 分钟的高质量视频,且具有一镜到底的特点,视频中的人物和背景能保持惊人的一致性和稳定性。与之前的视频生成模型相比,Sora 在生成时长和视频质量上有显著进步。同时,还有其他一些文字生成视频的 AI 产品,如 Pika 擅长动画制作且支持视频编辑,SVD 是基于 Stable Diffusion 的插件,Runway 是老牌的收费 AI 视频生成工具且提供实时涂抹修改视频功能,Kaiber 是视频转视频 AI,能将原视频转换成各种风格的视频。更多相关网站可查看:https://www.waytoagi.com/category/38 。
2025-01-15
如何使用sora生成一段视频
使用 Sora 生成一段视频的步骤如下: 1. 文本提示优化:类似于 DALLE3,Sora 在处理用户提供的文本提示时,可以利用 GPT 模型来扩展或优化提示。GPT 模型能将简短的用户提示转化为更详细、更富有描述性的文本,有助于 Sora 更准确地理解并生成符合用户意图的视频。 2. 生成视频:用户提供文本提示,Sora 根据提示在潜在空间中初始化视频的生成过程。利用训练好的扩散模型,Sora 从这些初始化的时空潜伏斑块开始,逐步生成清晰的视频内容。 3. 视频解码和后处理:使用与视频压缩相对应的解码器将潜在空间中的视频转换回原始像素视频。对生成的视频进行可能的后处理,如调整分辨率、裁剪等,以满足发布或展示的需求。 此外,Sora 采用了一些相关技术和原理: 1. 视频压缩网络:训练一个降低视觉数据维度的网络,接受原始视频作为输入,并输出在时间和空间上都被压缩的潜在表示。Sora 在这个压缩的潜在空间上进行训练,并随后生成视频。同时还训练了一个相应的解码器模型,将生成的潜在表示映射回像素空间。 2. 时空潜空间块:给定一个压缩的输入视频,提取一序列的时空分块作为 Transformer 变换器的 Token。这个方案也适用于图像,基于分块的表示使 Sora 能够训练具有不同分辨率、持续时间和纵横比的视频和图像。在推理时,可以通过在适当大小的网格中随机初始化分块来控制生成视频的大小。 3. 调整图像模型来生成视频:通过插入时间层来“扩增”预训练的文生图扩散模型,然后选择仅在视频上对新的层进行微调或完全避免进行额外的训练。新模型会继承文本 图像对的先验知识,有助于缓解对文本 视频对数据的需求。 4. 扩散视频建模:如 Singer et al. 在 2022 年提出的 MakeAVideo,在一个预训练扩散图像模型的基础上扩展一个时间维度,包含三个关键组件:一个在文本 图像对数据上训练的基础文生图模型;时空卷积和注意力层,使网络覆盖时间维度;一个帧插值网络,用于高帧率生成。
2025-01-10
sora和lora是什么
LoRA(LowRank Adaptation)是一种低阶自适应模型,您可以将其理解为基础模型(Checkpoint)的小插件。在生图时,LoRA可有可无,但它具有明显的价值,常见于对一些精细的控制,如面部、材质、物品等细节的控制。其权重在相关界面会有显示。 Sora 并非常见的 AI 领域特定术语,上述知识库中未提及相关内容。
2025-01-02
sora教程
以下是关于 Sora 及相关的教程信息: AI 视频方面: 软件教程: 工具教程: 应用教程: Python + AI 方面: 对于不会代码的人,有 20 分钟上手的教程,包括通过 OpenAI 的 API 生成文章缩略信息的代码重写及相关操作步骤。同时提醒妥善保管 API Key,OpenAI 的综合文档、API 使用、API Playground、API 案例与答疑的相关网址为:https://platform.openai.com/docs/overview 、https://platform.openai.com/docs/apireference 、https://platform.openai.com/playground 、https://cookbook.openai.com/ 。 工具教程: 开放公测,群友有实测案例。可参考卡兹克的教程介绍:https://mp.weixin.qq.com/s/YGEnIzfYA3xGpT9_qh56RA 以及 zho 总结的官方网站的案例。目前除每日 150 个赠送积分外,还新增积分购买选项,可操作固定种子、步数、运动幅度,交互也很有意思,在生成过程中会有案例标注。 此外,还有几个视频 AIGC 工具:Opusclip 可将长视频剪成短视频,Raskai 能将短视频素材直接翻译至多语种,invideoAI 输入想法后可自动生成脚本和分镜描述进而生成视频再人工二编合成长视频,descript 可对屏幕/播客录制并以 PPT 方式做视频,veed.io 能自动翻译自动字幕,clipchamp 是微软的 AI 版剪映,typeframes 类似 invideoAI 但内容呈现文本主体比重更多,google vids 是一款相关工具。Sora 是 OpenAI 发布的超强视频生成 AI,能通过处理各种视觉数据生成视频,使用视频压缩网络和空间时间补丁统一不同来源数据,并借助文本条件化的 Diffusion 模型生成与文本提示匹配的视觉作品。
2024-12-17
ChatGPT与Sora 是不是只有苹果手机或苹果电脑才能注册与登入?
ChatGPT 注册与登录: 苹果系统: 中国区正常无法在 AppleStore 下载 ChatGPT,需切换到美区。美区 AppleID 注册教程可参考知乎链接:https://zhuanlan.zhihu.com/p/696727277 。 最终在 AppleStore 搜到 ChatGPT 下载安装,注意别下错。 打开支付宝,地区切换到美区任意区,购买【App Store&iTunes US】礼品卡,按需要金额购买(建议先买 20 刀),然后在 apple store 中兑换礼品卡,在 chatgpt 中购买订阅 gpt plus,中途不想继续订阅可到订阅列表中取消。 会员不管在苹果还是安卓手机上购买的,电脑上都能登录。 注册美区 ID 详细步骤: 1. 电脑上打开 Apple ID 的注册页面:https://appleid.apple.com/ac 。 2. 填写验证码后点继续。 3. 到谷歌邮箱接收邮箱验证码。 4. 接着验证手机号码。 5. 验证完后会出现页面,此时美区 ID 已注册但未激活,切换到手机操作。 6. 打开 App Store,点击右上角人形头像。 7. 拉到最底下,点击退出登录,先退出国内的 ID。 8. 之后再点击右上角人形头像。 9. 手动输入美区 ID,会收到短信进行双重验证。 10. 之后完成美区的 ID 登录。 11. 随便找个软件下载,会弹出提示,点击“检查”进行激活。 12. 点击同意,进入下一页填写美国地址。 13. 若付款方式中没有“无”或“none”选项,输入街道地址和电话。 14. 至此,通过中国 IP、中国手机号、免信用卡成功注册一个美区 ID,可用于下载例如小火箭、ChatGPT、Discord、X、TikTok 等软件。 关于 Sora 的注册与登录相关信息未提及。
2024-12-16
Sora是什么
Sora 是 OpenAI 发布的一个文本到视频的生成模型。 它具有以下特点和能力: 1. 能够根据描述性的文本提示生成高质量的视频内容。 2. 其生成的视频不仅逼真且充满想象力,能创造出各种场景。 3. 可以生成长达 1 分钟的超长视频,且是一镜到底的,视频中的人物和背景等具有惊人的一致性和稳定性。 4. 虽然在技术界引起广泛关注和讨论,但目前 OpenAI 未公开发布,仅向少数研究人员和创意人士提供有限访问权限以获取使用反馈并评估技术安全性。 在图像生成能力方面,Sora 能生成图像,虽不及 Midjourney,但优于 Dalle 3。此外,Sora 在视频游戏模拟中也具有一定的能力。
2024-12-16