Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

openai 发布的sora最新模型中,生成视频的提示词与一般问答提示词有什么区别或者注意事项?

Answer

Sora 是 OpenAI 于 2024 年 2 月发布的文本到视频的生成式 AI 模型。

生成视频的提示词与一般问答提示词的区别和注意事项如下:

  1. 对于视频生成,神经网络是单射函数,拟合的是文本到视频的映射。由于视频的动态性高,值域大,因此需要丰富且复杂的提示词来扩大定义域,以学好这个函数。
  2. 详细的文本提示能迫使神经网络学习文本到视频内容的映射,加强对提示词的理解和服从。
  3. 和 DALL·E 3 一样,OpenAI 用内部工具(很可能基于 GPT4-v)给视频详尽的描述,提升了模型服从提示词的能力以及视频的质量(包括视频中正确显示文本的能力)。但这会导致在使用时的偏差,即用户的描述相对较短。OpenAI 用 GPT 来扩充用户的描述以改善这个问题,并提高使用体验和视频生成的多样性。
  4. 除了文本,Sora 也支持图像或者视频作为提示词,支持 SDEdit,并且可以向前或者向后生成视频,因此可以进行多样的视频编辑和继续创作,比如生成首尾相连重复循环的视频,甚至连接两个截然不同的视频。

以下是一些 Sora 的案例提示词,如:“小土豆国王戴着雄伟的王冠,坐在王座上,监督着他们广阔的土豆王国,里面充满了土豆臣民和土豆城堡。”“咖啡馆的小地图立体模型,装饰着室内植物。木梁在上方纵横交错,冷萃咖啡站里摆满了小瓶子和玻璃杯。”“一张写有‘SORA’的写实云朵图像。”“一群萨摩耶小狗学习成为厨师的电影预告片‘cinematic trailer for a group of samoyed puppies learning to become chefs’”

Content generated by AI large model, please carefully verify (powered by aily)

References

Sora:大型视觉模型的背景、技术、局限性和机遇综述 【官方论文】

自从2022年11月ChatGPT发布以来,人工智能技术的出现标志着一个重大的转变,重塑了交互方式,并深入融入日常生活和行业的各个方面[1,2]。基于这一势头,OpenAI在2024年2月发布了Sora,一个文本到视频的生成式AI模型,能够根据文本提示生成现实或想象场景的视频。与之前的视频生成模型相比,Sora的特点是能够在遵循用户文本指令的同时,生成长达1分钟的高质量视频[3]。Sora的进步体现了长期以来人工智能研究任务的实质,即赋予AI系统(或AI代理)理解和与运动中的物理世界互动的能力。这涉及到开发不仅能解释复杂用户指令,而且能将这种理解应用于通过动态和富有上下文的模拟解决现实世界问题的AI模型。图2:Sora在文本到视频生成中的示例。文本指令被给予OpenAI Sora模型,它根据指令生成三个视频。Sora展示了准确解释和执行复杂人类指令的显著能力,如图2所示。该模型能生成包含多个执行特定动作的角色以及复杂背景的详细场景。研究人员将Sora的熟练程度归因于不仅处理用户生成的文本提示,而且还能辨别场景内元素之间复杂的相互作用。Sora最引人注目的方面之一是其生成长达一分钟的视频的能力,同时保持高视觉质量和引人入胜的视觉连贯性。与只能生成短视频片段的早期模型不同,Sora的一分钟长视频创作具有进展感和从第一帧到最后一帧的视觉一致性之旅。此外,Sora的进步在于其生成具有细腻运动和互动描绘的扩展视频序列的能力,克服了早期视频生成模型所特有的短片段和简单视觉呈现的限制。这一能力代表了AI驱动创意工具向前的一大步,允许用户将文本叙述转换为丰富的视觉故事。总的来说,这些进步展示了Sora作为世界模拟器的潜力,为描绘场景的物理和上下文动态提供了细腻的见解。[3]。

Sora 案例大全

|名称|prompt|作者|日期|附件||-|-|-|-|-||Sora可以根据文本创建逼真且富有想象力的视频,但Sora也可以带来静态图像,例如这些创作,走向生活。提示:“小土豆国王戴着雄伟的王冠,坐在王座上,监督着他们广阔的土豆王国,里面充满了土豆臣民和土豆城堡。”提示2:“咖啡馆的小地图立体模型,装饰着室内植物。木梁在上方纵横交错,冷萃咖啡站里摆满了小瓶子和玻璃杯。”提示3:“一张写有“SORA”的写实云朵图像。”|提示:“小土豆国王戴着雄伟的王冠,坐在王座上,监督着他们广阔的土豆王国,里面充满了土豆臣民和土豆城堡。”提示2:“咖啡馆的小地图立体模型,装饰着室内植物。木梁在上方纵横交错,冷萃咖啡站里摆满了小瓶子和玻璃杯。”提示3:“一张写有“SORA”的写实云朵图像。”|openAI工作人员|2024/02/21|||可以根据提示词改编场景||openAI工作人员|2024/02/21|||2月21日下午最新sora狗片,由OpenAI Sora工作人员发布|一群萨摩耶小狗学习成为厨师的电影预告片"cinematic trailer for a group of samoyed puppies learning to become chefs"|openAI工作人员|2024/02/21||"a giant cathedral i

GPT、DALL·E、Sora,为什么 OpenAI 可以跑通所有 AGI 技术栈?

和DALL·E 3一样,OpenAI用内部工具(很可能基于GPT4-v)给视频详尽的描述,提升了模型服从prompt的能力,以及视频的质量(还有视频中正确显示文本的能力)。我认为这是非常关键的一点,是OpenAI的杀手锏,对于视频尤其重要。原因很简单,可以从两个角度解释:(1)神经网络是个单射函数,拟合的是文本到视频的映射。视频的动态性非常高,也就是有很大的值域,为了把这个函数学好,需要定义域也很大很丰富,这就需要复杂的prompt了。(2)详细的文本也迫使神经网络学习文本到视频内容的映射,加强对于prompt的理解和服从。另外一个细节:这种详尽的描述会导致在使用时的bias——用户的描述都相对较短。和DALL·E 3一样,OpenAI用GPT来扩充用户的描述来改善这个问题,并提高使用体验和视频生成的多样性。除了文本以外,Sora也支持图像或者视频作为prompt,支持SDEdit,并且可以向前或者向后生成视频,因此可以进行多样的视频的编辑和继续创作,比如生成一个首尾相连重复循环的视频:[0bc3eeacsaaa2qaajcothbsvaiodfeqqakia.f10002.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/Hi3qbRbHBoC4s6x0YshcE4iNnNd?allow_redirect=1)甚至可以连接两个截然不同的视频:

Others are asking
生成提示词的提示词
以下是关于生成提示词的相关内容: 生成提示词的思路和方法: 可以根据效果好的图片中的高频提示词去反推效果,结合不同字体效果的描述,打包到一组提示词中。提示词给到 AI 后,AI 会根据给定文字的文义,判断适合的情绪风格,然后给出适合情绪的字体和风格描述、情感氛围等,加上一些质量/品质词,形成输出提示词结构。为了让 AI 更能描述清晰风格,可以先给定多种参照举例。 具体操作步骤: 打开 AI 工具的对话框,将相关提示词完整复制粘贴到对话框。推荐使用 ChatGPT 4o。 当 AI 回复后,发送您想要设计的文字。可以仅发送想要的文字,也可以发送图片(适合有多模态的 AI)让 AI 识别和反推。 将 AI 回复的提示词部分的内容复制到即梦 AI。 对生成提示词的一些观点: 提示词生成提示词并非必要,不一定能生成最好的 Prompt 框架,修改过程可能耗时且不一定能修改好,不如花钱找人写。 一句话生成完整符合需求的 Prompt 非常困难,只能大概给出框架和构思,需要更低成本地调整需求和修改 Prompt。 不同生图工具生成提示词的特点: 即使是简短的描述,生成的提示词也非常细节、专业。 会解析需求,找出核心要点和潜在的诠释点,并给出不同的提示词方案。 提示词构建更多在于增强,而不是发散,生成的内容更符合期望。 同时生成中、英双版本,国内外工具通用无压力。 14 款 AI 生图工具实测对比: 本次实测用到的工具包括国内版的即梦 3.0(https://jimeng.jianying.com/aitool/home)、WHEE(https://www.whee.com)、豆包(https://www.doubao.com/chat)、可灵(https://app.klingai.com/cn/texttoimage/new)、通义万相(https://tongyi.aliyun.com/wanxiang/creation)、星流(https://www.xingliu.art)、LibiblibAI(https://www.liblib.art),以及国外版的相关工具。
2025-04-20
大模型的系统提示词
大模型的系统提示词主要包括以下方面: 1. 在“五津:一键生成‘摸鱼打工猫’视频”中,针对用户选择的主题和回答,总结用户的创作意图,如“打工猫摸鱼的 2 小时,在巴厘岛能看一场日落”,并根据此生成 4 组体现幽默风趣、以宫崎骏风格描绘主角为摸秋刀鱼橘猫的绘图提示词,以数组形式输出到“tishici”,将用户意图输出到“biaoti”。 2. 在“云中江树:智能对决:提示词攻防中的 AI 安全博弈”中,系统提示词的相关防御措施分为输入侧、模型侧和输出侧三个部分。输入侧可进行意图识别、语义匹配等综合判断用户输入是否恶意;模型侧对于有能力的厂商应增强安全性并平衡性能,开发者则要在开发中带着安全意识优化系统提示词,加入安全引导和禁止内容等;输出侧可使用传统防御和内容过滤手段,并针对大模型特点进行私有数据泄露等检查。此外,还提到间接注入和提示词泄露的情况,间接注入常发生在应用获取依赖外部数据资源时,攻击者通过隐藏恶意指令完成攻击;提示词泄露指试图操纵模型输出获取部分或全部系统提示词,大模型输出内容可分为系统提示词、用户提示和助手提示词三段,通过攻击手段可获取系统提示词。
2025-04-18
你是福州市政府工作人员,中国移动拟邀请福州市委书记参加中国移动人工智能生态大会并致辞,该大会是第八届数字峰会的组成部分,需要撰写市委书记的致辞稿,需要中国移动准备哪些素材,请告诉我提示词
以下是为您整理的相关内容: 《促进创新的人工智能监管方法》:包含了关于通用人工智能价值链、相关案例研究以及对人工智能监管框架的探讨等内容。 陶力文律师关于律师写好提示词用好 AI 的方法:包括初始化的欢迎语、遵循的规则、获取案例洞察报告和目标群体、输出纲要和写作方案、根据用户反馈调整等流程。 开幕式主持稿:涉及基地代表发言的时间、主题、物料配合和人员配合等信息。 但这些素材似乎与为中国移动准备市委书记致辞稿所需的素材关联不大。一般来说,为撰写市委书记在中国移动人工智能生态大会上的致辞稿,中国移动可能需要准备以下素材: 1. 本次大会的详细介绍,包括主题、目标、议程安排等。 2. 中国移动在人工智能领域的发展成果、战略规划和未来愿景。 3. 中国移动人工智能生态的构建情况,如合作伙伴、合作项目等。 4. 本次大会在第八届数字峰会中的地位和作用。 5. 相关行业的人工智能发展现状和趋势。 6. 福州市在人工智能领域的发展情况和与中国移动合作的展望。
2025-04-18
调教ai的利器,提示词工程
提示词工程是调教 AI 的重要手段,以下是关于提示词工程的相关知识: 作用:避免 AI 掉入“幻觉”陷阱,引导 AI 生成更可靠的内容。 原理:AI 对提示词的理解能力与幻觉的产生密切相关,清晰、具体的提示词能帮助其更好地理解意图,减少错误。 技巧: 明确要求 AI 引用可靠来源,如在询问历史事件时要求引用权威文献,询问科学事实时要求引用科研论文,询问法律条款时要求引用官方文件。 要求 AI 提供详细的推理过程,如询问数学公式时展示推导过程,询问代码功能时逐行解释含义。 明确限制 AI 的生成范围,如询问名人名言时指定名人姓名和相关主题,询问新闻事件时指定时间范围和关键词。 通过这些清晰、具体、有针对性的提示词技巧,可以引导 AI 生成更准确和可靠的内容。但提示词工程只是辅助手段,从根本上解决 AI 幻觉问题还需从数据、模型、训练方法等多方面努力。 提示词工程就像与博学但有点固执的老教授交流,精心设计输入文本能引导 AI 更好地理解需求并给出更准确有用的回答。比如,问“请用简单的语言,为一个 10 岁的小朋友解释什么是人工智能,并举一个生活中的例子”,AI 更可能给出通俗易懂的解释。 在使用 AI 工具的过程中,可能会出现答非所问、回答格式不标准等问题,为让 AI 更好地服务,需要学习提示词工程。当用户的需求接近 AI 真实范围时,可通过写提示词甚至创建 BOT 来优化使用效果。
2025-04-15
提示词
提示词是让 AI 听懂您的需求并生成想要画面的关键。 基础公式(新手必学):景别+运镜+主体+动作+风格。示例:特写镜头|镜头旋转|发光水晶球悬浮|星尘特效|赛博朋克风格。 进阶公式(提升质感):景别+运镜+主体(细节)+动作(速率)+场景(层次)+氛围+光影。示例:全景俯拍|无人机跟拍|雪山湖泊(镜面倒影)|慢动作|冷色调光线|自然纪录片风格。 在星流一站式 AI 设计工具中,prompt 输入框可输入提示词,使用图生图功能辅助创作。 提示词用于描绘您想生成的画面,支持中英文输入。不同模型对输入语言有不同要求,如通用大模型与基础模型 F.1、基础模型 XL 使用自然语言,基础模型 1.5 使用单个词组。 写好提示词要做到: 1. 内容准确,包含人物主体、风格、场景特点、环境光照、画面构图、画质等,比如:一个女孩抱着小猫,背景是一面红墙,插画风格、孤独感,高质量。 2. 调整负面提示词,点击提示框下方的齿轮按钮,弹出负面提示词框,负面提示词可帮助 AI 理解不想生成的内容,如不好的质量、低像素、模糊、水印。 3. 利用“加权重”功能,让 AI 明白重点内容,可在功能框增加提示词,并进行加权重调节,权重数值越大,越优先。还可对已有的提示词权重进行编辑。 4. 借助辅助功能,如翻译功能可一键将提示词翻译成英文,还有删除所有提示词、会员加速等功能。 如果您接触过大量提示工程相关的示例和应用,会注意到提示词由一些要素组成,包括指令(想要模型执行的特定任务或指令)、上下文(包含外部信息或额外的上下文信息,引导语言模型更好地响应)、输入数据(用户输入的内容或问题)、输出指示(指定输出的类型或格式)。但提示词所需的格式取决于想要语言模型完成的任务类型,并非所有要素都是必须的。
2025-04-15
如何成为提示词工程师
提示词工程师是在与人工智能模型交互时,负责设计和优化提示的专业人员,旨在通过精心构造的提示引导模型产生准确、有用和相关的回答。 其主要职责包括: 1. 设计提示:根据用户需求和模型能力设计有效的提示,考虑提示的长度、结构、措辞和信息量等因素,以清晰传达用户意图并引导模型生成满意结果。 2. 优化提示:通过收集用户反馈、分析模型结果和实验不同的提示策略等方式不断优化提示,提高模型性能。 3. 评估提示:使用各种指标如模型的准确率、流畅度和相关性等来评估提示的有效性。 提示词工程师需要具备以下技能和知识: 1. 领域知识:对所工作的领域有深入了解,以便设计出有效的提示。 2. 自然语言处理(NLP):了解 NLP 的基本原理和技术,能够理解和生成自然语言文本。 3. 人工智能(AI):了解 AI 的基本原理和技术,以便理解和使用 AI 模型。 4. 沟通能力:具备良好的沟通能力,与用户、团队成员和其他利益相关者有效沟通。 以下是一些提示词工程师工作的实际案例,比如在市场营销类和商业类中,有自动优化 Prompt 的案例,如 JackeyLiu 熟悉的转化步骤包括: 1. 角色和能力:基于问题思考 chatGPT 最适合扮演的角色,应是该领域最资深的专家,适合解决问题。 2. 上下文说明:思考提出问题的原因、背景和上下文。 3. 任务陈述:基于问题进行陈述。 提示词工程师是一个新兴职业,随着人工智能技术的不断发展,对其需求将会越来越大。
2025-04-15
gpt4o图像生成提示词有哪些
以下是一些 GPT4o 图像生成的提示词示例: 1. 将这张图更改为蓝色氛围,星星图标改为魔法棒图标,同时将里面文案描述的主题改为其他的。 2. 帮我生成一张这样的 UI 设计稿:Peerlist 邀请链接界面分析,界面内容。 3. 一张逼真的照片,描绘了一匹马在宁静的海洋表面从右向左奔驰,准确地描绘了飞溅的水花。 Realistic photograph of a horse galloping from right to left across a vast,calm ocean surface,accurately depicting splashes,reflections,and subtle ripple patterns beneath their hooves.Exaggerate horse movements but everything else should be still,quiet to show contrast with the horse's strength.clean composition,cinematographic.A wide,panoramic composition showcasing a distant horizon.Atmospheric perspective creating depth.zoomed out so the horse appears minuscule compared to vast ocean.horse is right at the horizon where ocean meets sky.use rule of thirds to position horse.size of horse is 1% size of entire image because camera is so far away from subject.camera view is super close to the ground/ocean like a worm's eye view.horse is galloping right where ocean meets the sky 4. 生成一张 2006 年夏天的周六多伦多农夫市场的逼真照片,那天是六月的美好时光,人们在购物和吃三明治。焦点应是一个穿着牛仔工装裤、啜饮草莓香蕉奶昔的年轻亚洲女孩——其余部分可以模糊。照片应让人联想到 2006 年的数码相机拍摄的效果,带有像打印照片一样的日期和时间戳。画幅比例应为 3:2
2025-04-11
常用的提示词有哪些?
以下是一些常用的提示词: AI 绘画方面: 画面构图提示词:Chest Shot脸部特写。 情绪和氛围提示词:moody 暗黑的、happy 鲜艳的/浅色的、dark 黑暗的、epic detail 超细节的、Brutal 残酷的/破碎的、dramatic contrast 强烈对比的、hopeful 充满希望的、anxious 焦虑的、depressed 沮丧、elated 高兴地、upset 难过的、fearful 令人恐惧的、hateful 令人憎恨的、happy 高兴、excited 兴奋、angry 生气、afraid 害怕。 【SD】文生图方面: 正向提示词:, drawing, paintbrush。 反向提示词:NSFw, 。 星流一站式 AI 设计工具方面: 提示词用于描绘想生成的画面,输入语言支持中英文。星流通用大模型与基础模型 F.1、基础模型 XL 使用自然语言(如一个长头发的金发女孩),基础模型 1.5 使用单个词组(如女孩、金发、长头发)。 写好提示词的要点包括:内容准确,包含人物主体、风格、场景特点、环境光照、画面构图、画质,如一个女孩抱着小猫,背景是一面红墙,插画风格、孤独感,高质量;调整负面提示词,可点击提示框下方的齿轮按钮,负面提示词能帮助 AI 理解不想生成的内容,如不好的质量、低像素、模糊、水印;利用“加权重”功能,在功能框增加提示词并进行加权重调节,权重数值越大越优先,还可对已有的提示词权重进行编辑。此外,还有一些辅助功能,如翻译功能可一键将提示词翻译成英文,删除所有提示词可清空提示词框,会员加速能提升图像生图速度和效率。小白用户可以点击提示词上方官方预设词组进行生图。
2025-03-22
我是一名短视频创作者,我自身有自己写的现代诗歌,但是因为自己的声音不好,所以想自己制作一个利用网络音频和AI视频来展示我创作的诗歌的coze工作流,但是我对于ai的提示词有很多不明白的地方,您能够给我帮助吗
以下是为您提供的关于利用网络音频和 AI 视频展示诗歌的 Coze 工作流的相关指导: 1. 整体结构和参数配置: 工作流通常包括开始模块、Get_Video 模块、LinkReaderPlugin 模块、标题大模型、内容大模型、图片 Prompt 大模型、文生图 ImageToolPro 模块和输出结果模块等。 每个模块都有其特定的参数配置,例如在开始模块中选择源语言和目标语言等。 2. 标题大模型参数配置: 您需要作为小红书爆款写作专家,根据输入内容产出 3 个标题,采用二极管标题法创作,并善于使用吸引人的特点和爆款关键词,同时要符合小红书平台的标题特性和创作规则。 3. 内容大模型参数配置: 作为小红书爆款写作专家,根据输入内容产出 1 篇正文,每段话包含适当的 emoji 表情,文末有合适的 tag 标签。写作时要注意风格、开篇方法、文本结构、互动引导方法、一些小技巧、爆炸词等,文章尽量口语化、简短,在 200 字左右。 4. 图片 Prompt 大模型参数配置: 作为绘图 Prompt 大师,将输入内容转成 AI 更容易理解的绘画 Prompt。 5. 工作流创建步骤: 点击工作流后面的“+”添加工作流,然后创建工作流。 给工作流起名字和描述,名字只能用字母、数字和下划线,描述要清晰。 初始化工作流后,会生成开始模块和结束模块,左边有各种插件和搭建 Agent 的工具,可根据需要添加和使用。 希望以上内容对您有所帮助,如果您在具体操作过程中还有其他疑问,请随时向我咨询。
2025-03-12
我是一名短视频创作者,我自身有自己写的现代诗歌,但是因为自己的声音不好,所以想自己制作一个利用网络音频和AI视频来展示我创作的诗歌的coze工作流,但是我对于ai的提示词有很多不明白的地方,您能够给我帮助吗
以下是为您提供的关于利用网络音频和 AI 视频展示诗歌的 Coze 工作流的相关指导: 1. 整体结构和参数配置: 工作流通常包括开始模块、Get_Video 模块、LinkReaderPlugin 模块、标题大模型、内容大模型、图片 Prompt 大模型、文生图 ImageToolPro 模块和输出结果模块等。 每个模块都有其特定的参数配置,例如在开始模块中选择源语言和目标语言等。 2. 标题大模型参数配置: 您需要作为小红书爆款写作专家,根据输入内容产出 3 个标题,采用二极管标题法创作,并善于使用吸引人的特点和爆款关键词,同时要符合小红书平台的标题特性和创作规则。 3. 内容大模型参数配置: 作为小红书爆款写作专家,根据输入内容产出 1 篇正文,每段话包含适当的 emoji 表情,文末有合适的 tag 标签。写作时要注意风格、开篇方法、文本结构、互动引导方法、一些小技巧、爆炸词等,文章尽量口语化、简短,在 200 字左右。 4. 图片 Prompt 大模型参数配置: 作为绘图 Prompt 大师,将输入内容转成 AI 更容易理解的绘画 Prompt。 5. 工作流创建步骤: 点击工作流后面的“+”添加工作流,然后创建工作流。 给工作流起名字和描述,名字只能用字母、数字和下划线,描述要清晰。 初始化工作流后,会生成开始模块和结束模块,左边有各种插件和搭建 Agent 的工具,可根据需要添加和使用。 希望以上内容对您有所帮助,如果您在具体操作过程中还有其他疑问,请随时向我咨询。
2025-03-12
写短视频的提示词有哪些比较好用?
以下是一些写短视频提示词的好用方法和示例: Pikadditions 功能: 1. 上传基础视频:点击页面下方的【Pikaddition】按钮,拖拽或点击上传本地视频。若自己没有视频,可在“templates”板块使用官方示例视频做测试。 2. 添加主角图片:点击【Upload Image】上传角色图片文件。 3. 编写视频提示词:若需要参考角色在视频里的相关互动,需在输入框用英文描述期望效果(支持 Emoji 辅助),然后点击生成按钮。 提示词公式参考: 事件驱动句式:As... 空间锁定技巧:使用场景物体作坐标轴,如 on the.../behind the.../from the... 动态呼应原则:角色动作与视频元素联动,如 swaying with.../reacting to.../matching... 美女转绘: 使用麦?的写实模型和墨幽人造人模型,不推荐使用质量词。提示词先使用反推,Deepbooru,借助提示词插件删除无用提示词,保留和画面主体相关的提示词,如人物主体描述、皮肤质感增强、整体细节增强的 Loar。 正向提示词示例:1girl,solo,black_hair,midriff,autolinklora:林鹤皮肤质感调整器差异炼丹功能性 lora 模型_林鹤 v1:0.6autolink 负向提示词示例:NSFW,logo,text,blurry,low quality,bad anatomy SD 新手入门: 根据想画的内容写提示词,多个提示词之间使用英文半角符号。一般概念性、大范围、风格化的关键词写在前面,叙述画面内容的其次,最后是描述细节的。提示词顺序很重要,越靠后权重越低。关键词要具有特异性,措辞越具体越好,可使用括号人工修改提示词的权重。
2025-03-11
deepseek 的提示词应该怎么写?和以往的大语言模型的提示词有什么不同?
DeepSeek 的提示词具有以下特点: 1. 语气上还原帝王语气,不过分用力,使用相对古典但兼顾可读性的文字,避免傻气的表达。 2. 对历史细节熟悉,这可能与支持“深度探索”和“联网搜索”同时开启有关,能准确还原如“太极宫”“甘露殿”“掖庭局”“观音婢”“宫门鱼符”等唐初的历史称谓。 3. 输出极其具体且充满惊人细节,行文的隐喻拿捏到位,如“狼毫蘸墨时发现指尖残留着未洗净的血痂”“史官们此刻定在掖庭局争吵。该用‘诛’还是‘戮’,‘迫’还是‘承’。‘只是这次,他不敢触碰我甲胄上元吉的掌印’”等句子,虽未直接写“愧疚与野心,挣扎与抱负”,但句句体现。 与以往大语言模型的提示词的不同在于:以往模型可能在语气、历史细节和具体细节的处理上不如 DeepSeek 出色。
2025-02-28
OpenAI Operator, Anthropic Claude Coder
以下是关于 OpenAI Operator 和 Anthropic Claude Coder 的相关信息: 2025 年 Agent 领域的发展预测: 从对话助手到行动型智能体是 2025 年 Agent 技术的主流发展方向之一。计算机操作能力取得突破,传统大模型更多充当聊天助手,而 2025 年的突破在于让 Agent 直接“动手”操作电脑和网络环境。 Anthropic 在 2024 年底发布的 Claude 3.5 Sonnet 首次引入“Computer Use”能力,让 AI 像人一样通过视觉感知屏幕并操作鼠标键盘,实现了 AI 自主使用电脑的雏形。 OpenAI 在同期推出了代号“Operator”的 Agent 及其核心模型“计算机使用智能体”(CUA),使 GPT4 获得直接与图形界面交互的能力。CUA 通过强化学习将 GPT4 的视觉能力与高级推理相结合,训练 AI 可像人一样点击按钮、填表、滚动页面等。在 OpenAI 的测试中,CUA 在浏览器任务基准 WebArena 和 WebVoyager 上分别达到 38.1%和 87%的成功率,后者已接近人类水平。 其他相关信息: 宝玉日报 1 月 25 日: Deepseek 提示词框架包含四大模块:任务目的(Purpose)、计划规则(Planning Rules)、格式规则(Format Rules)、输出说明(Output)。 Anthropic 的 Claude 可通过屏幕截图获取计算机视觉信息,计算光标移动的像素坐标,并执行点击、滚动等操作。 OpenAI Operator 利用虚拟主机和 Chrome 浏览器,通过 CUA 实现网页实时操作,支持复杂任务导航。 主要的大语言模型: OpenAI 系统包括 3.5 和 4 等,3.5 模型在 11 月启动了当前的 AI 热潮,4.0 模型在春季首次发布,功能更强大。新的变种使用插件连接到互联网和其他应用程序。Code Interpreter 是一个非常强大的 ChatGPT 版本,可以运行 Python 程序。未为 OpenAI 付费只能使用 3.5。微软的 Bing 使用 4 和 3.5 的混合,通常是 GPT4 家族中首个推出新功能的模型,连接到互联网。 谷歌一直在测试自己的人工智能 Bard,由各种基础模型驱动,最近是 PaLM 2 模型。 Anthropic 发布了 Claude 2,其最值得注意的是有一个非常大的上下文窗口。
2025-04-01
openai官方文档
以下是关于 OpenAI 官方文档的相关信息: 对于刚入门学习提示词的朋友,建议先有一个大模型帐号并熟悉与之对话的方式。推荐的国产平替有 。 学习 prompt 必须看 OpenAI 的官方文档,相关链接有: 。 在 OpenAI 官方的说明文档(Documentation)中,为用户提供了若干项策略以帮助更好地使用 ChatGPT。例如策略一:编写清晰的说明,即在询问中包含详细信息以获得更多相关答复。因为大模型无法在有限信息中“猜测”用户意图,所以提问时不要惜字如金,多说一些内容、多提供一些信息能有效提高回复的质量和丰富性。文中还列举了多个例子进行说明。
2025-03-29
OpenAI o1、Claude Sonnet 3.7、Gemini 2.0 pro 哪个 AI 搜索能力更强?
OpenAI o1、Claude Sonnet 3.7 和 Gemini 2.0 pro 在不同方面具有各自的优势,难以简单地比较哪个的搜索能力更强。 OpenAI o1 推理能力强,适合作为架构师或算法顾问。 Claude Sonnet 3.7 擅长长上下文任务,在快速生成代码与网页设计方面表现出色。 Gemini 2.0 pro 长上下文支持较好(2M Tokens),适合代码反编译与混淆代码分析。 具体的搜索能力表现还会受到应用场景和具体任务的影响。
2025-03-21
openai deep research使用技巧
OpenAI 的 Deep Research 功能能够整合多源信息,进行复杂的信息查询与分析,并生成专业水准的报告,同时详细展示思考和搜索过程。目前,该功能仅支持文本输出,未来还将增加嵌入式图片、数据可视化等功能。使用入口为在 ChatGPT 输入框中选择「Deep Research」模式,输入问题后即可开始体验。 在 OpenAI 推出「Deep Research」功能一天后,Hugging Face 的工程师迅速联合推出了免费开源的版本 Open Deep Research,能自主浏览网页、滚动页面、处理文件,以及基于数据进行计算。使用入口为前往 Demo 网站(opendeepresearch.vercel.app)体验。 Deep Research 让 AI 自动完成多步骤研究任务,快速分析海量信息并生成专业报告,具备自动化信息汇总、文献引用与多领域适用性,适合科研、工程、金融等行业。目前向 Pro 用户开放,未来将扩展至 Plus 和 Team 用户,并提供更强大的功能。 该智能体基于优化版 OpenAI o3 模型,结合网络浏览和 Python 分析能力,实现高效研究,适用于科学、政策、工程等高强度知识工作,也能帮助购物者做复杂决策。Pro 用户已可使用,后续将逐步向 Plus、Team 和企业用户开放。
2025-03-08
openAI的deep research有哪些缺陷
OpenAI 的 Deep Research 存在以下一些缺陷: 1. 具有滞后性,在某些信息上无法做到及时更新。 2. 存在信息混乱的问题,无法完全替代人类的深度思考。
2025-03-03
Monica和Openai的记忆功能是如何让大模型产生记忆的?是什么原理?
大模型的记忆功能实现方式较为复杂,不同的模型可能有所不同。 OpenAI 的模型中,大模型 LLM 扮演了“大脑”的角色,其记忆功能可能通过“Agent = LLM + 规划 + 记忆 + 工具使用”的基础架构来实现。但需要注意的是,对于 ChatGPT 这类模型,实际上其本质上并没有直接的记忆功能。它能理解之前的交流内容,是因为每次将之前的对话内容作为新的输入重新提供给模型。这种记忆功能并非由大型模型直接实现,而是通过在别处进行存储来达成。 如果对话内容过长,可能会影响模型的整体性能。解决这个问题的一个简单方法是启动另一个对话框。对于之前的数据,通常只能进行总结。
2025-03-01
sorabot怎么样
Sora 是 OpenAI 在 2024 年 2 月发布的文本到视频生成的 AI 模型。 其具有以下特点和相关情况: 足够惊艳,但关键问题仍需探讨。Sora 团队未明确表示已实现基于成熟的世界因果关系模型,而是用了世界模拟器的描述。顶尖学术圈对此较为严谨,Lecun 在世界政府峰会上不看好 Sora,指出其并非真正的世界模型,且仍会面临 GPT4 的巨大瓶颈。 自 ChatGPT 发布以来,人工智能技术标志着重大转变。Sora 能根据文本提示生成长达 1 分钟的高质量视频,具有准确解释和执行复杂人类指令的能力,能生成包含多个角色及复杂背景的详细场景,保持高视觉质量和视觉连贯性,克服了早期视频生成模型的一些限制,展示了作为世界模拟器的潜力。 基于公开的技术报告和逆向工程,有对其背景、技术、应用、挑战和未来方向的全面综述。涵盖了追溯发展、探究底层技术、描述在多行业中的应用和潜在影响、讨论主要挑战和局限性,以及对未来发展的探讨。
2025-03-20
sora现在能生成多长时间视频
Sora 是由 OpenAI 开发的文生视频模型,能够根据文字指令创造出逼真且充满想象力的场景,并生成长达 1 分钟的高质量视频,且具有一镜到底的特点,视频中的人物和背景能保持惊人的一致性和稳定性。与之前的视频生成模型相比,Sora 在生成时长和视频质量上有显著进步。同时,还有其他一些文字生成视频的 AI 产品,如 Pika 擅长动画制作且支持视频编辑,SVD 是基于 Stable Diffusion 的插件,Runway 是老牌的收费 AI 视频生成工具且提供实时涂抹修改视频功能,Kaiber 是视频转视频 AI,能将原视频转换成各种风格的视频。更多相关网站可查看:https://www.waytoagi.com/category/38 。
2025-01-15
如何使用sora生成一段视频
使用 Sora 生成一段视频的步骤如下: 1. 文本提示优化:类似于 DALLE3,Sora 在处理用户提供的文本提示时,可以利用 GPT 模型来扩展或优化提示。GPT 模型能将简短的用户提示转化为更详细、更富有描述性的文本,有助于 Sora 更准确地理解并生成符合用户意图的视频。 2. 生成视频:用户提供文本提示,Sora 根据提示在潜在空间中初始化视频的生成过程。利用训练好的扩散模型,Sora 从这些初始化的时空潜伏斑块开始,逐步生成清晰的视频内容。 3. 视频解码和后处理:使用与视频压缩相对应的解码器将潜在空间中的视频转换回原始像素视频。对生成的视频进行可能的后处理,如调整分辨率、裁剪等,以满足发布或展示的需求。 此外,Sora 采用了一些相关技术和原理: 1. 视频压缩网络:训练一个降低视觉数据维度的网络,接受原始视频作为输入,并输出在时间和空间上都被压缩的潜在表示。Sora 在这个压缩的潜在空间上进行训练,并随后生成视频。同时还训练了一个相应的解码器模型,将生成的潜在表示映射回像素空间。 2. 时空潜空间块:给定一个压缩的输入视频,提取一序列的时空分块作为 Transformer 变换器的 Token。这个方案也适用于图像,基于分块的表示使 Sora 能够训练具有不同分辨率、持续时间和纵横比的视频和图像。在推理时,可以通过在适当大小的网格中随机初始化分块来控制生成视频的大小。 3. 调整图像模型来生成视频:通过插入时间层来“扩增”预训练的文生图扩散模型,然后选择仅在视频上对新的层进行微调或完全避免进行额外的训练。新模型会继承文本 图像对的先验知识,有助于缓解对文本 视频对数据的需求。 4. 扩散视频建模:如 Singer et al. 在 2022 年提出的 MakeAVideo,在一个预训练扩散图像模型的基础上扩展一个时间维度,包含三个关键组件:一个在文本 图像对数据上训练的基础文生图模型;时空卷积和注意力层,使网络覆盖时间维度;一个帧插值网络,用于高帧率生成。
2025-01-10
sora和lora是什么
LoRA(LowRank Adaptation)是一种低阶自适应模型,您可以将其理解为基础模型(Checkpoint)的小插件。在生图时,LoRA可有可无,但它具有明显的价值,常见于对一些精细的控制,如面部、材质、物品等细节的控制。其权重在相关界面会有显示。 Sora 并非常见的 AI 领域特定术语,上述知识库中未提及相关内容。
2025-01-02
sora教程
以下是关于 Sora 及相关的教程信息: AI 视频方面: 软件教程: 工具教程: 应用教程: Python + AI 方面: 对于不会代码的人,有 20 分钟上手的教程,包括通过 OpenAI 的 API 生成文章缩略信息的代码重写及相关操作步骤。同时提醒妥善保管 API Key,OpenAI 的综合文档、API 使用、API Playground、API 案例与答疑的相关网址为:https://platform.openai.com/docs/overview 、https://platform.openai.com/docs/apireference 、https://platform.openai.com/playground 、https://cookbook.openai.com/ 。 工具教程: 开放公测,群友有实测案例。可参考卡兹克的教程介绍:https://mp.weixin.qq.com/s/YGEnIzfYA3xGpT9_qh56RA 以及 zho 总结的官方网站的案例。目前除每日 150 个赠送积分外,还新增积分购买选项,可操作固定种子、步数、运动幅度,交互也很有意思,在生成过程中会有案例标注。 此外,还有几个视频 AIGC 工具:Opusclip 可将长视频剪成短视频,Raskai 能将短视频素材直接翻译至多语种,invideoAI 输入想法后可自动生成脚本和分镜描述进而生成视频再人工二编合成长视频,descript 可对屏幕/播客录制并以 PPT 方式做视频,veed.io 能自动翻译自动字幕,clipchamp 是微软的 AI 版剪映,typeframes 类似 invideoAI 但内容呈现文本主体比重更多,google vids 是一款相关工具。Sora 是 OpenAI 发布的超强视频生成 AI,能通过处理各种视觉数据生成视频,使用视频压缩网络和空间时间补丁统一不同来源数据,并借助文本条件化的 Diffusion 模型生成与文本提示匹配的视觉作品。
2024-12-17
ChatGPT与Sora 是不是只有苹果手机或苹果电脑才能注册与登入?
ChatGPT 注册与登录: 苹果系统: 中国区正常无法在 AppleStore 下载 ChatGPT,需切换到美区。美区 AppleID 注册教程可参考知乎链接:https://zhuanlan.zhihu.com/p/696727277 。 最终在 AppleStore 搜到 ChatGPT 下载安装,注意别下错。 打开支付宝,地区切换到美区任意区,购买【App Store&iTunes US】礼品卡,按需要金额购买(建议先买 20 刀),然后在 apple store 中兑换礼品卡,在 chatgpt 中购买订阅 gpt plus,中途不想继续订阅可到订阅列表中取消。 会员不管在苹果还是安卓手机上购买的,电脑上都能登录。 注册美区 ID 详细步骤: 1. 电脑上打开 Apple ID 的注册页面:https://appleid.apple.com/ac 。 2. 填写验证码后点继续。 3. 到谷歌邮箱接收邮箱验证码。 4. 接着验证手机号码。 5. 验证完后会出现页面,此时美区 ID 已注册但未激活,切换到手机操作。 6. 打开 App Store,点击右上角人形头像。 7. 拉到最底下,点击退出登录,先退出国内的 ID。 8. 之后再点击右上角人形头像。 9. 手动输入美区 ID,会收到短信进行双重验证。 10. 之后完成美区的 ID 登录。 11. 随便找个软件下载,会弹出提示,点击“检查”进行激活。 12. 点击同意,进入下一页填写美国地址。 13. 若付款方式中没有“无”或“none”选项,输入街道地址和电话。 14. 至此,通过中国 IP、中国手机号、免信用卡成功注册一个美区 ID,可用于下载例如小火箭、ChatGPT、Discord、X、TikTok 等软件。 关于 Sora 的注册与登录相关信息未提及。
2024-12-16