Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

将活动主题拆解为大量结构化提示词,用于文生视频

Answer

以下是将活动主题拆解为大量结构化提示词用于文生视频的相关内容:

技巧 1:提示词的结构 当提示词有清晰的结构时,提示效果最有效。可使用简单公式:[摄像机移动]+[建立场景]+[更多细节];复杂公式:[镜头语言]+[光影]+[主体(主体描述)]+[主体运动]+[场景(场景描述)]+[情绪/氛围/风格]。 例如:无结构提示词“小男孩喝咖啡”,有结构的提示词“摄影机平移(镜头移动),一个小男孩坐在公园的长椅上(主体描述),手里拿着一杯热气腾腾的咖啡(主体动作)。他穿着一件蓝色的衬衫,看起来很愉快(主体细节描述),背景是绿树成荫的公园,阳光透过树叶洒在男孩身上(所处环境描述)”。

技巧 2:提示词的优化 有三个原则:

  1. 强调关键信息:在提示的不同部分重复或强化关键词有助于提高输出的一致性。
  2. 聚焦出现内容:尽量让提示集中在场景中应该出现的内容上。
  3. 规避负面效果:在提示词中写明不需要的效果。 写提示词时,首先要明确场景中的人物和冲突,其次是对场景进行详细描述,包括地点、人物形象、任务动作等细节,使用生动的动词营造动态和戏剧化氛围,第三要加强镜头语言,如推、拉、摇、移、升、降等,每种镜头运动都有其特定作用和效果。

PixelDance V1.4 提示词指南 图生视频的基础提示词结构为:主体+运动。当主体有突出特征时可加上,需基于输入图片内容写,明确写出主体及想做的动作或运镜,提示词不要与图片内容/基础参数存在事实矛盾。

Content generated by AI large model, please carefully verify (powered by aily)

References

工具教程:清影

当提示词有清晰的结构时,提示效果是最有效的。使用以下结构有助于生成期望的结果:简单公式:[摄像机移动]+[建立场景]+[更多细节]复杂公式:[镜头语言]+[光影]+[主体(主体描述)]+[主体运动]+[场景(场景描述)]+[情绪/氛围/风格]无结构提示词:小男孩喝咖啡有结构的提示词:摄影机平移(镜头移动),一个小男孩坐在公园的长椅上(主体描述),手里拿着一杯热气腾腾的咖啡(主体动作)。他穿着一件蓝色的衬衫,看起来很愉快(主体细节描述),背景是绿树成荫的公园,阳光透过树叶洒在男孩身上(所处环境描述)。|类型|无结构提示词|有结构的提示词||-|-|-||prompt|小男孩喝咖啡|The camera pans to a young boy sitting on a park bench with a steaming cup of coffee in his hand.He looked pleasant in a blue shirt with a tree-lined park in the background,and the sun shining through the leaves on the boy.||视频效果|[a9c8b0e7-8384-5877-820f-02ad3dc3965d_0.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/GzLqbBlfwo2S7BxaXSOc2Q0znFd?allow_redirect=1)|[eea46e02-9b82-5aac-a23e-846227ca8da4_0.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/Ei2qbEYPbocpy7xOXnEcqiCgnBg?allow_redirect=1)|

工具教程:清影

还有三个原则:强调关键信息:在提示的不同部分重复或强化关键词有助于提高输出的一致性。例如,摄像机以超高速镜头快速飞过场景。(其中的“超高速”、“快速”就是重复词)聚焦出现内容:尽量让你的提示集中在场景中应该出现的内容上。例如,你应该提示晴朗的天空,而不是没有云的天空。规避负面效果:为了进一步保障视频生成质量,可以在提示词中写明不需要的效果。例如:“不出现扭曲、变形、模糊的场景。”✍️怎么写一个提示词?首先,要明确场景中的人物和冲突是什么,这是推动整个场景发展的关键因素。例如,在一个追逐场景中,冲突可能是间谍试图逃脱追赶者的追捕。其次,是对场景进行详细的描述,包括地点、人物形象、任务动作等细节。使用生动的动词来营造动态和戏剧化的氛围,如“匆匆前行”、“缓缓旋转”等。例如:“在昏暗的街道上,雨滴如注,一个孤独的行人匆匆前行。”第三,加强镜头语言,镜头语言是通过摄影机的移动或焦距变化来表现画面内容的一种方式。常用的镜头运动包括推、拉、摇、移、升、降等。每种镜头运动都有其特定的作用和效果:推镜头:逐渐聚焦在某一角色的面部表情上,突出表现该角色的情感变化。拉镜头:逐渐远离主体,展示环境或背景,形成一种运动的主体不变、静止的背景变化的造型效果。摇镜头:跟随主体运动的表现方式,可以突出主体的同时,又可以交待主体运动方向、速度、体态及其与环境的关系。提示词要具体明确且符合物理规律,使用简单且清晰的语言。

PixelDance V1.4 提示词指南

图生视频的基础提示词结构为:主体+运动。不要对静止部分过多描述,只描述想动的部分。当主体具有一些突出特征时,可以加上突出特征来更好定位主体,比如老人,戴墨镜的女人等。需要基于输入的图片内容来写,需要明确写出主体以及想做的动作或者运镜,需注意提示词不要与图片内容/基础参数存在事实矛盾。比如图片中是一个男人,提示词写“一个女人在跳舞”;比如背景是草原,提示词写“男人在咖啡厅里唱歌”;比如选择了固定相机的基础参数,却在提示词里写了镜头环绕。|输入参数|生成视频||-|-||prompt:老人戴上眼镜<br>基础参数:相机固定,16:9,10s|[pd41.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/JrLbb5rRfooaesxslvxc4FS9nsb?allow_redirect=1)<br>单主体+单动作|

Others are asking
AI文生视频
以下是关于文字生成视频(文生视频)的相关信息: 一些提供文生视频功能的产品: Pika:擅长动画制作,支持视频编辑。 SVD:Stable Diffusion 的插件,可在图片基础上生成视频。 Runway:老牌工具,提供实时涂抹修改视频功能,但收费。 Kaiber:视频转视频 AI,能将原视频转换成各种风格。 Sora:由 OpenAI 开发,可生成长达 1 分钟以上的视频。 更多相关网站可查看:https://www.waytoagi.com/category/38 。 制作 5 秒单镜头文生视频的实操步骤(以梦 AI 为例): 进入平台:打开梦 AI 网站并登录,新用户有积分可免费体验。 输入提示词:涵盖景别、主体、环境、光线、动作、运镜等描述。 选择参数并点击生成:确认提示词无误后,选择模型、画面比例,点击「生成」按钮。 预览与下载:生成完毕后预览视频,满意则下载保存,不理想可调整提示词再试。 视频模型 Sora:OpenAI 发布的首款文生视频模型,能根据文字指令创造逼真且充满想象力的场景,可生成长达 1 分钟的一镜到底超长视频,视频中的人物和镜头具有惊人的一致性和稳定性。
2025-04-20
论文生成
以下是关于论文生成的相关信息: Deepseek V3 案例:有人用 Claude 做了一系列各种风格卡片的提示词,并在 V3 上进行尝试,效果不错。还有人把论文变成可视化。 ChatGPT 文本生成:以“词”为单位进行文本生成,存在随机性,有特定的“温度”参数控制较低排名单词的使用频率,对于文章生成“温度”为 0.8 效果较好。 论文写作的 AI 产品: 文献管理和搜索:Zotero 可自动提取文献信息,Semantic Scholar 是 AI 驱动的学术搜索引擎。 内容生成和辅助写作:Grammarly 提供文本校对等帮助,Quillbot 可重写和摘要。 研究和数据分析:Google Colab 支持 AI 和机器学习研究,Knitro 用于数学建模和优化。 论文结构和格式:LaTeX 结合自动化和模板处理格式,Overleaf 是在线 LaTeX 编辑器。 研究伦理和抄袭检测:Turnitin 和 Crossref Similarity Check 检测抄袭。 使用这些工具时要结合自身需求和写作风格,并仔细甄别内容。
2025-04-13
文生图
以下是关于文生图的简易上手教程: 1. 定主题:确定您需要生成的图片的主题、风格和要表达的信息。 2. 选择基础模型 Checkpoint:根据主题选择内容贴近的模型,如麦橘、墨幽的系列模型,如麦橘写实、麦橘男团、墨幽人造人等。 3. 选择 lora:在生成内容基础上,寻找重叠的 lora 以控制图片效果和质量,可参考广场上好看的帖子。 4. ControlNet:可控制图片中特定图像,如人物姿态、生成特定文字等,属于高阶技能。 5. 局部重绘:下篇再教。 6. 设置 VAE:无脑选择 840000 即可。 7. Prompt 提示词:用英文写想要 AI 生成的内容,使用单词和短语组合,用英文半角逗号隔开,不用管语法和长句。 8. 负向提示词 Negative Prompt:用英文写想要 AI 避免产生的内容,同样是单词和短语组合,用英文半角逗号隔开,不用管语法。 9. 采样算法:一般选 DPM++2M Karras 较多,也可参考 checkpoint 详情页上模型作者推荐的采样器。 10. 采样次数:选 DPM++2M Karras 时,采样次数一般在 30 40 之间。 11. 尺寸:根据个人喜好和需求选择。 以下是一些常见的文生图工具和模型: 1. 腾讯混元 2. luma 3. Recraft 4. 文生图大模型 V2.1L(美感版) 5. 美图奇想 5.0 6. midjourney 7. 快手可图 8. Flux.1.1 9. Stable Diffusion 3.5 Large 10. Imagen 3 网页版
2025-04-12
文生图工具
以下是关于文生图工具的相关信息: 常见的文生图工具包括: DALL·E:由 OpenAI 推出,能根据输入的文本描述生成逼真图片。 StableDiffusion:开源工具,可生成高质量图片,支持多种模型和算法。 MidJourney:因高质量图像生成效果和友好界面在创意设计人群中受欢迎。 更多文生图工具可在 WaytoAGI 网站(https://www.waytoagi.com/category/104)查看。 Stability AI 推出的基于 Discord 的媒体生成和编辑工具的文生图使用方法: 点击链接进入官方 DISCORD 服务器:https://discord.com/invite/stablediffusion 。 进入 ARTISAN 频道,任意选择一个频道。 输入/dream 会提示没有权限,点击链接,注册登录,填写信用卡信息以及地址,提交后可免费试用三天,三天后开始收费。 输入/dream 提示词,和 MJ 类似,可选参数有五类,包括 prompt(提示词,正常文字输入,必填项)、negative_prompt(负面提示词,填写负面提示词,选填项)、seed(种子值,可以自己填,选填项)、aspect(长宽比,选填项)、model(模型选择,SD3,Core 两种可选,选填项)、Images(张数,14 张,选填项)。完成后选择其中一张。 Tusiart 文生图的简易上手教程: 定主题:确定生成图片的主题、风格和表达的信息。 选择基础模型 Checkpoint:根据主题找内容贴近的 checkpoint,如麦橘、墨幽的系列模型。 选择 lora:寻找内容重叠的 lora 控制图片效果及质量。 ControlNet:控制图片中特定图像,如人物姿态、生成特定文字、艺术化二维码等。 局部重绘:下篇再教。 设置 VAE:无脑选择 840000 。 Prompt 提示词:用英文写需求,单词和短语组合,用英文半角逗号隔开。 负向提示词 Negative Prompt:用英文写避免产生的内容,单词和短语组合,用英文半角逗号隔开。 采样算法:一般选 DPM++2M Karras,也可参考模型作者推荐的采样器。 采样次数:选 DPM++2M Karras 时,采样次数在 30 40 之间。 尺寸:根据个人喜好和需求选择。
2025-04-12
文生图大模型排名
以下是文生图大模型的排名(从高到低): 1. Imagen 3:真实感满分,指令遵从强。 2. Recraft:真实感强,风格泛化很好,指令遵从较好(会受风格影响)。 3. Midjourney:风格化强,艺术感在线,但会失真,指令遵从较差。 4. 快手可图:影视场景能用,风格化较差。 5. Flux.1.1:真实感强,需要搭配 Lora 使用。 6. 文生图大模型 V2.1L(美感版):影视感强,但会有点油腻,细节不够,容易糊脸。 7. Luma:影视感强,但风格单一,糊。 8. 美图奇想 5.0:AI 油腻感重。 9. 腾讯混元:AI 油腻感重,影视感弱,空间结构不准。 10. SD 3.5 Large:崩。
2025-04-12
论文生成提示词
以下是为您整理的关于论文生成提示词的相关内容: 1. 在关于 DALL·E 3 论文的研究中,提示词包括: 给评分员提供完整的图像描述内容,要求评分员选择更符合文本描述的图像。 让评分员想象自己正在借助工具根据文本生成图像,并选择希望看到的图像。 让评分员从人的身体部位、面部和姿势、对象的位置等方面判断图像的连贯性。 但 DALL·E 3 仍存在空间感知不佳、构建文本描述生成器时的功能不可靠、生成的图片在重要细节上产生幻觉等问题。 2. 云舒为读懂 Claude 论文使用的提示词: “论文深度剖析导师”提示词,可用于深度理解文本,如解读公众号文章、专业论文、书籍、在线课程等。 还可用于求职分析,拆解岗位描述并定制求职攻略,甚至作为自我介绍的“测谎仪”。 希望以上内容对您有所帮助。
2025-04-10
core案例拆解教程
以下为为您提供的几个案例拆解教程: Coze 应用实战指南 吐槽心灵鸡汤 核心功能说明:一个允许用户输入心灵鸡汤类内容,AI 生成对应的反心灵鸡汤,并展示在前端页面的应用。 核心操作流程拆解: 1. 用户在页面输入指定文本。 2. 用户在页面点击【开喝】按钮。 3. Coze 后台调用工作流生成对应内容。 4. 工作流生成的内容展示在前端界面内。 核心前端设计拆解: 1. 用户界面提供一个元素 A(Coze 中称作组件),让用户输入内容。 2. 用户界面提供一个按钮 A,让用户点击后调用工作流。 3. 用户界面提供一个元素 B,向用户展示工作流的结果。 核心业务逻辑拆解: 1. 读取元素 A 的用户输入。 2. 将用户输入传递给 AI 大模型。 3. AI 大模型按照提示词设定生成指定内容。 4. 在元素 B 展示 AI 大模型生成的内容。基于上述业务逻辑,只需要设计一个简单的工作流即可,该工作流由【开始】节点(用户输入)、【大模型】节点(AI 生成内容)、【结束】节点构成(内容输出)。 Pika 新功能“Pikadditions” 厕所开门见猴 原视频:人物推开厕所门→空马桶镜头。 角色图片:一张猴子坐在马桶上的图片。 提示词:“When the door opens in the video,we see a monkey with reading glasses sitting in the toilet reading a book.” 拆解逻辑: 1. 时间触发:When the door opens→绑定视频动态事件(门开合过程)。 2. 空间绑定:sitting in the toilet→将猴子坐标锁定在马桶实体上。 3. 行为设计:reading a book→赋予角色符合场景逻辑的行为(厕所常见活动)。 4. 细节强化:with reading glasses→用视觉符号增强角色合理性(模仿人类行为)。 首尾帧循环视频制作 宇航员案例 1. MJ 生成宇航员近照。 2. 截取头盔中反射的宇航员作为第 3 步垫图和 sref 使用。 3. 生成与头盔中宇航员接近的半身像。 4. 打开即梦,选择使用尾帧。重点:一般情况可以不选择运镜控制,但这张图需要选择变焦推进,控制镜头推进到头盔里,不然 AI 会自己选择更容易实现的后拉运镜。 5. 得到。 6. 同样的做法得到尾帧回到首帧的视频,再用剪映拼接一下两段视频即可得到在他人与自己中无限轮回(有时候起始或结束有停顿,保证整条视频衔接流畅可以掐掉)。
2025-03-12
【深度拆解】ChatGPT-4o背后的技术革新:从语言模型到多模态跨越
ChatGPT4o 背后的技术革新具有重要意义。人类的感知多样,仅靠语言描述世界远远不够,多模态理解非常有用,能更全面学习世界、理解人类需求等。2023 年 9 月 GPT4v 发布,将大语言模型竞赛带入多模态模型时代,如 ChatGPT 能看图说话、画图,Google 的 Gemini 支持多种模态,但 OpenAI 常抢先发布。今年 5 月 OpenAI 发布 GPT4o,向智能体方向迈进,其是之前技术的集大成者,通过端到端神经网络混合训练视觉、语音和文本数据,平均音频输入反应时间为 300 毫秒,能感悟人类表达的情绪等。OpenAI 未公开 GPT4o 技术细节,唯一线索来自内部炼丹师的博客 AudioLM。此外,GPT4 是 OpenAI 的多模态工具,在编程任务中表现出色,ChatGPT 是用户友好界面,可与高级语言模型交互。2024 年 5 月 14 日 OpenAI 发布 GPT4o,效率高、价格降低、延迟缩短。9 月 16 日 OpenAI 推出 o1 系列模型,在复杂任务中表现优异,o1mini 适合编码任务,两个模型已在 ChatGPT 中提供,有免费或收费版本。
2025-03-09
02-21 | 哪吒爆款AI视频制作拆解
以下是对哪吒爆款 AI 视频制作拆解的相关内容: 视频创作流程: 包括脚本制作、图片生成、视频生成和视频剪辑,使用的工具分别为豆包、利不利不、可灵和海螺、剪映。 爆火原因分析: 1. 爆款 IP 带来热度和流量,如哪吒。 2. 反差作用,如神话人物与现代生活的反差,好玩有趣吸引停留。 3. 共鸣作用,如职业选择大众化、接地气且贴合角色形象性格并有槽点,引发讨论和分享。 主要角色职业设定: 根据哪吒、敖丙、敖光、敖润、申公豹、太乙真人、吴亮先尊等角色的性格和形象特点,为其设定了快递小哥、咖啡店员、水产店老板等贴合又有槽点的职业。 视频传播情况: 新华社官媒编辑索要并传播了有趣且火的哪吒相关视频。 相关案例特点: 列举了宠物走秀、打工猫等案例,指出其具有反差、萌系、贴近生活等特点。 短视频创作要点: 形式在短视频中可稍大于内容,如开花、冰冻、毛茸茸等风格,但要成热门爆款需内容大于形式,具备反差、共鸣等,且热门爆款有难度,小爆款也不错。 哪吒主题 VB 先导片制作: 周四定方案,周六、周天制作,周天晚上上线。未看片子不耽误制作,用可灵多图参考生成角色、道具等,用集梦生成场景等,还可用可灵 AI 换装设定角色服装。 利用多图生成 AI 视频的创作实践: 1. 哪吒角色创作:通过提供多张零碎照片,参考牙齿等细节,设定现代版哪吒形象,考虑其走位和行为进行场面调度。 2. 成年哪吒合成:将哪吒的头颅与他人身子结合,先给手部特写再揭示人物,提示词思路技巧需统一。 3. 申公豹角色处理:与哪吒类似的处理方式,先交代环境,再展现人物动作。 4. 其他角色创作:包括敖丙、大厨、美丽姑娘、土拨鼠、石姬娘娘等角色,根据不同需求设定形象和动作。 工具特点对比: 可灵能满足需求但生成时间长,微度 AI 生成速度快但结果有区别。 会议主题:0221|哪吒爆款 AI 视频制作拆解 会议时间:2 月 21 号(周五)19:58 22:21(GMT+08) 主讲老师:@小龙问路、@子豪插画
2025-03-07
拆解agent
AI Agent 的拆解是指如果单次请求不能很好地遵循并完成所有事情,就将其拆分为一步一步的子任务。比如用户表达目标后,让大模型根据目标拆分出逐步的子任务,再通过工程方式循环请求子任务(可能会插入新任务),直至所有子任务完成。例如去年的 AutoGPT 就是这种方式(Planning and excute),但它只是学术界的探索,难以落地,除了一些 demo 产品,只在实在智能的 RPA 上见过。难以落地的原因有很多,如计划赶不上变化,提前规划的任务难以保证正确执行;大模型并非全知全能,规划的任务不一定正确;工程化执行时,循环的进入和退出时机也是问题。后来大家都在解决这些问题,思路和解法不同,比如 OpenAI 搞 Tools,FastGPT 搞可视化的 workflow 编排,大家逐渐意识到 workflow 是短期最优解,于是纷纷开始做。 判断自己的任务/Prompt 是否需要拆解为工作流,构建稳定可用的 AI Agent 是不断调试和迭代的过程,通常从性能最强的 LLM 着手,先用单条 Prompt 或 Prompt Chain 测试任务执行质量和稳定性,再根据实际情况和最终使用的 LLM 逐步拆解子任务。一般对于场景多样、结构复杂、输出格式要求严格的内容,基本可预见需要拆解为工作流。此外,鉴于 LLM 只能处理文本输入输出,涉及多媒体内容生成或从网络自主获取额外信息等能力时,必然需要通过工作流调用相应插件。只用一段 Prompt 的 Agent 也算 AI Agent。
2025-01-05
有没有能分析拆解腾讯视频的AI工具?
目前有使用 Gemini 1.5 Pro 来分析和拆解腾讯视频的工具。以下是一些相关信息: 大家可以放自己的案例,本文档可编辑。 郑跃葵:拿个库布里克的电影来分析,连大师手法都学会了。 大峰 AI 绘画:太酷啦又多了一个 AI 视频创作助手。 Jones:b 站大学复习有救了。 对!:拉片太方便了。 Shock:而且可以干掉人工标注了,安徽那边数据标注众包要失业了。 清慎:1. 影视二创长剪短,一键生成小帅、小美、大壮、丧彪的故事;2. 警察叔叔查监控,一句话找出监控中的可疑现象;3. 替代 Opus 等长剪短工具。 测试者阿强:好用,准确度很高,把前几天用 AI 做的功夫熊猫之离谱村版丢进去分析,效果很好。拆解作品。 测试者张余和 Ling、洋洋也有拆解结果,Gemini 1.5 Pro 给出了全文。 您可以尝试使用 Gemini 1.5 Pro 来满足您对腾讯视频的分析拆解需求。
2024-12-11
拆解 通往AGI之路 知识付费运营体系
通往 AGI 之路的知识付费运营体系可以从以下几个方面来拆解: 1. 课程特点: 【野菩萨的 AIGC 资深课】由工信部下属单位【人民邮电出版社】开设,是全网技术更新最快的课程之一。 课程内容涵盖 AI 绘画、视听语言和 ChatGPT 等多个体系的知识,能满足不同阶段学习者的需求。 2. 付费与开源的比较: 开源社区资源丰富,适合自律的自主学习者。 知识付费课程提供系统结构、专业指导、针对性计划和互动反馈,是高效的学习途径。 3. 社区需求: 新同学加入时,对适合小白新手入门的课程有需求,相比啃知识库的图文,更愿意接受老师手把手的教学。 4. 个人经历:创建者在希望快速入门 AI 绘画时,投入金钱学习了许多付费的 AI 课程,并最终选择了野菩萨的课程。 通往 AGI 之路本身不仅是开源的 AI 知识库,还是连接 AI 学习者、实践者、创新者的社区,具有以下特点: 1. 共同建设:由一群热爱 AI 的专家和爱好者共同贡献并整合各种 AI 资源。 2. 丰富内容:提供一系列开箱即用的工具,文生图、文生视频、文生语音等详尽的教程。 3. 紧跟前沿:追踪 AI 领域最新的进展,时刻更新。 4. 活动多样:包括东京的 confii 生态大会、AI 文旅视频、娃卡奖、李普村共创故事、AI 春晚等社区共创项目,以及 AIPO 活动、共学活动等。 5. 扶持与奖励:在小红书发布活动内容带特定标签有流量扶持,设有最佳创业奖和最佳投资奖等。
2024-11-25
结构化思维在AI办公里的应用
结构化思维在 AI 办公中有以下应用: 在 Model Context Protocol 托管平台中: 特色功能方面,Sequential Thinking 提供动态和反思性问题解决的结构化思维过程,适用于复杂问题分析和决策。 核心功能分类包括笔记管理工具(如 Simple Notes MCP Server、Bear MCP Server、Notion 集成)、AI 对话工具(如 Autonomous Coder Agent、OpenAI 兼容 API 集成)、Google Workspace 集成(如 Gmail 和 Google Calendar 集成、多账户管理、邮件搜索和撰写、日历事件管理)、学术研究工具(如 Semantic Scholar 集成、PubMed 搜索、arXiv 论文访问、IACR 密码学文献库访问)、AI 数据库管理(如 MySQL Server 集成、知识图谱记忆服务、DuckDB 集成、Airtable 集成)。 面对 AI 幻觉问题时,可使用结构化思考工具辅助判断,如决策矩阵用于面对多个选择时做出更理性的决策,检查清单用于执行复杂任务时确保每个步骤按计划完成,风险评估模型用于做重要决策时分析不同方案的风险并制定应对措施。 在让 AI 像人类一样思考方面,构建逻辑体感轮子,包括逻辑推理功能和内容抽象功能。内容抽象功能能够高效地组织内容,体现结构化思维,通过心智单元的抽象思维高效地组织复杂任务。
2025-04-14
结构化提示词
以下是关于结构化提示词的相关信息: 云中江树是 Prompt 提示词框架 LangGPT 的作者,并组建了 EmbraceAGI 学习社区。他早在 2023 年 3 月就提出了结构化构建提示词的方法,并发布在 Github,很快收藏破千。LangGPT 是 Language For GPT 的简称,中文名为结构化提示词,于 2023 年 5.4 青年节开源发布,成为 GitHub 开源社区全球趋势热榜前十项目,并撰写了学术论文开源发表。其提出的结构化提示词已被百度、智谱、字节、华为等国内主流大模型智能体平台使用,当前已发展成为国内最具影响力的高质量提示词工程师学习交流社群。您可以通过了解更多。 小七姐在其 Prompt 喂饭级系列教程小白学习指南(四)中提到,结构化 Prompt 的思想通俗来说就是像写文章一样写 Prompt。结构化编写 Prompt 本身算是提示词编写的进阶学习内容,这里为新手列举了一套(极简)基础的结构化编写 Prompt 的框架,例如:Role: Suno 结构提示词包含了众多流派和风格,如:爵士转折。
2025-04-12
如何用结构化提示词生成具体某一页PPT
以下是关于如何用结构化提示词生成具体某一页 PPT 的相关内容: 一、熊猫 Jay 的思路和指南 1. AI 生成 PPT 的主要思路 利用 AI 生成 PPT 大纲 培训文档助手提供核心提示词(仅供参考,可在此基础上丰富) 本章节结合 ChatGPT GPT4 模型生成大纲,也可利用其他 AIGC 工具 结构化提示词模版大多以 Markdown 语法构建,“”代表一级标题,“”代表二级标题,“”代表无序列表 输入关键信息生成大纲,包括针对不同人群的受众分析 2. 注意事项 提示词是利用 LangGPT 生成的基本提示词 语法的详细用法可自行了解 二、Kimi 的 15 款官方提示词 1. 【PPT 精炼】整理各种课程 PPT,输出结构明晰、易于理解内容文档 2. 【?爆款文案】生成高质量的爆款网络文案 3. 【?影剧推荐】根据喜好推荐影视,提供保姆级资源渠道 4. 【?影评达人】专业生成引人入胜、富有创意的电影评论 5. 【?职业导航】私人职业路径规划顾问,综合考虑个人特质、就业市场和发展前景 6. 【?营销策划】为产品或服务提供定制化营销活动策划 7. 【?面试模拟】私人面试 mock 伙伴,根据简历信息和求职岗位进行模拟面试 8. 【?宣传 slogan】快速生成抓人眼球的专业宣传口号 9. 【✍️期刊审稿】提前预知审稿人对文章的吐槽 10. 【?诗意创作】现代诗、五言/七言诗词信手拈来的诗歌创作助手 11. 【?推闻快写】专业微信公众号新闻小编,兼顾视觉排版和内容质量,生成吸睛内容 12. 【?要点凝练】长文本总结助手,能够总结用户给出的文本、生成摘要和大纲 13. 【?短剧脚本】创作定制化短视频脚本,包含拍摄要求和分镜细节 14. 【?美文排版】使用 Unicode 符号和 Emoji 表情符号优化文字排版,提供良好阅读体验 整理收录:小七姐 Prompt 星球:https://t.zsxq.com/15KhQ0RE7 三、甲木的方法 1. 让 Claude 帮做「古诗词卡片」 语文老师 PPT 配图有救了 主题+方向=符合诗词原意调性的古诗词名片 流程简单:输入 Prompt,用户输入主题、风格,AI 输出最终结果 获取提示词:第一版规定 AI 排版,固定输出;第二版释放 AI 创意,自由发挥,不受拘束 开源了提示词,可直接获取,关注、点赞、转发更佳 希望以上内容对您有所帮助。
2025-03-17
如果要搭建一个自己的业务知识的结构化知识库,推荐哪个平台和工具?
以下是为您推荐的搭建自己业务知识结构化知识库的平台和工具: 1. Coze: 影响 RAG 输出质量的因素:当下这些平台的 RAG 能力对问答场景友好,其他场景效果一般。若需要企业级复杂知识库场景,可能需要找专业团队,收费几万到几十万不等。 基础能力:包括提示词(设定 Bot 身份、目标和技能)、插件(通过 API 连接集成平台和服务)、工作流(规划和实现复杂功能逻辑)、记忆库(保留和理解对话细节,添加外部知识库)。 相关参考:编写提示(https://www.coze.cn/docs/guides/prompt)、插件介绍(https://www.coze.cn/docs/guides/create_plugin)、工作流介绍(https://www.coze.cn/docs/guides/workflow)、知识库介绍(https://www.coze.cn/docs/guides/knowledge)、数据库(https://www.coze.cn/docs/guides/database)。 2. 您还可以参考以下文章: 《小七姐:信息管理工具与方法》:从信息源的选择、信息通路的建立、知识结构化、知识内化与应用等方面展示了信息管理和知识体系搭建的过程。 《这可能是讲 Coze 的知识库最通俗易懂的文章了》:其中提到如果想使用专门搭建个人知识库的软件,可以查看《手把手教你本地部署大模型以及搭建个人知识库》(https://waytoagi.feishu.cn/wiki/ZKGmwsQhTihYZ8kdu7uccF1lnQc?from=from_copylink),忽略本地部署大模型环节,直接看其中推荐的软件。但使用该软件可能需要对接一些额外的 API,建议先了解 RAG 的原理再使用。
2025-03-05
如何让大模型输出结构化的数据
要让大模型输出结构化的数据,可以采取以下几种方法: 1. 设计合理的 Prompt 工程: 明确的待处理内容指引:在构建 Prompt 时,清晰地定义需要处理的文本,并使用标记框起来,让模型准确识别待处理内容范围。 提供明确字段定义:具体化每个字段的名称、用途及要求,为模型提供清晰的提取方向。 异常处理:设置异常处理原则,如规定缺失数据使用默认值填充,特殊数据类型符合标准格式,确保模型输出的完整性和一致性。 要求结构化输出:指示模型以结构化格式(如 JSON)输出数据,便于后续处理和系统集成。 2. 搭建工作流: 模型选择:根据需求选择合适的大模型,如默认的豆包 32k 或更大的 kimi128k 等。 配置参数:进行批处理,输入相关参数,如文章内容正文、url 链接和标题等。 提示词输入:将相关内容一起送给大模型进行总结,并拼接成特定格式输出。 汇总格式化最终输出内容:使用代码节点对大模型输出的内容进行最终格式化。 3. 探索 JSON Output 应用: 无模板的 Excel 导入:改变传统数据导入方式,通过 Prompt 读取想要的数据列。 AI 审核员:在人审环节前加 AI 审,提供相关知识和少量示例,输出简单结果。 分类器:一个 Prompt 即可完成分类任务。 应用于其它业务场景:如在一些业务场景中落地,提高效率。 但需要注意的是,过去大模型还不太成熟,应用过程可能会有一些困难。
2025-02-27
怎么让AI识别对话,并生成结构化数据存储到我的软件系统里
要让 AI 识别对话并生成结构化数据存储到软件系统里,可以参考以下方法: 1. 基于结构化数据来 RAG:如果原始数据本身就是结构化、标签化的,不必将这部分数据做向量化。结构化数据的特点是特征和属性明确,可用有限标签集描述,能用标准查询语言检索。以餐饮生活助手为例,流程包括用户提问、LLM 提取核心信息并形成标准查询、查询结构化数据、LLM 整合回复。 2. 利用 Coze 平台设计 AI 机器人:创建好 Bot 后,从“个人空间”入口找到机器人,进行“编排”设计。Coze 平台常用的概念和功能包括提示词(设定 Bot 身份和目标)、插件(通过 API 连接集成服务)、工作流(设计多步骤任务)、触发器(创建定时任务)、记忆库(保留对话细节,支持外部知识库)、变量(保存用户个人信息)、数据库(存储和管理结构化数据)、长期记忆(总结聊天对话内容)。设计 Bot 时要先确定目的,比如“AI 前线”Bot 的目的是作为 AI 学习助手,帮助职场专业人士提升在人工智能领域的知识和技能,并提供高效站内信息检索服务。 注:Coze 官方使用指南见链接:https://www.coze.cn/docs/guides/welcome ,遇到疑问也可查阅该指南。
2025-02-18
ai视频
以下是 4 月 11 日、4 月 9 日和 4 月 14 日的 AI 视频相关资讯汇总: 4 月 11 日: Pika 上线 Pika Twists 能力,可控制修改原视频中的任何角色或物体。 Higgsfield Mix 在图生视频中,结合多种镜头运动预设与视觉特效生成视频。 FantasyTalking 是阿里技术,可制作角色口型同步视频并具有逼真的面部和全身动作。 LAM 开源技术,实现从单张图片快速生成超逼真的 3D 头像,在任何设备上快速渲染实现实时互动聊天。 Krea 演示新工具 Krea Stage,通过图片生成可自由拼装 3D 场景,再实现风格化渲染。 Veo 2 现已通过 Gemini API 向开发者开放。 Freepik 发布视频编辑器。 Pusa 视频生成模型,无缝支持各种视频生成任务(文本/图像/视频到视频)。 4 月 9 日: ACTalker 是多模态驱动的人物说话视频生成。 Viggle 升级 Mic 2.0 能力。 TestTime Training在英伟达协助研究下,可生成完整的 1 分钟视频。 4 月 14 日: 字节发布一款经济高效的视频生成基础模型 Seaweed7B。 可灵的 AI 视频模型可灵 2.0 大师版及 AI 绘图模型可图 2.0 即将上线。
2025-04-20
ai视频教学
以下是为您提供的 AI 视频教学相关内容: 1. 第一节回放 AI 编程从入门到精通: 课程安排:19、20、22 和 28 号四天进行 AI 编程教学,周五晚上穿插 AI 视频教学。 视频预告:周五晚上邀请小龙问露露拆解爆火的 AI 视频制作,视频在视频号上有大量转发和播放。 编程工具 tree:整合多种模型,可免费无限量试用,下载需科学上网,Mac 可拖到文件夹安装,推荐注册 GitHub 账号用于代码存储和发布,主界面分为工具区、AI 干活区、右侧功能区等。 网络不稳定处理:网络不稳定时尝试更换节点。 项目克隆与文件夹:每个项目通过在本地新建文件夹来区分,项目运行一轮一轮进行,可新建会话,终端可重开。 GitHub 仓库创建:仓库相当于本地项目,可新建,新建后有地址,可通过多种方式上传。 Python 环境安装:为方便安装提供了安装包,安装时要选特定选项,安装后通过命令确认。 代码生成与修改:在 tree 中输入需求生成代码,可对生成的代码提出修改要求,如添加滑动条、雪花形状、颜色等,修改后审查并接受。 2. AI 视频提示词库: 神秘风 Arcane:Prompt:a robot is walking through a destroyed city,,League of Legends style,game modelling 乐高 Lego:Prompt:a robot is walking through a destroyed city,,lego movie style,bright colours,block building style 模糊背景 Blur Background:Prompt:a robot is walking through a destroyed city,,emphasis on foreground elements,sharp focus,soft background 宫崎骏 Ghibli:Prompt:a robot is walking through a destroyed city,,Spirited Away,Howl's Moving Castle,dreamy colour palette 蒸汽朋克 Steampunk:Prompt:a robot is walking through a destroyed city,,fantasy,gear decoration,brass metal robotics,3d game 印象派 Impressionism:Prompt:a robot is walking through a destroyed city,,big movements
2025-04-20
目前全世界最厉害的对视频视觉理解能力大模型是哪个
目前在视频视觉理解能力方面表现出色的大模型有: 1. 昆仑万维的 SkyReelsV1:它不仅支持文生视频、图生视频,还是开源视频生成模型中参数最大的支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其具有影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等优势。 2. 通义千问的 Qwen2.5VL:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。擅长万物识别,能分析图像中的文本、图表、图标、图形和布局等。
2025-04-15
目前全世界最厉害的视频视觉理解大模型是哪个
目前全世界较为厉害的视频视觉理解大模型有以下几个: 1. 昆仑万维的 SkyReelsV1:不仅支持文生视频、图生视频,是开源视频生成模型中参数最大且支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其优势包括影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等。 2. 腾讯的混元:语义理解能力出色,能精准还原复杂的场景和动作,如特定品种的猫在复杂场景中的运动轨迹、从奔跑到跳跃的动作转换、琴音化作七彩音符等。 3. Pixverse V3.5:全球最快的 AI 视频生成模型,Turbo 模式下可在 10 秒内生成视频,最快仅需 5 6 秒。支持运动控制更加稳定、细节表现力强、首尾帧生成功能,具备顶尖动漫生成能力。
2025-04-15
需要做一个自动化出视频的工作流
以下是一个关于自动化出视频工作流的详细介绍: 优势: 全自动化处理,解放双手。 40 秒快速出片,效率提升。 成本低廉,每条仅需 0.0x 元。 输出质量稳定专业。 DeepseekR1 保证文案质量。 还能改进,例如可以加入配套 BGM,让视频更有感染力;增加更丰富的画面内容和转场效果;使用免费节点替代付费插件,进一步降低成本;优化模板样式,支持更多展示形式;增加自动化程度,支持批量处理。 工作流程: 1. 可以在扣子商店体验,建议自己搭建。 2. 工作流调试完成后,加入到智能体中,可以选择工作流绑定卡片数据,智能体则通过卡片回复。 3. 选择发布渠道,重点如飞书多维表格,填写上架信息(为了快速审核,选择仅自己可用),确认发布等待审核,审核通过后即可在多维表格中使用。 4. 创建飞书多维表格,添加相关字段,配置选择“自动更新”,输入相关字段后,“文案视频自动化”字段捷径会自动调用工作流,生成视频。 5. 表单分享,实现“填写表单,自动创建文案短视频”的效果。 6. 全自动视频合成使用多视频融合插件,一键导出成品。但需注意节点产生的视频是异步生成,可能无法马上展现,需耐心等待几秒。 如果您还有其他疑问或需要进一步的帮助,请随时联系。
2025-04-14