Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

意图识别如何通过提示词实现

Answer

通过提示词实现意图识别通常有以下几种方式:

  1. 准备特定于任务的数据集,对模型进行 Fine-tuning,以提升其在特定意图识别任务上的表现。但此过程需要较多训练数据和计算资源。
  2. 使用 Prompt-tuning 方法,通过精心设计的提示词来引导模型识别和响应用户意图。这种方法具有灵活性和快速适应性。
  3. 对用户的指令通过提示词进行分类,以识别不同的意图,然后根据识别出的意图执行相应动作,最终输出 JSON 格式的结果。
  4. 对用户提问进行分类,如分为导航类、信息查询类、交易类、本地信息类等,匹配更准的信息源和更好的回复提示词。例如搜索“笔记本电脑”,提取出“shopping”意图,挂载相关电商平台信息源进行更小范围搜索,并加载匹配的提示词模板控制大模型回答内容。
  5. 利用大模型提供的 Function Calling 能力进行意图识别。

但目前主流的实现方案,不管是成熟的大模型还是微调的小模型,准确度都不够高。

Content generated by AI large model, please carefully verify (powered by aily)

References

新的一年,新年心语——优秀创作者

实现的整体思路如下:1.首先通过意图识别节点来识别用户他的意图1.1.春联1.2.祝福语1.3.运势1.4.闲聊2.如果是春联,则需要两个大模型节点和一个图像申城2.1.大模型节点1:生成藏头的对联2.2.大模型节点2:根据对象生成图像提示词2.3.调用一个代码节点使用文生图的能力3.如果是祝福语3.1.大模型节点1:生成祝福语3.2.大模型节点2:生成生图提示词3.3.调用代码节点使用文生图的能力4.如果是新年运势4.1.则直接通过一个大模型节点生成,要结合人的生肖、生日、出生地和性别这个智能体最关键的部分是提示词+生图的代码节点[heading1]视频教程[content][20250119213041_rec_.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/C7aAbBbtDo69nNxtSgHcjY3Tnke?allow_redirect=1)[heading1]附录提示词[heading2]配合意图识别的大模型提示词[heading2]祝福语提示词[heading2]祝福语生图提示词[heading2]运势提示词[heading2]对联生成提示词[heading2]根据对联生图提示词[heading2]接入即梦API代码节点

AI Agent系列(二):Brain模块探究

在当前使用大型模型进行意图识别的实践中,通常有两种主要方法。第一种方法是通过准备特定于任务的数据集,然后利用这些数据对模型进行Fine-tuning,以提升其在特定意图识别任务上的表现。这个过程涉及到在预训练模型的基础上进一步训练,以调整模型参数,使其更适应特定的任务需求。第二种方法是Prompt-tuning,这种方法不需要对模型的参数进行大规模调整。而是通过精心设计的提示词来引导模型,使其能够识别和响应用户的意图。这种方法的优势在于其灵活性和快速适应性,能够在不改变模型参数的情况下,迅速适应新的任务或领域。这两种方法各有千秋:微调能够提供更高的准确性,但需要较多的训练数据和计算资源;而提示词调优则在创造性和灵活性方面表现更为突出。然而,在使用大型模型进行意图识别时,我们需要注意一些潜在的问题。例如,由于意图识别在智能系统中扮演着守门人的角色,如果其准确性不足,整个系统的后续环节,包括记忆、规划和反思等,都可能受到影响,无法正常发挥作用。此外,在落地设计时,意图识别通常与特定的业务场景紧密相关,如果脱离了具体的业务需求,意图识别将失去其实际意义。因此,在设计意图识别系统时,必须将其与业务需求紧密结合,确保其能够准确地理解和响应用户的需求。如果意图识别脱离了业务背景,那么可能不如利用模型的泛化能力去执行更基本的意图识别任务。以下给大家提供一个使用prompt来设计意图识别的例子:在上述使用提示词进行意图识别的例子中,我们可以观察到几个关键点。首先,提示词对用户的指令进行了分类,以识别不同的意图。然后,根据这些识别出的意图,系统执行相应的动作。最终,系统会输出一个JSON格式的结果,这通常包含了对用户指令的解析和响应。

工具:我做了一个 AI 搜索引擎

第一种方案会有枚举无法穷尽的问题,第二种方案主要问题在于大模型的识别准确度不够高。意图识别另一个关键作用,是对用户提问进行分类,比如可以把用户的搜索意图分为:导航类:用户希望找到特定的网站或网页。例如:搜索“ThinkAny”,是为了打开ThinkAny官网;信息查询类:用户希望找到某个问题的答案或关于某个事物的详细信息。例如:搜索“什么是AI搜索引擎”,是为了了解这类产品或这个行业;交易类:用户希望进行某种交易。例如:搜索“笔记本电脑”是为了找到电脑相关的产品信息和价格信息,并进入推荐的电商网站购买。本地信息类:用户希望根据特定地理位置查找本地信息。例如:搜索“附近的烤肉店”是为了找到附近的餐馆。还有其他一些分类,包括多级子分类。照样面临枚举无法穷尽的问题。对搜索意图进行分类,可以匹配更准的信息源和更好的回复提示词。比如搜索“笔记本电脑”,如果能提取出一个“shopping”意图,就可以挂载亚马逊/淘宝/京东等电商平台的信息源进行更小范围内的搜索,召回的信息会更加精准。同时也可以加载跟此类搜索意图匹配的提示词模板,来控制搜索后的大模型回答内容。意图分类是搜索前一个非常关键的步骤,可以很大程度提升检索召回率,通过不同的提示词模板总结输出,保证了搜索结果的个性化。目前主流的实现方案,主要是通过提示词,请求大模型完成识别。不管是成熟的大模型,还是微调的小模型,准确度都不够高。大模型提供的Function Calling能力也可以理解为一种意图识别。1.问题改写Query Rewrite

Others are asking
以水稻主要物候期遥感识别为主题,生成一篇论文大纲
以下是以水稻主要物候期遥感识别为主题的一篇论文大纲示例: 一、引言 1. 研究背景与意义 2. 国内外研究现状 3. 研究目的与内容 二、水稻物候期相关理论与遥感技术基础 1. 水稻物候期的定义与特征 2. 常用的遥感技术及原理 3. 遥感数据的类型与特点 三、水稻主要物候期的遥感特征分析 1. 不同物候期水稻的光谱特征 2. 多时相遥感数据在物候期识别中的应用 3. 影响遥感识别的因素 四、水稻主要物候期遥感识别方法 1. 基于光谱特征的识别方法 2. 基于植被指数的识别方法 3. 机器学习与深度学习在物候期识别中的应用 五、实验与结果分析 1. 研究区域与数据获取 2. 实验设计与流程 3. 识别结果的精度评估 4. 结果分析与讨论 六、结论与展望 1. 研究成果总结 2. 研究的局限性 3. 未来研究方向与展望 以上大纲仅供参考,您可根据实际研究需求进行调整和完善。
2025-03-21
图片上文字识别与提取
以下是关于移动端图片视觉处理中图片上文字识别与提取的方法: 1. 图像预处理: 图像去噪:运用去噪算法(如高斯滤波、中值滤波)去除图像中的噪声。 图像增强:通过增强算法(如直方图均衡化、对比度增强)提高图像的清晰度和对比度。 2. 图像分割: 采用图像分割算法将试卷图像中的书写笔迹和背景分离,常用分割算法包括阈值分割、边缘检测和基于区域的分割方法。 3. 文字检测: 在分割后的图像中,使用文字检测算法(如基于深度学习的文本检测模型)识别出试卷上的文字区域。 4. 文字识别: 对检测到的文字区域进行文字识别,将文字内容转换为计算机可处理的文本数据。常用文字识别技术包括基于深度学习的端到端文本识别模型和传统的 OCR 技术。 5. 后处理: 根据需求进行后处理,如去除残余噪点、填补文字区域空白等。 6. 机器学习模型训练(可选): 若有足够数据,可采用机器学习技术训练模型,通过学习样本中的书写笔迹特征来自动去除试卷上的笔迹。 7. 优化算法: 对整个处理流程进行优化,提高处理速度和准确度。可采用并行计算、硬件加速等方法提升算法效率。 8. 移动端集成: 将设计好的算法和模型集成到移动应用程序中,以实现试卷拍照去除书写笔迹的功能。可使用移动端开发框架(如 iOS 的 Core ML、Android 的 TensorFlow Lite)来实现模型的部署和调用。 在 AI 拍立得的工作流中,也涉及到图片文字的提取,其核心处理能力交由阿里云百炼大模型平台端执行,该模型系统集成了多模态的大模型以及垂直领域的小模型,也包含了知识库和插件的能力,处理链条涵盖了从图片的识别与理解、图片文字的提取,再到将文字与场景内容相结合,同时也能够支持风格化重构和输出的整个过程。在 0 基础手搓 AI 拍立得的工作流中,实现图片文字提取的步骤包括上传输入图片、理解图片信息并提取图片中的文本内容信息等。
2025-03-20
我想ai生成一篇综述论文,如何让它识别我指定的60篇文献
目前的 AI 技术要识别您指定的 60 篇文献来生成综述论文具有一定的挑战。但您可以尝试以下方法:首先,将这 60 篇文献的标题、摘要和关键内容整理成清晰的文本格式,提供给 AI 作为输入。其次,使用具有强大语言理解和生成能力的 AI 工具,例如一些专业的学术写作辅助工具。在向 AI 描述需求时,要明确指出您希望它参考这些特定的文献,并对文献的重要观点、研究方法、结论等进行综合分析和总结。但需要注意的是,AI 生成的内容仍需要您进行仔细的审查和修改,以确保准确性和学术规范性。
2025-03-19
如何识别视频链接,转为文字稿
很抱歉,目前知识库中没有关于如何识别视频链接并转为文字稿的相关内容。但一般来说,您可以尝试使用以下几种方法: 1. 利用在线视频转文字工具:在网上有许多专门的工具和服务,您可以通过搜索引擎查找并选择可靠的工具来进行转换。 2. 手动听录:如果视频较短或对准确性要求较高,您可以自己通过聆听视频内容并手动记录为文字稿。 3. 借助语音识别软件:部分语音识别软件可能支持对视频中的声音进行识别并转换为文字。 希望这些建议对您有所帮助。
2025-03-19
用哪个大模型,在PDF和图片识别上精度高
在 PDF 和图片识别方面,对于图片,ChatGPT 依靠视觉模型解析,复杂图片建议使用最新模型(如 GPT4.5)。对于 PDF,ChatGPT 仅能识别文本,无法读取图表、图片,复杂布局可能导致误读。一些初步实验表明,一些开源的 PDF 解析方法可能无法达到高质量要求,而当辅以可以有效提取文档中的结构化信息并将其整合为提示词(Prompt)的 PDF 解析器时,大语言模型能够作出更准确的响应。
2025-03-18
OCR识别
OCR 识别是指对图片进行光学字符识别,以获取图片中的文本信息。以下是关于 OCR 识别的一些相关内容: 在拍立得工作流中,OCR 识别可对图片进行处理,获取文本信息,并对识别结果进行调整和优化。 GPT 在进行 OCR 识别时可能存在问题,如开启代码执行功能时会尝试用代码完成 OCR 导致无法正确识别图片文字。解决方案包括:如果是自定义 GPT,关闭 Code Interpreter;无法关闭时,提问时明确说明“不要执行代码,请用自身多模态能力识别文字”;直接使用 ChatGPT 而非 GPT。 在移动端试卷拍照去除书写笔迹方面,OCR 识别可作为其中的一个环节。具体步骤包括图像预处理(去噪、增强)、图像分割、文字检测、文字识别、后处理等,还可以进行机器学习模型训练和算法优化,并将其集成到移动端应用程序中。
2025-03-18
意图识别
意图识别是根据输入的内容决定后续环节的流程,有点像 if/else 。从输出看,其 reason 通常为英文。可以简单理解为是一个简化版的大语言模型节点,为更精准识别,可优化选项使其更精准凝练,不行的话可换用大语言模型节点。 在自然语言处理领域,意图识别已被广泛讨论。随着大型模型兴起,尤其是用作智能体的 Brain 模块时,承担了主要工作任务。当用户输入指令,通过感知模块传递到 Brain 模块,Brain 模块需做出反应,本质上是一种分类任务,区分用户具体意图,在单一或多智能体系统中都至关重要。通过如 Siri、小爱同学等常见智能助手的例子可更直观理解。大型模型执行意图识别任务主要基于前期大量数据训练得到的模型,可通过微调适应特定领域需求。 在 Manus 多智能体通用任务系统中,意图识别从用户输入中提取关键词和任务类型,引导用户补充信息以明确需求。
2025-03-12
产品经理在设计AI产品功能时候,需要设计意图识别吗?怎么设计呢
产品经理在设计 AI 产品功能时,需要设计意图识别。以下是关于意图识别的相关内容: 意图识别的定义:当用户输入指令,这些指令通过感知模块传递到 Brain 模块,Brain 模块需要对这些指令做出反应。这个过程在本质上是一种分类任务,即识别并区分用户的具体意图。无论是在单一智能体架构还是复杂的多智能体系统中,意图识别都扮演着至关重要的角色。 意图识别的实现方式: 1. 通过准备特定于任务的数据集,然后利用这些数据对模型进行 Finetuning,以提升其在特定意图识别任务上的表现。这个过程涉及到在预训练模型的基础上进一步训练,以调整模型参数,使其更适应特定的任务需求。 2. Prompttuning,这种方法不需要对模型的参数进行大规模调整。而是通过精心设计的提示词来引导模型,使其能够识别和响应用户的意图。这种方法的优势在于其灵活性和快速适应性,能够在不改变模型参数的情况下,迅速适应新的任务或领域。 这两种方法各有优缺点:微调能够提供更高的准确性,但需要较多的训练数据和计算资源;而提示词调优则在创造性和灵活性方面表现更为突出。 在使用大型模型进行意图识别时,需要注意一些潜在的问题: 1. 由于意图识别在智能系统中扮演着守门人的角色,如果其准确性不足,整个系统的后续环节,包括记忆、规划和反思等,都可能受到影响,无法正常发挥作用。 2. 在落地设计时,意图识别通常与特定的业务场景紧密相关,如果脱离了具体的业务需求,意图识别将失去其实际意义。因此,在设计意图识别系统时,必须将其与业务需求紧密结合,确保其能够准确地理解和响应用户的需求。如果意图识别脱离了业务背景,那么可能不如利用模型的泛化能力去执行更基本的意图识别任务。 以下是一个使用 prompt 来设计意图识别的例子:在上述使用提示词进行意图识别的例子中,提示词对用户的指令进行了分类,以识别不同的意图。然后,根据这些识别出的意图,系统执行相应的动作。最终,系统会输出一个 JSON 格式的结果,这通常包含了对用户指令的解析和响应。 在未来的 AI 学习产品中,除了拥有大模型之外,还需要拥有其他的基础设施,包括但不仅限于具备学习任务规划能力的小参数规模模型、意图识别模型、多模态交互模型、搜索引擎、既有的知识库等等。
2025-03-06
有生成示意图的好工具么?
以下是一些生成示意图的好工具: 1. Creately: 简介:在线绘图和协作平台,利用 AI 功能简化图表创建过程,适合绘制流程图、组织图、思维导图等。 功能:智能绘图功能,可自动连接和排列图形;丰富的模板库和预定义形状;实时协作功能,适合团队使用。 官网:https://creately.com/ 2. Whimsical: 简介:专注于用户体验和快速绘图的工具,适合创建线框图、流程图、思维导图等。 功能:直观的用户界面,易于上手;支持拖放操作,快速绘制和修改图表;提供多种协作功能,适合团队工作。 官网:https://whimsical.com/ 3. Miro: 简介:在线白板平台,结合 AI 功能,适用于团队协作和各种示意图绘制,如思维导图、用户流程图等。 功能:无缝协作,支持远程团队实时编辑;丰富的图表模板和工具;支持与其他项目管理工具(如 Jira、Trello)集成。 官网:https://miro.com/ 4. Lucidchart: 简介:强大的在线图表制作工具,集成了 AI 功能,可以自动化绘制流程图、思维导图、网络拓扑图等多种示意图。 功能:拖放界面,易于使用;支持团队协作和实时编辑;丰富的模板库和自动布局功能。 官网:https://www.lucidchart.com/ 5. Microsoft Visio: 简介:专业的图表绘制工具,适用于复杂的流程图、组织结构图和网络图。其 AI 功能可以帮助自动化布局和优化图表设计。 功能:集成 Office 365,方便与其他 Office 应用程序协同工作;丰富的图表类型和模板;支持自动化和数据驱动的图表更新。 官网:https://www.microsoft.com/enus/microsoft365/visio/flowchartsoftware 6. Diagrams.net: 简介:免费且开源的在线图表绘制工具,适用于各种类型的示意图绘制。 功能:支持本地和云存储(如 Google Drive、Dropbox);多种图形和模板,易于创建和分享图表;可与多种第三方工具集成。 官网:https://www.diagrams.net/ 使用 AI 绘制示意图的步骤: 1. 选择工具:根据具体需求选择合适的 AI 绘图工具。 2. 创建账户:注册并登录该平台。 3. 选择模板:利用平台提供的模板库,选择适合需求的模板。 4. 添加内容:根据需求,添加并编辑图形和文字。利用 AI 自动布局功能优化图表布局。 5. 协作和分享:如果需要团队协作,可以邀请团队成员一起编辑。完成后导出并分享图表。 示例:假设需要创建一个项目管理流程图,可以按照以下步骤使用 Lucidchart: 1. 注册并登录:https://www.lucidchart.com/ 2. 选择模板:在模板库中搜索“项目管理流程图”。 3. 编辑图表:根据项目需求添加和编辑图形和流程步骤。 4. 优化布局:利用 AI 自动布局功能,优化图表的外观。 5. 保存和分享:保存图表并与团队成员分享,或导出为 PDF、PNG 等格式。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-02-12
举例说明,意图和FAQ训练的区别
意图和 FAQ 训练是两种不同的概念。 意图训练主要侧重于理解用户的核心意图或目的。例如,在一个客服场景中,用户的意图可能是查询产品信息、寻求技术支持或进行投诉等。通过对大量的用户交互数据进行分析和学习,模型能够识别出这些不同的意图类别。 FAQ 训练则侧重于常见问题及其对应的标准答案。比如常见的“产品如何退换货”“售后服务的联系方式是什么”等问题,以及相应的准确回答。 总的来说,意图训练更注重对用户目的的分类和理解,而 FAQ 训练更侧重于对特定常见问题的准确回答。
2025-01-13
意图和FAQ最明显的区别是什么
意图和 FAQ 最明显的区别在于:意图通常指的是用户行为背后的目的或期望,它更侧重于理解用户的深层需求和动机。而 FAQ(常见问题解答)则是预先准备好的一系列常见问题及其对应的标准答案,主要用于快速回答用户可能提出的一般性问题。 总的来说,意图关注的是挖掘用户潜在的想法和目标,FAQ 则是针对常见问题提供现成的解答。
2025-01-13
意图识别
意图识别是根据输入的内容决定后续环节的一种方式,类似于 if/else 。从输出看,其 reason 通常为英文。它可以被理解为简化版的大语言模型节点,为更精准识别,可优化选项,若不行可换大语言模型节点。 在自然语言处理领域,意图识别虽已被广泛讨论,但随着大型模型兴起,尤其在用作智能体的 Brain 模块时,承担了主要工作任务。其本质是对用户输入指令的分类任务,在单一或多智能体系统中都至关重要。通过如 Siri、小爱同学等常见智能助手的例子可更直观理解。大型模型执行意图识别任务主要基于大量数据训练得到的模型,可通过微调适应特定领域需求。 在 AI 搜索中,意图识别的关键作用是对用户提问进行分类,如分为导航类、信息查询类、交易类、本地信息类等,还包括多级子分类,但面临枚举无法穷尽的问题。对搜索意图分类可匹配更准的信息源和更好的回复提示词,很大程度提升检索召回率,保证搜索结果个性化。目前主流实现方案主要通过提示词请求大模型完成识别,但准确度不够高,大模型的 Function Calling 能力也可理解为一种意图识别。
2024-12-25
提示词
以下是关于提示词的全面介绍: 一、什么是提示词 提示词用于描绘您想要的画面。在星流一站式 AI 设计工具中,不同的基础模型对输入语言有不同要求,如通用大模型与基础模型 F.1、基础模型 XL 使用自然语言(一个长头发的金发女孩),基础模型 1.5 使用单个词组(女孩、金发、长头发),且支持中英文输入。启用提示词优化后,能帮您扩展提示词,更生动地描述画面内容。 二、如何写好提示词 1. 预设词组:小白用户可以点击提示词上方官方预设词组进行生图。 2. 提示词内容准确:包含人物主体、风格、场景特点、环境光照、画面构图、画质等,比如:一个女孩抱着小猫,背景是一面红墙,插画风格、孤独感,高质量。 3. 调整负面提示词:点击提示框下方的齿轮按钮,弹出负面提示词框。负面提示词可以帮助 AI 理解我们不想生成的内容,比如:不好的质量、低像素、模糊、水印。 4. 利用“加权重”功能:可在功能框增加提示词,并进行加权重调节,权重数值越大,越优先。还可对已有的提示词权重进行编辑。 5. 辅助功能:包括翻译功能(一键将提示词翻译成英文)、删除所有提示词(清空提示词框)、会员加速(加速图像生图速度,提升效率)。 三、提示词要素 提示词由一些要素组成,包括指令(想要模型执行的特定任务或指令)、上下文(包含外部信息或额外的上下文信息,引导语言模型更好地响应)、输入数据(用户输入的内容或问题)、输出指示(指定输出的类型或格式)。但提示词所需的格式取决于您想要语言模型完成的任务类型,并非所有要素都是必须的。 四、提示工程与提示词的区别 提示工程是人工智能领域中一个相对较新的概念,涉及设计和优化输入提示以引导 AI 模型生成特定类型的输出或执行特定的任务。其关键点包括精确性、创造性、迭代、上下文理解。提示词通常指直接输入到 AI 模型中的问题、请求或指示,是提示工程的一部分。提示工程是一个更广泛的概念,不仅包括创建提示词,还涉及理解模型的行为、优化提示以获得更好的性能、以及创造性地探索模型的潜在应用。提示工程的目标是最大化 AI 模型的效用和性能,提示词是实现这一目标的手段之一。在实际应用中,提示工程可能包括对 AI 模型的深入分析、用户研究、以及对特定任务的定制化提示设计。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-03-23
即梦提示词的描述结构框架是什么
即梦提示词的描述结构框架主要包括以下方面: 1. 提示词基础架构: 主体/场景 场景描述 环境描述 艺术风格/媒介 调整句式和语序,避免主体物过多/复杂、主体物分散的句式描述。 避免模糊的术语表达,尽可能准确。 使用更加流畅准确的口语化措辞,避免过度文学化的叙述。 丰富、准确和完整的描述才能生成特定艺术风格、满足需求的视频。 2. 提示词与画面联想程度的说明: 以单帧图像为例介绍提示词与画面联想的关系。 基础词示例:玻璃桌上的咖啡杯,杯子外面写着单词 LOVE。 适度联想扩充:花园里(具体的位置描述)的透明(材质描述)玻璃桌上的咖啡杯,杯子外面写着单词 LOVE,周围满是盛开的鲜花(具体的位置描述/环境描述),和煦的阳光洒满整个花园(环境描述),Claude Monet(艺术家风格),印象派风格(艺术流派风格)。 联想关键点: 具体详实的位置描述/环境描述:笼统来讲就是在进行构图,可以帮助构建画面的基本呈现效果。 艺术风格描述:进一步提升效果和氛围,统一画面风格。 此外,结构化提示词框架还包括: 1. 标识符:如 、<> 等符号(、 也是),依次标识标题、变量,控制内容层级,用于标识层次结构。 2. 属性词:如 Role、Profile、Initialization 等等,包含语义,是对模块下内容的总结和提示,用于标识语义结构。 您可以把结构化提示词框架当做提示词的八股文标准,在不了解如何开始进行提示词设计的时候,当做一个通用的标准格式来使用。结构化提示词的概念在行业内应用广泛且成熟度较高,您可以在即刻、知识星球、知乎等很多地方看到优秀的类型案例。例如以下案例: 关于结构化提示词的理论感兴趣想要进一步了解更多信息的朋友,推荐大家阅读李继刚和云中江树的详细理论原文: 结构化语法提示词示例:可以在 AGI 的下列板块看到非常多优秀的结构化 Prompt 示例。
2025-03-23
绘画小白,怎么知道即梦绘画的提示词怎么写
对于绘画小白来说,以下是一些关于即梦绘画提示词编写的方法和要点: 1. 用自然语言详细描述画面内容,避免使用废话词。比如,如果要画一个人物,要描述其服饰、发型、妆容、配饰、表情、背景等元素。 2. 强调人机交互,对输出图片根据想象进行二次和多次微调,确定情绪、风格等锚点再发散联想。 3. 考虑趣味性与美感,趣味性可以通过反差、反逻辑、超现实方式带来视觉冲击,美感需在美术基础不出错前提下形式与内容结合。 4. 对于特定的主题,如魔法少女,发散联想其服饰、场景、相关元素等,并可采用反逻辑反差方式。 5. 了解光源知识也很重要,光源包含自然光(如太阳光、月光)、人造光(如手电筒、路灯、闪光灯等,掌控性和对比度强)、环境光(来自周围自然环境,是折射光线,在表现主体与环境关系时重要)。不同的光,如暖光与冷光会带来不同情绪,光的方向对画面叙事很重要,不同方向光线能体现氛围、表达情绪。光的质量(硬光、强光、柔光)也会对塑造角色形象产生作用,掌握这些知识对写提示词很重要。 6. 可以参考一些实际的示例,比如皮克斯风格的三宫格漫画:一只小狗,坐在办公桌前,文字“KPI达标了吗?”。一只小狗,拿着一个写满计划的大本子,微微皱着眉头,文字“OKR写好了吗?”。一只小狗坐在电脑前,文字“PPT做好了吗?”。 您可以按照以上方法和要点,结合自己的创意和需求,尝试编写即梦绘画的提示词。
2025-03-23
常用的提示词有哪些?
以下是一些常用的提示词: AI 绘画方面: 画面构图提示词:Chest Shot脸部特写。 情绪和氛围提示词:moody 暗黑的、happy 鲜艳的/浅色的、dark 黑暗的、epic detail 超细节的、Brutal 残酷的/破碎的、dramatic contrast 强烈对比的、hopeful 充满希望的、anxious 焦虑的、depressed 沮丧、elated 高兴地、upset 难过的、fearful 令人恐惧的、hateful 令人憎恨的、happy 高兴、excited 兴奋、angry 生气、afraid 害怕。 【SD】文生图方面: 正向提示词:, drawing, paintbrush。 反向提示词:NSFw, 。 星流一站式 AI 设计工具方面: 提示词用于描绘想生成的画面,输入语言支持中英文。星流通用大模型与基础模型 F.1、基础模型 XL 使用自然语言(如一个长头发的金发女孩),基础模型 1.5 使用单个词组(如女孩、金发、长头发)。 写好提示词的要点包括:内容准确,包含人物主体、风格、场景特点、环境光照、画面构图、画质,如一个女孩抱着小猫,背景是一面红墙,插画风格、孤独感,高质量;调整负面提示词,可点击提示框下方的齿轮按钮,负面提示词能帮助 AI 理解不想生成的内容,如不好的质量、低像素、模糊、水印;利用“加权重”功能,在功能框增加提示词并进行加权重调节,权重数值越大越优先,还可对已有的提示词权重进行编辑。此外,还有一些辅助功能,如翻译功能可一键将提示词翻译成英文,删除所有提示词可清空提示词框,会员加速能提升图像生图速度和效率。小白用户可以点击提示词上方官方预设词组进行生图。
2025-03-22
ai绘画提示词思路和模板
以下是关于 AI 绘画提示词的思路和模板的相关内容: 提示词模板的相关网站: 1. Majinai: 2. 词图: 3. Black Lily: 4. Danbooru 标签超市: 5. 魔咒百科词典: 6. AI 词汇加速器: 7. NovelAI 魔导书: 8. 鳖哲法典: 9. Danbooru tag: 10. AIBooru: 描述逻辑: 通常的描述逻辑包括人物及主体特征(服饰、发型发色、五官、表情、动作),场景特征(室内室外、大场景、小细节),环境光照(白天黑夜、特定时段、光、天空),画幅视角(距离、人物比例、观察视角、镜头类型),画质(高画质、高分辨率),画风(插画、二次元、写实)。 辅助工具和方法: 1. 利用相关功能型辅助网站,如 http://www.atoolbox.net/,通过选项卡方式快速填写关键词信息。 2. 参考 https://ai.dawnmark.cn/,其每种参数有缩略图可参考,更直观选择提示词。 3. 去 C 站(https://civitai.com/)抄作业,每张图有详细参数,可复制粘贴到正向提示词栏,注意图像作者使用的大模型和 LORA,也可选取部分好的描述词,如人物描写、背景描述、小元素或画面质感等。 在制作游戏 PV 时的应用: 1. 在故事背景创作阶段,结合 chatGPT 发散制作游戏背景世界观,针对话术改进故事,筛选满意的故事框架内容优化。 2. 引导 ChatGPT 用分镜形式描述。 3. 使用 new bing 共创的故事分镜。 4. 利用 ChatGPt 制作 midjourney 提示词工具,使用生动感性术语和具体细节描述场景,告知 MJ 格式后进入 midjourney 绘图,包括制作 logo。 5. 统一 MJ 风格描述词,建立 AI 描述词模板,根据不同内容更换(如视角、景别、情绪词、画面色调),生成不同画面,提高效率和统一性。 下次作图时,可先选择模板,点击倒数第二个按钮快速输入标准提示词,查看加入标准提示词后的效果。
2025-03-22
怎样写提示词?
写提示词(prompt)是一个关键步骤,决定了 AI 模型如何理解并生成文本。以下是一些编写提示词的建议和方法: 1. 明确任务:清晰定义任务,如写故事时包含背景、角色和主要情节。 2. 提供上下文:若任务需特定背景知识,提供足够信息。 3. 使用清晰语言:用简单、清晰的语言描述,避免模糊或歧义词汇。 4. 给出具体要求:如有特定格式或风格要求,在提示词中明确指出。 5. 使用示例:提供期望结果的示例,帮助 AI 模型理解需求。 6. 保持简洁:简洁明了,避免过多信息导致模型困惑。 7. 使用关键词和标签:有助于模型理解任务主题和类型。 8. 测试和调整:生成文本后检查结果,根据需要调整提示词,可能需多次迭代。 不同的工具和场景中,写提示词也有一些特定的要点: 星流一站式 AI 设计工具: 输入语言:通用大模型与基础模型 F.1、基础模型 XL 使用自然语言,基础模型 1.5 使用单个词组,支持中英文输入。 提示词优化:启用后可扩展提示词,更生动描述画面。 写好提示词:内容准确,包含人物主体、风格、场景特点等;调整负面提示词,帮助 AI 理解不想生成的内容;利用“加权重”功能让 AI 明白重点内容;使用辅助功能,如翻译、删除所有提示词、会员加速等。 【SD】文生图: 描述逻辑:人物及主体特征(服饰、发型发色等),场景特征(室内室外等),环境光照(白天黑夜等),画幅视角(距离等),画质,画风。 辅助方法:利用功能型辅助网站,如 http://www.atoolbox.net/、https://ai.dawnmark.cn/ 填写关键词;去 C 站(https://civitai.com/)抄作业,注意图像作者使用的大模型和 LORA。
2025-03-21
我想学习有关ai的知识,但是并不是单单的系统性的学,而是想利用现有的模型比如说deep seekr1模型来训练一个自己的模型这样的,来实现某些功能
以下是关于 DeepSeek R1 模型的相关知识: 1. DeepSeek R1 引入了纯强化学习(RL),不依赖大量人类标注数据,而是通过自我探索和试错来学习。在“冷启动”阶段,仅通过少量人工精选的思维链数据进行初步引导,建立符合人类阅读习惯的推理表达范式,随后主要依靠强化学习,在奖励系统的反馈下(只对结果准确率与回答格式进行奖励),自主探索推理策略,不断提升回答的准确性,实现自我进化。准确率奖励用于评估最终答案是否正确,格式奖励强制结构化输出,让模型把思考过程置于<think></think>标签之间。 2. 与其他模型相比,Alpha Zero 只训练了三天,就以 100 比 0 的战绩完胜 Alpha Go Lee,Alpha Go(老)采用监督学习+强化学习,学习人类棋谱,更接近人类职业棋手风格,继承了人类的局限,Alpha Zero(新)完全摒弃人类数据的纯强化学习,从零开始自我博弈,不受限于人类经验,具有创造性的下棋风格。DeepSeek R1 在训练中更注重学习推理的底层策略,培养通用推理能力,使其能够实现跨领域的知识迁移运用和推理解答。 3. 使用 DeepSeek R1 给老外起中文名的操作指引: 点击邀请,复制邀请链接或下载邀请海报分享给好友。 打开火山引擎的模型页面(https://zjsms.com/iP5QRuGW/),使用习惯的方式登录。 登录后点击左侧列表里的“在线推理”,再点击“快速入门”。 获取 API Key,点击“创建 API Key”,可修改名字后创建,创建完成后点击“查看并选择”,将“已复制”的提示内容找个地方存一下。 复制 R1 的调用示例代码,选择模型为“DeepSeek R1”,修改示例代码中的相关内容,然后点击右侧的复制按钮,将代码找个地方存起来。 上述接入方法是快速入门方式,平台会自动创建在线推理接入点,并提供 50 万 Token 的免费额度,用完才需充值。如需充值,点击页面右上角的“费用”》“充值汇款”,根据账单适当充值。 4. DeepSeek R1 不同于先前的普通模型,它与 OpenAI 现在最先进的模型 o1、o3 同属于基于强化学习 RL 的推理模型。在回答用户问题前,R1 会先进行“自问自答”式的推理思考,提升最终回答的质量,这种“自问自答”是在模拟人类的深度思考,其“聪明”源于独特的“教育方式”,在其他模型还在接受“填鸭式教育”时,它已率先进入“自学成才”新阶段。
2025-03-22
如何运用Trae设计实现前端代码并转化为原型图
以下是运用 Trae 设计实现前端代码并转化为原型图的相关内容: 1. 控制按钮(开始、暂停、重新开始)和游戏说明。 2. 生成任务清单应用:在输入框中输入“使用 Web 技术开发一个任务清单应用”,可得到一个朴素但功能俱全的任务清单应用。 3. 根据 UI 设计图自动生成项目代码:从站酷上找设计图,输入提示如“使用 html 技术实现如图大屏页面”,页面虽不完美但可调整,如“调整一下,给图表设置合适的宽高比例,自适应页面大小”,能使图表大小正常。 总结: Trae 表现可圈可点,具有高效代码生成能力,能在几分钟内生成完整框架,代码结构清晰且功能齐全,能自动处理依赖项和运行命令。 支持多技术栈,从 HTML5、响应式 CSS 布局到 Echarts 图表实现,对 Web 技术掌握良好,生成的代码可直接运行且无明显语法错误。 具有动态调整潜力,虽未完美复现设计图,但能根据用户反馈快速调整样式,自适应布局的实现展现了迭代能力。 现在的 AI 越来越强大,小白不需要懂代码也能用 AI 编程工具进行程序开发,这让程序员感到深深的危机感。
2025-03-21
Stable Diffusion 是 Diffusion Model 的优化版本,引入了潜在空间(Latent Space)技术,这个潜在空间(Latent Space)是什么意思,它的实现原理是什么?
在 Stable Diffusion 模型中,潜在空间(Latent Space)指的是图像的潜在分布,它包含了与图像相关的所有信息。 图像被映射到潜在空间后,扩散过程在这个空间中进行。ComfyUI 中的许多操作都在潜在空间中进行,如 KSampler 节点就是在这个空间中执行采样过程。在潜在空间中,通过节点调整对潜在空间的操作,如噪声添加、去噪步数等,这部分通常由潜在空间操作模块来实现。 在 Stable Diffusion 模型中,图像的潜在分布是通过一个编码器解码器结构来学习的。编码器将图像映射到潜在空间,而解码器则将潜在空间中的向量映射回图像空间。通过这种方式,模型可以学习到图像的潜在分布,从而实现图像生成、编辑和操作。 在采样过程中,Stable Diffusion 模型通过逐步降低噪声水平来生成图像。在这个过程中,模型根据当前的噪声水平预测图像的潜在分布,然后根据这个分布生成一个新的图像。这个过程重复进行,直到生成一个高质量的图像。 与之对应的是像素空间(Pixel Space),像素空间指的是图像中每个像素的原始颜色或强度值所组成的空间。图像可以看作是一个二维或三维的矩阵,其中每个元素代表一个像素。在像素空间中,图像的表示是密集的,且包含了大量的细节信息。
2025-03-21
如何一步一步实现RAG 模型的私有化部署
要一步一步实现 RAG 模型的私有化部署,可参考以下步骤: 1. 导入依赖库:加载所需的库和模块,如 feedparse 用于解析 RSS 订阅源,ollama 用于在 python 程序中跑大模型,使用前需确保 ollama 服务已开启并下载好模型。 2. 从订阅源获取内容:通过特定函数从指定的 RSS 订阅 url 提取内容,若需接收多个 url 稍作改动即可。然后用专门的文本拆分器将长文本拆分成较小块,并附带相关元数据,如标题、发布日期和链接,最终合并成列表返回用于后续处理或提取。 3. 为文档内容生成向量:使用文本向量模型 bgem3,从 hf 下载好模型后放置在指定路径,通过函数利用 FAISS 创建高效的向量存储。 4. 关于 ollama: 支持多种大型语言模型,包括通义千问、Llama 2、Mistral 和 Gemma 等,适用于不同场景。 易于使用,适用于 macOS、Windows 和 Linux 系统,同时支持 cpu 和 gpu。 提供模型库,用户可从中下载不同模型,满足不同需求和硬件条件,可通过 https://ollama.com/library 查找。 支持自定义模型,可修改模型温度参数等。 提供 REST API 用于运行和管理模型及与其他应用集成。 社区贡献丰富,有多种集成插件和界面。 需先安装,访问 https://ollama.com/download/ 下载安装,安装后确保 ollama 后台服务已启动。 5. 基于用户问题从向量数据库中检索相关段落,根据设定阈值过滤,让模型参考上下文信息回答问题实现 RAG。 6. 创建网页 UI:通过 gradio 创建网页 UI 并进行评测。 总结: 1. 本文展示了如何使用 Langchain 和 Ollama 技术栈在本地部署资讯问答机器人,结合 RSSHub 处理和提供资讯。 2. 上下文数据质量和大模型的性能决定 RAG 系统性能上限。
2025-03-20
如何实现function call
实现 Function Call 主要有以下几种方式和要点: 1. 方式: Json Output:通过 Prompt 让模型输出 JSON 格式内容,但 Prompt 麻烦,输出不稳定,串业务成本高。 Json Mode:官方 Json Output,与 Tools 适用场景不同,JSON mode 为输出 JSON 存在,Tools 为 Call API 存在。 Function Calling 和 Tools:从可控角度推荐使用。 2. 要点: 放弃 JSON mode:模型输出 JSON 仍可能出错,模型厂家对 Function Calling 有微调优化。 降低 System prompt 依赖,化繁为简:System prompt 内容多,不能保证模型遵循,能在 Tools 里写的尽量写在里面。 API Response 增强 Prompt:Tools 调用结果返回给模型时,可增加约束和提示,准确率高。 尽量让模型做选择,而不是填空:将确定答案做成选项,如用 Enum 方式,减少 token 输出,提高速度和准确率。 利用 Tools 来做 Route,构建 Multi Agent:一个不行就增加数量,术业有专攻。 此外,OpenAI 发布函数调用及其他 API 更新,开发人员可向 gpt40613 和 gpt3.5turbo0613 描述函数,让模型智能输出包含调用函数所需参数的 JSON 对象,这是连接 GPT 能力与外部工具和 API 的新方法。例如在本地写函数执行查询,根据 GPT 返回的函数名和参数来操作,也可将函数改为更灵活的 SQL 查询。在实际业务中,可根据需求选择函数查询或 SQL 查询。另外,LangChain 内置的 openapifunction call 也可用于相关开发,实际业务中可能需结合内置业务流程,如判断用户问题是否相关、引导式提问等。
2025-03-19
微信SVG图文 什么AI可以帮我实现
Jianhua.Art 是一个能够通过自然语言设计图文和动画的浏览器插件。它目前是阉割版本,几乎离线(除大模型调用),无数据库和用户体系,数据存本地。只要有 OpenAI 格式的大模型 key 就能免费使用,能为网页设计生成分享海报。默认模板内置粗糙的网页总结,可生成 SVG 图片,还能对生成内容进行多种操作,如修改 SVG 代码、复制为 PNG 图片或下载 SVG 图片,插入微信、微信公众号、Figma 等地方,插入 Figma 时是分层的方便编辑。作者会考虑增加 SVG 插入微信公众号等更多地方的功能,还建了反馈群,短期内免费使用,只要有 Token 就能白嫖。若想用网页内容提取功能,创建应用时打开提取开关,支持提取的变量都已列出,复制粘贴到提示词里即可。
2025-03-18