直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

怎么评估提示词的效果?

回答

评估提示词的效果可以从以下几个方面进行:

  1. 模型的准确率:观察模型生成的回答与预期结果的匹配程度。
  2. 流畅度:检查生成的文本在语言表达上是否通顺、自然。
  3. 相关性:判断生成的内容与提示词所表达的意图和需求的关联程度。

提示词工程师在评估提示词效果时,通常会采取以下步骤和方法:

  1. 设计提示:根据用户需求和模型能力,精心考虑提示的长度、结构、措辞和信息量等因素,以清晰传达用户意图。
  2. 优化提示:通过收集用户反馈、分析模型结果和实验不同的提示策略等方式,不断改进提示。
  3. 实际测试:包括对基础提示词模板的测试,确保其能兼容国内外各种模型,并生成拟人化的提示词,然后将其应用于不同模型中评估实际应用效果和适应性。

此外,提示工程有几项核心原则:

  1. 编写清晰的指令。
  2. 将复杂任务分解为简单任务。
  3. 给模型一定的时间空间思考。
  4. 系统地测试性能变化。

要提高提示技巧,应多学习和实践。同时,可以参考大模型厂商的提示工程指南,以及 LangGPT 结构化提示词知识库中的相关资料,如:http://feishu.langgpt.ai/

内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

问:什么是提示词工程师(Prompt Engineer)

[title]问:什么是提示词工程师(Prompt Engineer)提示词工程师(Prompt Engineer)是指在与人工智能模型进行交互时,负责设计和优化提示的专业人员。他们的目标是通过精心构造的提示,引导模型产生准确、有用和相关的回答。作为提示词工程师,他们需要具备一定的领域知识、理解人工智能模型的能力以及对用户需求的敏感性。提示词工程师的主要职责包括:设计提示:提示词工程师需要根据用户需求和模型能力设计有效的提示。他们需要考虑提示的长度、结构、措辞和信息量等因素,以确保提示能够清晰地传达用户意图并引导模型生成满意的结果。优化提示:提示词工程师需要不断优化提示,以提高模型的性能。他们可以通过收集用户反馈、分析模型结果和实验不同的提示策略等方式来优化提示。评估提示:提示词工程师需要评估提示的有效性。他们可以使用各种指标来评估提示,例如模型的准确率、流畅度和相关性等。提示词工程师需要具备以下技能和知识:领域知识:提示词工程师需要对他们所工作的领域有深入的了解,以便能够设计出有效的提示。自然语言处理(NLP):提示词工程师需要了解NLP的基本原理和技术,以便能够理解和生成自然语言文本。人工智能(AI):提示词工程师需要了解AI的基本原理和技术,以便能够理解和使用AI模型。沟通能力:提示词工程师需要具备良好的沟通能力,以便能够与用户、团队成员和其他利益相关者有效沟通。提示词工程师是一个新兴的职业,随着人工智能技术的不断发展,对提示词工程师的需求将会越来越大。以下是一些提示词工程师工作的实际案例:

提示词母体系列(2):再进阶,一分钟创建你的拟人化小助理

[title]提示词母体系列(2):再进阶,一分钟创建你的拟人化小助理[heading1]四、实际测试在全面理解了提示词的结构和内容后,我们自然要进行实际测试,看看这个模板在实际应用中的效果如何。我们的测试流程包括两个大部分。首先,我们对基础的提示词模板进行测试,以确保它能够兼容国内外的各种模型,并成功生成拟人化的提示词。之后,我们将这些拟人化提示词应用于不同的模型中,进一步评估它们的实际应用效果和适应性。

3. 如何让 LLM 应用性能登峰造极

提示词是调用大模型能力的接口,精心设计的提示词可以大大提高模型的准确性和相关性。相比其他技术,通过提示工程优化LLM性能门槛更低、成本也更低。在优化LLM性能的过程中,提示工程往往是要做的第一件事情(若能始于提示工程,终于提示工程则最好啦hh)。基于提示工程快速建立应用原型,并且以此为性能参考基准,用于后续优化性能对比。使用提示工程构建好应用之后,要进一步提高性能则可以考虑添加外部辅助工具、添加参考内容等手段,这就涉及到RAG、Agents等相关技术。鉴于提示词对LLM的核心作用,在实际中,进行RAG、微调或其他高级技术之后也应该再次进行提示工程优化提示词,如前面所说,提示工程贯穿LLM性能优化过程的始终。提示工程的几项核心原则就是:编写清晰的指令将复杂任务分解为简单任务给LLM一定的时间空间思考系统的测试性能变化几项原则看着简单,实践却是不易,要提高提示技巧应多学多练。关于如何写好prompt网上的资料有很多了,推荐阅读几家大模型厂商的提示工程指南,LangGPT结构化提示词知识库中也有很多高质量资料和提示词,在此不再赘述。LangGPT结构化提示词知识库:[http://feishu.langgpt.ai/](http://feishu.langgpt.ai/)在提示工程进行过程中和后续进一步的性能优化过程中,如何知道性能是否变好呢?如何系统的测试性能变化?下面讲讲如何做好性能评估

其他人在问
如何对rag进行评估
对 RAG 进行评估可以从以下几个方面入手: 1. 使用 RAG 三角形的评估方法: 在 LangChain 中创建 RAG 对象,使用 RAGPromptTemplate 作为提示模板,指定检索系统和知识库的参数。 在 TruLens 中创建 TruChain 对象,包装 RAG 对象,指定反馈函数和应用 ID。反馈函数可使用 TruLens 提供的 f_context_relevance、f_groundness、f_answer_relevance,也可自定义。 使用 with 语句运行 RAG 对象,记录反馈数据,包括输入问题、得到的回答以及检索出的文档。 查看和分析反馈数据,根据 RAG 三角形的评估指标评价 RAG 的表现。 2. 建立评估框架将检索性能与整个 LLM 应用程序隔离开来,从以下角度评估: 模型角度(generation): 回答真实性:模型结果的真实性高低(减少模型幻觉)。 回答相关度:结果和问题的相关程度,避免南辕北辙。 检索角度(retrieval): 召回率(recall):相关信息在返回的检索内容中的包含程度,越全越好。 准确率(precision):返回的检索内容中有用信息的占比,越多越好。 3. 考虑以下评估方法和指标: 生成质量评估:常用自动评估指标(如 BLEU、ROUGE 等)、人工评估和事实验证,衡量生成文本的流畅性、准确性和相关性。 检索效果评估:包括检索的准确性、召回率和效率,其好坏直接影响生成文本的质量。 用户满意度评估:通过用户调查、用户反馈和用户交互数据了解用户对 RAG 系统的满意度和体验。 多模态评估:对于生成多模态内容的 RAG 系统,评估不同模态之间的一致性和相关性,可通过多模态评估指标实现。 实时性评估:对于需要实时更新的 RAG 任务,考虑信息更新的及时性和效率。 基准测试集:使用基准测试集进行实验和比较不同的 RAG 系统,涵盖多样化的任务和查询,以适应不同的应用场景。 评估方法和指标的选择取决于具体的任务和应用场景,综合使用多种评估方法可更全面地了解 RAG 系统的性能和效果,评估结果能指导系统的改进和优化,满足用户需求。此外,RAGAS 是一个用于 RAG 评估的知名开源库,可参考使用: 。需要注意的是,RAG 适合打造专才,不适合打造通才,且存在一定局限性,如在提供通用领域知识方面表现不佳,可能影响模型的风格或结构输出、增加 token 消耗等,部分问题需使用微调技术解决。
2024-11-13
帮我找知识库里和「评估」相关的内容或文章
以下是知识库里与“评估”相关的内容: 提示工程: 评估程序在优化系统设计时很有用。好的评估程序需要具备以下特点: 具有代表性:能够代表真实世界的使用场景,或者至少包含多样化的测试用例。 样本量充足:拥有足够的测试用例,以保证统计结果的可靠性。 易于自动化:可以自动运行或重复执行。 评估工作可以由计算机、人类或两者协作完成。计算机可以使用客观标准以及一些主观或模糊标准自动执行评估,其中模型输出由其他模型查询评估。是一个开源软件框架,提供了创建自动评估程序的工具。 基于模型的评估在评估具有多种可能答案的问题时非常有用,模型可以根据预定义的标准对不同的答案进行评分,帮助我们选择最佳答案。可以用模型进行评估和需要人工评估之间的界限是模糊的,并且随着模型变得越来越强大而不断变化。 OpenAI 官方指南: 评估程序(或称为“Evals”)对于优化系统设计非常有用。良好的评估: 代表现实世界的使用(或至少是多样化的)。 包含许多测试用例以获得更大的统计能力。 易于自动化或重复。 输出的评估可以由计算机、人类或混合来完成。计算机可以使用客观标准以及一些主观或模糊标准来自动评估,其中模型输出由其他模型查询评估。是一个开源软件框架,提供用于创建自动评估的工具。 当存在一系列可能被认为质量相同的输出时,基于模型的评估可能很有用。使用基于模型的评估可以实际评估的内容与需要人工评估的内容之间的界限是模糊的,并且随着模型变得更强大而不断变化。 Gemini 报告: 为了评估 Gemini 模型在政策领域和其他在影响评估中确定的关键风险领域中的表现,在模型开发的整个生命周期中开展了一系列评估。 在训练和优化 Gemini 模型过程中,会进行开发评估以进行“hillclimbing”。这些评估是由 Gemini 团队设计的,或者是针对外部学术基准的评估。评估考虑诸如有用性(指令遵循和创造力)、安全性和事实性等问题。 保证评估是为了治理和审查而进行的,通常在关键里程碑或培训运行结束时由模型开发团队之外的团队进行。保证评估按照模态进行标准化,数据集严格保密。只有高层次的见解被反馈到训练过程中,以协助缓解工作。保证评估包括对 Gemini 政策的测试,并包括对潜在生物危害、说服力和网络安全等危险能力的持续测试。 外部评估由谷歌之外的合作伙伴进行,以发现盲点。外部团体对模型进行了一系列问题的压力测试,包括白宫承诺书中列出的领域,测试通过结构化评估和非结构化的红队测试进行。这些评估的设计是独立的,并且结果定期报告给 Google DeepMind 团队。
2024-09-30
如何自动化 RAG bot 的测试评估工作流?
以下是一个关于自动化 RAG bot 测试评估工作流的参考方案: 首先,对于 RAG bot 的工作流,主要包括以下关键步骤: 1. 开始节点:接收用户选择的小说人物角色名称或向小说人物角色提问的问题。 2. 知识库节点:将输入的角色名称或问题作为查询,在知识库中检索该角色的性格特点、经典台词或相关的上下文信息。 3. 大模型节点:让大模型对检索到的信息进行筛选和处理,并以特定格式(如 JSON 格式)输出结果,或者根据问题和检索到的上下文信息生成答案。 4. 代码节点:对上游输入的数据进行规整和格式化输出。 5. Text2Image 节点:引用上一步输出的用于描述人物性格和特点的特征,作为提示生成人物的角色照。 6. 结束节点:输出人物台词、角色照或答案。 要实现自动化测试评估工作流,可以考虑以下几个方面: 1. 制定明确的测试用例:包括各种类型的输入,如不同的角色名称、问题类型和复杂程度等,以全面覆盖各种可能的情况。 2. 建立监控机制:实时监测工作流中各个节点的运行状态、数据传输和处理时间等关键指标。 3. 数据验证:在每个节点的输出端,验证数据的准确性、完整性和格式的正确性。 4. 性能评估:分析工作流的整体性能,如响应时间、资源利用率等,以优化工作流的效率。 5. 错误处理和恢复测试:模拟各种可能的错误情况,测试工作流的错误处理和恢复能力。 6. 定期回归测试:确保工作流在经过修改或优化后,仍然能够正常运行并满足预期。 通过以上的步骤和方法,可以有效地实现 RAG bot 测试评估工作流的自动化,提高其可靠性和性能。
2024-09-22
大模型评估
大模型评估是当前热门领域,以下是一些常见的评估方法和相关资源: 测试问题类型: 检索和归纳。 推理性。 有日期相关历史事件等。 专业测评网站: https://lmsys.org/blog/20230503arena/ (系统自带翻译不太友好,可点进去仔细阅读)。 中文语言理解测评基准:https://www.cluebenchmarks.com/index.html ,介绍:https://mp.weixin.qq.com/s/6CDnyvMsEXtmsJ9CEUn2Vw 。 斯坦福团队的 AlpacaEval:项目链接:https://github.com/tatsulab/alpaca_eval ,排行榜链接:https://tatsulab.github.io/alpaca_eval/ 。 FlagEval(天秤)大模型评测体系及开放平台:地址:https://github.com/FlagOpen/FlagEval ,简介:旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能,同时探索利用 AI 方法实现对主观评测的辅助,大幅提升评测的效率和客观性。FlagEval(天秤)创新构建了“能力任务指标”三维评测框架,细粒度刻画基础模型的认知能力边界,可视化呈现评测结果。 CEval:地址:https://github.com/SJTULIT/ceval ,简介:构造了一个覆盖人文,社科,理工,其他专业四个大方向,52 个学科(微积分,线代…),从中学到大学研究生以及职业考试,一共 13948 道题目的中文知识和推理型测试集。此外还给出了当前主流中文 LLM 的评测结果。 SuperCLUElyb:地址:https://github.com/CLUEbenchmark/SuperCLUElyb ,简介:中文通用大模型匿名对战评价基准,这是一个中文通用大模型对战评价基准,它以众包的方式提供匿名、随机的对战。他们发布了初步的结果和基于 Elo 评级系统的排行榜。 对比不同大语言模型性能的方法: 自定义任务:根据特定需求设计任务,以评估模型在特定领域的表现。 人类评估:结合人类评估者的主观评价,特别是在评估文本质量和伦理问题时。 A/B 测试:在实际应用场景中,通过 A/B 测试比较不同模型的表现。 性能指标:使用包括准确率、召回率、F1 分数、BLEU 分数等在内的性能指标来量化比较。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2024-08-15
Fine-Tuning是什么,如何评估一个Fine-Tuning的大赛
FineTuning(微调)是一种迁移学习技术,常用于深度学习中。其基本思路是:先有一个在大量数据上训练过的预训练模型,该模型已学会一些基本模式和结构(如在自然语言处理中学会基本语法和单词语义),然后在特定任务数据上继续训练该模型,使其适应新任务。 以下是两个例子帮助您理解: 例子 1:情感分类。假设构建一个判断电影评论积极或消极的模型,先使用大量语料库(如维基百科)预训练模型,使其学会基本语法和单词语义,再收集标注过的电影评论(部分积极,部分消极),在这些评论上继续训练模型,使其学会判断评论情感。 例子 2:图像分类。假设构建一个识别猫和狗图片的模型,先使用大量图片(如 ImageNet 数据集)预训练模型,使其学会识别图片中的基本形状和纹理,再收集标注过的猫和狗的图片,在这些图片上继续训练模型,使其学会区分猫和狗。 对于评估一个 FineTuning 的大赛,需要注意以下几点: 1. 对于需要快速迭代新用例的场景,微调作用较小。 2. 要实现微调功能,需创建包含至少数百个优质示例的大型训练数据集,按格式要求整理数据集,并启动微调自定义 LLM 的训练任务,评估微调性能。 3. 为实现良好微调,要建立模型改进工作流程,不断监控模型性能变化,获得反馈并依据反馈改进模型。 4. 通过记录所有生成的模型,以及评分指标(隐性和显性用户的反馈,以及人类和人工智能的评估),为下一版本创建的训练数据集进行调整。 5. 许多 LLM Ops 平台能自动收集和显示最佳数据,方便进行微调。
2024-08-13
请你结合大疆服务业务的具体场景,设计两个AI的应用落地场景,请从AI在此场景中应该发挥什么作用、怎样和业务场景做耦合、怎样评估AI的落地效果等多个方面进行阐述。
以下为结合大疆服务业务设计的两个 AI 应用落地场景: 场景一:无人机故障预测与维护 AI 发挥的作用: 通过对无人机飞行数据、传感器数据和零部件使用情况的分析,预测可能出现的故障。 与业务场景的耦合: 与大疆的售后服务系统集成,实时获取无人机的运行数据。利用机器学习算法建立故障预测模型,提前通知用户进行维护保养,减少因故障导致的飞行事故和损失。 落地效果评估: 1. 降低无人机故障率,通过对比使用 AI 预测维护前后的故障发生频率来评估。 2. 提高用户满意度,通过用户反馈和满意度调查来衡量。 3. 减少维修成本,统计维修费用和零部件更换成本的变化。 场景二:个性化飞行方案推荐 AI 发挥的作用: 根据用户的飞行历史、偏好、地理环境等因素,为用户生成个性化的飞行方案。 与业务场景的耦合: 在大疆的应用程序中,用户输入相关信息后,AI 系统自动分析并推荐合适的飞行路线、拍摄角度、飞行速度等。 落地效果评估: 1. 增加用户飞行活跃度,通过统计用户的飞行次数和时长来评估。 2. 提升用户对推荐方案的采纳率,通过用户实际采用推荐方案的比例来衡量。 3. 促进产品销售,对比使用个性化推荐功能前后的产品销售数据。
2024-08-11
提示词
提示词是由一些要素组成的,包括指令(想要模型执行的特定任务或指令)、上下文(包含外部信息或额外的上下文信息,引导语言模型更好地响应)、输入数据(用户输入的内容或问题)、输出指示(指定输出的类型或格式)。 提示工程是人工智能领域中,特别是在自然语言处理和大型语言模型的上下文中一个相对较新的概念,它涉及设计和优化输入提示,以引导 AI 模型生成特定类型的输出或执行特定的任务。其关键点包括精确性、创造性、迭代、上下文理解。提示词通常指的是直接输入到 AI 模型中的问题、请求或指示,是提示工程的一部分。提示工程是一个更广泛的概念,不仅包括创建提示词,还涉及理解模型的行为、优化提示以获得更好的性能、以及创造性地探索模型的潜在应用。 在 PixVerse 中,提示词在文生视频、图生视频和角色生视频中广泛使用。准确写出提示词可使 PixVerse 更容易生成想要的视频,减少试错成本。在 AI 视频生成中,Prompt 指用于指导或引导 AI 模型生成特定视频内容的描述性文本或指令,一般包含描述性文字、指令参数、情感氛围、参考风格等方面。推荐使用英文输入,PixVerse 对英文的理解能力最佳,效果最好,若对英文不熟悉,也可使用其他语言,PixVerse 的模型可以处理任何语言输入。
2024-11-16
关于kimi提问播客的提示词
以下是关于 Kimi 的相关提示词信息: 对于 Kimi Copilot 网页总结助手插件: 提示词包括:“你是一个擅长总结长文本的助手,能够总结用户给出的文本,并生成摘要。” 工作流程为:“让我们一步一步思考,阅读我提供的内容,并做出以下操作:一句话总结这篇文章,标题为‘概述’;总结文章内容并写成摘要,标题为‘摘要’;总是用中文回答;当你输出标题时,应该使用 markdown 格式。文章链接:https:// 。如果你无法访问这个链接,请根据下面的文本内容回答。” 文末的 ZIP 格式插件可能可以自定义提示词。 对于 Kimi chat: 输入 prompt 后很简洁。输入起诉状后,前面的回答温馨且专业,但存在一些问题,如主体缺少答辩人、引用废止的《合同法》等,总体能达到及格往上的成绩。输入应诉方案后,整体简洁明了但需继续细化,答辩策略对应答辩状,庭审准备和风险控制较抽象。 与智谱清言对比,智谱清言输入起诉状后的输出在主体等方面有其特点,输入“请输出应诉方案”后的输出在准备工作等方面表现良好。
2024-11-16
coze工作流中提示词优化节点有吗?
在 Coze 工作流中存在提示词优化节点。这个节点比较容易理解,如果觉得提示词需要优化,可加入该节点进行处理。其参数很简单,只有一个要优化的提示词。例如,用一开始就在用的文生图提示词“1 girl in real world”进行试用。优化后添加了很多具体信息,如在带着好奇心看书,环境中有阳光,色彩搭配的特点等。但修改后的提示词在控制图片生成真实照片的感觉方面,“in real world”控制真实图片生成的效果比“realistic”好。
2024-11-16
coze中提示词优化节点怎么加
在 Coze 中添加提示词优化节点的方法如下: 这个节点比较容易理解,如果觉得提示词需要优化,可以加入它进行优化。其参数很简单,只有一个要优化的提示词。 通常这类节点很好用。例如用一开始就在用的文生图提示词“1 girl in real world”来试试。优化前和优化后都生成一张图做效果对比,它会为我们添加很多具体信息,比如在带着好奇心看书,环境中有阳光,色彩搭配的特点。但修改后的提示词在控制图片为真实照片的感觉上,测试结果中文生图模型中“in real world”来控制更真实的图片生成效果比“realistic”效果好。(喜欢哪个见仁见智,不过也有抽卡因素,至少右边的打光感觉不错。)
2024-11-16
coze中提示词优化节点怎么加
在 Coze 中添加提示词优化节点的方法如下: 这个节点比较容易理解,如果觉得提示词需要优化,可以加入它进行优化。 参数很简单,只有一个要优化的提示词。 例如,用一开始就在用的文生图提示词“1 girl in real world”来试用。优化后会为提示词添加很多具体信息,比如在带着好奇心看书,环境中有阳光,色彩搭配的特点。但修改后的提示词在控制图片生成真实照片的感觉方面,“in real world”来控制比“realistic”效果好。
2024-11-16
coze中的提示词优化节点在哪里
在 Coze 中,提示词优化节点的相关信息如下: 这个节点比较容易理解,如果觉得提示词需要优化,可以加入它进行优化。参数很简单,只有一个要优化的提示词。 以文生图提示词“1 girl in real world”为例进行试用,优化后添加了很多具体信息,如在带着好奇心看书、环境中有阳光、色彩搭配的特点。但修改后的提示词在控制图片生成真实照片的感觉方面,“in real world”控制效果比“realistic”好。 此外,Coze 还涉及其他节点,如智能抠图、画质提升等。在复刻吴恩达开源的 AI 翻译项目时,工作流分为新建工作流、导入核心流程、设置节点等步骤,包括选择翻译的源语言和目标语言、选择大模型、配置反思优化的提示词等。
2024-11-16
现在有哪些大模型效果与性能的对齐工具
目前对比不同大语言模型的性能需要考虑多个维度,包括但不限于以下方面: 1. 理解能力:评估对语言的理解程度,涵盖语法、语义、上下文和隐含意义。 2. 生成质量:检查生成文本的流畅性、相关性和准确性。 3. 知识广度和深度:衡量对广泛主题的知识掌握及特定领域的理解深度。 4. 泛化能力:测试处理未见过任务或数据时的表现。 5. 鲁棒性:应对错误输入、对抗性输入或模糊指令的能力。 6. 偏见和伦理:评估生成文本是否存在偏见,是否遵循伦理标准。 7. 交互性和适应性:在交互环境中的表现,对用户反馈的适应和持续对话能力。 8. 计算效率和资源消耗:考虑模型大小、训练和运行所需的计算资源。 9. 易用性和集成性:是否易于集成到不同应用和服务,提供的 API 和工具的易用性。 为进行有效比较,可采用以下方法: 1. 标准基准测试:使用如 GLUE、SuperGLUE、SQuAD 等标准评估基准。 2. 自定义任务:根据特定需求设计任务评估特定领域表现。 3. 人类评估:结合人类评估者的主观评价,尤其在评估文本质量和伦理问题时。 4. A/B 测试:在实际应用场景中比较不同模型表现。 5. 性能指标:使用准确率、召回率、F1 分数、BLEU 分数等量化比较。 对于大模型的安全对齐,通过对齐(指令调优)能使语言模型更好理解人类意图并增加安全保障,避免输出有害内容。对齐任务可拆解为监督微调及获取 reward model 与进行强化学习调整输出分布两部分。LLAMA2 专门使用安全有监督微调确保安全。强化学习能根据人类反馈调整分布,使模型面对训练分布外数据时能拒绝不当回答。但 Alignment 并非能防护所有安全问题,存在越狱情况使模型对齐失效。 Qwen 2 开源后模型性能超越目前所有开源模型和国内闭源模型。玉宝搞过的 LLM 在线评估中可看到国内闭源大模型的 HUMANEVAL 测评得分,可与 Qwen 2 对比,参考网址:https://www.llmrank.cn/ 。2023 年 8 月起,通义千问推出 Qwen 系列,Qwen 系列的 72B、110B 模型多次登顶 HuggingFace 的 Open LLM Leaderboard 开源模型榜单。Qwen 2 系列已上线魔搭社区 ModelScope 和阿里云百炼平台,也已上线中国大语言模型评测竞技场 Compass Arena,测评地址:https://opencompass.org.cn/arena 。Compass Arena 集齐了国内主流的 20 多款大模型,用户可选择两两“对战”。
2024-11-14
我希望用即梦来生成一张图片,我想要实现的效果是:空中有悬浮的大理石加金子材质的悬浮台。请协助我生成提示词
以下是为您生成的使用即梦生成空中悬浮的大理石加金子材质悬浮台图片的提示词相关步骤: 1. 工具选择:即梦、可灵、Runway、Suno、剪映。 即梦:是最简单易用的图片重绘工具,云端访问且无需付费。 可灵:具有极强的运动笔刷控制力。 Runway:能很好地实现泼墨和画面上色。 Suno:可尝试新的使用视频制作歌曲的效果。 2. 即梦使用步骤: 使用即梦的图片生成功能,上传同一张图片 2 次,一次选择边缘轮廓,一次选择人物姿势(或者单独使用边缘轮廓也可以)。 在此场景下,不要添加景深,否则会出现“文物感”效果,而非所需的写实风。 可稍微提升精细度,由于原图是竖版,选择竖版切割,所得图片更适合用作首尾帧。 3. Runway 提示词:Static shot:colorful paint splashed onto canvas,transforming into a vibrant,lifelike display 4. 可灵提示词:一个帅气地老头从鹿背上跳下来,释放法术,漂浮在空中,非常自信,非常帅气。鹿向左走出了画面(鹿没有走出画面,但漂浮效果不错,决定不再抽卡,保留这个版本)。 希望这些信息对您有所帮助。
2024-11-10
用Coze创建AI,能够通过文字生成图片或者视频或者动画或者渲染效果
以下是使用 Coze 创建 AI 的相关信息: 1. 注册 Coze 账号: 访问 Coze 官网,快速注册,开启智能之旅。 Coze 中文名扣子,字节跳动出品。 中文版:https://www.coze.cn/(支持大模型:kimi、云雀)——本次教程使用中文版 Coze。 英文版:https://coze.com/(支持大模型:chatgpt4)。 产品定位:新一代 AI 原生应用开发服务平台,Nextgeneration AI chatbot building platform。 2. 创建机器人: 登录 Coze,可使用抖音或手机号登陆,登陆后选择“创建 Bot”,然后起一个响亮的名字。 工作空间选“个人空间”即可。 小技巧:“图标”AI 可以自动生成,先在“Bot 名称”那里用文字描述想要的图标,图标生成满意后,再把“Bot 名称”改为简洁版名称。 3. 制定任务的关键方法: 在开始设计和开发任何 AI Agent 之前,最关键的第一步是明确定义期望 AI 最终输出的结果。这包括详细描述期望获得的输出内容,如输出是文本、图像、音频还是其他形式的数据,输出的具体格式和结构是什么,确定输出内容的质量标准。 预估任务的可行性。 确定任务的执行形式。以 LearnAndRecord 的一篇文章为例,拆解其结构,基于此进行微调优化。值得注意的是,Coze 支持 Markdown 格式输出 AI 生成的内容,Markdown 作为轻量级文本标记语言,能够有效展示文本、图片、URL 链接和表格等多种内容形式。参照精读结构,评估任务的可行性,生成结果包括文字、图片(思维导图)、音频(原文音频)三类输出格式,前两者可直接用 Markdown 输出/嵌入,音频则需通过 URL 链接跳转外部网页收听。最后结合使用习惯,期望在输入一篇英文原文时,AI Agent 能够按模板要求,直接输出精读结果。
2024-11-09
如何用两张照片,合成一张绘画效果的图
以下是将两张照片合成为一张绘画效果的图的步骤: 1. 利用 Dalle3 绘图,根据以下提示词分别把高中和大学时期的内容绘制成两幅四格漫画: 高中:中午,急急忙忙跑到食堂,排长队买饭。 大学:中午,懒洋洋在宿舍点外卖,直接送到宿舍楼下。 2. 利用 Python 进行图片处理: 统一设置:使用上传的字体,字体颜色黑色。 首先: 在每张图片的上面创建一个空白的白色背景区域(从原图片进行延长,而不是遮盖原图),用来放置文字(高中的图片写上“高中”,大学的图片写上“大学”)。 文字的字体大小设置成 65px,居中显示。 然后: 在图片下方创建一个空白的白色背景区域(从原图片进行延长,而不是遮盖原图),用来放置文字(高中的图片写上),如果句子过长,要注意换行显示。 文字的字体大小设置成 45px,居中显示。 最后把两张图片拼成一张图,高中的图片在左,大学的图片在右。两张图中间放置 50px 的空白区域。 另外,还有一些相关的知识供您参考: Double Exposure 是一种视觉艺术风格,将两个或多个照片合成到一起,创建出具有艺术效果的图像,灵感来自于传统的双重曝光摄影技术。最佳提示词:Double Exposure。 在 Stable Diffusion 中,可以使用【X/Y/Z plot】脚本来做参数对比,例如将 X 轴设置为提示词相关性,取值范围是 1 30。通过对比找到合适的参数,如提示词相关性在 6 11 中间为最佳。还可以使用绘图功能进行局部修改,如增加红色眼镜、去掉衣服上的图案、更换头部或帽子等部分。
2024-11-04
怎么写文档会让RAG 效果更好
要让 RAG 效果更好地写文档,您可以参考以下要点: 1. 文档切割: 合理的文档切割能让系统返回更完整、连贯的结果。例如,对于“猫咪的饮食习惯是什么?”的查询,将相关内容切割为“猫咪的饮食习惯取决于它们的年龄、健康状况和品种。”和“幼猫需要更多的蛋白质,而成年猫则需要均衡的营养。”这样的文档块。 目前免费平台一般提供智能切割和手动切割两种方式。但在当下技术水平下,智能切割效果一般,对于以问答为主的客服场景,将一个问答对切成一个文档片,检索效果会很好。 2. 整理知识库文档阶段: 确定知识库包含的文档类型,如政策原文文档、业务积累的 QA、操作指引、产品说明等,并进行预处理。 知识库本身质量对最终效果至关重要,是大模型生成回答的原始语料。 优化方向包括: 文档格式:PDF 文档格式信息相对简洁,干扰少,但也有说.docx 效果更优的,需根据场景测试。 文档命名:尽量控制在 10 字左右,涵义简洁明了,避免无意义的数字、符号或缩写。 文档语言:尽量统一为同一种,避免中英文混切导致乱码和无用数据。 文档内容:设置清晰的一二级标题,对特殊元素进行处理。 构建问答对:能达到更好效果,但耗费人力和运营成本,需综合考虑。 3. 通用语言模型微调可完成常见任务,更复杂和知识密集型任务可基于语言模型构建系统,访问外部知识源。Meta AI 引入的 RAG 方法把信息检索组件和文本生成模型结合,可接受输入并检索相关文档,给出来源,适应事实变化,不用重新训练就能获取最新信息并生成可靠输出。Lewis 等人(2021)提出通用的 RAG 微调方法,使用预训练的 seq2seq 作为参数记忆,用维基百科的密集向量索引作为非参数记忆。
2024-10-21
相同的参数下,用SD comfyui出图可以和SD webui出图保持图片效果一模一样么?
理论上,在应用完全相同参数(如 Step、CFG、Seed、prompts)的情况下,SD ComfyUI 出图和 SD WebUI 出图应当能保持图片效果一模一样。但在实际操作中可能会存在一些差异,比如: 提示词的多个条件下,SD 生成的图像可能无法全部满足,这与提示词引导系数有关,该系数关系到出图与文字的相关程度。 不同的模型和配置也可能影响出图效果,例如 SDXL 的大模型分为 base、refiner 以及配套的 VAE 模型,用于调节图片的画面效果和色彩。 需要注意的是,相同参数下要达到完全一致的出图效果并非绝对,还会受到多种因素的综合影响。
2024-10-14