Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

LLM是什么,有什么方法能够调优

Answer

LLM 即大型语言模型(Large Language Model)。以下是一些调优 LLM 的方法:

  1. 改进提示:在上下文中提供基本事实,例如相关文章段落或维基百科条目,以减少模型生成虚构文本的可能性。通过降低概率参数并指示模型在不知道答案时承认(例如,“我不知道”)来配置模型以生成更少样式的响应。在提示中提供问题和答案的组合示例,其中可能知道和不知道的问题和答案。
  2. 微调:采用在通用数据集上预训练的模型,复制这个模型,然后以这些学习到的权重为起点,在新的特定领域数据集上重新训练模型。但由于 LLM 规模较大,更新每个权重可能需要很长时间的训练工作,且计算成本较高,所以微调大型语言模型可能不是最佳选择。
  3. 参数有效调优:这是一种创新的调优方法,旨在通过仅训练一部分参数来减少微调 LLM 的挑战。这些参数可能是现有模型参数的子集,也可以是一组全新的参数,例如向模型添加一些额外的层或额外的嵌入到提示。参数有效调整非常适合拥有“适度”数量训练数据的场景,例如数百或数千个训练示例。训练数据应以文本到文本格式构建为受监督的训练数据集,数据中的每条记录或行都应包含输入文本(即提示)。

此外,研究发现 GPT-4 等 LLM 在一些简单的代数问题上存在表现局限性,例如随着 L 的增加,模型更容易犯计算错误,90%的错误是由于在合并相似项时跳过了步骤。这启发了是否有有效方法训练或微调 LLM 以实现更准确计算能力的研究问题。同时,LLM 在计数方面也存在困难,不仅在转换器架构中难以实现,而且数据集中计数示例的稀缺性也加剧了这个问题。

Content generated by AI large model, please carefully verify (powered by aily)

References

真实性

[title]真实性LLM模型有时会生成听起来连贯且令人信服但有时是虚构的回答。改进提示可以帮助提高模型生成更准确/真实的回答,并降低生成不一致和虚构回答的可能性。一些解决方案可能包括:在上下文中提供基本事实(例如相关文章段落或维基百科条目),以减少模型生成虚构文本的可能性。通过降低概率参数并指示模型在不知道答案时承认(例如,“我不知道”)来配置模型以生成更少样式的响应。在提示中提供问题和答案的组合示例,其中可能知道和不知道的问题和答案。让我们看一个简单的例子:提示:输出:我编造了“Neto Beto Roberto”的名字,所以模型在这种情况下是正确的。尝试稍微改变问题,看看是否可以使其正常工作。根据您迄今学到的所有知识,还有不同的方法可以进一步改进它。

9. 生成式 AI Studio 简介

[title]9.生成式AI Studio简介[heading2]课程字幕12:29即使您确实为您的用例发现了一个好的提示,您可能会注意到模型响应的质量并不完全一致。为了缓解这些问题,我们可以做的一件事是调整模型。12:40那么调音是什么?好吧,您可能熟悉的一个版本是微调。在这种情况下,我们采用在通用数据集上预训练的模型。我们复制了这个模型。12:51然后,以这些学习到的权重为起点,我们在新的特定领域数据集上重新训练模型。这种技术对于许多不同的用例都非常有效。13:01但是当我们尝试微调LLM时,我们遇到了一些挑战。顾名思义,法学硕士是大型的。因此更新每个权重可能需要很长时间的训练工作。13:12将所有这些计算与现在必须为这个巨大模型提供服务的麻烦和成本相结合……因此,微调大型语言模型可能不是您的最佳选择。13:21但是有一种创新的调优方法称为参数有效调优。这是一个非常令人兴奋的研究领域,旨在通过仅训练一部分参数来减少微调LLM的挑战。13:34这些参数可能是现有模型参数的子集。或者它们可以是一组全新的参数。例如,也许您向模型添加了一些额外的层或额外的嵌入13:45到提示。如果您想了解更多关于参数有效调整和一些不同方法的信息,本课程的阅读列表中包含一篇摘要论文。13:53但如果您只想着手构建,那么让我们转到Generative AI Studio,看看如何开始调优工作。从Generative AI Studio的语言部分,14:02选择调整。为了创建一个调整模型,我们提供了一个名称。然后指向训练数据的本地或Cloud Storage位置。参数有效调整非常适合您拥有“适度”数量的场景14:14训练数据,例如数百或数千个训练示例。您的训练数据应以文本到文本格式构建为受监督的训练数据集。数据中的每条记录或行都将包含输入文本,换句话说,提示,

报告:GPT-4 通用人工智能的火花

[title]报告:GPT-4通用人工智能的火花[heading1]10.方向与结论[heading2]10.3到底发生了什么?上面的表格分析了LLMs在一个非常简单的代数问题上的表现。虽然GPT-4的表现比以前的模型有了显著的提高,但我们可以看到,随着L的增加,模型更容易犯计算错误。我们手动检查了100个错误的实例,发现其中90%是由于在合并相似项时跳过了步骤。这指向了模型的重大局限性,并启发了以下研究问题:是否有一种有效的方法来训练或微调LLM,使它们能够将计算分解成较小的步骤,从而实现更准确的计算能力?计数错误:合理地假设LLMs在计数方面存在困难。不仅在转换器架构中难以实现此操作,而且数据集中计数示例的稀缺性只会加剧这个问题。为了系统地评估GPT-4在这方面的能力,我们创建了一个数据集,其中包含形式为A1,A2,…,AL的字符串序列。其中每个Ai都是长度为k的随机数字序列。我们要求模型计算序列中不同元素的数量,答案范围在L/2到L-1之间。这是L = 5,k = 2的示例:我们对模型进行了测试,其中L ∈[5,10,15,25],k = 2,7,12。结果如下:

Others are asking
大型语言模型(LLM)基于Transformer架构的模型的优缺点是什么,有什么局限性
大型语言模型(LLM)基于 Transformer 架构的模型具有以下优点: 1. 在大量数据集上进行预训练,展现出卓越的语言处理能力,能预测接下来的 Token。 然而,也存在一些缺点和局限性: 1. 瞬态状态:天生缺乏持久的记忆或状态,需要额外的软件或系统来保留和管理上下文。 2. 概率性质:随机性导致响应的不确定性,对相同提示词可能产生不同回答。 3. 过时信息:依赖预训练数据,只能访问历史知识,无法获取实时更新。 4. 内容制造:可能生成看似合理但不准确的信息,即“幻觉”。 5. 资源密集:巨大规模意味着显著的计算和财务成本,影响可扩展性和可访问性。 6. 领域特定性:本质上通用,但通常需要特定领域数据才能在专业任务中表现出色。 7. 缺乏创造性:像一个高性能的知识检索工具,超出检索范围时表现差,甚至出现“幻觉”。面对复杂逻辑推导和新的知识推演能力不足,无法基于新的语料推演出新知识。 8. 对于特定领域或高度专业化的查询,容易产生错误信息或“幻觉”,特别是当查询超出训练数据或需要最新信息时。
2025-02-13
anythingllm安装包
以下是关于 AnythingLLM 安装包的相关信息: 安装地址:https://useanything.com/download 。 安装完成后会进入配置页面,主要分为三步: 第一步:选择大模型。 第二步:选择文本嵌入模型。 第三步:选择向量数据库。 在 AnythingLLM 中有 Workspace 的概念,可以创建自己独有的 Workspace 与其他项目数据进行隔离。配置流程包括: 首先创建一个工作空间。 上传文档并且在工作空间中进行文本嵌入。 选择对话模式,提供了 Chat 模式和 Query 模式。Chat 模式大模型会根据训练数据和上传的文档数据综合给出答案,Query 模式大模型仅依靠文档中的数据给出答案。 完成上述配置后,即可与大模型进行对话。 此外,在 GitHubDaily 开源项目列表 2023 年复盘的 AIGC 部分中, 是一个可打造成企业内部知识库的私人专属 GPT,能将任何文档、资源或内容转换为大语言模型(LLM)知识库,在对话中引用其中内容。
2025-02-06
AnythingLLM 怎么用,好用吗
AnythingLLM 是一款功能强大的软件,具有以下特点和使用方法: 功能:包含了所有 Open WebUI 的能力,并且额外支持选择文本嵌入模型和向量数据库。 安装和配置:安装地址为 https://useanything.com/download 。安装完成后进入配置页面,主要分为三步:选择大模型、选择文本嵌入模型、选择向量数据库。 构建本地知识库:其中有 Workspace 的概念,可以创建自己独有的 Workspace 与其他项目数据隔离。首先创建工作空间,然后上传文档并进行文本嵌入,接着选择对话模式,提供了 Chat 模式(大模型根据训练数据和上传文档数据综合给出答案)和 Query 模式(大模型仅依靠文档中的数据给出答案),最后进行测试对话。 相关评价:被认为是一个可打造成企业内部知识库的私人专属 GPT,能将任何文档、资源或内容转换为大语言模型(LLM)知识库,支持多用户使用,可设权限,兼容多种 LLM 和数据库。 总的来说,AnythingLLM 的使用效果因人而异,需要您亲自实践和体验来判断其是否好用。
2025-02-04
如何从零到一学习LLM上层AI应用开发
从零到一学习 LLM 上层 AI 应用开发,您可以参考以下步骤: 1. 掌握深度学习和自然语言处理基础: 学习机器学习、深度学习、神经网络等基础理论。 掌握自然语言处理基础,如词向量、序列模型、注意力机制等。 相关课程:吴恩达的深度学习课程、斯坦福 cs224n 等。 2. 理解 Transformer 和 BERT 等模型原理: 熟悉 Transformer 模型架构及自注意力机制原理。 掌握 BERT 的预训练和微调方法。 阅读相关论文,如 Attention is All You Need、BERT 论文等。 3. 学习 LLM 模型训练和微调: 进行大规模文本语料预处理。 熟悉 LLM 预训练框架,如 PyTorch、TensorFlow 等。 学会微调 LLM 模型进行特定任务迁移。 相关资源:HuggingFace 课程、论文及开源仓库等。 4. LLM 模型优化和部署: 掌握模型压缩、蒸馏、并行等优化技术。 了解模型评估和可解释性。 熟悉模型服务化、在线推理、多语言支持等。 相关资源:ONNX、TVM、BentoML 等开源工具。 5. LLM 工程实践和案例学习: 结合行业场景,进行个性化的 LLM 训练。 分析和优化具体 LLM 工程案例。 研究 LLM 新模型、新方法的最新进展。 6. 持续跟踪前沿发展动态: 关注顶会最新论文、技术博客等资源。 以下是一些相关的学习资源: 面向开发者的 LLM 入门课程: 提示工程指南: LangChain🦜️🔗中文网,跟着 LangChain 一起学 LLM/GPT 开发: LLMs 九层妖塔: 在课程方面,欢迎来到针对开发者的 AIGPT 提示工程课程。该课程将分享软件开发最佳实践的提示,涵盖常见用例,包括总结、推理、转换和扩展,并指导使用 LLM 构建一个聊天机器人。在大型语言模型或 LLM 的开发中,大体上有基础 LLM 和指令调整后的 LLM 两种类型。基础 LLM 已训练出根据文本训练数据预测下一个单词,通常在大量数据上训练,以找出接下来最有可能的单词。
2025-01-28
从零到一的 LLM 学习教程
以下是从零到一学习 LLM 的教程: 1. 掌握深度学习和自然语言处理基础: 学习机器学习、深度学习、神经网络等基础理论。 掌握自然语言处理基础,如词向量、序列模型、注意力机制等。 相关课程:吴恩达的深度学习课程、斯坦福 cs224n 等。 2. 理解 Transformer 和 BERT 等模型原理: 了解 Transformer 模型架构及自注意力机制原理。 掌握 BERT 的预训练和微调方法。 阅读相关论文,如 Attention is All You Need、BERT 论文等。 3. 学习 LLM 模型训练和微调: 进行大规模文本语料预处理。 运用 LLM 预训练框架,如 PyTorch、TensorFlow 等。 微调 LLM 模型进行特定任务迁移。 相关资源:HuggingFace 课程、论文及开源仓库等。 4. LLM 模型优化和部署: 掌握模型压缩、蒸馏、并行等优化技术。 进行模型评估和可解释性研究。 实现模型服务化、在线推理、多语言支持等。 相关资源:ONNX、TVM、BentoML 等开源工具。 5. LLM 工程实践和案例学习: 结合行业场景,进行个性化的 LLM 训练。 分析和优化具体 LLM 工程案例。 研究 LLM 新模型、新方法的最新进展。 6. 持续跟踪前沿发展动态: 关注顶会最新论文、技术博客等资源。 此外,为您推荐以下 LLM 开源中文大语言模型及数据集集合的学习资源: 1. 面向开发者的 LLM 入门课程: 地址: 简介:一个中文版的大模型入门教程,围绕吴恩达老师的大模型系列课程展开,主要包括:吴恩达《ChatGPT Prompt Engineering for Developers》课程中文版,吴恩达《Building Systems with the ChatGPT API》课程中文版,吴恩达《LangChain for LLM Application Development》课程中文版等。 2. 提示工程指南: 地址: 简介:该项目基于对大语言模型的浓厚兴趣,编写了这份全新的提示工程指南,介绍了大语言模型相关的论文研究、学习指南、模型、讲座、参考资料、大语言模型能力以及与其他与提示工程相关的工具。 3. LangChain🦜️🔗中文网,跟着 LangChain 一起学 LLM/GPT 开发: 地址: 简介:Langchain 的中文文档,由是两个在 LLM 创业者维护,希望帮助到从刚进入 AI 应用开发的朋友们。 4. LLMs 九层妖塔: 地址: 简介:ChatGLM、ChineseLLaMAAlpaca、MiniGPT4、FastChat、LLaMA、gpt4all 等实战与经验。 关于 LLM 的预测原理: LLM 接触了包括教科书、文章、网站等在内的庞大数据集。在训练阶段,它们学会了理解语言的上下文和流动性,掌握了包括语法、风格,甚至是文本的语调等方面。当您用一个句子或问题来指导 LLM 时,它便利用自己所学的知识,预测接下来最可能的一个或几个词。这不仅是基于它在训练期间观察到的模式和规则的推测。 在提示工程方面,鉴于 LLM 的概率本质,提示工程师面临的挑战是如何引导 LLM 向着高度可预测和准确的结果方向发展。在相关课程中,您将学习许多技巧,这些技巧将帮助您掌握高度可预测的 LLM 输出结果的艺术和科学。但在深入学习之前,可以先从一些简单的练习开始,激活思维。
2025-01-28
llm cookbook 有资源吗
以下是关于 LLM 学习资源和 OpenAI Cookbook 的相关信息: 学习大型语言模型(LLM)开发的资源和路径: 1. 掌握深度学习和自然语言处理基础: 机器学习、深度学习、神经网络等基础理论。 自然语言处理基础,如词向量、序列模型、注意力机制等。 相关课程:吴恩达的深度学习课程、斯坦福 cs224n 等。 2. 理解 Transformer 和 BERT 等模型原理: Transformer 模型架构及自注意力机制原理。 BERT 的预训练和微调方法。 掌握相关论文,如 Attention is All You Need、BERT 论文等。 3. 学习 LLM 模型训练和微调: 大规模文本语料预处理。 LLM 预训练框架,如 PyTorch、TensorFlow 等。 微调 LLM 模型进行特定任务迁移。 相关资源:HuggingFace 课程、论文及开源仓库等。 4. LLM 模型优化和部署: 模型压缩、蒸馏、并行等优化技术。 模型评估和可解释性。 模型服务化、在线推理、多语言支持等。 相关资源:ONNX、TVM、BentoML 等开源工具。 5. LLM 工程实践和案例学习: 结合行业场景,进行个性化的 LLM 训练。 分析和优化具体 LLM 工程案例。 研究 LLM 新模型、新方法的最新进展。 6. 持续跟踪前沿发展动态: 关注顶会最新论文、技术博客等资源。 OpenAI Cookbook 资源: 如需更多灵感,请访问,其中包含示例代码以及指向第三方资源的链接,例如: 1. 2. 3. 4. 此外,还有 LLM 开源中文大语言模型及数据集集合中的相关资源: HuggingLLM: 地址: 简介:介绍 ChatGPT 原理、使用和应用,降低使用门槛,让更多感兴趣的非 NLP 或算法专业人士能够无障碍使用 LLM 创造价值。 OpenAI Cookbook: 地址: 简介:该项目是 OpenAI 提供的使用 OpenAI API 的示例和指导,其中包括如何构建一个问答机器人等教程,能够为从业人员开发类似应用时带来指导。
2025-01-14
如何调优大模型
以下是关于调优大模型的一些方法: 1. 更换大模型:比如从 ChatGLM26B 替换成 baichuan213b,针对特定场景,后者性能可能提升一倍左右。 2. 更换 embedding 模型:将 embedding 模型从 LangChain Chatchat 默认的 m3ebase 替换为 bgelargezh,后者可能更优。 3. 测试不同 Top k 的值:比较 Top 5、Top 10、Top 15 的结果,发现 Top 10 时效果最优。 4. 对文档名称进行处理:人工对文件重命名,上传相同文件构建知识库,同时在构建时勾选【开启中文标题加强】选项。重命名文件对结果提升不明显,但勾选该选项后,回答的无关信息减少,效果有所提升。 5. Prompt 阶段:需要一定的 prompt 工程,选择最合适的 prompt 模板。根据相关论文,把 query 放到头部和尾部,同时把相似度大的文档放到 context 的两端,能提升回答效果。 6. LLM 生成答案:大模型本身的性能是最大影响因素。选择大模型时要在成本和收益间找最佳平衡点,有条件还可对模型进行微调以更匹配自身场景。
2024-12-12
rag调优
RAG(RetrievalAugmented Generation)即检索增强生成,是一种结合信息检索和文本生成能力的技术,由检索器和生成器两部分组成。检索器从外部知识中快速找到与问题相关的信息,生成器利用这些信息来制作精确和连贯的答案,非常适合处理需要广泛知识的任务,如问答系统,能够提供详细而准确的回答。 LLM 需要 RAG 进行检索优化的原因在于 LLM 存在一些缺点: 1. 无法记住所有知识,尤其是长尾知识,受限于训练数据和学习方式,对长尾知识的接受能力不高。 2. 知识容易过时且不好更新,微调模型的接受能力不高且慢,甚至有丢失原有知识的风险。 3. 输出难以解释和验证,最终输出内容黑盒且不可控,可能受到幻觉等问题干扰。 4. 容易泄露隐私训练数据。 5. 规模大,训练和运行成本高。 RAG 具有以下优点: 1. 数据库对数据的存储和更新稳定,不存在学不会的风险。 2. 数据库的数据更新敏捷,增删改查可解释,对原有知识无影响。 3. 数据库内容明确、结构化,加上模型本身的理解能力,大模型输出出错的可能大大降低。 4. 知识库存储用户数据,便于管控用户隐私数据,且可控、稳定、准确。 5. 数据库维护可降低大模型的训练成本,新知识存储在数据库即可,无需频繁更新模型。 RAG 性能提升的策略和方法包括: 1. 优化索引: 按照子部分索引,将文本块再拆分为较小的文本(例如单句),然后对这些小块进行多次索引,适用于有多个主题、有冲突信息的复杂长文本信息。 按照文本框可以回答的问题索引,让 LLM 生成与拆分的文本块相关的假设性问题,并将这些问题用于索引,适用于用户没有提出非常明确问题的情况,可减少模糊性。 按照文本块的摘要进行索引,适用于文本框中有多余信息或者与用户查询无关细节的情况。 2. 重排 rerank:搜到相似信息后选择合适的信息,大部分场景下选择最相似的即可。
2024-12-05
prompt调优是干嘛的
Prompt 调优是对给大模型输入的原始输入进行优化和改进的过程,具有以下作用和特点: 1. 帮助模型更好地理解用户需求,并按照特定模式或规则进行响应。 2. 可以设定特定的角色或场景,如“假设你是一位医生,给出针对这种症状的建议”,后续对话将基于此设定展开。 3. 有多种有趣的玩法,例如要求模型按照思维链(cot)的思路逻辑回答,或者让模型按照特定格式(如 json)输出,使模型成为特定的输出器。 4. 提示开发生命周期包括设计初步提示,即制定一个初步的提示,概述任务定义、良好响应的特征以及所需的上下文,并添加规范输入和输出的示例作为改进的起点。 5. 测试提示时要根据测试用例评估模型的响应与预期输出和成功标准是否一致,使用一致的评分标准,如人工评估、与答案标准比较或基于评分标准的模型判断等,以系统性评估性能。 6. 自动提示工程方面,有一些相关的重要主题和关键论文,如使用离线逆强化学习生成与查询相关的提示、引入使用大语言模型优化提示的思想、提出基于梯度引导搜索自动创建各种任务提示的方法、作为轻量级微调替代方案的为自然语言生成任务添加可训练连续前缀、提出通过反向传播学习软提示的机制等。
2024-09-03
如果调优prompt
以下是一些调优 prompt 的方法: 1. 明确具体的描述:使用更具体、细节的词语和短语来表达需求,避免过于笼统。 2. 添加视觉参考:在 prompt 中插入相关图片参考,提高 AI 理解意图和细节要求的能力。 3. 注意语气和情感:根据需求,用合适的形容词、语气词等调整整体语气和情感色彩,以生成期望的语境和情绪。 4. 优化关键词组合:尝试不同的关键词搭配和语序,找到最准确表达需求的描述方式。 5. 增加约束条件:在 prompt 中添加限制性条件,如分辨率、比例等,避免意外输出。 6. 分步骤构建 prompt:将复杂需求拆解为逐步的子 prompt,引导 AI 先生成基本结构,再逐步完善。 7. 参考优秀案例:研究 AI 社区流行且有效的 prompt 范例,借鉴写作技巧和模式。 8. 反复试验、迭代优化:多次尝试不同写法,并根据输出效果反馈持续完善,直至达到理想结果。 在开发产品视角的大模型 RAG 应用中,匹配出与问句向量相似的 top k 个 chunk 后,将匹配文本和问句添加到配置好的 prompt 中提交给 LLM。此阶段可能需要 prompt 工程,选择合适的 prompt 模板。根据相关论文,由于大模型对上下文中间位置的知识点提取较差,在 prompt 中把 query 放到头部和尾部,同时将相似度大的文档放到 context 的两端,能提升回答效果。 在使用 GPT 模仿创作内容时,重点步骤如下:0.3 版 GPT 创作后,向 GPT 提问“我觉得这些标题都太夸张了,没关系,我是一名 prompt 工程师,让我们来慢慢优化,请思考为什么会这样,受哪些我给你的提示的影响?”通过与 GPT 深入交流来优化 prompt 。
2024-08-16
agi的方法原理
OpenAI 能够跑通所有 AGI 技术栈的方法原理主要基于以下几个方面: 1. 方法论明确:有着清晰的逻辑结构和明确的推论,甚至可以用公理化的方式描述。 公理 1:The bitter lesson。长期来看,AI 领域所有的奇技淫巧都比不过强大的算力夹持的通用的 AI 算法,强大的算力加持的通用的 AI 算法才是 AGI 路径的正道。 公理 2:Scaling Law。一旦选择了良好且通用的数据表示、标注和算法,就能找到一套通用规律,保证数据越多、模型越大、效果越好,甚至能在训练模型之前预知效果。 公理 3:Emerging properties。这是一条检验公理,用于判断 scaling law 带来的是质变而非量变,即随着 scaling law 的进行,模型会突然稳定掌握之前不能掌握的能力。 2. 具体实践: 在 GPT 中,良好且通用的数据表示是 tokenizer 带来的 embedding,数据标注是文本清理和去重的一套方法,算法是大家熟知的 transformers + autoregressive loss。 在 Sora 中,良好且通用的数据表示是 video compress network 带来的 visual patch,数据标注是 OpenAI 自己的标注器给视频的详细描述,算法是大家熟知的 transformers + diffusion。 3. 数据和任务: 大量数据从世界本身获取,世界产生的数据是 AGI 需要的数据的最小集合,OpenAI 未来会执着于持续获得或者构造数据。 要最有效地利用数据,需要做生成模型,能够模拟和生成整个世界,OpenAI 未来还会在更多的模态和数据上去做生成模型。 通用模型也是 OpenAI 追求的方向。
2025-02-12
不学编程,入门AI的方法
以下是一些不学编程入门 AI 的方法: 1. 阅读简明入门教程,比如在 20 分钟内掌握 Python 和 AI 的相互调用,完成简单程序、爬虫应用以及为公众号文章生成概述。 2. 了解 AI 基本概念: 阅读「」部分,熟悉术语和基础概念,包括人工智能的主要分支及它们之间的联系。 浏览入门文章,了解 AI 的历史、应用和发展趋势。 3. 开始 AI 学习之旅: 在「」中找到为初学者设计的课程,特别推荐李宏毅老师的课程。 通过在线教育平台(如 Coursera、edX、Udacity)按自己节奏学习,并争取获得证书。 4. 选择感兴趣的模块深入学习,比如掌握提示词技巧。 5. 实践和尝试: 理论学习后进行实践,巩固知识,尝试使用各种产品做出作品,并在知识库分享实践成果。 6. 体验 AI 产品: 与 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人互动,了解其工作原理和交互方式,获得实际应用体验。 对于中学生学习 AI 的建议: 1. 从编程语言入手学习,如 Python、JavaScript 等,学习编程语法、数据结构、算法等基础知识。 2. 尝试使用 AI 工具和平台,如 ChatGPT、Midjourney 等,探索面向中学生的教育平台,如百度的“文心智能体平台”、Coze 智能体平台等。 3. 学习 AI 基础知识,包括基本概念、发展历程、主要技术及在各领域的应用案例。 4. 参与 AI 相关的实践项目,如参加学校或社区组织的编程竞赛、创意设计大赛等,尝试用 AI 技术解决实际问题。 5. 关注 AI 发展的前沿动态,关注权威媒体和学者,思考 AI 技术对未来社会的影响。 总之,无论是成年人还是中学生,都可以从多个方面入手,全面系统地学习 AI 知识和技能。
2025-02-11
稳定使用DeepSeek的方法
以下是稳定使用 DeepSeek 的方法: 1. 访问网址:搜索 www.deepseek.com,点击“开始对话”。 2. 操作步骤: 将装有提示词的代码发给 DeepSeek。 认真阅读开场白之后,正式开始对话。 3. 设计思路: 将 Agent 封装成 Prompt,将 Prompt 储存在文件,保证最低成本的人人可用的同时,减轻自己的调试负担。 通过提示词文件,让 DeepSeek 实现同时使用联网功能和深度思考功能。 在模型默认能力的基础上优化输出质量,并通过思考减轻 AI 味,增加可读性。 照猫画虎参考大模型的 temperature 设计了阈值系统,但是可能形式大于实质,之后根据反馈可能会修改。 用 XML 来进行更为规范的设定,而不是用 Lisp(对开发者有难度)和 Markdown(运行下来似乎不是很稳定)。 此外,DeepSeek 在一些案例中也有出色表现,比如在卫夕指北的案例中,经过细腻、严谨、自洽、深刻的思考,输出了符合要求的结果。 在获取 2048 游戏代码方面,DeepSeek 具有诸多优势,如国内能访问、网页登录方便、目前完全免费等。同时,也介绍了其他获取代码的工具和方法,如 Cursor 等。
2025-02-08
本地部署DEEPSEEK方法。
以下是本地部署 DEEPSEEK 的方法: 1. 拥有扣子专业版账号:如果您还是普通账号,请自行升级或注册专业号后使用。开通成功的样式如相关描述。 2. 开通 DeepSeek R1 大模型:访问地址 https://console.volcengine.com/cozepro/overview?scenario=coze 。打开火山方舟,找到开通管理,找到 DeepSeek R1 模型,点击开通服务。添加在线推理模型,添加后在扣子开发平台才能使用。添加过程包括添加模型和完成接入。 3. 创建智能体:点击创建,先完成一个智能体的创建。 此外,DEEPSEEK 具有多种含义指向,包括 deepseek 公司:深度求索,以及 deepseek 网站、手机应用和 deepseek 大模型(尤其是指有推理功能的 deepseek R1 大模型,权重文件开源,可本地部署)。同时,相关社区动态也有关于 DeepSeek 的报道,如 DeepSeek 最新模型 V3 与 R1 采用混合专家(MoE)架构,显著提升计算效率等。
2025-02-08
deepseek的使用方法
以下是 DeepSeek 的使用方法: 1. 访问网址:搜索 www.deepseek.com,点击“开始对话”。 2. 操作步骤: 将装有提示词的代码发给 DeepSeek。 认真阅读开场白之后,正式开始对话。 3. 特点与优势: 核心是推理型大模型,不需要用户提供详细的步骤指令,而是通过理解用户的真实需求和场景来提供答案。 能够理解用户用“人话”表达的需求,不需要用户学习和使用特定的提示词模板。 在回答问题时能够进行深度思考,不是简单地罗列信息。 可以模仿不同作家的文风进行写作,适用于多种文体和场景。 4. 更多提示词技巧请查看
2025-02-07
如何做一个AI智能体,能具备某个人的思考能力和方法,比如马斯克,金枪大叔或者毛泽东。
要创建一个具备像马斯克等人思考能力和方法的 AI 智能体并非易事,以下是一些相关的要点和思路: xAI 的使命在于探索宇宙本质与智能体。从宇宙尺度看,意识进化存在狭窄窗口,计算机若不能解决至少一个基本问题,不能称之为 AGI。 对于使命陈述,短期内致力于更好地理解深度学习技术,工作中应始终记住构建与理解并重,追求科学是基础。 主要目标是创建能帮助更好理解宇宙的聪明智能体,相关数学研究可能为对基本物理或其他现实的思考开辟新方式,带来有趣视角,对现有问题产生启发,但目前多为推测性,尚无具体结论。 但需要注意的是,完全复制某个人的思考能力和方法在当前技术水平下是极具挑战性的,甚至可能无法实现。
2025-02-07
我想学习所有能够赋能室内设计的AI知识
以下是关于能够赋能室内设计的 AI 知识: 1. MewXAI 平台:这是一款操作简单的 AI 绘画创作平台。 MX 绘画:拥有众多超火模型和上百种风格,支持文生图、图生图。 MX Cute:自研的可爱风动漫大模型,融合想象力和逻辑性。 MJ 绘画:创意度和想象力极高,适用于多种设计需求。 边缘检测:对草图上色,有多种渲染风格,创意无限。 室内设计:上传空间图,分析图片结构和形状,一键完成多种室内/建筑设计,为设计师提供灵感并节约时间。 姿态检测:通过姿态识别精准控制人物动作。 AI 艺术二维码:几秒内创建艺术二维码。 AI 艺术字:融入光影文字等,美观实用。 访问地址:https://www.mewxai.cn/ 2. 室外设计的最佳实践也可借鉴到室内设计中: 充分利用 AI 的创意生成能力,输入关键词生成多种方案,获取新颖灵感。 结合 AI 的模拟和可视化功能,利用 AR/VR 等技术模拟实际环境。 运用 AI 的分析和优化能力,对采光、动线、材料等方面进行优化。 借助 AI 的自动化设计功能,生成平面图、立面图等。 融合 AI 与人工设计的协作模式,发挥各自优势。 3. 2023 年历史更新(归档)中的相关内容: 12 月 28 日,邬嘉文开发的利用室内设计规则和现实布局特点重新渲染更协调室内设计方案的相关内容。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-02-12
能够模仿产品经理,把我的需求描述整理成格式化的PRD的工具有什么
以下是一些能够模仿产品经理,把您的需求描述整理成格式化 PRD 的工具: 1. 用户研究、反馈分析:Kraftful(kraftful.com) 2. 脑图:Whimsical(whimsical.com/aimindmaps)、Xmind(https://xmind.ai) 3. 画原型:Uizard(https://uizard.io/autodesigner/) 4. 项目管理:Taskade(taskade.com) 5. 写邮件:Hypertype(https://www.hypertype.co/) 6. 会议信息:AskFred(http://fireflies.ai/apps) 7. 团队知识库:Sense(https://www.senseapp.ai/) 8. 需求文档:WriteMyPRD(writemyprd.com) 9. 敏捷开发助理:Standuply(standuply.com) 10. 数据决策:Ellie AI(https://www.ellie.ai/) 11. 企业自动化:Moveworks(moveworks.com)
2025-02-09
请给我推荐一个能够阅读网页链接内部信息的AI模型
以下为您推荐能够阅读网页链接内部信息的 AI 模型相关内容: 有一款 AI 浏览器插件,在产品化开发阶段,需要考虑如何稳定获取网页内容、如何选择适合的 AI 大模型 API 服务以及如何构建生产级提示词等问题。 在获取网页内容方面,由于大模型对话产品的外链解析方式容易遭到平台反爬机制制裁,通过用户浏览器以浏览器插件形式本地提取网页内容是一种稳定、经济的解决方案。比如 AI Share Card 插件,可以获取网页元素清单。开发时,您可以拿着初版提示词,询问 AI 来设计获取相关元素的 js 代码。 对于大模型 API,需要利用插件预先获取的网页内容变量、提示词和 API 请求参数,拼搭出完整的 API 提示请求,精确引导 API 返回想要的生成结果。根据 BigModel 官网给出的请求示例,需要传递 Model 类型、系统提示词、用户提示词、top_p、temperature 等关键参数。如果缺少参数设定经验,可以先询问 AI 相关设定的合适值,再逐步调试效果。 同时需要注意,使用 AI 写东西时,它可能会“产生幻觉”生成错误内容,需要检查所有内容。而且 AI 不会真正解释自己,可能给出编造的答案,使用时要对其输出负责。
2025-02-07
有没有能够阅读网页链接内部信息的AI模型?
目前存在能够阅读网页链接内部信息的相关技术和工具。例如,有一些 AI 浏览器插件可以实现这一功能。 在实现过程中,需要考虑以下几个关键方面: 1. 稳定获取网页内容:在初版提示词实验中,获取网页内容依赖大模型对话产品的外链解析能力,但易受平台反爬机制制裁。转换思路,通过用户浏览器以插件形式本地提取网页内容是一种稳定且经济的解决方案。开发时需确定需要插件获取的网页元素,可拿着初版提示词询问 AI 来设计获取相关元素的 js 代码。 2. 选择适合的 AI 大模型 API 服务:需要综合考虑多种因素来选择合适的服务。 3. 构建生产级提示词:对于大模型 API,要利用插件预先获取的网页内容变量、提示词和 API 请求参数,拼搭出完整的 API 提示请求,精确引导 API 返回想要的生成结果。同时,要根据不同模型的特点和要求设置相关参数,也可先询问 AI 相关参数的设定经验再进行调试。 此外,在初版提示词的开发中,将设计要求拆分为“设计规范”和“内容结构”,再细分为独立模块,并结合“内容结构”进行要求提示,这种提示词组织方式具有模型通用性、提示简易性和生成稳定性等显著优势。
2025-02-07
我想要搭建一个能够帮我阅读并总结提炼,同时能在我提出问题时,随时在我给他提供的知识库中检索的AI Agent,如何用Coze搭建?
搭建能够阅读、总结提炼并在给定知识库中检索的 AI Agent 可以使用 Coze 按照以下步骤进行: 1. 规划 制定任务的关键方法。 总结任务目标与执行形式。 将任务分解为可管理的子任务,确立逻辑顺序和依赖关系。 设计每个子任务的执行方法。 2. 实施 在 Coze 上搭建工作流框架,设定每个节点的逻辑关系。 详细配置子任务节点,并验证每个子任务的可用性。 3. 完善 整体试运行 Agent,识别功能和性能的卡点。 通过反复测试和迭代,优化至达到预期水平。 关于一些其他问题: 1. 如何判断自己的任务/Prompt 是否需要拆解为工作流? 构建稳定可用的 AI Agent 是一个需要不断调试和迭代的过程。通常先从当前性能最强的 LLM(如 ChatGPT4 和 Claude 3.5 sonnet)着手,先用单条 Prompt 或 Prompt Chain 来测试任务的执行质量和稳定性。然后,根据实际执行情况、最终投产使用的 LLM,逐步拆解子任务,降低 LLM 执行单任务的难度,直到达成工程目标。一般对于场景多样、结构复杂、对输出格式要求严格的内容,基本可以预见到需要将其拆解为工作流。此外,如果涉及生成多媒体内容或从网络自主获取额外信息等能力,必然需要通过工作流来调用相应的插件。 2. 只用了一段 Prompt 的 Agent,还算 AI Agent 吗? 算。详见
2025-02-06
假设你是经验丰富的AI工程师,现在需要搭建能够自行识别电商直播平台中客户提出的问题并给出不死板且AI痕迹弱的回答,同时直播的主播是我们虚拟的数字人,请问需要怎么做,请给出具体步骤
以下是搭建能够自行识别电商直播平台中客户提出的问题并给出自然回答,且直播主播为虚拟数字人的具体步骤: 1. 选择数字人工具软件: 考虑实时驱动和非实时驱动两类。实时驱动能在直播时更改音频话术,真人可接管,标准零售价一年 4 6 万往上;非实时驱动一个月 600 元,但效果差,类似放视频的伪直播,市场价格混乱。 2. 确定数字人运营服务模式: 按直播间成交额抽佣。 3. 明确适用品类和场景: 适用于不需要强展示的商品,如品牌食品饮料;适用于虚拟商品,如门票、优惠券等;店播效果较好,数据能保持跟真人一样;不适用于促销场景和服装品类。 4. 了解 AI 直播的壁垒和未来市场格局: 目前有技术门槛,如更真实的对口型、更低的响应延迟等,但长期看技术上无壁垒。 市场不会一家独大,可能 4 5 家一线效果公司,大多为二三线效果公司。 能把客户服务好、规模化扩张的公司更有价值,疯狂扩代理割韭菜的公司售后问题多。 有资源、有业务的大平台下场可能带来降维打击,如剪映若不仅提供数字人,还提供货品供应链、数据复盘分析等全环节服务,会对其他公司形成竞争压力。
2025-02-06