Navigate to WaytoAGI Wiki →
Home/question.detail.breadcrumb.questionList/question.detail.breadcrumb.questionDetail

大模型微调的目的和意义,会产生什么效果

Answer

大模型微调具有重要的目的、意义和效果,具体如下:

  • 目的和意义:
    • 提高模型在特定任务中的性能:可以输入更多示例,经过微调的模型在特定任务中会有更好的表现,虽然可能会失去一些通用性。
    • 提高模型效率:实现更低的延迟和更低的成本。通过专门化模型可使用更小的模型,且只对输入输出对进行训练,能舍弃示例或指令,进一步改善延迟和成本。
    • 适应特定领域需求:通用大模型在特定领域如法律或医学中的表现可能不理想,微调能优化模型在该领域的表现,使其更具专业性。
    • 经济高效:从头开始训练具备自然语言处理能力的大模型需要大量时间和资源,小公司负担不起,微调可在现有模型基础上更经济、高效地适应新应用领域,节省成本并加快模型部署和应用速度。
  • 效果:
    • 优化模型参数:在特定领域的数据上训练模型,调整所有层的参数。
    • 增强特定领域表现:使模型在特定领域的任务中表现更佳。

目前业界比较流行的微调方案是 PEFT(Parameter-Efficient Fine Tuning),OpenAI 官方微调教程可参考:https://github.com/openai/openai-cookbook/blob/main/examples/How_to_finetune_chat_models.ipynb

Content generated by AI large model, please carefully verify (powered by aily)

References

3. 如何让 LLM 应用性能登峰造极

参数规模的角度,大模型的微调分成两条技术路线:全量微调FFT(Full Fine Tuning):对全量的模型参数,进行全量的训练。PEFT(Parameter-Efficient Fine Tuning):只对部分模型参数进行训练。从成本和效果的角度综合考虑,PEFT是目前业界比较流行的微调方案。OpenAI官方微调教程:[https://github.com/openai/openai-cookbook/blob/main/examples/How_to_finetune_chat_models.ipynb](https://github.com/openai/openai-cookbook/blob/main/examples/How_to_finetune_chat_models.ipynb)微调是在较小的、特定领域的数据集上继续LLM的训练过程。这可以通过调整模型本身的参数,而不是像提示工程和RAG那样仅仅更改提示,来大幅提高模型在特定任务中的性能。把微调想象成把通用工具打磨成精密仪器。微调有两大好处:提高模型在特定任务中的性能。微调意味着你可以输入更多的示例。您可以在数以百万计的代币上进行微调,而根据上下文的大小,少量学习提示仅限于数以万计的代币。经过微调的模型可能会失去一些通用性,但对于其特定任务而言,您应该期待它有更好的表现。提高模型效率。LLM应用程序的效率意味着更低的延迟和更低的成本。实现这一优势有两种方法。通过专门化模型,您可以使用更小的模型。此外,由于只对输入输出对进行训练,而不是对完整的提示及其任何提示工程技巧和提示进行训练,因此可以舍弃示例或指令。这可以进一步改善延迟和成本。

大圣:全网最适合小白的 Llama3 部署和微调教程

在人工智能领域,我们通常会根据应用领域将大模型分为两类通用大模型领域特定模型。通用大模型如GPT-4.0、GPT-3.5、文新一言以及开源的通义千问、Llama2和Llama3它们通过训练获得了广泛的自然语言理解能力。这些模型类似于多面手,能够处理多种类型的语言任务。然而,尽管这些通用模型拥有强大的基础语言能力,它们在特定领域如法律或医学中的表现可能并不理想。这就像是一个语言能力已完全发展的10岁孩子,虽然可以流利交流,但要成为某一专业领域的专家,还需要学习更多相关知识。这种对大模型针对特定领域进行的训练过程称为大模型的微调。微调是一个调整过程,通过在特定领域的数据上训练模型,优化所有层的参数,以使模型在该领域表现更佳。提高其在该领域的专业性你可能会问,为什么不直接构建一个专用于法律的模型?关键在于,从头开始训练一个具备自然语言处理能力的大模型需要大量的时间和资源。小公司负担不起但是通过微调,我们可以在现有模型的基础上,更经济、更高效地适应新的应用领域。这类似于在巨人的肩膀上进一步攀登,利用已有的广泛知识基础,快速达到新的高度。这种方法不仅节省了成本,还可以加快模型部署和应用的速度。OK,对于普通人而言,大模型微调了解到这个程度就可以,我们继续

大模型入门指南

通俗来讲,大模型就是输入大量语料,来让计算机获得类似人类的“思考”能力,使之能够理解自然语言,能够进行『文本生成』、『推理问答』、『对话』、『文档摘要』等工作。既然是学习,那我们就可以用『上学参加工作』这件事来类比大模型的训练、使用过程:1.找学校::训练LLM需要大量的计算,因此GPU更合适,因此只有购买得起大量GPU的贵族学校才有资本训练自己的大模型2.确定教材::大模型顾名思义就是大,需要的数据量特别多,几千亿序列(Token)的输入基本是标配3.找老师::即用什么样的算法讲述“书本”中的内容,让大模型能够更好理解Token之间的关系4.就业指导::学完书本中的知识后,为了让大模型能够更好胜任某一行业,需要进行微调(fine tuning)指导5.搬砖::就业指导完成后,下面就要正式干活了,比如进行一次翻译、问答等,在大模型里称之为推导(infer)在LLM中,Token([2])被视为模型处理和生成的文本单位。它们可以代表单个字符、单词、子单词,甚至更大的语言单位,具体取决于所使用的分词方法(Tokenization)。Token是原始文本数据与LLM可以使用的数字表示之间的桥梁。在将输入进行分词时,会对其进行数字化,形成一个词汇表(Vocabulary),比如:The cat sat on the mat,会被分割成“The”、“cat”、“sat”等的同时,会生成下面的词汇表:|Token|ID||-|-||The|345||cat|1256||sat|1726||…|…|

Others are asking
怎么微调llama2
以下是关于微调 Llama2 的相关信息: Meta 官方在 2023 年 8 月 24 日发布了 Code Llama,基于代码数据对 Llama2 进行了微调,提供三个不同功能的版本:基础模型(Code Llama)、Python 专用模型(Code LlamaPython)和指令跟随模型(Code LlamaInstruct),包含 7B、13B、34B 三种不同参数规模。不同模型能力区别如下: |模型类别|模型名称|代码续写|代码填充|指令编程| |||||| |Code Llama|CodeLlama7b|✅|✅|❌| ||CodeLlama13b|✅|✅|❌| ||CodeLlama34b|✅|❌|❌| |Code LlamaPython|CodeLlama7bPython|✅|❌|❌| ||CodeLlama13bPython|✅|❌|❌| ||CodeLlama34bPython|✅|❌|❌| |Code LlamaInstruct|CodeLlama7bInstruct|❌|✅|✅| ||CodeLlama13bInstruct|❌|✅|✅| ||CodeLlama34bInstruct|❌|❌|✅| 关于 Code Llama 的详细信息可以参考官方 Github 仓库 codellama:https://github.com/facebookresearch/codellama 基于中文指令数据集对 Llama2Chat 模型进行了微调,使得 Llama2 模型有着更强的中文对话能力。LoRA 参数以及与基础模型合并的参数均已上传至 Hugging Face,目前包含 7B 和 13B 的模型。具体信息如下: |类别|模型名称|🤗模型加载名称|基础模型版本|下载地址| |||||| |合并参数|Llama2Chinese7bChat|FlagAlpha/Llama2Chinese7bChat|metallama/Llama27bchathf|| |合并参数|Llama2Chinese13bChat|FlagAlpha/Llama2Chinese13bChat|metallama/Llama213bchathf|| |LoRA 参数|Llama2Chinese7bChatLoRA|FlagAlpha/Llama2Chinese7bChatLoRA|metallama/Llama27bchathf|| |LoRA 参数|Llama2Chinese13bChatLoRA|FlagAlpha/Llama2Chinese13bChatLoRA|metallama/Llama213bchathf|| 一旦有了基础模型,就进入计算成本相对较低的微调阶段。在这个阶段,编写标签说明,明确希望模型的表现,雇佣人员根据标签说明创建文档,例如收集 100,000 个高质量的理想问答对,根据这些数据微调基础模型。这个过程成本较低,可能只需要一天或类似的时间。然后进行大量评估,部署模型,并监控其表现,收集不当行为的实例,对不当行为进行纠正,将正确答案加入训练数据中,下次微调时模型会改进。这是一个迭代过程,公司通常在微调阶段更频繁地进行迭代。 需要指出的是,例如 Llama2 系列,Meta 在发布时就包括了基础模型和助手模型。基础模型不能直接使用,助手模型可直接用于回答问题。
2024-12-23
openai 的偏好微调
偏好微调(Direct Preference Optimization)是 OpenAI 的一种新的微调方式。其操作方式是通过向模型展示两个不同的输出结果并指出哪个更好,模型将倾向于生成类似更“好”的结果。这种微调方式可以调整模型输出的风格,增加某种类型输出的权重,减少其他类型的权重。
2024-12-18
国内有哪些gpu算力平台,支持快速搭建AI大模型预训练环境 和 微调环境
国内的 GPU 算力平台中,支持快速搭建 AI 大模型预训练环境和微调环境的有: 1. 阿里云:提供云计算资源,用户可根据需求租用算力服务。 2. 腾讯云:具备相应的算力支持,为用户提供灵活的选择。 3. 亚马逊 AWS:基础设施提供商建立的“算力集市”,可满足用户的算力需求。 在搭建环境时,通常需要考虑以下步骤: 1. 选择合适的部署方式,如本地环境部署、云计算平台部署、分布式部署、公共云服务商部署等,根据自身的资源、安全和性能需求进行选择。 2. 准备训练所需的数据和计算资源,确保有足够的训练数据覆盖目标应用场景,并准备足够的计算资源,如 GPU 服务器或云计算资源。 3. 选择合适的预训练模型作为基础,例如可以使用开源的预训练模型如 BERT、GPT 等,也可以自行训练一个基础模型。 4. 针对目标任务进行模型微调训练,根据具体应用场景对预训练模型进行微调训练,优化模型结构和训练过程以提高性能。 5. 部署和调试模型,将训练好的模型部署到生产环境,并对部署的模型进行在线调试和性能优化。 6. 注意安全性和隐私保护,大模型涉及大量数据和隐私信息,需要重视安全性和合规性。 此外,英伟达还发布了统一的超算平台 DGX B200,用于 AI 模型训练、微调和推理。它包括 8 个 Blackwell GPU 和 2 个第五代 Intel Xeon 处理器,包含 FP4 精度功能,提供高达 144 petaflops 的 AI 性能、1.4TB 的 GPU 内存和 64TB/s 的内存带宽。但模型训练能耗也是一个关键问题,例如由 8 张 A100 GPU 组成的 DGX 服务器,最大功率达到 6.5 千瓦,运行一小时就会消耗 6.5 度电,若有 1000 台这样的服务器同时运行,每天的电费将达到惊人的 20 万元。
2024-12-14
开源的开源的 LLM 微调推理,agent开发平台
以下是为您整理的关于开源的 LLM 微调推理、agent 开发平台的相关内容: LLM 作为 Agent 的“大脑”的特点: 1. 知识获取能力:通过预训练学习大量语言数据,掌握丰富语言信息和常识知识,能处理多种任务。 2. 指令理解:擅长解析人类语言指令,采用深度神经网络进行自然语言理解和生成,精准理解意图。 3. 泛化能力:在未见过的数据上表现良好,能利用先前知识处理新挑战,形成对语言结构的通用理解。 4. 推理和规划:能够进行逻辑推理和未来预测,分析条件制定最佳行动方案,在复杂环境中做出理性选择。 5. 交互能力:拥有强大对话能力,在多人多轮次对话中自然流畅交流,改善用户体验。 6. 自我改进:基于用户反馈和效果评估,通过调整参数、更新算法提升性能和准确性。 7. 可扩展性:可根据具体需求定制化适配,针对特定领域数据微调提高处理能力和专业化水平。 相关产品和平台: 1. ComfyUI:可在其中高效使用 LLM。 2. Vercel AI SDK 3.0:开源的工具,可将文本和图像提示转换为 React 用户界面,允许开发者创建丰富界面的聊天机器人。 3. OLMo7BInstruct:Allen AI 开源的微调模型,可通过资料了解从预训练模型到 RLHF 微调模型的所有信息并复刻微调过程。 4. Devv Agent:能提供更准确、详细的回答,底层基于 Multiagent 架构,根据需求采用不同 Agent 和语言模型。 实例探究: 1. ChemCrow:特定领域示例,通过 13 个专家设计的工具增强 LLM,完成有机合成、药物发现和材料设计等任务。 2. Boiko et al. 研究的 LLM 授权的科学发现 Agents:可处理复杂科学实验的自主设计、规划和执行,能使用多种工具。
2024-12-12
语言类大模型如何微调
语言类大模型的微调主要包括以下内容: 传统微调:在通用数据集上预训练的模型,通过复制该模型,以学习到的权重为起点,在新的特定领域数据集上重新训练模型。但由于语言类大模型规模较大,更新每个权重可能需要很长时间的训练工作,且计算成本高,为模型提供服务也有麻烦和成本,所以可能不是最佳选择。 参数有效调优:这是一种创新的调优方法,旨在通过仅训练一部分参数来减少微调的挑战。这些参数可能是现有模型参数的子集,也可以是一组全新的参数,例如向模型添加额外的层或额外的嵌入到提示。 实际操作:在Generative AI Studio的语言部分选择调整,创建调整模型时提供名称,并指向训练数据的本地或Cloud Storage位置。参数有效调整适用于拥有“适度”数量训练数据的场景,训练数据应以文本到文本格式构建为受监督的训练数据集。 此外,大模型通俗来讲是输入大量语料,让计算机获得类似人类的“思考”能力,能够进行文本生成、推理问答、对话、文档摘要等工作。其训练过程类似上学参加工作,包括找学校(需要大量计算资源)、确定教材(需要大量数据)、找老师(选择算法)、就业指导(微调)、搬砖(推导)。在LLM中,Token被视为模型处理和生成的文本单位。 在Andrej Karpathy亲授的内容中,微调是根据问答文档进行训练,获得助理模型,该模型能以助手形式回答未包含在训练集中的问题,且能利用预训练阶段积累的知识。预训练阶段在互联网上大规模训练积累知识,微调阶段则是将格式转换为类似有用助手的问答形式。预训练成本高昂,通常只在公司内部进行。
2024-12-05
模型微调怎么解决多轮对话容易受到上轮对话的影响问题
在解决模型微调中多轮对话容易受到上轮对话影响的问题时: 对于多轮对话,现实中常伴随指代问题,如使用“它”“他们”“我们”等代词。若仅依据原始提问检索知识片段,可能导致结果不精确或无法检索到信息。同时,对模型回复内容的限制可能影响多轮对话流畅性甚至中断。 为提升对话系统性能和用户体验,需开发提示词解决多轮对话中的指代消解问题,确保模型能在连续交流中提供准确连贯回答。但由于“指代消解”需多轮对话完成,单次交互无法达成,所以要转换测试形式,先解决“指代消解”问题再进行下一轮答复。 首先准备指代消解所需提示词,这里使用的“指代消解”提示词是用 CoT 写出的思维链,列举不同推理情景,让模型适应并推理出需消解的代词,再根据结果重新组织问题。 接着复现指代消解步骤,如进行第一轮对话,提出问题“尼罗河是什么?”,系统召回相关知识片段并回复,然后开始指代消解。 另外,聊天模型通过一串聊天对话输入并返回生成消息输出。聊天格式虽为多轮对话设计,但对单轮任务也有用。会话通过 messages 参数输入,包含不同角色和内容的消息对象数组。通常会话先有系统消息设定助手行为,再交替使用用户和助手消息。当指令涉及之前消息时,包含聊天历史记录有帮助,若超出模型限制需缩减会话。
2024-11-21
ChatGPT如何训练需要的模型
ChatGPT 的训练模型主要包括以下几个方面: 1. 预训练(Pretrain)阶段:建立模型的能力上限,如确定模型各方面能力的天花板。此阶段跟 GPT3 的方法近似,例如采用 decoderonly 的网络架构,有特定的模型大小、输入窗口大小、单词本大小,见过大量的 tokens,使用大量的原始训练文本。 2. 监督微调(Supervised Finetune,SFT)阶段:让模型学会对话的形式展开,即知道如何按照对话的格式进行交流。 3. 强化学习从人类反馈(Reinforcement Learning from Human Feedback,RLHF)阶段:细分为奖励模型(RM)阶段和强化学习(RL)阶段,能激发模型具备多种能力,包括安全性、推理能力和稳定性等。 训练方式主要是通过材料学习,不断形成模型。其本质功能是“单字接龙”,通过自回归生成的方式,将生成的下一个词与之前的上文组合,不断重复生成任意长的下文。训练的目的不是记忆,而是学习提问和回答的通用规律,实现举一反三,即泛化。学习材料用于调整模型,得到通用模型,以处理未被数据库记忆的情况。ChatGPT 不是搜索引擎的升级版,搜索引擎无法给出未被数据库记忆的信息,而 ChatGPT 作为生成模型可以创造不存在的文本,但可能存在混淆记忆、无法直接查看和更新所学、高度依赖学习材料以及缺乏及时性和准确性等缺点。
2024-12-24
如何训练模型
训练模型的方法有多种,以下为您介绍几种常见的训练模型方式: 1. 用 SD 训练一套贴纸 LoRA 模型: 原始形象:MJ 初步产出符合设计想法的贴纸原始形象。 二次加工:完成贴纸的白色边线等细节加工。 处理素材:给训练集图片打 tag,修改 tag。 训练模型:将上述处理好的数据集做成训练集,进行训练。 2. 基于百川大模型训练虚拟专家: 选择 Baichuan27BChat 模型作为底模,配置模型本地路径,配置提示模板。 在 Train 页面里,选择 sft 训练方式,加载定义好的数据集 wechat 和 self_cognition。 学习率和训练轮次非常重要,根据自己的数据集大小和收敛情况来设置。 使用 FlashAttention2 可减少显存需求,加速训练速度。 显存小的朋友可以减少 batch size 和开启量化训练,内置的 QLora 训练方式非常好用。 需要用到 xformers 的依赖。 显存占用 20G 左右,耐心等待一段时间。 3. 使用编码器解码器架构构建诗歌生成器: 在训练模型之前,需要一个损失函数,由于本质上是一个多类分类问题,损失将是稀疏的分类交叉熵损失,配置从 logits 计算的损失。 有了损失后编译模型,将损失和优化器联系在一起。 选择训练的时期,一个时期是对数据集的完整传递,进行多次训练,并提供回调以确保在训练期间保存权重。 从实际的字符串中提取字符序列,使用 TensorFlow 的 TF 字符串 Unicode 拆分功能。 将字符序列转化为数字,使用 TF Keras 层中的 StringLookup 函数将每个字符映射到给定的 ID,也可使用同一层的 StringLookup 函数获得反向映射。 将处理后的数据作为神经网络的训练数据集,使用 TF Data Dataset API。
2024-12-24
我想找一个关于建筑三维模型渲染的ai网站
以下为一些关于建筑三维模型渲染的 AI 网站: 1. 3dfy.ai:这是一家专注于将稀疏数据转化为逼真三维世界的公司。其领导团队由计算成像领域资深专家组成,拥有近四十年综合专业知识。适用于数字内容创作者、艺术家、游戏开发者、动画制作人、教育和培训行业专业人士、医疗行业以及建筑和工程领域等。 2. HDAidMaster:云端工具,在建筑设计、室内设计和景观设计领域表现出色,搭载自主训练的建筑大模型 ArchiMaster。 3. Maket.ai:主要面向住宅行业,在户型设计和室内软装设计方面有探索。 4. ARCHITEChTURES:AI 驱动的三维建筑设计软件,在住宅设计早期阶段可引入相关标准和规范。 5. Fast AI 人工智能审图平台:形成全自动智能审图流程,实现数据汇总与管理。 但需注意,每个工具都有其特定应用场景和功能,建议您根据自身具体需求选择合适的工具。
2024-12-24
在使用sys prompt时为什么要为模型定义角色
在使用系统提示词(sys prompt)为模型定义角色具有以下重要性: 1. 符合特定应用场景:通过定义角色,使模型的行为和输出更符合具体的应用需求,例如让模型作为历史顾问回答历史问题,或作为技术专家解决技术难题。 2. 明确任务和风格:不仅可以指定具体的人物角色,还能设定一种交流风格,如正式、幽默、友好等。 3. 引导模型行为和输出:为模型提供固定的模板,确保其输出与期望和工作流的需求保持一致。 4. 优化用户体验:ChatGPT 有默认的“一个乐于助人的助手”角色,可通过修改系统提示词来满足更个性化的需求。 然而,也有观点认为不需要过度依赖角色扮演类的提示词。关键是要非常具体地描述出模型所在的使用环境,提供足够详细的信息,以避免模型未按预期完成任务。提示词最重要的是表达清晰准确。
2024-12-24
目前AI大模型有多少个比较知名的
目前比较知名的 AI 大模型有: 北京企业机构: 百度(文心一言):https://wenxin.baidu.com 抖音(云雀大模型):https://www.doubao.com 智谱 AI(GLM 大模型):https://chatglm.cn 中科院(紫东太初大模型):https://xihe.mindspore.cn 百川智能(百川大模型):https://www.baichuanai.com/ 上海企业机构: 商汤(日日新大模型):https://www.sensetime.com/ MiniMax(ABAB 大模型):https://api.minimax.chat 上海人工智能实验室(书生通用大模型):https://internai.org.cn 大模型的特点和架构: 架构方面: encoderonly 模型通常适用于自然语言理解任务,例如分类和情感分析,最知名的代表模型是 BERT。 encoderdecoder 模型同时结合了 Transformer 架构的 encoder 和 decoder 来理解和生成内容,代表是 Google 的 T5。 decoderonly 模型更擅长自然语言生成任务,目前耳熟能详的 AI 助手基本都来自此类架构。 大模型的优势在于: 预训练数据非常大,往往来自于互联网上,包括论文、代码、公开网页等,最先进的大模型一般用 TB 级别的数据进行预训练。 参数非常多,Open 在 2020 年发布的 GPT3 就已经达到 170B 的参数。 大模型比较火的应用场景: 文本生成和内容创作:撰写文章、生成新闻报道、创作诗歌和故事等。 聊天机器人和虚拟助手:提供客户服务、日常任务提醒和信息咨询等服务。 编程和代码辅助:代码自动补全、bug 修复和代码解释。 翻译和跨语言通信:促进不同语言背景的用户之间的沟通和信息共享。 情感分析和意见挖掘:为市场研究和产品改进提供数据支持。 教育和学习辅助:创建个性化的学习材料、自动回答学生问题和提供语言学习支持。 图像和视频生成:如 DALLE 等模型可以根据文本描述生成相应的图像,未来可能扩展到视频内容的生成。 游戏开发和互动体验:创建游戏中的角色对话、故事情节生成和增强玩家的沉浸式体验。 医疗和健康咨询:提供初步的健康建议和医疗信息查询服务。 法律和合规咨询:帮助解读法律文件,提供合规建议,降低法律服务的门槛。 需要注意的是,随着大模型的普及,也需要关注其在隐私、安全和伦理方面的挑战。
2024-12-24
你好,你的大模型是什么
大模型是指输入大量语料,使计算机获得类似人类的“思考”能力,能够理解自然语言,并进行文本生成、推理问答、对话、文档摘要等工作。 大模型的训练和使用过程可以用“上学参加工作”来类比: 1. 找学校:训练大模型需要大量计算,GPU 更合适,只有购买得起大量 GPU 的才有资本训练自己的大模型。 2. 确定教材:大模型需要的数据量特别多,几千亿序列(Token)的输入基本是标配。 3. 找老师:即用合适的算法讲述“书本”中的内容,让大模型能够更好理解 Token 之间的关系。 4. 就业指导:为了让大模型更好胜任某一行业,需要进行微调(fine tuning)指导。 5. 搬砖:就业指导完成后,正式干活,比如进行翻译、问答等,在大模型里称之为推导(infer)。 在大模型中,Token 被视为模型处理和生成的文本单位,它们可以代表单个字符、单词、子单词,甚至更大的语言单位,具体取决于所使用的分词方法(Tokenization)。Token 是原始文本数据与大模型可以使用的数字表示之间的桥梁。在将输入进行分词时,会对其进行数字化,形成一个词汇表(Vocabulary)。 为了让计算机理解 Token 之间的联系,还需要把 Token 表示成稠密矩阵向量,这个过程称之为 embedding,常见的算法有: 基于统计:Word2Vec,通过上下文统计信息学习词向量;GloVe,基于词共现统计信息学习词向量。 基于深度网络:CNN,使用卷积网络获得图像或文本向量;RNN/LSTM,利用序列模型获得文本向量。 基于神经网络:BERT,基于 Transformer 和掩码语言建模(Masked LM)进行词向量预训练;Doc2Vec,使用神经网络获得文本序列的向量。 以 Transform 为代表的大模型采用自注意力(Selfattention)机制来学习不同 token 之间的依赖关系,生成高质量 embedding。大模型的“大”,指的是用于表达 token 之间关系的参数多,主要是指模型中的权重(weight)与偏置(bias),例如 GPT3 拥有 1750 亿参数,其中权重数量达到了这一量级,而词汇表 token 数只有 5 万左右。 此外,如果您想获取更多模型,大多数模型可以在 Civitai(C 站)https://civitai.com/ 下载。下载模型时的注意事项包括: 科学上网,需自行想办法。 点击右上角筛选按钮,找到所需模型类型,如 Checkpoint=大模型、LoRA=Lora 等。 看照片,感兴趣的点进去,点击右边“Download”下载保存到电脑本地。还可以点击左上角“Images”,查看别人做好的图片,找到喜欢的点进去,复制图片信息。 模型下载保存地址: 大模型:SD 根目录即存放 SD 的文件夹。 Lora、VAE 等也有相应的保存位置。 如果不知道下载的模型类型及应存放的文件夹,可以使用秋叶的模型解析工具 https://spell.novelai.dev/,将模型拖动到空白处,自动弹出模型信息,查看模型种类。
2024-12-23
自动出建筑室内效果图和施工图
以下是关于自动出建筑室内效果图和施工图的相关信息: 1. 用 Coze 的工作流创建: 目的:让 AI 能够快速出家装设计效果图,并根据客户咨询信息收集用户联系方式形成销售线索。 使用工具:字节旗下的 Coze AI 的图像工作流。 功能体验:体验地址为 https://www.coze.cn/store/bot/7374039392832405554?panel=1&bid=6cq1cccs00017,使用效果为 AI 设计效果图。 2. 家居生成装修方案:整个装修方案流程由 GPT4 所出,包括图纸、预算、设计装修风格、施工、风水布局,最后出 3D 效果图,全屋显示。 3. 能够帮助建筑设计师审核规划平面图的 AI 工具: HDAidMaster:云端工具,在建筑设计、室内设计和景观设计领域表现惊艳,搭载自主训练的建筑大模型 ArchiMaster。 Maket.ai:面向住宅行业,在户型设计和室内软装设计方面有探索,能根据输入需求自动生成户型图。 ARCHITEChTURES:AI 驱动的三维建筑设计软件,在住宅设计早期阶段可引入标准和规范约束设计结果。 Fast AI 人工智能审图平台:形成全自动智能审图流程,将建筑全寿命周期内信息集成,实现数据汇总与管理。 但需注意,每个工具都有其特定应用场景和功能,建议根据具体需求选择合适的工具。以上内容由 AI 大模型生成,请仔细甄别。
2024-12-24
哪个ai工具做PPT的效果最好
以下是一些效果较好的 AI 工具可用于制作 PPT: 1. MindShow:提供一系列智能设计功能,如自动布局、图像选择和文本优化等,还有可能包含互动元素和动画效果。网址:https://www.mindshow.fun/ 2. 爱设计:拥有多种精美的 PPT 模板,能为不同行业提供合适的幻灯片设计。 3. 闪击:能助您快速、高效地完成 PPT 设计。 4. Process ON:可辅助制作 PPT。 5. WPS AI:通过输入相关指令可添加动画等效果。 6. Gamma:在线 PPT 制作网站,支持输入文本和想法提示快速生成幻灯片,还支持嵌入多媒体格式。网址:https://gamma.app/ 7. 美图 AI PPT:由美图秀秀开发团队推出,通过输入简单文本描述生成专业 PPT 设计,有丰富模板库和设计元素。网址:https://www.xdesign.com/ppt/ 8. 讯飞智文:由科大讯飞推出的 AI 辅助文档编辑工具,利用语音识别和自然语言处理技术优势,提供智能文本生成、语音输入、文档格式化等功能。网址:https://zhiwen.xfyun.cn/ 需要注意的是,每款工具都有其独特优势,您可以根据自身需求和使用习惯进行选择。
2024-12-18
有没有根据布料照片和模特照片生成衣服上身效果的工具或 comfyUI 工作流
以下是一些与根据布料照片和模特照片生成衣服上身效果相关的工具和工作流: 1. 藏师傅的方法:将第二步的提示词和 Logo 图片放到 Comfyui 工作流就行。Lora 需要用到 InContext LoRA 中的 visualidentitydesign,可从以下地址下载:https://huggingface.co/alivilab/InContextLoRA/tree/main 。工作流下载:https://github.com/op7418/Comfyuiworkflow/blob/main/FLUX/Logo%20%E5%91%A8%E8%BE%B9%E7%94%9F%E6%88%90.json 。 2. 彭青云分享的内容:本地部署 Comfyui 有多种方式,如官方的本地部署包、秋叶整合包和二狗子老师制作的通往 AGI 之路黑猴子流专属包。处理好软件和模型后,打开一键启动,稍等片刻就会进入工作界面。通过正反提示词、文本链接图像,点击右侧队列即可生成图像。 3. ComfyUI BrushNet:原项目 https://tencentarc.github.io/BrushNet/ ,插件地址 https://github.com/kijai/ComfyUIBrushNetWrapper ,模型下载 https://huggingface.co/Kijai/BrushNetfp16/tree/main 。第一次运行会自动下载需要的模型,如果是用的 ComfyUIBrushNetWrapper 节点,模型将自动从此处下载:https://huggingface.co/Kijai/BrushNetfp16/tree/main 到 ComfyUI/models/brushnet,也可手动下载放在这个文件夹里面。另外,BrushNet 提供了三个模型,个人测试下来,random 这个效果比较好。工作流方面,可配合 mj 出底图,在底图不变的基础上,添加文字或者图片内容。还可以使用 GDinoSAm(GroundingDino+Sam),检测和分割底图上的内容,做针对性的修改。
2024-12-13
Sora实测效果如何
Sora 是 OpenAI 推出的革命性模型,于 2024 年 12 月 10 日正式登场。它具有以下特点和实测情况: 功能: 文生视频、图生视频、视频生视频,支持多种视频定制选项,如分辨率(从 480p 到 1080p)、视频长度(从 5 秒到更长时间)和视频风格。 故事板功能,允许用户通过时间线指导视频中的多个动作,创建更加复杂的视频序列。 混音和编辑功能,提供视频混音,支持视频的延伸和剪辑,以及创建循环视频。 高级功能包括混合功能,可以将两个视频场景合并成一个新的场景。 费用和订阅套餐: 对于已经拥有 OpenAI Plus 或 Pro 账户的用户,Sora 的使用包含在现有订阅中。 OpenAI Plus 订阅每月有 50 次视频生成次数。 OpenAI Pro 订阅有无限次慢速队列生成和 500 次正常速度的视频生成次数。 选择更高分辨率的视频生成可能会减少每月的使用次数。 实测案例: 有正面报道,如《》等。 也有负面报道,如《》。 有博主已经做了提前测试,如 This Video is AI Generated!SORA Review(https://www.youtube.com/watch?v=OY2x0TyKzIQ )。 大家的测试和创意包括:能够识别一段长内容并且文字形体不变形,根据新闻创建适合在 tiktok 上传播的短视频等。 体验 Sora 的魔力可访问: 。2 点直播链接:https://www.youtube.com/watch?v=2jKVx2vyZOY 。Sora 发布初期,某些地区(如欧洲和英国)可能会有延迟。
2024-12-13
能到达图片重绘效果的软件
以下是一些能够实现图片重绘效果的软件及相关信息: Stable Diffusion: 将照片放入后期处理中,使用 GFPGAN 算法使人脸变清晰。可参考文章。 将图片发送到图生图中,打开 stableSR 脚本,放大两倍。此放大插件是所有插件中对原图还原最精准、重绘效果最好的。可参考文章。切换到 sd2.1 的模型进行修复,vae 选择 vqgan,提示词可以不写以免对原图产生干扰。 Midjourney: 最新编辑器更新,可上传图片重新绘制。允许从计算机上传图像,然后扩展、裁剪、重绘、添加或修改场景中的元素。还推出了“图像重纹理化模式”,会估算场景的形状,然后重新应用纹理,使得所有光照、材质和表面都发生变化。所有图像编辑操作都可以通过文本提示和区域选择来控制。编辑器兼容模型个性化、风格参考、角色参考和图像提示功能。 常见问题:如果提出极其不合适的请求,或者要求修改一个非常小的区域,可能无法得到预期的结果;如果在场景中放了一个很小的头部并要求进行外绘,生成的身体可能会太大(所以请将头部放大一些)。 重纹理化:是一种通过使用另一张图像来引导图像结构或构图的方法。从构图引导图像开始(在全功能编辑器中上传或链接的基础或母图像),然后使用提示词和参数来添加所需的细节。 右侧显示的缩略图:显示器右侧的缩略图显示的是最近几次编辑会话的记录。左边稍大一点的缩略图是上传或链接的图像。其他四张缩略图是子图像,展示了 Midjourney 根据提示生成的四种不同表达方式。 按钮:用于查看更多相关内容。 使用规则:由于这些功能非常新,Midjourney 希望给社区和人工审核团队一个缓慢适应的时间,因此在第一个发布阶段,将这些功能开放给以下社区群体:已生成至少 10,000 张图像的用户,年度会员可用;过去 12 个月内一直是月度订阅用户的用户(MJ 尝试做得更细致一些,但数据库处理起来有些复杂,抱歉!)
2024-12-05
有制作果园设计效果图的AI工具推荐吗?
以下是一些可以制作果园设计效果图的 AI 工具推荐: 1. CADtools 12:这是一个 Adobe Illustrator(AI)插件,为 AI 添加了 92 个绘图和编辑工具,包括图形绘制、编辑、标注、尺寸标注、转换、创建和实用工具。 2. Autodesk Fusion 360:Autodesk 开发的一款集成了 AI 功能的云端 3D CAD/CAM 软件,能够帮助用户创建复杂的几何形状和优化设计。 3. nTopology:基于 AI 的设计软件,可以帮助用户创建复杂的 CAD 模型,包括拓扑优化、几何复杂度和轻量化设计等。 4. ParaMatters CogniCAD:基于 AI 的 CAD 软件,可以根据用户输入的设计目标和约束条件自动生成 3D 模型,适用于拓扑优化、结构设计和材料分布等领域。 5. 一些主流 CAD 软件,如 Autodesk 系列、SolidWorks 等,提供了基于 AI 的生成设计工具,这些工具可以根据用户输入的设计目标和约束条件自动产生多种设计方案。 需要注意的是,这些工具通常需要一定的 CAD 知识和技能才能有效使用。对于 CAD 初学者,建议先学习基本的 3D 建模技巧,然后尝试使用这些 AI 工具来提高设计效率。
2024-12-04