Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

微调训练框架的选择

Answer

以下是关于微调训练框架选择的相关内容:

在 Stable Diffusion 中:

  • 首先,config 文件夹中有两个配置文件 config_file.toml 和 sample_prompt.toml,分别存储着训练超参数与训练中的验证 prompt。
  • config_file.toml 文件主要包含了 model_arguments、optimizer_arguments、dataset_arguments、training_arguments、sample_prompt_arguments 以及 saving_arguments 六个维度的参数信息。
    • v2 和 v_parameterization:两者同时设置为 true 时,开启 Stable Diffusion V2 版本的训练。
    • pretrained_model_name_or_path:读取本地 Stable Diffusion 预训练模型用于微调训练。
    • optimizer_type:有["AdamW"(default)、"AdamW8bit"、"Lion"、"SGDNesterov"、"SGDNesterov8bit"、"DAdaptation"、"AdaFactor"]七种优化器可以选择。不进行选择时默认启动 AdamW 优化器;显存不太充足时,可选择 AdamW8bit 优化器,但会有轻微性能损失;Lion 优化器是较新的版本,性能优异,但学习率需设置较小,比如为 AdamW 优化器下的 1/3。
    • learning_rate:单卡推荐设置 2e-6,多卡推荐设置 1e-7。
  • 除了上述的训练环境参数传入,还需将配置好的 config_file.toml 和 sample_prompt.txt 参数传入训练脚本中。
  • 当设置 1024 分辨率+FP16 精度+xformers 加速时,SD 模型进行 Batch Size=1 的微调训练需要约 17.1G 的显存,进行 Batch Size=4 的微调训练需要约 26.7G 的显存,所以最好配置一个 24G 以上的显卡。
  • 微调训练完成后,模型权重会保存在之前设置的 output_dir 路径下。可以使用 Stable Diffusion WebUI 作为框架加载模型进行 AI 绘画,需将训练好的模型放入/models/Stable-diffusion 文件夹下。

在 OpenAI 中:

  • 使用 OpenAI CLI 开始微调工作,需指定从哪个 BASE_MODEL 开始(ada、babbage、curie 或 davinci),还可使用后缀参数自定义微调模型的名称。
  • 运行命令后会上传文件、创建微调作业并流式传输事件直到作业完成。
  • 每个微调工作都从一个默认为 curie 的基本模型开始,模型的选择会影响性能和成本。
  • 开始微调作业后,可能需要几分钟或几小时才能完成,工作完成后会显示微调模型的名称。此外,还可以列出现有作业、检索作业状态或取消作业。
Content generated by AI large model, please carefully verify (powered by aily)

References

教程:深入浅出完整解析Stable Diffusion(SD)核心基础知识 - 知乎

接下来,Rocky将带着大家从头到尾走通SD全参微调训练过程,并讲解训练参数的意义。首先,我们可以看到config文件夹中有两个配置文件config_file.toml和sample_prompt.toml,他们分别存储着SD的训练超参数与训练中的验证prompt。config文件夹中的配置文件config_file.toml和sample_prompt.txt其中config_file.toml文件主要包含了model_arguments,optimizer_arguments,dataset_arguments,training_arguments,sample_prompt_arguments以及saving_arguments六个维度的的参数信息,下面Rocky为大家依次讲解各个超参数的作用:v2和v_parameterization:两者同时设置为true时,开启Stable Diffusion V2版本的训练。pretrained_model_name_or_path:读取本地Stable Diffusion预训练模型用于微调训练。optimizer_type:选择优化器类型。一共有:["AdamW"(default),"AdamW8bit","Lion","SGDNesterov","SGDNesterov8bit","DAdaptation","AdaFactor"]七种优化器可以选择。其中当我们不进行选择优化器类时,默认会启动AdamW优化器;当我们的显存不太充足时,可以选择AdamW8bit优化器,能降低训练时的显存占用,但代价是轻微地性能损失;Lion优化器是目前优化器方向上最新的版本,性能较为优异,但是使用Lion优化器时学习率需要设置较小,比如设置为AdamW优化器下的1/3。learning_rate:训练学习率,单卡推荐设置2e-6,多卡推荐设置1e-7。

教程:深入浅出完整解析Stable Diffusion(SD)核心基础知识 - 知乎

除了上述的训练环境参数传入,最重要的还是将刚才配置好的config_file.toml和sample_prompt.txt参数传入训练脚本中。接下里,就到了激动人心的时刻,我们只需在命令行输入以下命令,就能开始SD模型的全参微调训练啦:训练脚本启动后,会打印出以下的log,方便我们查看整个训练过程的节奏:当我们设置1024分辨率+FP16精度+xformers加速时,SD模型进行Batch Size=1的微调训练需要约17.1G的显存,进行Batch Size=4的微调训练需要约26.7G的显存,所以想要微调训练SD模型,最好配置一个24G以上的显卡,能让我们更佳从容地进行训练。到此为止,Rocky已经将SD全参微调训练的全流程都做了详细的拆解,等训练完成后,我们就可以获得属于自己的SD模型了!(5)加载自训练SD模型进行AI绘画SD模型微调训练完成后,会将模型权重保存在我们之前设置的output_dir路径下。接下来,我们使用Stable Diffusion WebUI作为框架,加载SD宝可梦模型进行AI绘画。在本文4章中,Rocky已经详细讲解了如何搭建Stable Diffusion WebUI框架,未使用过的朋友可以按照这个流程快速搭建起Stable Diffusion WebUI。要想使用SD模型进行AI绘画,首先我们需要将训练好的SD宝可梦模型放入Stable Diffusion WebUI的/models/Stable-diffusion文件夹下。然后我们在Stable Diffusion WebUI中分别选用SD宝可梦模型即可:

微调(Fine-tuning)

以下假设您已经按照上述说明准备了训练数据。使用OpenAI CLI开始微调工作:您从哪里BASE_MODEL开始的基本模型的名称(ada、babbage、curie或davinci)。您可以使用后缀参数自定义微调模型的名称。运行上面的命令会做几件事:1.使用文件API上传文件(或使用已经上传的文件)2.创建微调作业3.流式传输事件直到作业完成(这通常需要几分钟,但如果队列中有很多作业或您的数据集很大,则可能需要数小时)每个微调工作都从一个默认为curie的基本模型开始。模型的选择会影响模型的性能和运行微调模型的成本。您的模型可以是以下之一:ada、babbage、curie或davinci。请访问我们的定价页面,了解有关微调费率的详细信息。开始微调作业后,可能需要一些时间才能完成。在我们的系统中,您的工作可能排在其他工作之后,训练我们的模型可能需要几分钟或几小时,具体取决于模型和数据集的大小。如果事件流因任何原因中断,您可以通过运行以下命令恢复它:工作完成后,它应该显示微调模型的名称。除了创建微调作业外,您还可以列出现有作业、检索作业状态或取消作业。

Others are asking
微调
微调(Finetuning)是一种迁移学习技术,常用于深度学习中。其基本思路是先有一个在大量数据上预训练过的模型,该模型已学会一些基本模式和结构,然后在特定任务数据上继续训练,使其适应新任务。 例如在情感分类中,可先使用大量语料库预训练模型学会基本语法和单词语义,再用标注过的电影评论继续训练以判断情感。在图像分类中,先使用大量图片预训练模型学会识别基本形状和纹理,再用标注的猫和狗图片继续训练以区分二者。 创建微调模型时,假设已准备好训练数据,可使用 OpenAI CLI 开始微调工作。需确定从哪个基本模型(如 ada、babbage、curie 或 davinci)开始,并可使用后缀参数自定义微调模型名称。运行命令会上传文件、创建微调作业、流式传输事件直至作业完成。每个微调工作默认从 curie 模型开始,模型选择会影响性能和成本。作业开始后可能需几分钟或几小时完成,若事件流中断可恢复。此外,还可列出现有作业、检索作业状态或取消作业。 微调的超参数方面,选择了适用于一系列用例的默认超参数,唯一需要的参数是训练文件。但调整超参数通常可产生更高质量输出的模型,可能需配置的内容包括:要微调的基本模型名称(如“ada”“babbage”“curie”“davinci”);训练模型的时期数(n_epochs,默认为 4);批量大小(batch_size,默认为训练集中示例数量的 0.2%,上限为 256);微调学习率乘数(learning_rate_multiplier,默认为 0.05、0.1 或 0.2);是否计算分类指标(compute_classification_metrics,默认为假)。配置这些超参数可通过 OpenAI CLI 上的命令行标志传递。
2025-01-11
微调是什么意思
微调(Finetuning)是一种迁移学习技术,常用于深度学习中。其基本思路是:先有一个在大量数据上预训练过的模型,该模型已学会一些基本模式和结构(如自然语言处理中学会基本语法和单词语义,图像识别中学会基本形状和纹理)。然后,在特定任务数据上继续训练这个模型,使其适应新的任务。 以下是两个例子帮助理解: 1. 情感分类:先使用大量语料库预训练模型,使其学会基本语法和单词语义。再收集标注过的电影评论(一部分积极,一部分消极),在这些评论上继续训练模型,使其学会判断评论情感。 2. 图像分类:先使用大量图片(如 ImageNet 数据集)预训练模型,使其学会识别图片中的基本形状和纹理。再收集标注过的图片(一部分是猫,一部分是狗),在这些图片上继续训练模型,使其学会区分猫和狗。 微调在 LLM 应用中,是在已经训练好的模型基础上进一步调整,让模型的输出更符合预期。Finetune、Finetuning 是常用的英文写法。微调是在较小的、针对特定任务的标注数据集上进一步训练已经预训练过的 LLM 的过程,可调整部分模型参数以优化其在特定任务或任务集上的性能。 微调可让您从 API 提供的模型中获得更多收益,如比即时设计更高质量的结果、能够训练比提示中更多的例子、由于更短的提示而节省 Token、更低的延迟请求。GPT3 已在大量文本上预训练,微调通过训练比提示中更多的示例来改进小样本学习,让您在大量任务中取得更好的结果。对模型进行微调后,您将不再需要在提示中提供示例,这样可以节省成本并实现更低延迟的请求。 微调涉及以下步骤: 1. 准备和上传训练数据。 2. 训练新的微调模型。 3. 使用您的微调模型。 微调目前仅适用于以下基础模型:davinci、curie、babbage 和 ada。这些是原始模型,在训练后没有任何说明(例如 textdavinci003)。您还可以继续微调微调模型以添加其他数据,而无需从头开始。建议使用 OpenAI 命令行界面,安装时需注意相关要求。
2025-01-11
如何微调大模型
微调大模型主要包括以下几个方面: 1. 理解大模型:大模型是通过输入大量语料,让计算机获得类似人类的“思考”能力,能够进行文本生成、推理问答、对话、文档摘要等工作。可以用“上学参加工作”来类比大模型的训练和使用过程,包括找学校(需要大量 GPU 进行训练)、确定教材(需要大量数据)、找老师(选择合适算法)、就业指导(微调)和搬砖(推导)。 2. 准备数据集:数据集是让大模型重新学习的知识。例如,对于 Llama3 的微调,可以参考相关文档获取和了解数据集,如下载数据集。 3. 选择微调方式:从参数规模的角度,大模型的微调分成两条技术路线,全量微调 FFT(Full Fine Tuning)对全量的模型参数进行全量训练,PEFT(ParameterEfficient Fine Tuning)只对部分模型参数进行训练。从成本和效果综合考虑,PEFT 是目前业界较流行的微调方案。 4. 进行微调操作:有了数据集后,将其上传到服务器,编写微调代码并执行,大概 15 分钟左右可完成微调。 5. 参考资源:OpenAI 官方微调教程 。 微调的好处包括提高模型在特定任务中的性能和提高模型效率。经过微调的模型可能会失去一些通用性,但对于特定任务会有更好的表现,同时还能实现更低的延迟和成本。
2025-01-10
微调和增量训练的区别
微调和增量训练是在人工智能领域中用于改进模型性能的两种不同方法,它们有以下区别: 微调: 参数调整范围:分为全量微调(FFT)和参数高效微调(PEFT)。全量微调对全量的模型参数进行全量训练,PEFT 则只对部分模型参数进行训练。 数据使用:在较小的、特定领域的数据集上继续大语言模型(LLM)的训练过程,通过调整模型本身的参数来提高在特定任务中的性能。 效果和优势: 能大幅提高模型在特定任务中的性能,因为可以输入更多示例。 提高模型效率,可通过专门化模型使用更小的模型,且由于只对输入输出对进行训练,能舍弃示例或指令,进一步改善延迟和降低成本。 但经过微调的模型可能会失去一些通用性。 增量训练:文中未明确提及增量训练的相关内容。 总的来说,微调是一种针对特定任务和数据集对模型参数进行调整的有效方法,而增量训练的具体特点和与微调的详细对比在提供的内容中未充分阐述。
2025-01-07
训练以及部署微调模型
以下是关于训练以及部署微调模型的相关信息: 创建微调模型: 假设您已准备好训练数据。使用 OpenAI CLI 开始微调工作,需指定从哪个 BASE_MODEL(如 ada、babbage、curie 或 davinci)开始,可使用后缀参数自定义微调模型的名称。运行命令后会进行以下操作: 1. 使用文件 API 上传文件(或使用已上传的文件)。 2. 创建微调作业。 3. 流式传输事件直到作业完成,这通常需要几分钟,但如果队列中有很多作业或数据集很大,可能需要数小时。 每个微调工作都从默认为 curie 的基本模型开始,模型的选择会影响性能和成本。您的模型可以是 ada、babbage、curie 或 davinci,可访问定价页面了解微调费率的详细信息。 开始微调作业后,可能需要一些时间才能完成。工作可能排在其他工作之后,训练模型可能需要几分钟或几小时,具体取决于模型和数据集的大小。若事件流中断,可通过运行特定命令恢复。工作完成后,会显示微调模型的名称。此外,还可以列出现有作业、检索作业状态或取消作业。 GPT 助手的训练: 在有监督的微调阶段,收集少量但高质量的数据集,要求人工承包商收集提示和理想响应的数据,通常是几万个或类似数量。然后对这些数据进行语言建模,算法不变,只是训练集从互联网文档变为问答提示响应类型的数据。训练后得到有监督的微调模型(SFT 模型),可实际部署。 大型语言模型的微调: 一旦有了基础模型,进入计算成本相对较低的微调阶段。编写标签说明,明确助手的表现期望,雇佣人员创建文档,如收集 100,000 个高质量的理想问答对来微调基础模型,此过程可能只需一天。然后进行大量评估,部署模型并监控表现,收集不当行为实例并纠正,将正确答案加入训练数据,重复此过程。由于微调成本较低,可每周或每天进行迭代。 例如 Llama2 系列,Meta 发布时包括基础模型和助手模型。基础模型不能直接使用,助手模型可直接用于回答问题。若想自己微调,Meta 完成的昂贵的第一阶段结果可提供很大自由。
2025-01-06
全量微调与少量参数微调
在参数规模的角度,大模型的微调分为全量微调(FFT,Full Fine Tuning)和少量参数微调(PEFT,ParameterEfficient Fine Tuning)两条技术路线。 全量微调是对全量的模型参数进行全量的训练。少量参数微调则只对部分模型参数进行训练。从成本和效果的综合考虑,PEFT 是目前业界较流行的微调方案。 微调是在较小的、特定领域的数据集上继续 LLM 的训练过程,通过调整模型本身的参数,而非像提示工程和 RAG 那样仅更改提示,能大幅提高模型在特定任务中的性能。微调有两大好处:一是提高模型在特定任务中的性能,可输入更多示例,经过微调的模型可能会失去一些通用性,但对于特定任务会有更好表现;二是提高模型效率,实现更低的延迟和成本,可通过专门化模型使用更小的模型,且只对输入输出对进行训练,舍弃示例或指令进一步改善延迟和成本。 关于微调的具体实现,LoRA 微调脚本见:。 在微调的超参数方面,选择了适用于一系列用例的默认超参数,唯一需要的参数是训练文件。调整超参数通常可产生更高质量输出的模型,可能需要配置的内容包括:model(要微调的基本模型的名称,可选择“ada”“babbage”“curie”或“davinci”之一)、n_epochs(默认为 4,训练模型的时期数)、batch_size(默认为训练集中示例数量的 0.2%,上限为 256)、learning_rate_multiplier(默认为 0.05、0.1 或 0.2,具体取决于 final batch_size)、compute_classification_metrics(默认为假,若为 True,为对分类任务进行微调,在每个 epoch 结束时在验证集上计算特定于分类的指标)。要配置这些额外的超参数,可通过 OpenAI CLI 上的命令行标志传递。 OpenAI 官方微调教程:
2025-01-06
语言框架有哪些
以下为您介绍一种常用的语言框架——LangChain: LangChain 是一个为简化大模型应用开发而设计的开源框架。它通过提供一套模块化的工具和库,允许开发者轻松集成和操作多种大模型,让开发者能将更多精力投入到创造应用的核心价值上。其设计注重简化开发流程,支持广泛的模型,具有良好的可扩展性,能适应不断变化的业务需求。作为一个得到社区广泛支持的开源项目,LangChain 拥有活跃的贡献者和持续的更新,同时提供了全面的文档和示例代码帮助新用户快速掌握。此外,LangChain 在设计时充分考虑了应用的安全性和用户数据的隐私保护,是一个多语言支持的灵活框架,适用于各种规模的项目和不同背景的开发者。 LangChain 官方手册:https://python.langchain.com/docs/get_started/introduction/
2025-01-31
COZE 是基于什么框架
Coze 基于以下框架构成: 1. 提示词:使用了结构化提示词的框架,通过提示要求大模型根据不同的行为调用不同的工作流。 2. 数据库:能够记录不同用户历史记账记录,工作流里会用到。 3. 工作流:增加记账调用 add_accounting_record 工作流;查询账户余额调用 query_accounting_balance 工作流;删除所有记账记录调用 init_accounting_records 。 此外,还有关于 Coze 的其他信息: Coze 是由字节跳动推出的 AI 聊天机器人和应用程序编辑开发平台,专为开发下一代 AI 聊天机器人而设计。 具有多语言模型支持、插件系统、知识库功能、数据库和记忆能力、工作流设计、多代理模式等特点。 目前对用户完全免费,且易于发布和分享。
2025-01-26
12个prompt 框架
以下是 12 种 Prompt 框架: 1. Instruction(指令):即希望 AI 执行的具体任务,如翻译或写一段文字。 2. Context(背景信息):给 AI 更多背景信息,引导模型做出更贴合需求的回复。 3. Input Data(输入数据):告知模型需要处理的数据。 4. Output Indicator(输出引导):告知模型输出的类型或风格。 5. Capacity and Role(能力和角色):ChatGPT 应扮演的角色。 6. Insight(见解):提供请求背后的见解、背景和上下文。 7. Statement(声明):说明要求 ChatGPT 做什么。 8. Personality(个性):希望 ChatGPT 以何种风格、个性或方式回应。 9. Experiment(实验):请求 ChatGPT 回复多个示例。 10. Background(背景):说明背景,为 ChatGPT 提供充足信息。 11. Role(角色):希望 ChatGPT 扮演的角色。 12. Objectives(目标):希望实现的目标。 此外,还有以下框架: 1. TASK(任务):定义特定任务。 2. ACTION(行动):描述需要做的事情。 3. GOAL(目标):解释最终目标。 4. INPUT(输入):描述信息或资源。 5. STEPS(步骤):询问详细的步骤。 6. EXPECTATION(期望):描述所需的结果。 7. REQUEST(请求):描述您的要求。 8. Key Result(关键结果):要什么具体效果,试验并调整。 9. Evolve(试验并改进):三种改进方法自由组合,包括改进输入、改进答案、重新生成。 10. CONTEXT(上下文背景):为对话设定舞台。 11. OBJECTIVE(目的):描述目标。 12. SCENARIO(方案):描述场景。 同时,还有一些特定的框架,如 ICIO 框架、CRISPE 框架、BROKE 框架等。
2025-01-23
dify编排框架是什么意思
Dify 编排框架是一种在 AI 领域中应用的可视化编排框架,例如在 workflow 可视化编排页面中使用(框架:React Flow)。它具有以下特点和优势: 1. 集各家所长,在用户体验方面表现出色。 2. 可以人为编排 Workflow 里的子任务,与 AutoGPT 由大模型编排任务的方式不同,这种手动编排方式带来了明显的优化,如在流程中加入人类 Knowhow 以补足模型知识的不足,通过专家测试试跑减少生产环境中的反复无效反思,引入图的概念灵活组织节点、连接各类工具等。 3. 加入图的概念后,workflow 的天花板变得非常高,可以在流程中任意增加节点和各种类型的节点,不仅能套工具、套其它 agent,还能写代码用硬逻辑处理或接大模型进行判断,能力上限很大程度取决于想象力。 4. 对于个人开发者构建高质量的 AI 数字人很有帮助,有大量开源工作者维护,集成了各种主流的模型供应商、工具以及算法实现等,可以通过它快速编排出自己的 AI Agent,赋予数字人灵魂。利用其编排和可视化交互能任意修改流程,构造不同的 AI Agent,并实现相对复杂的功能,如知识库搭建、工具使用等,无需任何编码和重新部署工作。同时,Dify 的 API 暴露了 audiototext 和 texttoaudio 两个接口,基于这两个接口可将数字人的语音识别和语音生成都交由 Dify 控制。如果有更加高度定制的模型,也可以在 Dify 中接入 XInference 等模型管理平台进行部署。此外,数字人 GUI 工程中仍保留了多个模块,能保持更好的扩展。 在使用 Dify 接口时,需要注意必须在应用编排功能中打开文字转语音和语音转文字功能,否则接口会返回未使能的错误。只有接入了支持 TTS 和 SPEECH2TEXT 的模型供应商,才会在功能板块中展示出来,Dify 的模型供应商图标下标签有展示该供应商支持哪些功能,可自行选择方便使用的。对于 TTS,不同的模型供应商支持的语音人物不同,可以根据个人喜好添加。
2025-01-21
18种提示词框架
以下是 18 种提示词框架: 1. Instruction(指令):即您希望 AI 执行的具体任务,比如翻译或者写一段什么文字。 2. Context(背景信息):给 AI 更多的背景信息,引导模型做出更贴合需求的回复。 3. Input Data(输入数据):告知模型需要处理的数据。 4. Output Indicator(输出引导):告知模型我们要输出的类型或风格。 5. Capacity and Role(能力和角色):ChatGPT 应扮演什么角色。 6. Insight(见解):提供您请求的背后见解、背景和上下文。 7. Statement(声明):您要求 ChatGPT 做什么。 8. Personality(个性):您希望 ChatGPT 以何种风格、个性或方式回应。 9. Experiment(实验):请求 ChatGPT 为您回复多个示例。 10. Background(背景):说明背景,为 ChatGPT 提供充足信息。 11. Role(角色):您希望 ChatGPT 扮演的角色。 12. Objectives(目标):我们希望实现什么。 13. Key Result(关键结果):您要什么具体效果,试验并调整。 14. Evolve(试验并改进):三种改进方法自由组合:a.改进输入:从答案的不足之处着手改进背景、目标与关键结果;b.改进答案:在后续对话中指正 ChatGPT 答案缺点;c.重新生成:尝试在 Prompt 不变的情况下多次生成结果,优中选优。 15. CONTEXT 上下文背景:为对话设定舞台。 16. OBJECTIVE 目的:描述目标。 17. ACTION 行动:解释所需的动作。 18. SCENARIO 方案:描述场景。 此外,还有一些常见的特定框架,如: 1. ICIP 框架:包括指令(Instruction,必须)、背景信息(Context,选填)、输入数据(Input Data,选填)和输出指示器(Output Indicator,选填)。 2. BROKE 框架:着重于背景(Background)、角色定义(Role)、目标设定(Objectives)、关键成果展示(Key Result)以及持续的试验与优化(Evolve)。 3. CRISPE 框架:分为上下文(Context)、角色(Role)、说明(Instruction)、主题(Subject)、预设(Preset)和例外(Exception)。 提示词工程师是专门负责为大语言模型设计、优化和实施 Prompt 的技术角色,他们深刻理解模型的工作原理,能够根据具体需求定制合适的 Prompt,确保其有效性。随着大语言模型在商业和研究领域的应用,定制化的 Prompt 编写服务日渐受到欢迎。这些专业服务往往由资深的提示词工程师提供,他们会深入了解客户的具体需求,从而为其设计、优化并定制出最合适的 Prompt。
2025-01-15
对话框架都有哪些
以下是一些常见的对话框架: 1. 智谱·AI 开源模型列表中的 Chat 模型框架: ChatGLM36B:第三代 ChatGLM 对话模型,采用全新 Prompt 格式,原生支持工具调用、代码执行和 Agent 任务等复杂场景,上下文 token 数为 8K。 ChatGLM36Bbase:第三代 ChatGLM 基座模型,采用更多样训练数据、更充分训练步数和更合理训练策略,在 10B 以下基础模型中性能最强,上下文 token 数为 8K。 ChatGLM36B32k:第三代 ChatGLM 长上下文对话模型,在 ChatGLM36B 基础上强化长文本理解能力,能处理最多 32K 长度上下文。 ChatGLM26B32k:第二代 ChatGLM 长上下文对话模型,在 ChatGLM26B 基础上进一步强化长文本理解能力,能处理最多 32K 长度上下文。 ChatGLM26B32kint4:ChatGLM26B32K 的 int4 版本。 ChatGLM6B:第一代 ChatGLM 对话模型,支持中英双语,基于 General Language Model架构,具有 62 亿参数,结合模型量化技术可在消费级显卡上本地部署,上下文 token 数为 2K。 2. COSTAR 框架: 定义:指明文本的整体风格,包括词汇选择、句式结构及可能的参照对象。 重要性:不同风格适合不同场合,如学术论文和社交媒体帖子。 示例:科学论文需正式语言和客观语气,博客文章可采用轻松、个人色彩写作风格。 Tone(语气) 定义:设定文本的情感基调,确保符合预期氛围。 重要性:正确语气可建立与读者联系,传达适当态度。 示例:商业计划书需正式、专业且有说服力语气,产品评测可采用轻松幽默语气。 Audience(受众) 定义:明确回答或文本的目标读者。 重要性:了解受众有助于调整语言复杂度、术语使用及整体信息传递方式。 示例:专业人士可用行业术语和复杂概念,大众需简化语言避免专业化术语。 Response(回复) 定义:指定最终输出的形式和结构。 重要性:正确格式使信息更易理解和消化。 示例:详细分析报告按标准报告格式组织,简单问答可直接列表呈现答案。
2025-01-14
如何训练一个自己的模型用来识别不同的图片类别
训练自己的模型来识别不同的图片类别可以参考以下方法: 对于扩散模型(如 Midjourney): 强大的扩散模型训练往往消耗大量 GPU 资源,推理成本高。在有限计算资源下,可在强大预训练自动编码器的潜在空间中应用扩散模型,以在复杂度降低和细节保留间达到平衡,提高视觉保真度。引入交叉注意力层可使其成为灵活的生成器,支持多种条件输入。 Midjourney 会定期发布新模型版本以提升效率、连贯性和质量。最新的 V5 模型具有更广泛的风格范围、更高的图像质量、更出色的自然语言提示解读能力等。 用 SD 训练贴纸 LoRA 模型: 对于原始形象,可通过 MJ 关键词生成不同风格的贴图,总结其特征。注意关键词中对颜色的限制,保持正面和负面情绪数据比例平衡。若训练 25626 大小的表情包,初始素材可能够用,若训练更高像素图片,可能需进一步使用 MJ 垫图和高清扩展功能。 进行高清化时,从 256 到 1024 分辨率,输入左图并加入内容和风格描述,挑选合适的图片。 多模态模型(以 StableDiffusion 为例): 多模态模型包括文生图、图生图、图生视频、文生视频等,底层逻辑通常从生图片源头开始。 扩散模型(如 StableDiffusion 中使用的)的训练是对图片加减噪点的过程。先对海量带有标注文字描述的图片逐渐加噪点,模型学习每一步图片向量值和文字向量值的数据分布演变规律,完成训练。输入文字后,模型根据文字向量指导充满噪点的图片减噪点生成最终图片。扩散模型加减噪点方式与大脑构思图片方式类似,且多模态模型会关联文字向量值和图片像素点向量值。
2025-01-31
如何对扣子智能体做专属训练
对扣子智能体进行专属训练时,需要注意以下要点: 1. 跳转设置:扣子在节点切换提供了独立和非独立两种识别模式。独立识别模式中每个节点都有一个独立识别模型,非独立模式则直接使用当前智能体模型进行判断,实际使用中推荐独立模式。 2. 独立模式的选择:独立模式有两种选择。第一种是面对通用指令时,选择已经训练好的、专门用于节点切换的大型模型,其优点是经过特定训练,无需额外操心设计。第二种是在遇到非常复杂的情景时,使用自定义的大型模型,可根据需求定制模型和编写特定提示词以适应复杂交互场景,但实际测试效果不理想,所以推荐使用第一种。 3. 关键注意点:在使用专门训练的意图识别模型进行节点切换时,要特别注意两个关键点。一是每个智能体的用途必须清晰明确,在设计和实现时要清楚标注其功能和目的,以确保系统能准确识别和响应用户意图。二是智能体的名称非常重要,应清晰、易于识别,便于系统识别和记忆。
2025-01-27
预训练
以下是关于预训练的相关内容: Atom 系列模型的预训练: Atom 系列模型包含 Atom7B 和 Atom13B,基于 Llama2 做了中文能力的持续优化。Atom 大模型在 Llama2 的基础上,采用大规模的中文数据进行持续预训练,数据来源广泛,包括百科、书籍、博客、新闻、公告、小说、金融数据、法律数据、医疗数据、代码数据、专业论文数据、中文自然语言处理竞赛数据集等。同时对庞大的数据进行了过滤、打分、去重,筛选出超过 1T token 的高质量中文数据,持续不断加入训练迭代中。为了提高中文文本处理的效率,针对 Llama2 模型的词表进行了深度优化,扩展词库至 65,000 个单词,提高了中文编码/解码速度约 350%,还扩大了中文字符集的覆盖范围,包括所有 emoji 符号。Atom 大模型默认支持 4K 上下文,利用位置插值 PI 和 Neural Tangent Kernel(NTK)方法,经过微调可以将上下文长度扩增到 32K。 GPT 助手的预训练: 预训练阶段是 GPT 训练中计算工作基本发生的地方,占用了训练计算时间和浮点运算的 99%。在这个阶段,需要收集大量的数据,如 Common Crawl、C4、GitHub、维基百科、图书、ArXiv、StackExchange 等,并按照一定比例采样形成训练集。在实际训练前,需要进行预处理步骤 Tokenization(分词/标记化),将原始文本翻译成整数序列。 OpenAI o1 的预训练: GPT 4 等 LLM 模型训练一般由“预训练”和“后训练”两个阶段组成。“预训练”通过 Next Token Prediction 从海量数据吸收语言、世界知识、逻辑推理、代码等基础能力,模型规模越大、训练数据量越多,则模型能力越强。
2025-01-24
怎么做tts模型训练
以下是关于 TTS 模型训练的相关内容: 使用 GPTSoVITS 进行 TTS 模型训练: GPTSoVITS 是一个声音克隆和文本到语音转换的开源 Python RAG 框架。 只需 1 分钟语音即可训练一个自己的 TTS 模型。5 秒数据就能模仿您,1 分钟的声音数据就能训练出一个高质量的 TTS 模型,完美克隆您的声音。 主要特点: 零样本 TTS:输入 5 秒的声音样本即可体验即时的文本到语音转换。 少量样本训练:只需 1 分钟的训练数据即可微调模型,提高声音相似度和真实感。模仿出来的声音会更加接近原声,听起来更自然。 跨语言支持:支持与训练数据集不同语言的推理,目前支持英语、日语和中文。 易于使用的界面:集成了声音伴奏分离、自动训练集分割、中文语音识别和文本标签等工具,帮助初学者更容易地创建训练数据集和 GPT/SoVITS 模型。 适用于不同操作系统:项目可以在不同的操作系统上安装和运行,包括 Windows。 预训练模型:项目提供了一些已经训练好的模型,您可以直接下载使用。 GitHub: 视频教程: TTS 模型训练的音库制作和文本前端: 音频录制: 音频的录制对合成语音的表现较为重要,较差的语音甚至会导致端到端声学模型无法正常收敛。 用于训练的录音至少要保证录音环境和设备始终保持一致,无混响、背景噪音;原始录音不可截幅。 如果希望合成出来的语音干净,则要删除含口水音、呼吸音、杂音、模糊等,但对于目前的端到端合成模型,有时会学习到在合适的位置合成呼吸音、口水音,反而会增加语音自然度。 录音尽可能不要事先处理,语速的调节尚可,但调节音效等有时会造成奇怪的问题,甚至导致声学模型无法收敛。 音频的录制可以参考录音公司的标准,购买专业麦克风,并保持录音环境安静即可。 在音库录制过程中,可尽早提前尝试声学模型,比如音库录制 2 个小时语音后,就可尝试训练基线语音合成系统,以防止录音不符合最终的需求。 语料整理: 检查文本和录制的语音是否一一对应,录制的音频本身一句话是否能量渐弱,参与训练的语音前后静音段要保持一致,能量要进行规范化。 可使用预训练的语音活动检测(Voice Activity Detection,VAD)工具,或者直接根据语音起止的电平值确定前后静音段。 可以使用一些开源的工具,比如统一所有语音的整体能量,这将有助于声学模型的收敛。当然,在声学模型模型训练时,首先就要对所有语料计算均值方差,进行统一的规范化,但是这里最好实现统一能量水平,防止一句话前后能量不一致。 GPTSoVITS 实现 AIyoyo 声音克隆的步骤: 前置数据获取处理: 选择音频,开启切割。 有噪音时,进行降噪处理。 降噪处理完成,开启离线 ASR。 GPTSowitsTTS: 训练集格式化:开启一键三连,耐心等待即可。 微调训练:开启 SoVITS 训练和 GPT 训练。 推理:开始推理 刷新模型 选择微调后的模型 yoyo。 成功:出现新的 URL,说明您自己的声音微调完毕,然后可以进行使用。 声音复刻:开启声音复刻之旅,实现跨多语种语言的声音。 希望以上内容对您有所帮助。
2025-01-24
如何用最简单的方法,训练一个自有数据的大模型
训练自有数据的大模型可以通过以下步骤实现: 1. 了解大模型的概念:大模型是输入大量语料,让计算机获得类似人类的“思考”能力,能够进行文本生成、推理问答、对话、文档摘要等工作。可以用上学参加工作来类比大模型的训练、使用过程,包括找学校(需要大量 GPU 等计算资源)、确定教材(需要大量数据)、找老师(选择合适算法)、就业指导(进行微调)、搬砖(推导)。在 LLM 中,Token 被视为模型处理和生成的文本单位,会对输入进行分词并形成词汇表。 2. 基础训练步骤: 进入厚德云模型训练数据集,如 https://portal.houdeyun.cn/sd/dataset 。 创建数据集:在数据集一栏中,点击右上角创建数据集,输入数据集名称。可以上传包含图片+标签的 zip 文件,也可单独上传照片,但建议提前打包。Zip 文件里图片名称与标签文件应当匹配,上传后等待一段时间确认创建,返回上一个页面等待上传成功并可点击详情检查,能预览数据集的图片及对应的标签。 Lora 训练:点击 Flux,基础模型会默认是 FLUX 1.0D 版本。选择数据集,触发词可有可无,模型效果预览提示词随机抽取数据集里的标签填入。训练参数可调节重复次数与训练轮数,厚德云会自动计算训练步数,可默认 20 重复次数和 10 轮训练轮数,按需求选择是否加速,点击开始训练,会显示所需消耗的算力,等待训练完成,会显示每一轮的预览图,鼠标悬浮到想要的轮次模型,中间会有生图,点击可自动跳转到使用此 lora 生图的界面,点击下方下载按钮可自动下载到本地。 3. 部署和训练自己的 AI 开源模型的主要步骤: 选择合适的部署方式,如本地环境部署、云计算平台部署、分布式部署、模型压缩和量化、公共云服务商部署,根据自身资源、安全和性能需求选择。 准备训练所需的数据和计算资源,确保有足够的训练数据覆盖目标应用场景,并准备足够的计算资源,如 GPU 服务器或云计算资源。 选择合适的预训练模型作为基础,如开源的预训练模型 BERT、GPT 等,也可自行训练基础模型。 针对目标任务进行模型微调训练,根据具体应用场景对预训练模型进行微调训练,优化模型结构和训练过程以提高性能。 部署和调试模型,将训练好的模型部署到生产环境,对部署的模型进行在线调试和性能优化。 注意安全性和隐私保护,大模型涉及大量数据和隐私信息,需要重视安全性和合规性。 总的来说,训练自有数据的大模型需要综合考虑多方面因素,包括部署方式、数据准备、模型训练、部署调试以及安全性等。需要根据具体需求选择合适的方法,并注意优化各个环节以提高模型性能和应用效果。
2025-01-24
如何训练自己的ai
训练自己的 AI 可以从以下几个方面考虑: 1. 像在医疗保健领域一样,创建模型生态系统,让 AI 像优秀的从业者那样学习。顶尖人才的培养通常从多年的密集信息输入和正规教育开始,再通过学徒实践从出色的实践者那里学习,获取书本外的信息。对于 AI ,应通过堆叠模型训练,而非仅依靠大量数据和生成模型。例如先训练基础学科模型,再添加特定领域数据点。 2. 部署和训练自己的 AI 开源模型的主要步骤: 选择合适的部署方式,如本地环境部署、云计算平台部署、分布式部署、模型压缩和量化、公共云服务商部署等,根据自身资源、安全和性能需求选择。 准备训练所需的数据和计算资源,确保有足够的训练数据覆盖目标应用场景,并准备足够的计算资源,如 GPU 服务器或云计算资源。 选择合适的预训练模型作为基础,如开源的 BERT、GPT 等,也可自行训练基础模型。 针对目标任务进行模型微调训练,根据具体应用场景对预训练模型进行微调,优化模型结构和训练过程以提高性能。 部署和调试模型,将训练好的模型部署到生产环境,并进行在线调试和性能优化。 注意安全性和隐私保护,重视大模型涉及的大量数据和隐私信息的安全性和合规性。 3. 学习拆解复杂任务,先想清楚如何拆解: 一步步思考,包括自我反省,检查答案是否正确、是否符合法律/道德等。 运用组合拳,如 Tree of Thoughts、Algorithm of Thoughts、Graph of Thoughts 等。 学会使用工具,如搜索引擎(警惕“幻觉”)、RAG(提供资料库/让其上网搜)、写公式 Program of Thought 、上千个工具等,并自己学习使用工具。
2025-01-23
当我想要解决一个问题,面对如此多的AI站点和AI智能体,我该如何选择?
在面对众多的 AI 站点和 AI 智能体时,您可以从以下几个方面进行选择: 1. 明确自身需求:确定您希望解决的具体问题和期望达到的目标,以便找到与之匹配的 AI 工具。 2. 了解功能特点:不同的 AI 智能体具有不同的功能和优势。例如,有些擅长自然语言处理和回答各种问题,有些则在特定领域如编程、设计等有出色表现。 3. 考虑技术能力:包括模型的性能、上下文窗口长度、响应速度和并发支持等。响应速度快、并发支持高的工具能在多人使用时保持良好性能。 4. 成本因素:关注免费或低价的选项,以降低使用成本。 5. 个性化需求满足:选择能够根据您的业务场景和个性化需求进行定制的 AI 智能体。 例如,字节的扣子(Coze)是新一代一站式 AI Bot 开发平台,无论有无编程基础都能构建各类问答 Bot,并可发布到多种社交平台和通讯软件上。而在开发 AI 插件时,像 AI Share Card 插件会根据需求选择合适的模型,如选用了具有较长上下文窗口、免费且并发支持高的 GLM4flash 模型。 总之,要综合考虑自身需求、功能特点、技术能力、成本和个性化等因素,选择最适合您的 AI 站点和智能体。
2025-02-04
Coze + 飞书 + 飞书多维表格:通过飞书机器人与 Coze 搭建的智能体进行对话,在聊天窗口中完成链接输入和阅读计划输出。由 Coze 调用大模型、插件完成内容的整理、推荐,利用飞书多维表格存储和管理稍后读数据,无需开发任何插件、APP,能实现跨平台的稍后读收集与智能阅读计划的推荐。其设计思路包括简化“收集”,实现跨平台收集和通过输入 URL 完成收集;自动化“整理入库”,自动整理关键信息并支持跨平台查看;智能“选择”推荐,根据收藏记录和用户兴趣生成阅读计划——这个方法具体如何操作?
以下是关于通过飞书机器人与 Coze 搭建的智能体进行对话,并利用飞书多维表格存储和管理稍后读数据,实现跨平台的稍后读收集与智能阅读计划推荐的具体操作方法: 前期准备: 1. 简化“收集”: 实现跨平台收集功能,支持电脑(web 端)、安卓、iOS 多端操作。 输入一个 URL 即可完成收集,借鉴微信文件传输助手的方式,通过聊天窗口完成收集输入。 2. 自动化“整理入库”: 系统在入库时自动整理每条内容的关键信息,包括标题、摘要、作者、发布平台、发布日期、收集时间和阅读状态。 阅读清单支持跨平台查看。 3. 智能“选择”推荐: 根据当前收藏记录和用户阅读兴趣进行相关性匹配,生成阅读计划。 使用飞书·稍后读助手: 1. 设置稍后读存储地址: 首次使用,访问。 点击「更多创建副本」,复制新表格的分享链接。 将新链接发送到智能体对话中。 还可以发送“查询存储位置”、“修改存储位置”来更换飞书多维表格链接,调整稍后读存储位置。 2. 收藏待阅读的页面链接: 在对话中输入需要收藏的页面链接,第一次使用会要求授权共享数据,授权通过后再次输入即可完成收藏。但目前部分页面链接可能小概率保存失败。 3. 智能推荐想看的内容: 在对话中发送“我想看 xx”、“xx 内容”,即可按个人兴趣推荐阅读计划。 至此,专属 AI 稍后读智能体大功告成,您可以尽情享受相关服务。
2025-01-27
AI换衣API推荐, 并多维度对比,选择最适合的API推荐给我
以下为您推荐的 AI 换衣相关的 API 并进行多维度对比: Comfyui_Object_Migration: 特点:可高精度迁移服装样式到目标人物图像,保持高一致性和细节完整性,支持从卡通到写实的风格互相转换,甚至可将平面角色图像转换为可 3D 打印的模型。 应用场景:虚拟角色服装设计迁移到真实照片、为动画角色添加写实服装、微调权重生成独特服装设计。 详细介绍及教程: GitHub: 在选择适合的 AI 大模型 API 服务时,需要考虑以下因素: 对于像开发 AI Share Card 插件这类情况,如果将模板生成功能设计为固定的代码组件,让大模型专注于内容总结的功能,那么对模型的要求就不会过高。 选型要求包括:较长的上下文窗口,因为内容总结类任务需要较大的上下文长度;响应速度要快、并发支持要高,以在多人使用插件时保持良好性能;免费或尽量低价,以减少模型 token 费用。例如,AI Share Card 选用的是 GLM4flash(截至 202412,长达 128k 的上下文窗口,完全免费的调用价格,200 RPM 高并发支持)。
2025-01-08
微调训练框架的选择
以下是关于微调训练框架选择的相关内容: 对于 Stable Diffusion 的微调训练: 1. 配置文件: 在 config 文件夹中有 config_file.toml 和 sample_prompt.toml 两个配置文件,分别存储着训练超参数与训练中的验证 prompt。 config_file.toml 文件包含 model_arguments、optimizer_arguments、dataset_arguments、training_arguments、sample_prompt_arguments 以及 saving_arguments 六个维度的参数信息。 例如,v2 和 v_parameterization 同时设置为 true 时开启 Stable Diffusion V2 版本的训练;pretrained_model_name_or_path 用于读取本地 Stable Diffusion 预训练模型用于微调训练;optimizer_type 可选择多种优化器,如 AdamW(默认)、AdamW8bit(显存不足时可选,会有轻微性能损失)、Lion(最新版本,性能优异但学习率需设置较小)等;学习率方面,单卡推荐设置 2e6,多卡推荐设置 1e7。 2. 训练启动: 将配置好的 config_file.toml 和 sample_prompt.txt 参数传入训练脚本中。 在命令行输入相应命令即可开始训练,训练脚本启动后会打印出 log 方便查看训练过程节奏。 1024 分辨率+FP16 精度+xformers 加速时,SD 模型进行 Batch Size=1 的微调训练约需 17.1G 显存,Batch Size=4 的微调训练约需 26.7G 显存,因此最好配置 24G 以上显卡。 3. 模型使用: 微调训练完成后,模型权重保存在之前设置的 output_dir 路径下。 使用 Stable Diffusion WebUI 框架加载模型进行 AI 绘画,需将训练好的模型放入/models/Stablediffusion 文件夹下,并在 Stable Diffusion WebUI 中选用。 对于 OpenAI 的微调训练: 1. 准备训练数据后,使用 OpenAI CLI 开始微调工作。 2. 指明从哪个基本模型(ada、babbage、curie 或 davinci)开始,可使用后缀参数自定义微调模型名称。 3. 运行命令后会上传文件、创建微调作业并流式传输事件直到作业完成,通常需要几分钟,也可能因作业排队或数据集大小等因素需要数小时。 4. 每个微调工作都从默认为 curie 的基本模型开始,模型选择会影响性能和成本。 5. 开始微调作业后,可能需要排队等待,完成后会显示微调模型的名称。还可以列出现有作业、检索作业状态或取消作业。
2025-01-06
以下是大致可以采用的步骤来实现这样一个能自动在大语言模型网站生成不同场景机器人图片的程序(以下以Python语言示例,不过不同平台具体实现会有差异且需遵循对应网站的使用规则和接口规范): ### 1. 选择合适的大语言模型网站及确认其API(应用程序编程接口)情况 不同大语言模型网站对于图片生成通常会提供相应的API来允许外部程序与之交互,比如部分知名的AI绘画相关平台。你需要先确定要使用哪些网站,然后去注册开发者账号等,获取对应的API Key以及详细的API文档,了解如何通过代码向其发起图
以下是为您整合的相关内容: Ollama 框架: 1. 支持多种大型语言模型,如通义千问、Llama 2、Mistral 和 Gemma 等,适用于不同应用场景。 2. 易于使用,适用于 macOS、Windows 和 Linux 系统,支持 cpu 和 gpu,用户能轻松在本地环境启动和运行大模型。 3. 提供模型库,用户可从中下载不同模型,这些模型有不同参数和大小以满足不同需求和硬件条件,可通过 https://ollama.com/library 查找。 4. 支持用户自定义模型,例如修改模型的温度参数来调整创造性和连贯性,或者设置特定的系统消息。 5. 提供 REST API 用于运行和管理模型,以及与其他应用程序的集成选项。 6. 社区贡献丰富,包括多种集成插件和界面,如 Web 和桌面应用、Telegram 机器人、Obsidian 插件等。 7. 安装:访问 https://ollama.com/download/ 进行下载安装。安装完后,确保 ollama 后台服务已启动(在 mac 上启动 ollama 应用程序,在 linux 上通过 ollama serve 启动),可通过 ollama list 确认。 基于 COW 框架的 ChatBot 实现步骤: 1. COW 是基于大模型搭建的 Chat 机器人框架,将多模型塞进自己的微信里实现方案。 2. 基于张梦飞同学的教程: 。 3. 实现内容: 打造属于自己的 ChatBot(文本对话、文件总结、链接访问、联网搜索、图片识别、AI 画图等)。 常用开源插件的安装应用。 4. 正式开始前需知: ChatBot 相较于在各大模型网页端使用区别:本实现思路需要接入大模型 API 的方式实现(API 单独付费)。 风险与注意事项: 微信端因非常规使用,有封号危险,不建议主力微信号接入。 只探讨操作步骤,请依法合规使用。 大模型生成的内容注意甄别,确保所有操作均符合相关法律法规要求。 禁止用于任何非法目的。 处理敏感或个人隐私数据时注意脱敏,以防滥用或泄露。 5. 多平台接入:微信、企业微信、公众号、飞书、钉钉等。 6. 多模型选择:GPT3.5/GPT4.0/Claude/文心一言/讯飞星火/通义千问/Gemini/GLM4/LinkAI 等。 7. 多消息类型支持:能处理文本、语音和图片,以及基于自有知识库进行定制的企业智能客服功能。 8. 多部署方法:本地运行、服务器运行、Docker 的方式。
2024-12-29
我是一位ai初学者,该如何选择学习的方向和材料
对于 AI 初学者,以下是一些选择学习方向和材料的建议: 1. 了解 AI 基本概念: 阅读「」部分,熟悉 AI 的术语和基础概念,包括人工智能的定义、主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。 浏览入门文章,了解 AI 的历史、当前的应用和未来的发展趋势。 2. 开始 AI 学习之旅: 在「」中,您可以找到一系列为初学者设计的课程,特别推荐李宏毅老师的课程。 通过在线教育平台(如 Coursera、edX、Udacity)上的课程,按照自己的节奏学习,并有机会获得证书。 3. 选择感兴趣的模块深入学习: AI 领域广泛,比如图像、音乐、视频等,您可以根据自己的兴趣选择特定的模块进行深入学习。 掌握提示词的技巧,它上手容易且很有用。 4. 实践和尝试: 理论学习之后,实践是巩固知识的关键,尝试使用各种产品做出您的作品。 在知识库提供了很多大家实践后的作品、文章分享,欢迎您实践后的分享。 5. 体验 AI 产品: 与现有的 AI 产品进行互动,如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人,了解它们的工作原理和交互方式。 如果您偏向技术研究方向,需要学习的内容包括: 1. 数学基础:线性代数、概率论、优化理论等。 2. 机器学习基础:监督学习、无监督学习、强化学习等。 3. 深度学习:神经网络、卷积网络、递归网络、注意力机制等。 4. 自然语言处理:语言模型、文本分类、机器翻译等。 5. 计算机视觉:图像分类、目标检测、语义分割等。 6. 前沿领域:大模型、多模态 AI、自监督学习、小样本学习等。 7. 科研实践:论文阅读、模型实现、实验设计等。 如果您偏向应用方向,需要学习的内容包括: 1. 编程基础:Python、C++等。 2. 机器学习基础:监督学习、无监督学习等。 3. 深度学习框架:TensorFlow、PyTorch 等。 4. 应用领域:自然语言处理、计算机视觉、推荐系统等。 5. 数据处理:数据采集、清洗、特征工程等。 6. 模型部署:模型优化、模型服务等。 7. 行业实践:项目实战、案例分析等。 无论是技术研究还是应用实践,数学和编程基础都是必不可少的。同时需要紧跟前沿技术发展动态,并结合实际问题进行实践锻炼。
2024-12-19