直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

摘要总结作为 llm 训练的下游任务,一般的训练流程是怎样的

回答

作为 LLM 训练的下游任务,一般的训练流程如下:

  1. 首先从大量文本数据中训练出一个基础 LLM。
  2. 随后使用指令和良好尝试的输入和输出来对基础 LLM 进行微调和优化。
  3. 接着通常使用称为“人类反馈强化学习”的技术进行进一步细化,以使系统更能够有帮助且能够遵循指令。

在训练过程中,会涉及到一些相关的理论探讨和评价指标:

  • 理论探讨方面,如在推理阶段对 In-Context Learning 能力的运行分析,将其视为隐式微调,通过前向计算生成元梯度并通过注意力机制执行梯度下降,且实验表明 LLM 中的某些注意力头能执行与任务相关的操作。
  • 评价指标方面,entropy-like 指标(如 cross-entropy 指标)常用于表征模型的收敛情况和测试集的简单评估(如 Perplexity 指标),但对于复杂的下游应用,还需更多指标,如正确性(Accuracy)、信息检索任务中的 NDCG@K 指标、摘要任务中的 ROUGE 指标、文本生成任务中的 Bits-per-Byte 指标、不确定性中的 ECE 指标、鲁棒性(包括 invariance 和 equivariance)、公平性、偏见程度和有毒性等。
内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

融合RL与LLM思想,探寻世界模型以迈向AGI/ASI的第一性原理反思和探索「RL×LLM×WM>AI4S>AGI>ASI」

问题一:为什么「In-Context Learning」或相关的「few-shot」「zero-shot」「prompt e与gineering」等思想能打破传统训练范式并建立新的技术路径进行模型下游任务的SFT,而不用在调整模型任何参数的情况下,在实现传统模型精调后的目标及Benchmark测试中,已经媲美或超越相当一部分的原有模型微调任务的SOTA(当然这里离不开LLM所采用的海量训练数据Pre-training下习得、压缩的广泛而通用知识)。问题二:LLM与传统模型的任务有哪些差异和相同的点?问题三:是否所有传统模型下的任务都能很好的尝试用LLM来有效解决?针对问题一,在学术界和产业界一直有着相关理论上探讨和争论:如在推理阶段,研究人员专注于基于给定的演示来分析In-Context Learning-ICL能力是如何运行的,因为不涉及显式学习和参数更新,通常从梯度下降的角度进行分析,并将ICL视为隐式微调。在这个思想框架下,ICL过程可解释如下:通过前向计算,LLM生成关于演示的元梯度,并通过注意力机制隐式地执行梯度下降。实验也表明,LLM中的某些注意力头能够执行与任务无关的原子操作(例如复制和前缀匹配),这与ICL能力密切相关。

1.课程简介

基于互联网上的文章,基础LLM有可能会回答法国的最大城市是什么,法国的人口是多少等等。因为互联网上的文章很可能是关于法国的问答列表。相比之下,指令调整后的LLM更接受人们的指令。因此,如果你问它法国的首都是什么,它很可能会输出法国的首都是巴黎。指令调整后的LLM的研究和实践的动量更大。因此,指令调整后的LLM通常是这样训练的:首先,你从大量文本数据中训练出一个基础LLM,随后使用指令和良好尝试的输入和输出来对其进行微调和优化,然后通常使用称为“人类反馈强化学习”的技术进行进一步细化,以使系统更能够有帮助且能够遵循指令。因为指令调整后的LLM被训练成有用、诚实和无害的,所以它们输出有害文本(如毒性输出)的可能性比基础LLM更小。很多实际的应用场景已开始向指令调整后的LLM转移,而一些在互联网上查到的最佳实践则可能更适用于基础LLM。对于大多数今天的实际应用,我们建议大多数人应该专注于经过调整的指令语言模型。这些模型更易于使用,而且由于OpenAI和其他LLM公司的工作,它们变得更加安全和更加符合要求。因此,本课程将专注于经过调整的指令语言模型的最佳实践,这是我们建议大多数应用程序使用的模型。在继续之前,我只想感谢OpenAI和DeepLearning.ai团队为我们提供的材料做出的贡献。我非常感谢OpenAI的Andrew Main、Joe Palermo、Boris Power、Ted Sanders和Lillian Weng。他们与我们一起进行了头脑风暴,对材料进行了审核,为这个短期课程的课程设置拼凑了课程计划。我也感谢深度学习方面Geoff Ladwig、Eddy Shyu和Tommy Nelson的工作。

(2)初探LLM基座模型

从上一篇可以知道,entropy-like指标(如cross-entropy指标)常常运用在训练过程中,表征模型的收敛情况,同时也可以用于测试集的简单评估(如Perplexity指标等)。但对于丰富复杂的下游应用来说,这几个指标远远不能满足需求。如果想从第一性原理出发推导出所有指标,这并不现实。下面参考HELM论文的中内容,简单列举了NLP中的指标,大家不必深究,有个简单印象即可。正确性Accuracy。信息检索任务。NDCG@K指标,核心衡量最相关文档是否排序足够靠前的指标。摘要任务。一般用ROUGE指标,ROUGE是个指标体系,有4个大类,其中最简单的为2-gram的方式,即ROUGE-2。就是把两个sequence按2-gram的方式做切分做频次统计,然后计算pred和gt之间的召回率文本生成任务。Bits-per-Byte,类似于Perplexity指标不确定性Calibration and Uncertainty。针对二分类任务,一般用ECE指标(Expected Calibration Error)。核心是度量模型输出概率p的时候,最终正确率真的为p的一致性。鲁棒性Robustness。分为两种invariance。加入不改变语义的噪声,如果大小写变换,加入错别字typo等equivariance。利用contrast set,做语义改变,例如修改关键单词和短语把一个正面的评论改成负面的评论公平性Fairness。看模型输出是否公平,例如把性别和人种等换一下,看输出是否有变化偏见程度Bias and stereotypes。看模型有没有偏见和刻板的印象,例如看模型对亚洲人是否存在“学习好并且会谈钢琴”的偏见有毒性Toxicity。看模型输出是否有毒。

其他人在问
怎么训练自己的小说大纲模型
训练自己的小说大纲模型可以参考以下步骤: 步骤一:创建数据集 1. 进入厚德云模型训练数据集,网址为:https://portal.houdeyun.cn/sd/dataset 。 2. 在数据集一栏中,点击右上角创建数据集。 3. 输入数据集名称。 4. 可以上传包含图片+标签的 zip 文件,也可以只有图片没有打标文件(之后可在 c 站使用自动打标功能)。 5. 也可以一张一张单独上传照片,但建议提前把图片和标签打包成 zip 上传。 6. Zip 文件里图片名称与标签文件应当匹配,例如:图片名“1.png”,对应的达标文件就叫“1.txt”。 7. 上传 zip 以后等待一段时间。 8. 确认创建数据集,返回到上一个页面,等待一段时间后上传成功,可以点击详情检查,可预览到数据集的图片以及对应的标签。 步骤二:Lora 训练 1. 点击 Flux,基础模型会默认是 FLUX 1.0D 版本。 2. 选择数据集,点击右侧箭头,会跳出所有上传过的数据集。 3. 触发词可有可无,取决于数据集是否有触发词。 4. 模型效果预览提示词则随机抽取一个数据集中的标签填入即可。 5. 训练参数这里可以调节重复次数与训练轮数,厚德云会自动计算训练步数。如果不知道如何设置,可以默认 20 重复次数和 10 轮训练轮数。 6. 可以按需求选择是否加速,点击开始训练,会显示所需要消耗的算力。 7. 然后等待训练,会显示预览时间和进度条。训练完成的会显示出每一轮的预览图。 8. 鼠标悬浮到想要的轮次模型,中间会有个生图,点击会自动跳转到使用此 lora 生图的界面。点击下方的下载按钮则会自动下载到本地。 步骤三:Lora 生图 1. 点击预览模型中间的生图会自动跳转到这个页面。 2. 模型上的数字代表模型强度,可以调节大小,正常默认为 0.8,建议在 0.6 1.0 之间调节。 3. 也可以自己添加 lora 文件,点击后会显示训练过的所有 lora 的所有轮次。 4. VAE 不需要替换。 5. 正向提示词输入写的提示词,可以选择基于这个提示词一次性生成几张图。 6. 选择生成图片的尺寸,横板、竖版、正方形。 7. 采样器和调度器新手小白可以默认不换。 8. 迭代步数可以按照需求在 20 30 之间调整。 9. CFG 可以按照需求在 3.5 7.5 之间调整。 10. 随机种子 1 代表随机生成图。 11. 所有设置都好了以后,点击开始生态,生成的图会显示在右侧。 12. 如果有哪次生成结果觉得很不错,想要微调或者高分辨率修复,可以点开那张图,往下滑,划到随机种子,复制下来,粘贴到随机种子这里,这样下次生成的图就会和这次的结果近似。 13. 如果确认了一张很合适的种子和参数,想要高清放大,则点开高清修复,可以选择想放大的倍数。新手小白可以就默认这个算法,迭代步数也是建议在 20 30 之间,重回幅度根据需求调整,正常来说在 0.3 0.7 之间调整。 今日作业 按照比赛要求,收集六个主题中一个主题的素材并且训练出 lora 模型后提交 lora 模型与案例图像。提交链接:https://waytoagi.feishu.cn/share/base/form/shrcnpJAtTjID7cIcNsWB79XMEd 。 另外,直接在 Comfy UI 中训练 LoRA 模型的步骤如下: 1. 确保后面有一个空格。然后将 requirements_win.txt 文件拖到命令提示符中(如果在 Windows 上;否则,选择另一个文件 requirements.txt)。拖动文件将在命令提示符中复制其路径。 2. 按 Enter 键,这将安装所有所需的依赖项,使其与 ComfyUI 兼容。请注意,如果为 Comfy 使用了虚拟环境,必须首先激活它。 3. 教程: 图像必须放在一个以命名的文件夹中。那个数字很重要:LoRA 脚本使用它来创建一些步骤(称为优化步骤…但别问我是什么^^’)。它应该很小,比如 5。然后,下划线是必须的。 对于 data_path,必须写入包含数据库文件夹的文件夹路径。例如:C:\\database\\5_myimages ,必须写 C:\\database 。 对于参数,在第一行,可以从 checkpoint 文件夹中选择任何模型。据说必须选择一个基本模型进行 LoRA 训练。但也可以尝试使用微调。
2024-11-12
怎么训练自己的模型
训练自己的模型可以参考以下内容: 基于百川大模型: 选择 Baichuan27BChat 模型作为底模,配置模型本地路径和提示模板。 在 Train 页面里,选择 sft 训练方式,加载定义好的数据集(如 wechat 和 self_cognition)。 注意学习率和训练轮次的设置,要根据数据集大小和收敛情况来调整。 使用 FlashAttention2 可减少显存需求,加速训练速度。 显存小的情况下,可以减少 batch size 并开启量化训练,内置的 QLora 训练方式好用。 需要用到 xformers 的依赖。 显存占用约 20G 左右,训练时间根据聊天记录规模大小而定,少则几小时,多则几天。 训练自己的 AI 绘画模型(Stable Diffusion): 样本采样器(sample_sampler):可选择,默认是“ddim”。 保存模型格式(save_model_as):可选择,SD WebUI 兼容"ckpt"和"safetensors"格式模型。 训练流程主要包括: 训练集制作:数据质量评估、标签梳理、数据清洗、标注、标签清洗、增强等。 训练文件配置:预训练模型选择、训练环境配置、训练步数及其他超参数设置等。 模型训练:运行训练脚本,使用 TensorBoard 监控。 模型测试:用于效果评估与消融实验。 训练资源: Rocky 整理优化过的 SD 完整训练资源 SDTrain 项目,可通过关注公众号 WeThinkIn,后台回复“SDTrain”获取。
2024-11-12
AI训练师是什么职业
AI 训练师是一种新兴职业,其职责和工作内容因具体领域和应用场景而有所不同。 例如,在 AI 教育培训和商业应用方面,像星动 AI 联合创始人李先森所从事的工作,可能包括对学员进行 AI 相关知识和技能的培训,以及参与 AI 项目的测评和指导等。 在 AI 设计领域,AI 训练师可能需要负责 AI 风格的开发和调试工作,参与项目的整体风格和审美定义。根据产品需求完成风格渲染的研发、测试、配置和维护,熟练使用 StableDiffusion Web UI 等 AI 框架进行风格研发,负责 AI 模型(如 LoRA,Prompt/Prompt Sentence)的训练、参数调整以及性能优化,编写高质量的渲染记录文档,进行配置和模型训练质量控制,并为团队提供技术支持和指导,解决技术难题。 总之,AI 训练师需要具备相关的专业知识和技能,以帮助 AI 系统更好地学习和优化,从而实现各种应用目标。
2024-11-11
多轮对话训练中你如何训练模型掌握情感需求
在多轮对话训练中,让模型掌握情感需求可以通过以下几种方式: 1. 利用相关数据集进行训练,例如: Guanaco:地址为,是一个使用 SelfInstruct 的主要包含中日英德的多语言指令微调数据集。 chatgptcorpus:地址为,开源了由 ChatGPT3.5 生成的 300 万自问自答数据,包括多个领域,可用于训练大模型。 SmileConv:地址为,数据集通过 ChatGPT 改写真实的心理互助 QA 为多轮的心理健康支持多轮对话,含有 56k 个多轮对话,其对话主题、词汇和篇章语义更加丰富多样,更符合长程多轮对话的应用场景。 2. 在创建提示时采用结构化模式,为模型提供一些情感需求的示例,如: |输入|输出| ||| |一部制作精良且有趣的电影|积极的| |10 分钟后我睡着了|消极的| |电影还行|中性的| 然后单击页面右侧的提交按钮。该模型现在可为输入文本提供情绪。还可以保存新设计的提示。 3. 在多轮次对话中,定期总结关键信息,重申对话的目标和指令,有助于模型刷新记忆,确保准确把握对话的进展和要点。 4. 进行意图识别和分类,特别关注在单一模型或情境中处理多个小逻辑分支的情况。例如在客户服务场景中,快速确定用户提出咨询、投诉、建议等多种类型请求的意图,并分类到相应处理流程中。
2024-11-11
在车载语音多轮对话训练中你如何训练模型掌握情感需求
目前知识库中暂时没有关于在车载语音多轮对话训练中如何训练模型掌握情感需求的相关内容。但一般来说,要训练模型掌握情感需求,可以从以下几个方面考虑: 1. 数据收集:收集包含丰富情感表达的车载语音对话数据,包括不同情感状态下的语音样本和对应的文本描述。 2. 特征提取:从语音和文本数据中提取能够反映情感的特征,如语音的语调、语速、音量,文本中的词汇、句式、语义等。 3. 模型选择:选择适合处理情感分析任务的模型架构,如基于深度学习的循环神经网络(RNN)、长短时记忆网络(LSTM)或门控循环单元(GRU)等。 4. 情感标注:对收集的数据进行准确的情感标注,以便模型学习不同情感的模式。 5. 多模态融合:结合语音和文本等多模态信息,提高情感识别的准确性。 6. 优化算法:采用合适的优化算法来训练模型,调整模型的参数,以提高模型的性能。 7. 模型评估:使用合适的评估指标来评估模型在情感需求掌握方面的性能,并根据评估结果进行调整和改进。
2024-11-11
训练模型
训练模型的相关内容如下: 用 SD 训练一套贴纸 LoRA 模型的工作流: 原始形象:MJ 初步产出符合设计想法的贴纸原始形象。 二次加工:完成贴纸的白色边线等细节加工。 处理素材:给训练集图片打 tag,修改 tag。 训练模型:将上述处理好的数据集做成训练集,进行训练。 使用编码器解码器架构构建诗歌生成器的训练模型: 在训练模型之前,需要一个损失函数,由于本质上是多类分类问题,损失将是稀疏的分类交叉熵损失,配置从 logits 计算。 有了损失后,编译模型,将损失和优化器联系在一起,优化器在训练期间更新权重以减少损失。 开始训练模型,选择训练的时期,进行多次训练,并提供回调确保训练期间保存权重。 从实际字符串中提取字符序列,使用 TensorFlow 的 TF 字符串 Unicode 拆分功能。 将字符序列转化为数字,使用 TF Keras 层中的 StringLookup 函数进行字符到 ID 的映射,也可通过设置参数获取反向映射。 将处理后的数据作为神经网络的训练数据集,使用 TF Data Dataset API。 call 函数指定网络架构,输入是代表字符的 ID 序列,有嵌入层、循环层和密集层。 完成模型构建后,可使用 model.summary查看模型结构。 包括创建初始向量层、字符向量的演进、构建密集输出层等步骤。
2024-11-06
有哪些工具直接可以调用国外的多个LLM
以下是一些关于能够调用国外多个 LLM 的相关信息: 开源项目作者 ailm 提出一种仅使用提示词工程和精巧的代码设计,让 LLM 获得稳定的 tool calling 能力,使用多个不具备该功能的 LLM 进行实验,成功率达 100%,工作基于 comfyui 开发,适合无代码基础的人员复现和修改。 在高级提示词工程领域,工具、连接器和技能的整合能显著增强 LLM 的能力。工具是指 LLM 可利用的外部功能或服务,扩展任务范围;连接器是 LLM 与外部工具或服务的接口,管理数据交换和通信;技能是 LLM 可执行的专门功能。 目前开源模型与专有产品存在差距但在缩小,如 Meta 的 LLaMa 模型引发一系列变体。当开源 LLM 达到一定准确度水平时,预计会有大量实验等。开发人员对 LLM 操作工具的研究尚不深入,一些工具如缓存(基于 Redis)、Weights & Biases、MLflow、PromptLayer、Helicone 等得到较广泛使用,还有新工具用于验证 LLM 输出或检测攻击。多数操作工具鼓励使用自身的 Python 客户端进行 LLM 调用。
2024-11-12
集成LLM的工具
以下是关于集成 LLM 的工具的相关内容: 一、“手臂和腿部”:赋予模型使用工具的能力 1. 从知识挖掘转向行动导向,增加模型使用工具的能力,有望在消费者和企业领域实现一系列用例。 对于消费者,LLMs 可能给出菜谱建议并订购食材,或推荐早午餐地点并预订餐桌。 在企业领域,创始人可接入 LLMs 使应用程序更易用,如在 Salesforce 等应用中,用户能用自然语言更新,模型自动更改,减少维护 CRM 所需时间。 2. LLM 虽对常见系统有复杂理解能力,但无法执行提取的信息。不过,公司在不断改善其使用工具的能力。 老牌公司如必应、谷歌和初创公司如 Perplexity、You.com 推出搜索 API。 AI21 Labs 推出 JurassicX,解决独立 LLMs 缺陷。 OpenAI 推出 ChatGPT 插件测试版,允许与多种工具交互,在 GPT3.5 和 GPT4 中引入函数调用,允许开发者将 GPT 能力与外部工具链接。 二、无需微调,仅用提示词工程就能让 LLM 获得 tool calling 的功能 1. 提示词工程主要由提示词注入和工具结果回传两部分代码组成。 2. 提示词注入用于将工具信息及使用工具的提示词添加到系统提示中,包含 TOOL_EAXMPLE、tools_instructions、REUTRN_FORMAT 三个部分。 TOOL_EAXMPLE 提示 LLM 如何理解和使用工具,编写时用无关紧要工具作示例避免混淆。 tools_instructions 是通用工具字典转换成 LLM 可读的工具列表,可动态调整。 REUTRN_FORMAT 定义调用 API 格式。 3. 工具结果回传阶段利用正则表达式抓取输出中的“tool”和“parameters”参数,对于 interpreter 工具使用另一种正则表达式提取 LLM 输出的代码,提高使用成功率。通过识别 LLM 返回的调用工具字典,提取对应值传入工具函数,将结果以 observation 角色返回给 LLM,对于不接受某些角色的 LLM 接口,可改为回传给 user 角色。通过以上提示词工程,可让无 tool calling 能力的 LLM 获得稳定的该能力。
2024-11-12
如何学会ollma dify
以下是关于学习 Ollama 的详细步骤: 1. 了解 Ollama :Ollama 是一个开源的框架,旨在简化在本地运行大型语言模型(LLM)的过程。它是一个轻量级、可扩展的框架,提供了简单的 API 来创建、运行和管理模型,还有预构建模型库,降低了使用门槛,适合初学者或非技术人员使用,特别是希望在本地与大型语言模型交互的用户。 2. 安装 Ollama : 官方下载地址:https://ollama.com/download 。 安装完成后,可通过访问 http://127.0.0.1:11434/ 判断是否安装成功。 3. 启动 Ollama : 从 ollama 的 github 仓库找到对应版本并下载。 启动 ollama 后,在 cmd 中输入 ollama run gemma2 将自动下载 gemma2 模型到本地并启动。 将 ollama 的默认 base URL=http://127.0.0.1:11434/v1/ 以及 api_key=ollama 填入 LLM 加载器节点即可调用 ollama 中的模型进行实验。 4. 常见报错及解决方案:如果 ollama 连接不上,很可能是代理服务器的问题,请将 127.0.0.1:11434 添加到不使用代理服务器的列表中。 5. 使用 Ollama 运行本地大模型: 安装完成 ollama 后,在命令行中运行相应命令。 可通过查看并选择要运行的本地大模型,如 llama2 大模型。考虑机器配置及不同版本的内存要求选择合适的模型参数。运行时,ollama 会自动下载大模型到本地。
2024-11-06
LLM和COT分别是什么
LLM 即大型语言模型(Large Language Model),是一种基于深度学习的自然语言处理模型,具有强大的语言理解和生成能力。例如 FlanT5、ChatGLM、UL2、Qwen、Chinchilla、OPT、PaLM、LLaMA、LLaMA2、Vicuna 等都是常见的 LLM 模型。 COT 即思维链(ChainofThought),它能引导 LLM 逐步推理,增强其逻辑推理能力,对于需要逻辑解决方案的任务非常有效,但在创造性问题解决中存在局限性。在一些研究中,如多模态大模型中,LLM 作为核心智能体可以继承包括 COT 在内的一些显著属性。同时,ReAct 框架中也提到了将 ReAct 和 COT 结合使用的方法。
2024-10-28
LLM原理
LLM(大语言模型)的工作原理如下: 大模型在回复时是一个字一个字地推理生成内容,就像输入法的输入联想逻辑,会根据输入的字推测下一个字。但仅算字的概率存在问题,且全量数据计算算力吃不消。 为解决这些问题,出现了词向量机制和 transformer 模型中的 attention 自注意力机制。 以“我今天吃了狮子头和蔬菜”这句话为例,在 transformer 中,attention 层会对其加入更多信息补充,如“狮子头是一道菜”“今天是星期六”等,层与层之间由模型自主学习哪些信息补充、保留和传递,最终把海量数据以关系网形式“消化”并保留重要相关性。 这些层就像人阅读文章时的连贯性注意力过程,记忆的不是点状知识而是网状经验。 大模型以词向量和 transformer 的模型学习海量知识,把知识作为向量空间中的关系网存储,接受输入时通过向量空间中的匹配进行输出。 就像人脑阅读学习,记忆不是逐字逐句,而是按相关性、重要程度结合历史经验,比如记忆“红色”时会带有很多“feature”信息。 常见缩写和专业词汇解释: LLM:Large language model 的缩写,即大语言模型。 Prompt:中文译作提示词,是输入给大模型的文本内容,其质量会影响回答质量。 Token:大模型语言体系中的最小单元,不同厂商对中文的切分方法不同,1Token 约等于 1 2 个汉字,收费和输入输出长度限制以 token 为单位。 上下文:英文为 context,指对话聊天内容前、后的信息,其长度和窗口会影响回答质量。
2024-10-24
LLM是什么,有什么方法能够调优
LLM 即大型语言模型(Large Language Model)。以下是一些调优 LLM 的方法: 1. 改进提示:在上下文中提供基本事实,例如相关文章段落或维基百科条目,以减少模型生成虚构文本的可能性。通过降低概率参数并指示模型在不知道答案时承认(例如,“我不知道”)来配置模型以生成更少样式的响应。在提示中提供问题和答案的组合示例,其中可能知道和不知道的问题和答案。 2. 微调:采用在通用数据集上预训练的模型,复制这个模型,然后以这些学习到的权重为起点,在新的特定领域数据集上重新训练模型。但由于 LLM 规模较大,更新每个权重可能需要很长时间的训练工作,且计算成本较高,所以微调大型语言模型可能不是最佳选择。 3. 参数有效调优:这是一种创新的调优方法,旨在通过仅训练一部分参数来减少微调 LLM 的挑战。这些参数可能是现有模型参数的子集,也可以是一组全新的参数,例如向模型添加一些额外的层或额外的嵌入到提示。参数有效调整非常适合拥有“适度”数量训练数据的场景,例如数百或数千个训练示例。训练数据应以文本到文本格式构建为受监督的训练数据集,数据中的每条记录或行都应包含输入文本(即提示)。 此外,研究发现 GPT4 等 LLM 在一些简单的代数问题上存在表现局限性,例如随着 L 的增加,模型更容易犯计算错误,90%的错误是由于在合并相似项时跳过了步骤。这启发了是否有有效方法训练或微调 LLM 以实现更准确计算能力的研究问题。同时,LLM 在计数方面也存在困难,不仅在转换器架构中难以实现,而且数据集中计数示例的稀缺性也加剧了这个问题。
2024-10-24
能够提取视频摘要的大模型有哪些
以下是一些能够提取视频摘要的大模型: 1. InstructBLIP:基于预训练的BLIP2模型进行训练,在MM IT期间仅更新QFormer。通过引入指令感知的视觉特征提取和相应的指令,能够提取灵活多样的特征。 2. PandaGPT:是一种开创性的通用模型,能够理解6种不同模式(文本、图像/视频、音频、热、深度和惯性测量单位)的指令并根据指令采取行动。 3. PaLIX:使用混合VL目标和单峰目标进行训练,包括前缀完成和屏蔽令牌完成。这种方法对于下游任务结果和在微调设置中实现帕累托前沿都是有效的。 4. VideoLLaMA:引入了多分支跨模式PT框架,使LLMs能够在与人类对话的同时处理给定视频的视觉和音频内容,使视觉与语言以及音频与语言保持一致。 5. 视频聊天GPT:专门为视频对话设计的模型,能够通过集成时空视觉表示来生成有关视频的讨论。 6. Shikra:Chen等人介绍的一种简单且统一的预训练MMLLM,专为参考对话(涉及图像中区域和对象的讨论的任务)而定制,展示了值得称赞的泛化能力,可以有效处理看不见的设置。 7. DLP:提出PFormer来预测理想提示,并在单模态句子数据集上进行训练,展示了单模态训练增强MM学习的可行性。 8. Pegasus1:具有约800亿参数,可处理从10秒到数小时的视频内容。不仅能识别视频中的人物、物体、场景,还能理解背景音乐、对话等,并提供一系列API来满足不同的视频到文本转换需求。
2024-11-01
生成文章摘要提示词
以下是一些生成文章摘要的提示词示例: 对于“熊猫大侠:Kimi Copilot 搜罗精华,一键高效网页总结”中的浏览器 Kimi 插件,提示词为:您是擅长总结长文本的助手,能总结用户给出的文本并生成摘要。工作流程是逐步思考,阅读提供的内容,一句话总结文章,标题为“概述”;总结文章内容并写成摘要,标题为“摘要”,用中文回答,输出标题时使用 Markdown 格式,若无法访问链接则根据文本内容回答。 在办公通用场景中,总结助手的提示词为:请帮我总结以下文章,将文本总结为 100 个单词,使其易于阅读和理解,摘要应简明扼要并抓住要点,避免复杂句子结构和技术术语。 周报生成器的提示词为:根据日常工作内容,提取要点并适当扩充以生成周报。使用提供的文本作为中文每周报告的基础,生成简明摘要,突出最重要观点,报告以降格编写,易于一般读者阅读和理解,注重提供对利益攸关方和决策者有用的见解和分析,也可根据需要使用其他信息或来源。
2024-08-27
财报摘要整理的ai
以下是关于财报摘要整理的 AI 相关信息: 目前,文本生成在多个领域广泛应用,如媒体广告、教育和法律等。AIGC 能根据给定主题或关键词自动生成新闻报道、文章摘要、广告文案等文本内容。 在医疗领域,AI 技术协助医生分析大量医疗数据,包括病历、影像资料等,有助于制定更精准的诊断方案和治疗计划,提高医疗质量和效率。在金融领域,证券 AI 智能投研可生成研报、进行财务数据查询、盈利预测和提供投资组合建议;银行智能风控通过分析客户信用历史和行为特征等数据,挖掘风险因素,实现信贷风险、反欺诈、反洗钱等行为预警。 从产品形态上,业内普遍认为 AI 应用将沿着 AIGC(内容生成)、Copilot(智能助手)、Insight(知识洞察)、Agent(智能体)四个重要方向演进。 此外,智能摘要功能能够辅助快速筛选信息,实现信息降噪。近期出现的各类 AI 搜索引擎,如 perplexity.ai、metaso、360 搜索、ThinkAny 等,在不断颠覆传统的搜索引擎。
2024-08-14
AI可以帮画流程图吗
AI 可以帮助画流程图。例如,可以使用以下工具和方法: Claude 可以尝试绘制流程图,但可能效果不太理想,且给出的通常是大致框架,需要进一步要求其完善。 利用 Lucidchart 绘制流程图,具体步骤为: 1. 注册并登录: 2. 选择模板:在模板库中搜索“项目管理流程图”。 3. 编辑图表:根据项目需求添加和编辑图形和流程步骤。 4. 优化布局:利用 AI 自动布局功能,优化图表的外观。 5. 保存和分享:保存图表并与团队成员分享,或导出为 PDF、PNG 等格式。 以下是一些推荐的绘制流程图的 AI 工具和平台: 1. Lucidchart:是一个强大的在线图表制作工具,集成了 AI 功能,可以自动化绘制流程图、思维导图、网络拓扑图等多种示意图。具有拖放界面,易于使用;支持团队协作和实时编辑;丰富的模板库和自动布局功能。官网: 2. Microsoft Visio:是专业的图表绘制工具,适用于复杂的流程图、组织结构图和网络图。其 AI 功能可以帮助自动化布局和优化图表设计。集成 Office 365,方便与其他 Office 应用程序协同工作;丰富的图表类型和模板;支持自动化和数据驱动的图表更新。官网: 3. 不过,需要注意的是,根据马斯克的成事五步法,第一步是质疑需求。画图的目的是加深理解,通过亲自动手画图来巩固印象,如果让 AI 画,这个锻炼机会就没了。而且,现在的 AI 也画不出十分好看的流程图,画出来的东西也可能难以修改。
2024-11-11
帮我用AI生成流程图
以下为使用 AI 生成流程图的几种方法: 1. 使用 Lucidchart 生成项目管理流程图: 注册并登录:。 选择模板:在模板库中搜索“项目管理流程图”。 编辑图表:根据项目需求添加和编辑图形和流程步骤。 优化布局:利用 AI 自动布局功能,优化图表的外观。 保存和分享:保存图表并与团队成员分享,或导出为 PDF、PNG 等格式。 2. 使用 ChatGPT 生成各种流程图: 确定制作目标,如生成时序图或流程图。 通过自然语法描述逻辑,将其转换成图形语法。 在线校验测试是否成功。 3. 利用 AI 拆解工作流程: 思考 AI 在当前任务中的帮助作用。 例如,对于公众号写作,使用简单提示词让 Claude 给出大致框架,并要求其更详细。 对于不同场景,如写 PPT 或学术论文,也可尝试让 AI 拆解。 得到拆解结果后,可用 Xmind 画成时间轴图等图表展示。 需要注意的是,虽然 AI 能帮忙画流程图,但根据马斯克的成事五步法,第一步是质疑需求。画图的目的是加深理解,亲自动手画图能巩固印象。而且当前 AI 画出的流程图可能不太好看且难以修改。
2024-11-08
如何输入图片,根据图片生成流程图
以下是关于输入图片生成流程图的相关内容: “镜子画布”小游戏: 需求分析: 这是一种帮助孩子理解和掌握对称概念的教育类小游戏。 内容需求方面,加入“选择难易度等级”概念,根据不同年龄和等级提供不同玩法。 图片生成:用户选择主题后画出相关内容。 图片处理:对图片以中心点分割,右侧内容进行“橡皮擦”处理,包括完全擦掉、给出辅助线、线条做浅等方式。 用户输入:包括输入主题(关键词)或随机生成主题、所选等级(简单、中等、困难)、描图的辅助线等级(无辅助线、“田字格”辅助线、“描红”辅助线)。 制作个人奥运头像: 需求分析:用自己的图片、照片生成漫画形式的以照片人物为主体的运动员头像图。 输入:先使用 ChatGPT 完成工作,输入奥林匹克项目生成人物描述,结合范例提示词添加中国人、中国运动服和项目场景描述,再使用重绘、垫图等参数调整。 “数独游戏”小游戏: 游戏设计: 答案验证:用户把填写内容以 9×9 矩阵形式输给 GPTs,GPTs 利用 Python 与 solution 矩阵对比,出错留红色“X”标记。 答案:用户可要求直接打印答案页。 做成图片的原因:方便用户理解和打印。
2024-11-08
文档生成流程图
以下是关于文档生成流程图的相关内容: 生成流程图的方式主要有两种: 1. 可视化拖拽: 代表产品有:(web 工具)、visio(本地软件)。 优点:直观。 缺点:需要花时间在布局上。 2. 语法渲染成图形: 代表语法: 优点: 只用关注逻辑,文本即图形,方便直接嵌入在 markdown 文件中,比如在用 tyora、markdown 写文档时。 多样性,不同渲染引擎可渲染成多种样式。 缺点:有点抽象。 此外,假设您需要创建一个项目管理流程图,可以按照以下步骤使用 Lucidchart: 1. 注册并登录:。 2. 选择模板:在模板库中搜索“项目管理流程图”。 3. 编辑图表:根据您的项目需求添加和编辑图形和流程步骤。 4. 优化布局:利用 AI 自动布局功能,优化图表的外观。 5. 保存和分享:保存图表并与团队成员分享,或导出为 PDF、PNG 等格式。 利用这些 AI 工具,您可以快速、高效地创建专业的示意图,满足各种工作和项目需求。
2024-11-07
AIGC视频制作流程和使用工具
以下是 AIGC 视频制作的流程和使用工具: 流程: 1. 前期:先定框架,包含定向、写脚本,确定内容呈现形式、调性、风格和人物设定等。 2. 中期:根据脚本出图,同步剪辑,收集音效配音。如遇到跑图中带文字乱掉等问题可进行 AI 处理和产品跟踪。 3. 后期:对现有视频进行优化,做字体包装和跟踪字体。 使用工具: 1. Runway:可以对图生视频进行更详细的控制,如控制镜头移动、通过笔刷方式控制画面元素移动等。 2. 剪映:用于视频的合成、修剪,添加音效、音乐等。 3. 季梦:可用于 AI 视频下载、首尾帧衔接等操作。 4. 可林:在人物图片生成方面有一定表现。 在视频制作中,还需注意以下方面: 1. 转场制作:考虑最终视频的衔接,制作时思考上下镜头的运动关系。 2. 配音:商业片子做好配音很重要,普通话不标准时花钱找人配音比 AI 配音效果好。 3. 字体:字体包装在视频中很重要。 4. 后期包装思路:可通过添加光效渲染氛围,对素材进行跟踪以替换产品,还可进行素材叠加。 5. 剪辑:在 AI 项目中剪辑占比较高,好的剪辑师能将素材处理得更好。 6. 镜头主接与轴线关系:镜头主接需注意景别丰富,避免越轴导致观众观感不适。 7. 调色流程:对色彩有特别要求可在达芬奇里完成剪辑调色流程,简单调色可在剪映中通过肉眼大致判断校正颜色。 在首尾帧衔接方面,需注意画面构图和元素最好有一致性,若出现渐变 bug 会 PS 的可处理。同时,在图片处理与生成中,要注意图片拖选与删除操作,合理运用提示词描述镜头和生成人物图片。
2024-11-06
aigc制作视频的流程和工具
以下是 AIGC 制作视频的流程和工具: 1. 流程: 前期:定框架,包含定向、写脚本,确定内容呈现形式、调性、风格和人物设定等。 中期:根据脚本出图,同步剪辑,收集音效配音,处理跑图中出现的问题,如文字乱掉等,并进行 AI 处理和产品跟踪。 后期:对现有视频进行优化,做字体包装和跟踪字体。 2. 工具: 剪映:可将下载的视频全选拖拽进行修剪,添加音效、音乐等,普通社交媒体分享选 1080P,需放大选 720P,码率越高越好,可自定义最高 5 万。 季梦:可上传首帧和尾帧,生成时长 6 秒较合适,1.2 版本面部易变形。 可林:可上传首帧和尾帧,脸部表现较好。 Runway:可以对图生视频有更详细的控制,比如控制镜头的移动,通过笔刷的方式控制画面元素的移动。 达芬奇:对色彩有特别要求时可用于完成剪辑调色流程。 在首尾帧衔接方面,画面构图和元素最好有一致性,如相同的透视类型。若出现渐变 bug,会 PS 的可处理,如将原图再次拖入。 在图片处理与生成方面,将图片拖进软件,框选需删除部分,对智能对象需栅格化后再删除。通过 P 图生成合理的前后景,对比不同工具生成效果,如季梦生成较完美。 在提示词运用与镜头描述方面,强调穿梭镜头相关提示词的重要性,列举多种镜头运动方式的描述词。 在人物图片生成方面,在 AI 图片生成红衣汉服美女,可规定人物面部一致性。 在配音方面,商业片子做好配音很重要,普通话不标准时花钱找人配音比 AI 配音效果好。 在字体方面,字体包装在视频中很重要。 在后期包装与剪辑方面,可通过添加光效渲染氛围,对素材进行跟踪以替换产品,还可进行素材叠加。在 AI 项目中剪辑占比 45%,好的剪辑师能将素材处理得更好。镜头主接需注意景别丰富,存在轴线问题,越轴会让观众观感不适。简单调色可在剪映中通过肉眼大致判断校正颜色,剪映中有色轮和曲线可用于调色。
2024-11-06