直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

使用主模型及微调模型进行图像生成的过程是什么?

回答

使用主模型及微调模型进行图像生成的过程通常包括以下步骤:

  1. 对于像 Video LDM 这样的模型,首先训练一个 LDM(隐扩散模型)图像生成器。
  2. 以 OpenAI 的文本到图像模型为例,在大量由图像和描述图像的文本组成的数据集上进行训练。训练时,先将字符串用分词器分解为离散的 token,通过最大化似然函数构建文本语言模型,然后对图像进行调整将其转换为描述生成器。
  3. 为改进在图像生成数据集上的描述效果,对描述生成器进行微调。例如,OpenAI 构建小规模描述数据集来描述图像主对象,诱导模型偏向于描述主对象,此为“短合成描述”;或者创建更长、更丰富的文本数据集来描述图像内容。
  4. 对于视频生成,如 Video LDM 向解码器添加额外的时间层,并使用用 3D 卷积构建的逐块时间判别器在视频数据上进行微调,同时编码器保持不变,以实现时间上一致的重建。类似于 Video LDM,Stable Video Diffusion(SVD)也是基于 LDM,在每一个空间卷积和注意力层之后插入时间层,并在整个模型层面上执行微调。
  5. 在视频生成的微调过程中,长度为 T 的输入序列会被解释成用于基础图像模型的一批图像,然后再调整为用于时间层的视频格式。其中有 skip 连接通过学习到的融合参数导向时间层输出和空间输出的组合。在实践中,实现的时间混合层有时间注意力和基于 3D 卷积的残差模块等。但 LDM 的预训练自动编码器存在只能看见图像、永远看不见视频的问题,直接用于生成视频会产生闪动伪影和时间一致性差的情况,所以需要进行上述微调操作。
内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

Lilian Weng|视频生成的扩散模型

[title]Lilian Weng|视频生成的扩散模型[heading2]调整图像模型来生成视频[heading3]在视频数据上进行微调内容𝑐是指视频的外观和语义,其可从文本采样来进行条件化编辑。视频帧的CLIP嵌入能很好地表示内容,并且能在很大程度上与结构特征保持正交。结构𝑠描述了几何性质和动态情况,包括形状、位置、物体的时间变化情况,𝑠是从输入视频采样的。可以使用深度估计或其它针对特定任务的辅助信息(比如用于人类视频合成的人体姿势或人脸标识信息)。Gen-1中的架构变化相当标准,即在其残差模块中的每个2D空间卷积层之后添加1D时间卷积层,在其注意力模块中的每个2D空间注意力模块之后添加1D时间注意力模块。训练期间,结构变量𝑠会与扩散隐变量𝐳连接起来,其中内容变量𝑐会在交叉注意力层中提供。在推理时间,会通过一个先验来转换CLIP嵌入——将其从CLIP文本嵌入转换成CLIP图像嵌入。图9:Gen-1模型的训练流程概况。Blattmann et al.在2023年提出的Video LDM首先是训练一个LDM(隐扩散模型)图像生成器。然后微调该模型,使之得到添加了时间维度的视频。这个微调过程仅用于那些在编码后的图像序列上新增加的时间层。Video LDM中的时间层{𝑙𝜙𝑖∣𝑖= 1,…,𝐿}(见图10)会与已有的空间层𝑙𝜃𝑖交错放置,而这些空间层在微调过程中会保持冻结。也就是说,这里仅微调新参数𝜙,而不会微调预训练的图像骨干模型参数𝜃。Video LDM的工作流程是首先生成低帧率的关键帧,然后通过2步隐含帧插值过程来提升帧率。

DALL·E 3论文公布、上线ChatGPT,作者一半是华人

[title]DALL·E 3论文公布、上线ChatGPT,作者一半是华人OpenAI的文本到图像模型是在大量(t,i)对组成的数据集上进行训练的,其中i是图像,t是描述图像的文本。在大规模数据集中,t通常源于人类作者,他们主要对图像中的对象进行简单描述,而忽略图像中的背景细节或常识关系。更糟糕的是,在互联网上找到的描述往往根本不正确或者描述与图像不怎么相关的细节。OpenAI认为所有的缺陷都可以使用合成描述来解决。构建图像描述生成器图像描述生成器与可以预测文本的传统语言模型非常相似。因此,OpenAI首先提供了语言模型的简单描述。这里先用分词器(tokenizer)将字符串分解为离散的token,以这种方式分解之后,语料库的文本部分就表示为了序列t =[t_1,t_2,...,t_n]。然后通过最大化以下似然函数来构建文本语言模型。接下来若想将该语言模型转换为描述生成器,只需要对图像进行调整即可。因此给定一个预训练的CLIP图像嵌入函数F(i),OpenAI将语言模型目标做了如下增强。微调描述生成器为了改进在图像生成数据集上的描述效果,OpenAI希望使用描述生成器来生成图像描述,这有助于学习文本到图像模型。在首次尝试中,他们构建了一个仅能描述图像主对象的小规模描述数据集,然后继续在这个数据集上训练自己的描述生成器。该过程诱导的更新到θ使得模型偏向于描述图像的主对象。OpenAI将这种微调生成的描述称为「短合成描述」。OpenAI做了第二次尝试,创建了一个更长的、描述更丰富的文本数据集,来描述微调数据集中每个图像的内容。這些描述包括图像的主对象,以及周围对象、背景、图像中的文本、风格、颜色。

Lilian Weng|视频生成的扩散模型

[title]Lilian Weng|视频生成的扩散模型[heading2]调整图像模型来生成视频[heading3]在视频数据上进行微调长度为𝑇的输入序列会被解释成用于基础图像模型𝜃的一批图像(即𝛣・𝑇),然后再调整为用于𝑙𝜃𝑖时间层的视频格式。其中有一个skip连接通过一个学习到的融合参数𝛼导向了时间层输出𝐳'和空间输出𝐳的组合。在实践中,实现的时间混合层有两种:(1)时间注意力,(2)基于3D卷积的残差模块。图10:一个用于图像合成的预训练LDM被扩展成一个视频生成器。B、𝑇、𝐶、𝐻、𝑊分别是批量大小、序列长度、通道数、高度和宽度。𝐜_S是一个可选的条件/上下文帧。但是,LDM的预训练自动编码器依然还有问题:它只能看见图像,永远看不见视频。直接使用它来生成视频会产生闪动的伪影,这样的时间一致性就很差。因此Video LDM向解码器添加了额外的时间层,并使用一个用3D卷积构建的逐块时间判别器在视频数据进行微调,同时编码器保持不变,这样就依然还能复用预训练的LDM。在时间解码器微调期间,冻结的编码器会独立地处理视频中每一帧,并使用一个视频感知型判别器强制在帧之间实现在时间上一致的重建。图11:视频隐扩散模型中自动编码器的训练工作流程。其中编码器的微调目标是通过新的跨帧判别器获得时间一致性,而编码器保持不变。类似于Video LDM,Blattmann et al.在2023年提出的Stable Video Diffusion(SVD)的架构设计也是基于LDM,其中每一个空间卷积和注意力层之后都插入时间层,但SVD是在整个模型层面上执行微调。训练视频LDM分为三个阶段:

其他人在问
推荐一下国内可以通过对话微调的预训练模型
以下是为您推荐的国内可以通过对话微调的预训练模型相关信息: 为优化 Llama2 的中文能力,可使用以下数据: 网络数据:互联网上公开的网络数据,包括百科、书籍、博客、新闻、公告、小说等高质量长文本数据。 :中文 Wikipedia 的数据。 :中文悟道开源的 200G 数据。 :Clue 开放的中文预训练数据,经过清洗后的高质量中文长文本数据。 竞赛数据集:近年来中文自然语言处理多任务竞赛数据集,约 150 个。 :MNBVC 中清洗出来的部分数据集。 社区提供预训练版本 Atom7B 和基于 Atom7B 进行对话微调的模型参数供开放下载,关于模型的进展详见社区官网 https://llama.family。 另外,关于会话补全(Chat completions): gpt3.5turbo 和 textdavinci003 两个模型能力相似,但前者价格只是后者的十分之一,在大部分情况下更推荐使用 gpt3.5turbo。 gpt3.5turbo 模型不支持微调。从 2023 年 3 月 1 日起,只能对基于 GPT3.5 的模型进行微调。有关如何使用微调模型的更多细节,请参阅微调指南。 从 2023 年 3 月 1 日起,OpenAI 会将您通过 API 发送的数据保留 30 天但不会使用这些数据来提升模型。 关于安仔:Coze 全方位入门剖析 免费打造自己的 AI Agent(国内版): 目前国内版暂时只支持使用“云雀大模型”作为对话引擎,其携带上下文轮数默认为 3 轮,可修改区间是 0 到 30,具体轮数可根据业务需求决定。 在 Bot 编排页面的“技能”区域,可为 Bot 配置所需技能。不懂插件时,可选择区域右上角的“优化”按钮让 AI Bot 根据提示词自动选择插件。也可自定义添加所需插件,点击插件区域的“+”号选择加入具体插件。 在 Bot 编排页面的“预览与调试”区域,可测试 Bot 是否按预期工作,可清除对话记录以开始新的测试,确保 Bot 能理解用户输入并给出正确回应。
2024-10-18
推荐一下个人可以使用的通过对话微调的模型
以下是一些个人可以使用的通过对话微调的模型相关信息: 会话补全(Chat completions): GPT3.5 系列中,gpt3.5turbo 和 textdavinci003 有相似能力,但 gpt3.5turbo 价格仅为 textdavinci003 的十分之一,在多数情况下更推荐使用 gpt3.5turbo。不过,gpt3.5turbo 不支持微调,从 2023 年 3 月 1 日起,只能对基于 GPT3.5 的模型进行微调。 微调(Finetuning): 案例研究: 客户支持聊天机器人:通常包含相关上下文、对话摘要及最近消息,可能需要几千个示例处理不同请求和客户问题,建议审查对话样本确保代理消息质量,可使用单独文本转换微调模型生成摘要。 基于技术属性列表的产品描述:将输入数据转换为自然语言很重要,确保完成基于所提供描述,若常查阅外部内容,自动添加此类内容可提高性能,若描述基于图像,提取图像文本描述可能有帮助。 模型(Models): GPT3.5 模型可理解和生成自然语言或代码,其中功能最强大、最具成本效益且针对聊天优化的型号是 gpt3.5turbo,建议使用它而非其他 GPT3.5 模型,因其成本更低。 gpt3.5turbo:功能强大,针对聊天优化,成本低,会使用最新模型迭代更新,最大 Token 数 4096,训练数据截至 2021 年 9 月。 gpt3.5turbo0301:2023 年 3 月 1 日的快照,不会更新,仅在 2023 年 6 月 1 日结束的三个月内提供支持,最大 Token 数 4096,训练数据截至 2021 年 9 月。 textdavinci003:能完成任何语言任务,支持文本中插入补全,最大 Token 数 4097,训练数据截至 2021 年 6 月。 textdavinci002:与 textdavinci003 类似,使用监督微调而非强化学习训练,最大 Token 数 4097,训练数据截至 2021 年 6 月。 codedavinci002:针对代码完成任务优化,最大 Token 数 8001,训练数据截至 2021 年 6 月。 请注意,OpenAI 模型具有不确定性,相同输入可能产生不同输出,将温度设置为 0 可使输出大部分具有确定性,但可能仍有少量可变性。
2024-10-18
个人使用可以通过对话微调的大模型
大模型是指输入大量语料,使计算机获得类似人类的“思考”能力,能够进行文本生成、推理问答、对话、文档摘要等工作。可以用“上学参加工作”来类比大模型的训练和使用过程: 1. 找学校:训练大模型需要大量计算,GPU 更合适,只有购买得起大量 GPU 的才有资本训练。 2. 确定教材:大模型需要的数据量特别多,几千亿序列(Token)的输入基本是标配。 3. 找老师:用合适的算法让大模型更好理解 Token 之间的关系。 4. 就业指导:为让大模型更好胜任某一行业,需要进行微调(fine tuning)指导。 5. 搬砖:完成就业指导后,进行如翻译、问答等工作,在大模型里称为推导(infer)。 在 LLM 中,Token 被视为模型处理和生成的文本单位,能代表单个字符、单词、子单词等,具体取决于分词方法。将输入分词时会数字化形成词汇表。 个人动手实验方面: macOS 系统可采用 GGML 量化后的模型。有名的项目如 ggerganov/llama.cpp:Port of Facebook's LLaMA model in C/C++ ,首先编译,利用 Metal 的 GPU 用相应命令编译,然后去下载模型,还提供了 WebUI,启动 server 后默认监听 8080 端口,打开浏览器可对话。 Whisper 与 llama 类似,用 make 命令编译,去指定地址下载量化好的模型,转换音频,目前只接受 wav 格式,可用 ffmpeg 转化。 张梦飞的教程《用聊天记录克隆自己的 AI 分身》全程本地操作,目标是把微信聊天记录导出,用其微调模型,最终接入微信替你回复消息。
2024-10-18
国内能通过对话微调的语言大模型
以下是国内一些能通过对话微调的语言大模型: 教育领域:桃李(Taoli) 地址: 简介:在国际中文教育领域数据上进行了额外训练的模型,基于国际中文教育教材等构建资源库和问答数据集,并利用数据进行指令微调,让模型习得将知识应用到具体场景中的能力。 数学领域:chatglmmaths 地址: 简介:基于 chatglm6b 微调/LORA/PPO/推理的数学题解题大模型,样本为自动生成的整数/小数加减乘除运算,可 gpu/cpu 部署,开源了训练数据集等。 文化领域:Firefly 地址: 简介:中文对话式大语言模型,构造了许多与中华文化相关的数据,如对联、作诗、文言文翻译、散文、金庸小说等,以提升模型在这方面的表现。 金融领域: Cornucopia(聚宝盆) 地址: 简介:开源了经过中文金融知识指令精调/指令微调的 LLaMA7B 模型。通过中文金融公开数据+爬取的金融数据构建指令数据集,并在此基础上对 LLaMA 进行了指令微调,提高了 LLaMA 在金融领域的问答效果。基于相同的数据,后期还会利用 GPT3.5 API 构建高质量的数据集,另在中文知识图谱金融上进一步扩充高质量的指令数据集。 BBTFinCUGEApplications 地址: 简介:开源了中文金融领域开源语料库 BBTFinCorpus,中文金融领域知识增强型预训练语言模型 BBTFinT5 及中文金融领域自然语言处理评测基准 CFLEB。 XuanYuan(轩辕) 地址: 简介:国内首个开源的千亿级中文对话大模型,同时也是首个针对中文金融领域优化的千亿级开源对话大模型。在 BLOOM176B 的基础上针对中文通用领域和金融领域进行了针对性的预训练与微调,不仅可以应对通用领域的问题,也可以解答金融相关的各类问题,为用户提供准确、全面的金融信息和建议。
2024-10-18
文生图lora微调
以下是关于文生图 lora 微调的详细内容: 定主题:明确您需要生成的图片的主题、风格和要表达的信息。 选择基础模型 Checkpoint:根据主题选择内容贴近的 checkpoint,如麦橘、墨幽的系列模型,如麦橘写实、麦橘男团、墨幽人造人等。 选择 lora:基于生成内容寻找重叠的 lora,以控制图片效果和质量,可参考广场上优秀帖子中使用的 lora。 ControlNet:可控制图片中特定图像,如人物姿态、生成特定文字或艺术化二维码等,属于高阶技能。 局部重绘:下篇再教。 设置 VAE:无脑选择 840000 即可。 Prompt 提示词:用英文写需求,使用单词和短语组合,不用管语法,单词、短语间用英文半角逗号隔开。 负向提示词 Negative Prompt:同样用英文写要避免的内容,单词和短语组合,用英文半角逗号隔开。 采样算法:一般选 DPM++ 2M Karras 较多,也可参考 checkpoint 详情页上模型作者推荐的采样器。 采样次数:选 DPM++ 2M Karras 时,采样次数通常在 30 40 之间。 尺寸:根据个人喜好和需求选择。 以下是一个简笔水彩风格插画的示例: 使用大模型“Flat 2D Animerge”,适合生成卡通动漫图片,官方建议 CFG 值在 5 或 6(使用动态阈值修复可拉到 11)。搭配两个 lora,“Chinese painting style”可增加中国画水彩风格效果,权重设为 0.4;“Crayon drawing”可添加简单线条和小孩子笔触,权重设为 0.8。将图片丢到标签器中反推关键词,发送到“文生图”。在正向提示词末尾添加这两个 lora,尺寸按参考图设置,重绘幅度开 0.5 让 AI 更自由发挥,若想更接近原图可降低数值。将图放入 ControlNet 中,选择 tile 模型,权重为 0.5,控制模式选择“更注重提示词”。
2024-10-05
AI 增量训练和模型微调的区别
AI 增量训练和模型微调存在以下区别: 目的:增量训练通常是为了持续更新模型以适应新的数据和任务,而模型微调主要是为了使模型在特定的小领域数据集上针对特定任务达到更好的性能。 范围:增量训练可能涉及对模型的较大范围的更新,而微调往往集中在较小范围的参数调整。 方式:增量训练可能会对全量的模型参数进行训练,而微调存在全量微调(FFT)和参数高效微调(PEFT)两种技术路线,PEFT 只对部分模型参数进行训练,且目前在业界较为流行。 成本和效果:从成本和效果综合考虑,PEFT 是较好的微调方案。微调可以大幅提高模型在特定任务中的性能,但可能会使模型失去一些通用性。 数据使用:增量训练可能需要更多新的数据,而微调是在较小的、特定领域的数据集上进行。 如需了解更多关于微调的内容,可参考 OpenAI 官方微调教程:https://github.com/openai/openaicookbook/blob/main/examples/How_to_finetune_chat_models.ipynb
2024-09-13
图像ai用哪个
在图像 AI 领域,为您推荐以下产品: 国内产品: 可灵:由快手团队开发,主要用于生成高质量的图像和视频。图像质量高,最初采用内测邀请制,现向所有用户开放。价格相对较高,重度用户年费最高可达几千元,平均每月使用成本在 400 到 600 元,也有每日免费点数和 60 多元单月的最便宜包月选项,适合轻度用户尝试。 通义万相:在中文理解和处理方面表现出色,用户可选择多种艺术和图像风格,生成图像质量高、细节丰富,操作界面简洁直观、用户友好度高,可与阿里其他产品和服务无缝整合。重点是现在免费,每天签到获取灵感值即可。但存在一些局限性,如为符合国内监管要求,某些类型图像无法生成,处理非中文语言或国际化内容可能不如国际工具出色,处理多元文化内容可能存在偏差。 此外,以下人员在工作中也使用了相关图像 AI 产品: Labzen:用于画图。 张雷:用于视频。 徐洋:用于行业场景细分应用 AI,通过学习 AI 赋能行业解决问题,如市场投放效率、数据化运营升级、电网资和现场销售的人员能力和效率提升等。 皮皮虾:用于文生图和图生视频。 薄荷:用于电商应用出图,辅助创意落地。 龙飞:用于海报生成。 Crossing:用于 AI 摄影、图生视频等。 朔:用于大图像以及视频工作流。 Roger:用于工作。 秦梧御:用于视频。 dwing3:用于出图。 May:用于应用。 王西西:情况还不清楚。 丘嘉杰:用于文生图、图生图、图生视频。 吴林林:用于电商应用。 朱鹏:用于广告出图。 水水:用于视频制作。 韩影:用于作图、做视频。 斌哥:用于自媒体。
2024-10-24
以图像识别,为小白科普相关知识和交叉领域,并为研究生提供参考选题
图像识别是指利用计算机技术对图像进行处理和分析,以识别和理解图像中的内容。 对于小白来说,图像识别是让计算机像人一样“看懂”图像。它基于深度学习、机器学习等技术,通过对大量图像数据的学习和训练,能够自动提取图像的特征,并进行分类、识别等操作。 图像识别的应用非常广泛,比如在安防领域,用于人脸识别、车牌识别等;在医疗领域,辅助疾病诊断、医学影像分析;在交通领域,实现交通标志识别、车辆检测等。 图像识别与多个领域存在交叉,如计算机视觉,它不仅关注图像的识别,还包括图像的生成、处理等;与人工智能的其他分支如自然语言处理也有结合,实现图文转换等功能;在工业领域,与自动化生产相结合,进行产品质量检测等。 对于研究生来说,以下是一些参考选题: 1. 基于小样本学习的图像识别算法研究。 2. 融合多模态信息的图像识别模型优化。 3. 针对特定场景(如复杂环境、低光照等)的图像识别改进。 4. 图像识别在医疗诊断中的精准度提升策略。 5. 结合深度学习和传统方法的图像识别性能比较。 6. 基于新型神经网络架构的图像识别应用。
2024-10-19
怎样按照语义生成图像
按照语义生成图像的方法主要有以下几种: 1. 在 ComfyUI 中: 条件输入:右侧的条件输入包括语义图、文本、已有图像等,表示生成图像时的上下文信息。通过多个节点模块实现,如文本提示,用户可输入文本作为生成图像的主要条件;语义图用于输入图像的语义信息,通过“条件控制”节点实现;已有图像可作为条件输入以指导最终生成的图像。CLIP 模型对图中的文本、语义图等条件信息进行编码,并通过交叉注意力机制引导图像生成。用户可通过文本输入节点、图像输入节点等调整条件及权重以达到特定效果。 编码器和解码器:编码器将输入图像映射到潜在空间,解码器将潜在表示映射回像素空间生成输出图像。在 ComfyUI 中,编码器可以是预训练的扩散模型的一部分,用户可通过加载不同模型或自定义节点实现编码过程,通过“图像输出”节点得到最终生成结果。 2. 在 OpenAI 中: 图像生成端点:允许在给定文本提示的情况下创建原始图像,生成的图像大小可为 256x256、512x512 或 1024x1024 像素,较小尺寸生成速度更快。可使用参数一次请求 1 10 张图像。描述越详细,越有可能获得想要的结果,可探索 DALL·E 预览应用程序中的示例获取更多提示灵感。 图像编辑端点:通过上传蒙版编辑和扩展图像。遮罩的透明区域指示应编辑图像的位置,提示应描述完整的新图像,而不仅仅是擦除区域。上传的图片和遮罩必须是小于 4MB 的正方形 PNG 图片,且尺寸相同。 此外,GPT 4 也具备根据详细说明生成图像的能力,例如生成“一只青蛙跳进银行,问出纳员:你有免费的荷叶吗?出纳员回答:没有,但我们提供低利息的池塘升级贷款”的 2D 图像,以及“一个由浮岛、瀑布和桥梁组成的幻想景观,天空中有一只飞龙和一个位于最大岛上的城堡”的 3D 模型,并能完成添加、重新定位、重新着色对象和改变飞龙轨迹等任务。
2024-10-18
倒推图像关键词
在图像创作中,倒推图像关键词有以下几种方式和相关要点: 对于图生图功能,除了文本提词框外还有图片输入口,可通过图片给与 AI 创作灵感。随便照一张照片拖入后,文本输入框旁有两个反推提示词的按钮,CLIP 能通过图片反推出完整含义的句子,DeepBooru 能反推出关键词组。但两种方式生成的提示词可能存在瑕疵,需要手动补充信息。补充后调整宽度和高度,使红框匹配图片,同时注意两个重要参数:提示词相关性和重绘幅度。 关键词接龙时,将润色后的关键词组合起来形成完整的图像描述,确保每个关键词都能在最终图像中得到体现。 在视频转绘制作中,因为要对所有图片进行转换,关键词编写尽可能描述大概画面即可,推荐的公式是质量词+人物描述+环境描述+Lora。例如赛博风格转绘用到的正向提示词和反向提示词。
2024-10-16
国内可直接编辑或创建图像文件的最好用AI有哪些?
以下是一些国内可直接编辑或创建图像文件且好用的 AI 工具: 1. 无界 AI:可用于快速制作海报底图,并完成主题海报排版。操作流程包括确定主题与文案、选择风格与布局、生成与筛选、配文与排版。 2. Artguru AI Art Generator:在线平台,能生成逼真图像,为设计师提供灵感,丰富创作过程。 3. Retrato:将图片转换为非凡肖像,有 500 多种风格选择,适合制作个性头像。 4. Stable Diffusion Reimagine:通过稳定扩散算法生成精细、具有细节的全新视觉作品。 5. Barbie Selfie Generator:专为喜欢梦幻童话风格的人设计,可将上传的照片转换为芭比风格。 6. 可灵:由快手团队开发,用于生成高质量的图像和视频,但价格相对较高。 7. 通义万相:在中文理解和处理方面表现出色,用户可选择多种艺术和图像风格,生成图像质量较高,操作界面简洁直观,用户友好度高,且目前免费,每天签到获取灵感值即可。但存在一定局限性,如某些类型的图像因国内监管要求无法生成,处理非中文语言或国际化内容可能不够出色,处理多元文化内容时可能存在偏差。
2024-10-15
如何用ai进行图像算法识别
以下是关于 AI 在图像算法识别方面的相关内容: 在图像识别方面,AI 技术自身带来的造假难题可由其自身的同僚互鉴打假来解决。目前已有不少网站通过对大量图片数据的抓取和分析,给出对画作属性的判断可能性,例如 ILLUMINARTY(https://app.illuminarty.ai/)。但在测试过程中,可能存在一些问题,如结构严谨的真实摄影作品会被误识别为 AI 作图,这是因为鉴定 AI 自身的逻辑算法不能像人类一样综合考虑各种不符合逻辑的表现。 另外,CNN(卷积神经网络)的结构基于两类细胞的级联模型,主要用于模式识别任务,在计算上更有效、快速,已应用于自然语言处理和图像识别等领域。 在汽车行业,AI 也有广泛应用: 1. 自动驾驶技术:利用 AI 进行图像识别、传感器数据分析和决策制定,实现自主导航和驾驶,如特斯拉、Waymo 和 Cruise 等公司在开发和测试。 2. 车辆安全系统:用于增强自动紧急制动、车道保持辅助和盲点检测等系统的性能。 3. 个性化用户体验:根据驾驶员偏好和习惯调整车辆设置。 4. 预测性维护:分析车辆实时数据预测潜在故障和维护需求。 5. 生产自动化:用于汽车制造的生产线自动化,提高效率和质量控制。 6. 销售和市场分析:帮助汽车公司分析市场趋势、消费者行为和销售数据。 7. 电动化和能源管理:优化电动汽车的电池管理和充电策略。 8. 共享出行服务:优化路线规划、车辆调度和定价策略。 9. 语音助手和车载娱乐:如 Amazon Alexa Auto 和 Google Assistant 等。 10. 车辆远程监控和诊断:提供实时诊断和支持。
2024-10-15
国内外的文生视频大模型
以下是一些国内外的文生视频大模型: Pika:一款出色的文本生成视频 AI 工具,擅长动画制作,并支持视频编辑。 SVD:若熟悉 Stable Diffusion,可安装其最新插件,在图片基础上直接生成视频,由 Stability AI 开源。 Runway:老牌 AI 视频生成工具,提供实时涂抹修改视频的功能,但需收费。 Kaiber:视频转视频 AI,能够将原视频转换成各种风格的视频。 Sora:由 OpenAI 开发,可生成长达 1 分钟以上的视频。 国内的文生视频大模型有: Hidreamai:有免费额度,支持文生视频、图生视频,提示词使用中文、英文均可,文生视频支持正向提示词、反向提示词、运镜控制、运动强度控制,支持多尺寸,可生成 5s 和 15s 的视频,网址:https://hidreamai.com//AiVideo 。 ETNA:由七火山科技开发,可根据用户简短的文本描述生成相应的视频内容,生成的视频长度在 8 15 秒,画质可达 4K,最高 38402160,画面细腻逼真,帧率 60fps,支持中文,时空理解,网址:https://etna.7volcanoes.com/ 。 此外,快手文生图大模型可图(Kolors)正式开源。该模型基于数十亿图文对进行训练,支持 256 的上下文 token 数,支持中英双语。相关资源如下: 开源代码:https://github.com/KwaiKolors/Kolors 模型权重:https://huggingface.co/KwaiKolors/Kolors 官方页面:https://kwaikolors.github.io/ 企业页面:https://kolors.kuaishou.com/ 更多的文生视频的网站可以查看:https://www.waytoagi.com/category/38 。请注意,以上内容由 AI 大模型生成,请仔细甄别。
2024-10-24
有什么模型或者工具可以直接完成: 上传音频文件,输出文字稿,并且文字稿会做声纹识别区分说话人
以下是为您提供的相关信息: Hedra:hedra.com 放出了基础模型 Character1 的研究预览版,即日起在 http://hedra.com(桌面和移动)上提供。它可以直接文字转语音,目前有 6 个语音,也可以直接上传音频。 Sovits:关于基于 Sovits 的声音训练及推理,需要准备数据集,百度网盘链接为:https://pan.baidu.com/s/14iK32JKIPvjmf1Kfq21mzg?pwd=hjhj 提取码:hjhj 。模型的安装比较简单,拷贝就行,详情请看网盘里的说明。提取人声的最佳模型是 mdxnet,提取出来的声音一般还需要用 iZotope RX 等软件精细处理,去掉杂音、和声和混响,达到“干声”效果。iZotope RX 软件链接:https://pan.baidu.com/s/1NXh67SViKm39zT08U7zg?pwd=kmhd 提取码:kmhd 。安装时记得把 vst3 和 aax 勾上,主程序安装完成后,替换补丁是直接复制粘贴,不需要双击运行。安装完成后,打开提取的人声,左下角的控件移动到最左边,让图形更加清爽。去混响可按特定顺序操作,并通过调整数值以耳朵为准感受效果,合适则点击渲染应用到整首歌。
2024-10-23
近期的大模型进展
近期大模型的进展主要包括以下方面: 多模态大模型: 现状:随着数据集和模型规模扩大,传统多模态模型计算量大,研究重点在于各模态的连接,利用现成训练好的单模态基础模型可减少训练费用和提升效率。通过多模态预训练和指令微调实现模态对齐及模型输出与人类意图对齐是核心挑战。 发展历程:最初集中在多模态内容理解和文本生成,如 Flamingo、BLIP2 等;同时实现多模态输入和输出工作,如 MMLMM;将 LLM 和外部工具继承进来,实现“anytoany”的多模态理解和生成,如 visualchatgpt 等;还有为减少级联过程中传播误差的工作。 大型视觉模型 Sora:符合视觉模型的规模化定律,展示了新兴能力,包括遵循指令、视觉提示工程和视频理解等,是第一个展示确认新兴能力的视觉模型,标志着计算机视觉领域的重要里程碑。 OpenAI 的新模型 o1preview/mini:复杂问题思考过程长,相对简单问题也需 5 10 秒,使用条数少,冷却时间长,但推理模型准确率不断攀升,为行业注入了强心剂。
2024-10-23
我要在自己的应用中接入AI大模型能力,请问有什么工具或lib可以简化这个过程
以下是一些可以简化在应用中接入 AI 大模型能力的工具和库: 1. 您可以搭建 ,用于汇聚整合多种大模型接口,方便后续更换使用各种大模型。 2. 搭建 ,这是一个知识库问答系统,您可以将知识文件放入,并接入大模型作为分析知识库的大脑,它也有问答界面。 3. 搭建 ,其中的 cow 插件能进行文件总结、MJ 绘画等。 另外,基于 LangChain 平台提供的 LLM 基础模型,也能完成任意模型接口的封装。LLM(语言逻辑模型)是 LangChain 平台与各种大模型进行交互的核心模型,是一个抽象概念,可理解为处理语言输入和输出的黑盒。其输入是字符串表示的用户请求或问题,输出也是字符串表示的模型回答或结果。LLM 能根据不同输入调用不同大模型完成不同语言任务,具有无需关心大模型细节和复杂性、灵活选择切换大模型、可自行封装实现语言逻辑和功能等优势。 在基础通识课中,还提到了一些相关内容,如流式训练方式提升训练速度和质量,多种 AI 生成工具(如 so no 音频生成工具、能创建个人 AI 智能体的豆包、输入文本可生成播客的 Notebook LN),端侧大模型的特点,AI 工程平台(如 define、coach 等),模型社区(如魔搭社区)等。
2024-10-23
大模型评测标准
大模型的评测标准通常包括以下方面: 1. 多维度、多视角的综合性测评方案: 如中文大模型基准测评 2023 年度报告中,采用了由多轮开放问题 SuperCLUEOPEN 和三大能力客观题 SuperCLUEOPT 组成的评测集,共 4273 题,包括 1060 道多轮简答题(OPEN)和 3213 道客观选择题(OPT)。 在确定的评估标准指导下,OPEN 基准使用超级模型作为评判官,对比待评估模型与基准模型,计算胜和率作为 OPEN 得分,最终 SuperCLUE 总分由 0.7OPEN 分+0.3OPT 分计算得出,且经过人工校验。 OPT 主要测评选择题,包括基础能力、中文特性、专业与学术能力,构造统一 prompt 供模型使用,要求选取唯一选项。多轮简答题 OPEN 更能反映模型真实能力,故权重设置较高。 2. 特定的评测体系及开放平台: FlagEval(天秤)大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准、方法、工具集,创新构建了“能力任务指标”三维评测框架,细粒度刻画基础模型的认知能力边界,可视化呈现评测结果。 CEval 构造了一个覆盖多个方向和学科,共 13948 道题目的中文知识和推理型测试集,并给出了当前主流中文 LLM 的评测结果。 SuperCLUElyb 是中文通用大模型匿名对战评价基准,以众包方式提供匿名、随机的对战,并发布了初步结果和基于 Elo 评级系统的排行榜。 3. 基于业务目标和特定场景的测评: 例如在开发基于 LangChain Chatchat 框架的产品时,基于业务目标和政策咨询场景,对回答的内容生成质量进行测评,主要包括是否理解问题、是否匹配正确政策原文、基于政策原文的回答是否准确全面、是否生成政策原文以外的内容、回答是否可靠以及不同轮次回答是否差异大、是否支持追问等方面。
2024-10-23
Florence节点和模型下载方法
Florence 节点和模型的下载方法如下: 节点下载: 方法一:从节点管理器中安装(注意结尾是 V2.6int4 的那个)。 方法二:在秋叶包中安装(注意结尾是 V2.6int4 的那个)。 方法三:直接下载下面文件解压,复制 ComfyUI_MiniCPMV2_6int4 文件夹到您的“\\ComfyUI\\custom_nodes”目录下。注意 ComfyUI_MiniCPMV2_6int4 文件夹里面直接就是多个文件不能再包文件夹了。 夸克网盘:链接:https://pan.quark.cn/s/bc35e6c7e8a6 百度网盘:链接:https://pan.baidu.com/s/1sq9e2dcZsLGMDNNpmuYp6Q?pwd=jdei 提取码:jdei 模型下载: 模型下载地址(解压后大小 5.55G,压缩包大小 4.85G): 夸克网盘:链接:https://pan.quark.cn/s/98c953d1ec8b 百度网盘:链接:https://pan.baidu.com/s/1y4wYyLn511al4LDEkIGEsA?pwd=bred 提取码:bred 此外,Joy_caption 相关模型下载: 从 https://huggingface.co/unsloth/MetaLlama3.18Bbnb4bit 下载并放到 Models/LLM/MetaLlama3.18Bbnb4bit 文件夹内。 必须手动下载: https://huggingface.co/spaces/fancyfeast/joycaptionprealpha/tree/main/wpkklhc6 ,存放文件夹:models/Joy_caption 。 MiniCPMv2_6 提示生成器 + CogFlorence: https://huggingface.co/pzc163/MiniCPMv2_6promptgenerator https://huggingface.co/thwri/CogFlorence2.2Large TheMisto.ai 的 MistoLine 版相关: 节点: MistoControlNetFluxdev ,在您的 \\ComfyUI\\custom_nodes 文件夹里面右键终端命令行,复制相关代码即可下载,或者通过以下网盘下载: 夸克网盘:链接:https://pan.quark.cn/s/ad43dd5152a6 百度网盘:链接:https://pan.baidu.com/s/1NcOdG4AV68xTup8FvphsYA?pwd=lpvc 提取码:lpvc 模型: 夸克网盘:链接:https://pan.quark.cn/s/5551e813db21 百度网盘:链接:https://pan.baidu.com/s/1Ntf4MbTCGJ5TYDv6mgvqNQ?pwd=zhfq 提取码:zhfq 处理:将模型放到您的 ComfyUI\\models\\TheMisto_model 文件夹中,并导入官方工作流 。
2024-10-22