直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

stable diffusion中模型有什么格式

回答

在 Stable Diffusion 中,模型的格式有多种,比如:

  • safetensors 格式
  • ckpt 格式
  • diffusers 格式
  • FP16 精度格式
  • ONNX 格式
  • flax/jax 格式
  • openvino 格式

在 save_model_as 中,每次模型权重保存时的格式可以选择["ckpt","safetensors","diffusers","diffusers_safetensors"],目前 SD WebUI 兼容"ckpt"和"safetensors"格式模型。

内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

教程:深入浅出完整解析Stable Diffusion(SD)核心基础知识 - 知乎

SD模型权重百度云网盘:关注Rocky的公众号WeThinkIn,后台回复:SD模型,即可获得资源链接,包含Stable Diffusion 1.4模型权重、Stable Diffusion 1.5模型权重、Stable Diffusion I npainting模型权重、Stable Diffusion 2 base(512x512)模型权重、Stable Diffusion 2(768x768)模型权重、Stable Diffusion 2 Inpainting模型权重、Stable Diffusion 2.1 base(512x512)模型权重、Stable Diffusion 2.1(768x768)模型权重、Stable Diffusion Turbo模型权重、S table Diffusion x4 Upscaler(超分)模型权重以及consistency-decoder模型权重。不同格式的模型权重比如safetensors格式、ckpt格式、diffusers格式、FP16精度格式、ONNX格式、flax/jax格式以及openvino格式等均已包含。SD保姆级训练资源百度云网盘:关注Rocky的公众号WeThinkIn,后台回复:SD-Train,即可获得资源链接,包含数据处理、SD模型微调训练以及基于SD的LoRA模型训练代码全套资源,帮助大家从0到1快速上手训练属于自己的SD AI绘画模型。更多SD训练资源使用教程,请看本文第六章内容。Stable Diffusion中VAE,U-Net和CLIP三大模型的可视化网络结构图下载:关注Rocky的公众号WeThinkIn,后台回复:SD网络结构,即可获得网络结构图资源链接。

教程:深入浅出完整解析Stable Diffusion(SD)核心基础知识 - 知乎

save_model_as:每次模型权重保存时的格式,可以选择["ckpt","safetensors","diffusers","diffusers_safetensors"],目前SD WebUI兼容"ckpt"和"safetensors"格式模型。(3)SD关键参数详解(4)SD模型训练完成训练参数配置后,我们就可以运行训练脚本进行SD模型的全参微调训练了。我们本次训练用的底模型选择了WeThinkIn_SD_二次元模型,大家可以关注Rocky的公众号WeThinkIn,后台回复“ SD_二次元模型”获取模型资源链接。我们打开SD_finetune.sh脚本,可以看到以下的代码:我们把训练脚本封装在accelerate库里,这样就能启动我们一开始配置的训练环境了。在本文的6.2节中,我们已经详细介绍了如何配置accelerate训练环境,如果我们想要切换不同的训练环境参数,我们只需要将accelerate_config.yaml改成我们所需要的配置文件与路径即可(比如:/本地路径/new_accelrate_config.yaml)。除了上述的训练环境参数传入,最重要的还是将刚才配置好的config_file.toml和sample_prompt.txt参数传入训练脚本中。

Sora的前世今生:从文生图到文生视频

下面关于LDM的一些细节介绍,不感兴趣的同学可以直接跳过。理解了latent的含义后,接下来再考虑下如何根据文本来生成图片呢?既然要接收文本,那就需要给模型安排上文本编码器(text encoder),把文本转化为模型能够理解的东西。Stable Diffusion采用了CLIP的文本编码器,它的输入是一段文本,输出是77个token的embeddings向量,每个向量的维度为768(可以理解为一段话最多保留77个字(或词),每个字(或词)用768维的向量表示)。然后就可以愉快地像之前的DDPM一样,预测噪声,最小化MSE,学习模型了!最后再来一张整体的结构图总结一下

其他人在问
Stable Diffusion官网
以下是 Stable Diffusion 的相关信息: Stable Diffusion 系列资源: SD 1.4 官方项目: SD 1.5 官方项目: SD 2.x 官方项目: diffusers 库中的 SD 代码 pipelines: SD 核心论文: SD Turbo 技术报告: 教程目录: 1. Stable Diffusion 系列资源 2. 零基础深入浅出理解 Stable Diffusion 核心基础原理 2.1 通俗讲解 Stable Diffusion 模型工作流程(包含详细图解) 2.2 从 0 到 1 读懂 Stable Diffusion 模型核心基础原理(包含详细图解) 2.3 零基础读懂 Stable Diffusion 训练全过程(包含详细图解) 2.4 其他主流生成式模型介绍 3. Stable Diffusion 核心网络结构解析(全网最详细) 3.1 SD 模型整体架构初识 3.2 VAE 模型 3.3 UNet 模型 3.4 CLIP Text Encoder 模型 3.5 SD 官方训练细节解析 4. 从 0 到 1 搭建使用 Stable Diffusion 模型进行 AI 绘画(全网最详细讲解) 4.1 零基础使用 ComfyUI 搭建 Stable Diffusion 推理流程 4.2 零基础使用 SD.Next 搭建 Stable Diffusion 推理流程 4.3 零基础使用 Stable Diffusion WebUI 搭建 Stable Diffusion 推理流程 目前 Stable Diffusion WebUI 可以说是开源社区使用 Stable Diffusion 模型进行 AI 绘画最热门的框架。是 AI 绘画领域最为流行的框架,其生态极其繁荣,非常多的上下游插件能够与 Stable Diffusion WebUI 一起完成诸如 AI 视频生成,AI 证件照生成等工作流,可玩性非常强。接下来,咱们就使用这个流行框架搭建 Stable Diffusion 推理流程。首先,我们需要下载安装 Stable Diffusion WebUI 框架,我们只需要在命令行输入如下代码即可。安装好后,我们可以看到本地的 stablediffusionwebui 文件夹。下面我们需要安装其依赖库,我们进入 Stable Diffusion WebUI 文件夹,并进行以下操作。和 SD.Next 的配置流程类似,我们还需要配置 Stable Diffusion WebUI 的 repositories 插件,我们需要运行下面的代码。如果发现 repositories 插件下载速度较慢,出现很多报错,don't worry,大家可以直接使用 Rocky 已经配置好的资源包,可以快速启动 Stable Diffusion WebUI 框架。Stable Diffusion WebUI 资源包可以关注公众号 WeThinkIn,后台回复“ WebUI 资源”获取。 4.4 零基础使用 diffusers 搭建 Stable Diffusion 推理流程 4.5 Stable Diffusion 生成示例 5. Stable Diffusion 经典应用场景 5.1 文本生成图像 5.2 图片生成图片 5.3 图像 inpainting 5.4 使用 controlnet 辅助生成图片 5.5 超分辨率重建 6. 从 0 到 1 上手使用 Stable Diffusion 训练自己的 AI 绘画模型(全网最详细讲解) 6.0 Stable Diffusion 训练资源分享 6.1 Stable Diffusion 模型训练初识 6.2 配置训练环境与训练文件 6.3 SD 训练数据集制作 6.4 Stable Diffusion 微调(finetune)训练
2024-09-18
stable diffusion可以用macbook 13来运行吗?配置够吗
Stable Diffusion(简称“SD”)的运行对电脑配置有一定要求。对于 Windows 系统: 显卡:必须是 NVIDIA(俗称 N 卡)。 专用 GPU 内存:4GB 勉强可以跑动 SD,出图时间较长;6GB 出一张图时间为 20 50 秒,大部分功能可用;8GB 5 20 秒出一张图,所有功能基本开放。 电脑运行内存:8GB 以上。 电脑系统:Win10 或者 Win11。 对于 Mac 系统,可以查看以下视频进行一键安装:https://www.bilibili.com/video/BV1Kh4y1W7Vg/?spm_id_from=333.788&vd_source=6f836e2ab17b1bdb4fc5ea98f38df761 但具体 MacBook 13 是否能运行及配置是否足够,还需根据上述标准进行对照检查。
2024-09-16
stable diffusion 与大模型的关系?
Stable Diffusion 与大模型的关系如下: 与其他大模型相比,Stable Diffusion 让用户使用消费级显卡就能实现文生图,且完全免费开源,代码在 GitHub 公开可拷贝使用。 在公众传播层面,AIGC 指用 Stable Diffusion 或 Midjourney 生成图像内容,后来泛指用 AI 生成音乐、图像、视频等内容。LLM 指 NLP 领域的大语言模型,如 ChatGPT。GenAI 是生成式人工智能模型,涵盖了 LLM 和 AIGC。 Stable Diffusion 原采用 LDM+UNet,后来改为 DiT。Transformer 是公众传播中常用名词的底层结构,其底层是 function loss 损失函数,是一个大参数(千亿级别)的回归方程,能在一定 prompt condition 下,重复曾经出现的数据内容实现“生成”能力。 大语言模型是一个 perfect memory,能重复曾经出现的内容,其智能体验在于能解释两个数据集压缩后的“连续”能力。与 Alpha Go 不同,Alpha Go 是增强学习模型,学习结果会调整自身参数,有推理能力,而大语言模型在推理方面较弱。Transformer 决定 LLM 是一个生成式模型。
2024-09-13
stable diffusion和comfly UI
Stable Diffusion 是一种图像生成模型,而 ComfyUI 是一个基于节点流程式的 Stable Diffusion AI 绘图工具 WebUI。 ComfyUI 具有以下特点和相关知识: 工作流定制:通过将 Stable Diffusion 的流程拆分成节点,实现更加精准的工作流定制和完善的可复现性。 核心组件: UNET:从噪音中生成图像的主要组件,在预测过程中通过反复调用,将其预测输出的 noise slice 从原有的噪声中去除,得到逐步去噪后的图像表示。Stable Diffusion Model 的 UNET 包含约 860M 的参数,以 float32 的精度编码大概需要 3.4G 的存储空间。 CLIP:将用户输入的 Prompt 文本转化成 text embedding,UNET 进行迭代降噪,在文本引导下进行多轮预测。 存放路径:ComfyUI 的 Checkpoint 存放路径为 models/checkpoints/,包括 SD 基础预训练模型,如 SD1.5、SDXL 以及 SD 微调模型。 模型实例:如【majicMIX realistic 麦橘写实 V7】by 麦橘 MERJIC sd1.5 微调、【LEOSAM HelloWorld 新世界】by LEOSAM 是只兔狲 SDXL 微调。 训练方法:如 DreamBooth,by Google。 格式:EMAonly & pruned 和 Full,EMAonly & pruned 只画图,Full 可画图和微调训练。 在与 Blender 结合方面: 安装:先安装稳定版 Blender(可从网盘下载或在 Steam 平台下载),然后安装无限圣杯的插件。进入“偏好设置”——插件——选择“安装”,找到“无限圣杯节点工具”里面的压缩包进行安装,安装好之后打上勾。接着更改 ComfyUI 路径为电脑中的地址,并选择适合自己的显存模式。安装完成后重启。 使用:打开软件,编辑器类型中出现“ComfyUI Node”,点击进入 ComfyUI 界面,先点击上方的“新建”按钮,然后展开右侧的 N 面板可以看到无限圣杯的界面。
2024-09-10
国内较好用可以替代Midjourney或Stable Diffusion的图像生成工具有哪些
以下是国内一些较好用可以替代 Midjourney 或 Stable Diffusion 的图像生成工具: 1. 吐司:https://tusiart.com/images/635511733697550450?post_id=635512498197535244&source_id=nzywoVHilkK7o_cqaH31xAh 2. 哩布:https://www.liblib.ai/ 此外,还有一些常见的图像生成工具: 1. DALLE:来自 OpenAI,已纳入 Bing(您必须使用创意模式)和 Bing 图像创建器。 2. Adobe Firefly:内置在各种 Adobe 产品中,但在质量方面落后于 DALLE 和 Midjourney。不过 Adobe 宣布它只使用有权使用的图像。
2024-09-10
stable diffusion模型训练怎么样提升效果
以下是一些提升 Stable Diffusion 模型训练效果的方法: 1. 理解核心原理: 与 GAN 等生成式模型相比,SD 模型学习拟合训练集分布,训练过程更稳定且泛化性能更强,这归功于其核心的前向扩散过程和反向扩散过程。 前向扩散过程是对图像持续添加高斯噪声直至变成随机噪声矩阵,反向扩散过程则是去噪声直至生成图像。 2. 掌握训练全过程: 训练具体过程是对每个加噪和去噪过程进行计算,从而优化 SD 模型参数。包括从训练集中选取加噪过的图片和噪声强度输入到 UNet 中,让其预测噪声,计算预测噪声与真实噪声的误差,最后通过反向传播更新 UNet 的参数。 完成 UNet 的训练后,可对噪声图片进行去噪,逐步重建出有效图像的 Latent Feature。 3. 利用语义信息控制图片生成: SD 模型生成图片时输入的 prompt,其语义信息通过注意力机制影响图片生成。在训练中,每个训练样本对应标签通过 CLIP Text Encoder 输出 Text Embeddings,并以 Cross Attention 的形式与 UNet 结构耦合,使图片信息与文字信息融合训练。 4. 微调训练参数: train_text_encoder:设置是否在训练时对 Text Encoder 进行微调。 lr_scheduler:设置学习率调度策略,如 linear、cosine 等。 lr_warmup_steps:在启动学习率调度策略前,先固定学习率训练的步数。 debug_dataset:训练时对数据进行 debug 处理,防止破损数据中断训练进程。 in_json:读取数据集 json 文件,其中包含数据名称、标签、分桶等信息。 train_data_dir:读取本地数据集存放路径。 dataset_repeats:整个数据集重复训练的次数,可根据数据量级进行设置。 shuffle_caption:设置为 true 时,对训练标签进行打乱,能一定程度提高模型的泛化性。
2024-09-04
我想训练一个个人日程提醒工具,需要输入哪些信息,什么格式?
训练一个个人日程提醒工具通常需要输入以下几类信息: 1. 日程的具体内容:包括活动的名称、描述等。 2. 时间信息:明确日程开始和结束的具体时间。 3. 重复模式:例如是否每天、每周、每月重复等。 4. 提醒方式:如短信、邮件、应用内推送等,以及提前提醒的时间间隔。 输入格式可以是结构化的数据格式,如 JSON 格式,包含上述各个字段的键值对;也可以是表格形式,将不同的信息列在不同的列中;或者是文本形式,但需要有明确的分隔和标识,以便程序能够准确解析。
2024-09-11
能够将PDF格式的论文变成PPT、word格式的AI应用,帮助用户阅读论文
以下是一些能够将 PDF 格式的论文变成 PPT、Word 格式,以帮助用户阅读论文的 AI 应用和方法: 360AI 浏览器:不仅内嵌强大的 PDF 编辑工具和 ChatPDF 的强大 AI 助手,文章可一键翻译,支持快速定位原文,降低阅读门槛。遇到不会的概念可直接询问 AI,具有搜索增强能力,还免费开放 100 万字长文本阅读功能,正在内测 500 万字长文本处理功能。 DeepL(网站):点击页面「翻译文件」按钮,上传 PDF、Word 或 PowerPoint 文件即可。 沉浸式翻译(浏览器插件):安装插件后,点击插件底部「更多」按钮,选择「制作双语 BPUB 电子书」、「翻译本地 PDF 文件」、「翻译 THML / TXT 文件」、「翻译本地字幕文件」。 Calibre(电子书管理应用):下载并安装 calibre,并安装翻译插件「Ebook Translator」。 谷歌翻译(网页):使用工具把 PDF 转成 Word,再点击谷歌翻译「Document」按钮,上传 Word 文档。 百度翻译(网页):点击导航栏「文件翻译」,上传 PDF、Word、Excel、PPT、TXT 等格式的文件,支持选择领域和导出格式(不过进阶功能基本都需要付费)。 另外,在 arxiv.org 阅读论文时,有将 PDF 论文转换为 HTML 版本以便阅读的方法。
2024-09-03
识别图片并转换为word、PPT格式的AI工具
目前市面上有一些能够识别图片并转换为 word、PPT 格式的 AI 工具,以下为您推荐: 1. AVAide Watermark Remover:这是一个在线工具,使用 AI 技术从图片中去除水印。它支持多种图片格式,如 JPG、JPEG、PNG、GIF 等。操作简单,只需上传图片,选择水印区域,然后保存并下载处理后的图片即可。这个工具还提供了其他功能,如去除文本、对象、人物、日期和贴纸等。 2. Vmake:这个工具同样提供 AI 去除图片水印的功能。用户可以上传最多 10 张图片,AI 会自动检测并移除图片上的水印。处理完成后,用户可以选择保存生成的文件。这个工具适合需要快速去除水印的用户,尤其是那些需要在社交媒体上分享图片的用户。 3. AI 改图神器:这个工具提供 AI 智能图片修复去水印的功能,可以一键去除图片中的多余物体、人物或水印,不留任何痕迹。支持直接粘贴图像或上传手机图像,操作简单方便。 这些工具各有特点,可以根据您的具体需求选择最适合您的工具。请注意,内容由 AI 大模型生成,请仔细甄别。
2024-08-29
有没有那种工具,把一个都是外文的excel表格扔进去,帮我直接翻译成中文的excel格式输出给我的 比较精准好用的
目前市面上有一些工具可以实现将外文 Excel 表格翻译成中文并输出,例如: 1. 百度翻译:具有文档翻译功能,能处理 Excel 表格,但翻译精准度可能会受到一定影响。 2. 腾讯翻译君:支持多种文档格式的翻译,包括 Excel 表格,翻译效果较好。 3. 有道翻译:提供文档翻译服务,在处理 Excel 表格翻译时有一定的表现。 不过,这些工具的翻译精准度可能会因表格内容的复杂性和专业性而有所不同,您可以根据实际需求进行选择和尝试。
2024-08-22
如何利用AI进行PPT文件翻译,只需要丢进去PPT格式文件就可以
以下是利用 AI 进行 PPT 文件翻译的几种方法: 1. 彩云小译(App):下载后点击「文档翻译」,可以直接导入 PPT 等格式的文档并开始翻译,但有免费次数限制且进阶功能需要付费。 2. DeepL(网站):点击页面「翻译文件」按钮,上传 PPT 文件即可。 3. 沉浸式翻译(浏览器插件):安装插件后,点击插件底部「更多」按钮,选择「翻译本地 PPT 文件」。 4. 百度翻译(网页):点击导航栏「文件翻译」,上传 PPT 格式的文件,支持选择领域和导出格式,但进阶功能基本都需要付费。 5. 应用开发自动 PPT 翻译脚本: 前期准备:因为翻译需要外接 API,推荐讯飞大模型,新账户免费送 200 万 tokens,有效期 3 个月。 操作步骤:https://xinghuo.xfyun.cn/ ,首页进去选择 API 接入,然后点服务管理进入控制台,创建一个新项目,比如“PPT 翻译”,点进去,找到左边机器翻译的模型,按提示来,领一个 200 万 tokens 的礼包,然后就可以在主控台看到对应的 id,apikey,api secret 和接入路径了。 请注意,内容由 AI 大模型生成,请仔细甄别。
2024-08-20
大模型生成报告,控制字体与格式
基于百川大模型生成报告并控制字体与格式的步骤如下: 1. 首先获取所需的群聊天记录,通过 SQL 来筛选需要的内容。 2. 用传统统计方法对结构化数据进行分析。 3. 把非结构化的数据交给大模型处理。传统方法适合数理计算,大模型更擅长归纳汇总,可以组合起来交叉使用。 4. 输出报告的函数为 `reportDataset`,其参数包括数据库 `db`、数据集 `record`、语音数据库 `voiceDb`、联系人数据库 `microMsgDb`、群或联系人昵称 `nickName`,以及文件名 `filename`(可选)。 如果数据集为空或数据量太少,则返回 `False`。 生成报告的标题,包括群昵称的汇总报告以及时间范围。 构建提示信息,调用大模型进行处理并获取回复。 记录聊天参与人中最活跃人员(发言数量)。 如果指定了文件名,则将报告内容写入文件;否则,直接打印输出。 5. 启动命令需要配置模型的权重路径和数据处理的模板,生成的 `report.md` 采用 Markdown 形式输出报告。
2024-08-14
国内外好用的图生视频模型
以下是一些国内外好用的图生视频模型: 可灵(国内,免费) 网址:https://klingai.kuaishou.com/ 支持文生视频、图生视频。 支持图生视频首尾帧功能。 提示词可使用中文。 文生视频支持正向提示词、反向提示词、运镜控制、时长选择(5s、10s),支持 16:9、9:16、1:1 尺寸。 图生视频除了不可运镜控制以外,其他跟文生视频基本相同。 默认生成 5s 的视频。 ETNA(国内) 网址:https://etna.7volcanoes.com/ 由七火山科技开发的文生视频 AI 模型。 可以根据用户简短的文本描述生成相应的视频内容。 生成的视频长度在 8 15 秒,画质可达到 4K,最高 38402160,画面细腻逼真,帧率 60fps。 文生视频,支持中文,时空理解。 关于可灵的文生视频效果,测试者 Austin 周安鑫进行了以下测试: 1. 场景识别:包括室内和室外,如客厅的沙发、液晶电视、漂亮的波斯猫、超现实主义的蜿蜒河流、茂密森林、灿烂花海、碧绿草坪等。 2. 物体识别:涵盖静态和动态物体,如水晶球、跳动的火焰、翱翔的飞鸟、闪烁的流星、飞溅的水珠等。 3. 人物识别:包括面部和姿态,如一个人笑容灿烂、一个人惊恐愤怒,一位芭蕾舞女孩在冰面上跳舞等。 4. 动作识别:包含基本和复杂动作,如短跑运动员快速奔跑、赛车手驾驶跑车激烈漂移等。 5. 事件检测:有简单和复杂事件,如一位帅哥在喝水、外星文明和地球进行星际大战等。 6. 环境变化:涉及光线和天气,如奇幻的极光舞动变幻、城市写字楼灯光忽明忽暗、闪电交加、乌云密布、台风、大雨等。 7. 多对象场景:包括单一和多对象场景,如 1 个飞行员驾驶战斗机翱翔太空、海军指挥航母战斗群展开激烈战斗等。 8. 特殊场景:有遮挡和非标准场景,如城市大雾遮挡摩天大楼、一边是神秘海底世界,一边是梦幻糖果屋。 9. 细节检测:包含小物体和微表情,如崭新的苹果电脑屏幕上播放电影、瞳孔收缩、脸颊泛红、嘴唇微微颤抖。
2024-09-19
你自己使用的是什么模型
以下是关于模型的相关信息: 新的 gpt3.5turbo 模型针对会话进行了优化,原始的 GPT3.5 模型针对文本补全进行了优化。 用于创建嵌入和编辑文本的端点有自己的一组专用模型。 在 AI 输入框下方有一个下拉列表,允许选择要使用的模型。默认情况下,Cursor 已准备好使用的模型包括:GPT4o、GPT4、Claude 3.5 Sonnet、cursorsmall。其中,cursorsmall 是 Cursor 的自定义模型,不如 GPT4 智能,但速度更快,用户可无限制访问。您可以在 Cursor Settings > Models > Model Names 下添加其他模型。 谷歌一直在测试自己的人工智能 Bard,由各种基础模型驱动,最近是名为 PaLM 2 的模型。 Anthropic 发布了 Claude 2,其最值得注意的是有非常大的上下文窗口,与其他大型语言模型相比,不太可能恶意行事。
2024-09-19
推荐下好用的具备图像OCR能力的大模型
目前在具备图像 OCR 能力的大模型方面,一些较为知名和好用的包括百度的文心大模型、阿里云的通义大模型等。但大模型的性能和适用场景可能会因具体需求和使用场景的不同而有所差异。您可以根据自己的具体需求进一步评估和选择。
2024-09-19
AI 大模型命名 带有-instruct的含义
AI 大模型中带有“instruct”通常与指令微调相关。在大模型的训练过程中,指令微调是其中一个重要阶段。此阶段模型被训练以理解并执行具体指令,例如翻译文本等,从而能够回答问题。指令微调阶段输入的内容通常包括三个部分,如“Instruct:请你翻译下面这段话”“Input:一段英文”“Output:一段中文”。通过指令微调,模型能够更好地按照人类的期望和具体要求进行输出。
2024-09-19
你是基于哪个AI大模型的
我是 WaytoAGI 专属问答机器人,基于 Aily 和云雀大模型。 Aily 是飞书团队旗下的企业级 AI 应用开发平台,提供了简单、安全且高效的环境,帮助企业轻松构建和发布 AI 应用,推动业务创新和效率提升。 云雀是由字节跳动研发的语言模型,通过便捷的自然语言交互,能够高效地完成互动对话、信息获取、协助创作等任务。 此外,还有一些免费的大模型接口,如阿里的通义千问大模型接口,可创建 API key。智谱 AI(ChatGLM)、科大讯飞(SparkDesk)也有免费接口,但国内的大模型大多限制一定免费额度的 Token。 谷歌的 Gemini 大模型(gemini 1.5)、海外版 Coze 的 GPT4 模型是免费且能图片识别,但需要给服务器挂梯子。想使用的话,可参考张梦飞同学写的教程。 在深入了解 AI 运作原理和众多落地产品后,重新思考 AI 大模型引发的变革。此前曾有疑问,大模型与智能语音技能的 NLU 存在差异。语音技能 NLU 是通过一系列规则、分词策略等训练而成,运作逻辑规律可观测,具有 ifelse 式逻辑性。而大模型凭借海量数据在向量空间中学习知识的关联性形成,运作逻辑难以观测,脱离了 ifelse 的层面。
2024-09-19
如果我需要一名助手帮我运营跨境电商的线上店铺,我需要一些精准的关键词就可以训练模型吗?
训练模型来协助运营跨境电商线上店铺,仅依靠一些精准的关键词通常是不够的。模型的训练需要多方面的数据和信息,包括但不限于产品的详细描述、客户的评价和反馈、市场趋势、竞争对手的情况等。精准的关键词可以作为其中的一部分输入,但不足以全面有效地训练模型以达到理想的辅助运营效果。
2024-09-19