Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

你用的什么大模型

Answer

以下是关于大模型的相关信息:

  • 在 SD 应用中,选择 ControlNet 模型时,将字体参考图放进 ControlNet 中,预处理器可选择 invert 等,注意控制类型的选择,选好预处理可点击预览按钮,然后选择 Control 模型,如 Depth 景深模型或 Scribble 涂鸦模型等,选择好后记得启用 ControlNet。选择生图大模型时,大模型决定最终风格,如生成真实场景下的字体,可选择如 lofi.v2 等大模型,不同大模型对 ControlNet 模型的控制力有不同适应度,需微调参数。
  • 常用的模型网站有:Civitai|Stable Diffusion models,embeddings,hypernetworks and moreModels-Hugging FaceSD-WebUI 资源站元素法典 AI 模型收集站-AI 绘图指南 wiki(aiguidebook.top)AI 绘画模型博物馆(subrecovery.top)。下载模型后,大模型(Ckpt)放入 models\Stable-diffusion,VAE 模型放置在 models\Stable-diffusion 或 models\VAE 目录,Lora/LoHA/LoCon 模型放入 extensions\sd-webui-additional-networks\models\lora 或 models/Lora 目录,Embedding 模型放入 embeddings 目录。
  • 大模型指的是用于表达 token 之间关系的参数多,主要是模型中的权重(weight)与偏置(bias),例如 GPT-3 拥有 1750 亿参数。以 Transform 为代表的大模型采用自注意力(Self-attention)机制来学习不同 token 之间的依赖关系,生成高质量 embedding。常见的将 Token 表示成稠密矩阵向量的算法有基于统计的 Word2Vec、GloVe,基于深度网络的 CNN、RNN/LSTM,基于神经网络的 BERT、Doc2Vec 等。
Content generated by AI large model, please carefully verify (powered by aily)

References

SD的优势区间,ControlNet做字体!(实战篇)

这里不是绝对唯一答案,因为很多CN模型能实现相似效果,或者更有故事性的效果的。以比较容易出效果为例:将字体参考图放进ControlNet中,预处理器选择invert(from white bg&black line),注意控制类型就不要选择预设的了,因为很有可能处理模型不是一一对应的。invert比较适合完全还原字体的细节。当然如果字形本身识别度很高的话,也可以使用Canny等模型。选好预处理可以点击💥按钮预览一下。然后选择Control模型,可以选择Depth景深模型,也可以选择Scribble涂鸦模型,使用Canny描边的预处理这里也可以用Canny的模型,但控制力稍差。选择好之后,记得点击启用,开启ControlNet。[heading1]选择生图大模型[content]插件暂时简单的设置完毕,要选择生图模型了,大模型决定了我们的最终的风格,是真实系,是动画二次元,还是什么,这决定你对模型熟悉程度。生成一个真实场景下的字体,文章开始图片相似的风格,是我的目标,以此为例:经过一些尝试,我选了真人效果卓绝的大模型lofi.v2,(还有一些其他比较真实的模型都可以备选,只是会有一些参数变化需要注意)不同的大模型,会对CN模型的控制力有不同的适应度,所以需要微调参数。

SD新手:入门图文教程

模型能够有效地控制生成的画风和内容。常用的模型网站有:[Civitai|Stable Diffusion models,embeddings,hypernetworks and more](https://link.zhihu.com/?target=https%3A//civitai.com/)>[Models-Hugging Face](https://link.zhihu.com/?target=https%3A//huggingface.co/models)>[SD-WebUI资源站](https://link.zhihu.com/?target=https%3A//www.123114514.xyz/models/ckpt)>[元素法典AI模型收集站-AI绘图指南wiki(aiguidebook.top)](https://link.zhihu.com/?target=https%3A//aiguidebook.top/index.php/model/)>[AI绘画模型博物馆(subrecovery.top)](https://link.zhihu.com/?target=https%3A//aimodel.subrecovery.top/)[heading3]模型安装[content]下载模型后需要将之放置在指定的目录下,请注意,不同类型的模型应该拖放到不同的目录下。模型的类型可以通过[Stable Diffusion法术解析](https://link.zhihu.com/?target=https%3A//spell.novelai.dev/)检测。大模型(Ckpt):放入models\Stable-diffusionVAE模型:一些大模型需要配合vae使用,对应的vae同样放置在models\Stable-diffusion或models\VAE目录,然后在webui的设置栏目选择。Lora/LoHA/LoCon模型:放入extensions\sd-webui-additional-networks\models\lora,也可以在models/Lora目录Embedding模型:放入embeddings目录

大模型入门指南

数字化的好处是便于计算机处理。但为了让计算机理解Token之间的联系,还需要把Token表示成稠密矩阵向量,这个过程称之为embedding([3]),常见的算法有:基于统计Word2Vec,通过上下文统计信息学习词向量GloVe,基于词共现统计信息学习词向量基于深度网络CNN,使用卷积网络获得图像或文本向量RNN/LSTM,利用序列模型获得文本向量基于神经网络BERT,基于Transformer和掩码语言建模(Masked LM)进行词向量预训练Doc2Vec,使用神经网络获得文本序列的向量以Transform为代表的大模型采用自注意力(Self-attention)机制来学习不同token之间的依赖关系,生成高质量embedding。大模型的“大”,指的是用于表达token之间关系的参数多,主要是指模型中的权重(weight)与偏置(bias),例如GPT-3拥有1750亿参数,其中权重数量达到了这一量级,而词汇表token数只有5万左右。参考:[How does an LLM"parameter"relate to a"weight"in a neural network?](https://datascience.stackexchange.com/questions/120764/how-does-an-llm-parameter-relate-to-a-weight-in-a-neural-network"How does an LLM"parameter"relate to a"weight"in a neural network?")

Others are asking
生成3D模型的工具
以下是一些生成 3D 模型的工具: 1. Tripo AI:VAST 发布的在线 3D 建模平台,能利用文本或图像在几秒钟内生成高质量且可立即使用的 3D 模型,基于数十亿参数级别的 3D 大模型,实现快速的 2D 到 3D 转换,并提供 AI 驱动的精准度和细节。 2. Meshy:功能全面,支持文本生成 3D、图片生成 3D 以及 AI 材质生成。用户可通过上传图片并描述材质和风格来生成高质量 3D 模型。 3. CSM AI:支持从视频和图像创建 3D 模型,Realtime Sketch to 3D 功能支持通过手绘草图实时设计 3D 形象再转换为 3D 模型,特别适用于游戏领域的模型生成。 4. Sudo AI:支持通过文本和图像生成 3D 模型,适用于游戏领域。 5. VoxCraft:由生数科技推出的免费 3D 模型生成工具,能将图像或文本快速转换成 3D 模型,并提供图像到 3D、文本到 3D 和文本到纹理等多种功能。 此外,还有以下工具: 1. xiaohu.ai 相关的: CSM_ai:文本、图像或草图可转换为 3D 素材,直接应用于游戏中,无需后期处理。体验地址:https://cube.csm.ai Move AI 推出的 Move API:从 2D 视频生成 3D 运动数据,支持多种 3D 文件格式导出,为 AR 应用、游戏开发等提供高质量 3D 运动数据。https://move.ai/api ComfyUI 3D Pack:快速将图片转换为 3D 模型,支持多角度查看,使用 3D 高斯扩散技术提升模型质量,支持多种格式导出,集成先进 3D 处理算法。https://github.com/MrForExample/ComfyUI3DPack/tree/main Medivis 的 SurgicalAR 手术应用:将 2D 医疗图像转化为 3D 互动视觉,提高手术精度,支持 3D 模型的放大、缩小、旋转,精确手术计划。https://t.co/3tUvxB0L4I Media2Face:3D 面部动画创造工具,根据声音生成同步的 3D 面部动画,允许个性化调整情感表达,应用于多种场合。https://sites.google.com/view/media2face SIGNeRF:在 3D 场景中快速生成和编辑对象,新增或替换场景中的物体,新生成场景与原场景无缝融合。https://signerf.jdihlmann.com Luma AI 发布的 Genie 1.0 版本:文本到 3D 模型转换工具,生成详细逼真的 3D 模型,支持多种 3D 文件格式,获得 4300 万美元 B 轮融资。https://lumalabs.ai/genie?view=create BakedAvatar 动态 3D 头像:从视频创建逼真 3D 头部模型,实时渲染和多视角查看,兼容多种设备,交互性编辑。https://buaavrcg.github.io/BakedAvatar/ 这些工具通常具有用户友好的界面,允许用户通过简单操作生成 3D 模型,无需专业 3D 建模技能,可广泛应用于游戏开发、动画制作、3D 打印、视觉艺术等领域。
2025-01-04
Java 程序员如何从 0 到 1 开发微调模型
以下是 Java 程序员从 0 到 1 开发微调模型的步骤和相关信息: 准备工作: 假设您已经按照相关说明准备了训练数据。 使用 OpenAI CLI 进行微调: 1. 明确从哪里 BASE_MODEL 开始的基本模型的名称(如 ada、babbage、curie 或 davinci),您可以使用后缀参数自定义微调模型的名称。 2. 运行相关命令,该命令会执行以下操作: 使用文件 API 上传文件(或使用已经上传的文件)。 创建微调作业。 流式传输事件直到作业完成(这通常需要几分钟,但如果队列中有很多作业或您的数据集很大,则可能需要数小时)。 关于基本模型: 每个微调工作都从一个默认为 curie 的基本模型开始。模型的选择会影响模型的性能和运行微调模型的成本。您的模型可以是 ada、babbage、curie 或 davinci。请访问定价页面了解有关微调费率的详细信息。 微调作业的时间: 开始微调作业后,可能需要一些时间才能完成。在系统中,您的工作可能排在其他工作之后,训练模型可能需要几分钟或几小时,具体取决于模型和数据集的大小。如果事件流因任何原因中断,您可以通过运行特定命令恢复它。工作完成后,它应该显示微调模型的名称。 微调的优势: 1. 比即时设计更高质量的结果。 2. 能够训练比提示中更多的例子。 3. 由于更短的提示而节省了 Token。 4. 更低的延迟请求。 微调的步骤: 1. 准备和上传训练数据。 2. 训练新的微调模型。 3. 使用您的微调模型。 可微调的模型: 微调目前仅适用于以下基础模型:davinci、curie、babbage 和 ada。这些是原始模型,在训练后没有任何说明(例如 textdavinci003)。您还可以继续微调微调模型以添加其他数据,而无需从头开始。 安装建议: 建议使用 OpenAI 命令行界面。要安装这个,运行相关指令(以下说明适用于 0.9.4 及更高版本。此外,OpenAI CLI 需要 python 3)。通过将相关行添加到您的 shell 初始化脚本(例如.bashrc、zshrc 等)或在微调命令之前的命令行中运行它来设置您的环境变量。 此外,还有“大圣:全网最适合小白的 Llama3 部署和微调教程”,其核心代码全部参考如下开源项目: 。该教程有诸多亮点,如教您如何购买算力,手把手教您下载并部署 Llama3 模型,使用甄嬛数据集微调 Llama3 模型等,但不会讲解微调的技术性原理以及文中会用到的 Python 代码,且需要您充值 50 块钱购买算力的预充值。
2025-01-04
flux lora调参数,我训练出来的人物模型和数据集的人物图片不像,出现这种情况的原因都有哪些,应该调整哪些参数,我需要我的flux模型训练出来的模型是一致性还原性,和泛化性比较不错的,按照这个方向给我指导
以下是关于 flux lora 调参数以获得一致性、还原性和泛化性较好的人物模型的指导: 打标环节: 选择基础大模型,如“麦橘写实”,并为 lora 命名。 将照片导入,选择合适分辨率,可勾选“脸部加强训练”,然后进行预处理。手动裁剪图片比自动裁剪更可靠。 预处理后会出现脸部和整体文件夹,且每张照片自动打好 tag 标签。 可为整体添加统一标签,也可单独修改每张图片的标签。标签有助于 AI 理解图片,描述越详细,人物变化可能越多,泛化性可能越好。仔细检查每张图片的标签,其质量会影响人物 lora 的泛化性。 参数调整环节: 大部分参数是固定的,主要的几个按照人物参数配置一遍。后期根据生成结果再调整。 炼丹环节: 例如 18 张脸部图片,20 张整体图片,各训练 50 步,循环训练 10 次,并行步数为 1。训练总步数和时长会有所不同,loss 值可作为参考,但最终效果仍需通过测试判断。 此外,在 Lora 串联方面,多个 Lora 串联时左右顺序不影响结果,可复制并点对点连接。CLIP 层 1 和 2 的效果不同,加 Lora 时某些 Lora 可能更适合 2。Lora 可用于生成底模无法画出的内容。在运行中点击取消可打断正在渲染跑的图。图像放大可通过 up scale image using model 节点,选择放大模型,用 resize 节点调整尺寸,再用编码器和采样器处理。放大模型直接放大的图像效果不佳,需再次采样增加细节。添加飞桨缺失节点可通过拖入工作流查看标红节点,从管理器安装或从 GitHub 获取节点包放入文件管理系统。采样器和调度器参数设置建议参考模型作者推荐,并结合自己调试。Web UI 中 Lora 库有刷新按钮,将 Lora 丢到文件夹后多点几次刷新即可。
2025-01-04
如何接入大模型
接入大模型的方法如下: 1. 阿里云百炼模型: 注册阿里云账号:如果没有阿里云账号,您需要先。 开通百炼:前往,若页面顶部显示相关消息,需开通百炼的模型服务以获得免费额度。 获取 API Key:在控制台的右上角选择 APIKEY,然后创建 API Key,用于通过 API 调用大模型。 2. 千问模型: 百炼首页:https://bailian.console.aliyun.com/ 当在 COW 中直接调用千问的某一个大模型时,只需要更改 key 和 model 即可。以调用“qwenmax”模型为例,在/root/chatgptonwechat/文件夹下,打开 config.json 文件,需要更改"model",和添加"dashscope_api_key"。获取 key 的视频教程:,或查看自己是否已认证。 3. silicon 模型: 官方提供的接入 API 的教学文档:以平时使用的 silicon 接口为例,有众多开源模型(Yi、Qwen、Llama、Gemma 等)免费使用。另赠送 14 元体验金,有效期未知,是个人认为 API 接口最方便最实惠的接口了。 silicon 注册和使用地址:邀请码:ESTKPm3J(谢谢支持)注册登录后,单击左边栏的 API 密钥,单击新建 API 密钥,单击密钥即可完成 API 密钥的复制。silicon 支持多种大模型,也支持文生图、图生图、文生视频,可自行探索。这一步得到 silicon 的密钥即可,我们可以调用千问 2.5 的这个模型,满足日常对话完全没有问题,并且是免费调用的。 进入 github 复制 migpt 项目:打开官方仓库:https://github.com/idootop/migpt,Fork 项目到自己的账号。单击 Fork,单击右下角 Create fork,这样就已经把该项目 fork 到自己的仓库中了。找自己仓库项目的方法:进入主页,单击左上角的"三",单击 home,就可以看到刚才 fork 过来的 migpt 项目了,单击可进入项目页面。复制仓库地址:先确认是否在自己的仓库项目页面,再单击绿色的“code”按钮,再点击地址栏的复制按钮。
2025-01-04
什么是模型的稀疏性
模型的稀疏性是指在模型中,存在大部分元素为零或接近零,只有少数元素包含重要信息的情况。在机器学习和深度学习中较为常见,例如在自然语言处理(NLP)中,嵌入层将词汇映射到高维空间,每次训练只更新一小部分词向量,导致梯度在大部分维度上为零;推荐系统中的用户物品交互矩阵等输入数据本身就是稀疏的;使用 ReLU 激活函数也可能导致稀疏梯度,因其会把所有负值输入设置为 0。 在大语言模型中,如论文提出的 QSparse 方法,通过对模型的激活值进行“稀疏化”,即只保留最重要的一部分激活值,其他置为零,可大大减少计算量和内存使用,且几乎不影响模型性能。 对于优化器,如 Adam 优化器,它对于稀疏梯度特别有效,结合了 Momentum 和自适应学习率,能捕捉稀疏信号并避免学习率过快下降,在处理稀疏数据场景如 NLP 和一些稀疏特征的机器学习任务中表现优异,但算力消耗比 SGD 高,默认参数通常能取得不错效果,特殊情况仍需调整超参数。
2025-01-04
你是国产的大模型还是国外的
目前国内外大模型的发展情况如下: 国内外差距依然明显,GPT 4 Turbo 总分 90.63 分遥遥领先,国内最好模型文心一言 4.0(API)总分 79.02 分,与 GPT 4Turbo 有 11.61 分差距,与 GPT 4(网页)有 4.9 分差距。但过去 1 年国内大模型有长足进步,综合能力超过 GPT 3.5 和 GeminiPro 的模型有 11 个,如百度的文心一言 4.0、阿里云的通义千问 2.0 等。 在 SuperCLUE 测评中,国外模型平均成绩为 69.42 分,国内模型平均成绩为 65.95 分,差距在 4 分左右,不过平均水平差距在缩小,11 月差距在 10 分左右。 国内开源模型在中文上表现好于国外开源模型,如百川智能的 Baichuan213BChat 等。 在语言与知识的测评中,GPT4 Turbo 依然领先,是唯一超过 90 分的大模型。国内大模型也表现相对较好,OPPO 的 AndesGPT、阿里云的通义千问 2.0 等较为接近 GPT4。 国内大模型在中文语言与知识能力上已基本追赶上国外头部大模型。 此外,新用户可在阿里、腾讯官网获取免费试用服务器,如腾讯云的轻量应用服务器、阿里云的服务器 ECS,服务器系统配置选择宝塔系统。免费大模型接口方面,国内有阿里的通义千问大模型、智谱 AI(ChatGLM)、科大讯飞(SparkDesk)等,均有限制一定免费额度的 Token。国外有谷歌的 Gemini 大模型、海外版 Coze 的 GPT4 模型,免费且能图片识别,但需要给服务器挂梯子,具体操作可参考相关教程。
2025-01-04