直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

私有化部署大模型的教材

回答

以下是为您提供的私有化部署大模型的相关教材:

张梦飞:【全网最细】从 LLM 大语言模型、知识库到微信机器人的全本地部署教程

一、部署大语言模型

  1. 下载并安装 Ollama
    • 点击进入,根据您的电脑系统,下载 Ollama:https://ollama.com/download
    • 下载完成后,双击打开,点击“Install”
    • 安装完成后,将下方地址复制进浏览器中。如果出现下方字样,表示安装完成:http://127.0.0.1:11434/
  2. 下载 qwen2:0.5b 模型(0.5b 是为了方便测试,下载快,自己设备充足的话,可以下载更大的模型)
    • 如果您是 windows 电脑,点击 win+R,输入 cmd,点击回车。
    • 如果您是 Mac 电脑,按下 Command(⌘)+ Space 键打开 Spotlight 搜索,输入“Terminal”或“终端”,然后从搜索结果中选择“终端”应用程序。
    • 复制以下命令行,粘贴进入,点击回车。
    • 回车后,会开始自动下载,等待完成(这里下载久了,可能会发现卡着不动,不知道下载了多少了。鼠标点击一下窗口,键盘点空格,就会刷新了)
    • 下载完成后您会发现,大模型已经在本地运行了。输入文本即可进行对话。

【SD】向未来而生,关于 SDXL 您要知道事儿

SDXL 的大模型分为两个部分:

  1. 第一部分,base+refiner 是必须下载的,base 是基础模型,我们使用它进行文生图的操作;refiner 是精炼模型,我们使用它对文生图中生成的模型进行细化,生成细节更丰富的图片。
  2. 第二部分,是 SDXL 还有一个配套的 VAE 模型,用于调节图片的画面效果和色彩。

这三个模型,您可以关注我的公众号【白马与少年】,然后回复【SDXL】获取下载链接。

想要在 webUI 中使用 SDXL 的大模型,首先我们要在秋叶启动器中将 webUI 的版本升级到 1.5 以上。接下来,将模型放入对应的文件夹中,base 和 refiner 放在“……\sd-webui-aki-v4.2\models\Stable-diffusion”路径下;vae 放在“……\sd-webui-aki-v4.2\models\VAE”路径下。完成之后,我们启动 webUI,就可以在模型中看到 SDXL 的模型了。我们正常的使用方法是这样的:先在文生图中使用 base 模型,填写提示词和常规参数,尺寸可以设置为 1024*1024,进行生成。

基于多模态大模型给现实世界加一本说明书

大模型应用的利弊: 优点:

  • 适应性极好,通过提示词工程,方便「适应各种奇葩需求」。
  • 对算法的要求降低了不少,大部分功能由大模型提供,特别是非结构化信息的处理。
  • 大模型的 API 访问方式简化了边缘设备的要求,无论在 Android、iOS、HarmonyOS()或各种嵌入式设备上都能方便适配。「AGI 终将到来,拥抱未来,虽然路途艰难但相信方向是正确的。」 缺点:
  • 大模型的推理时长目前仍是最大的障碍,传统目标检测或人脸识别优化后能达到 100~300ms,而大模型动则需要 10 秒的延时,限制了许多场景。
  • 模型的幻象和错误率仍然较高,导致上述推理时长问题,在多链路的复杂应用中迅速变得不可行。
  • 在大多数生产模式下,仍然需要使用云服务数据中心,提交的画面不可避免地涉及到隐私问题。
  • 商业私有化部署是刚需,当下的开源模型离 GPT4 代差在半年以上,技术人员任重道远的。
内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

张梦飞:【全网最细】从LLM大语言模型、知识库到微信机器人的全本地部署教程

一、下载并安装Ollama1、点击进入,根据你的电脑系统,下载Ollama:https://ollama.com/download2、下载完成后,双击打开,点击“Install”3、安装完成后,将下方地址复制进浏览器中。如果出现下方字样,表示安装完成http://127.0.0.1:11434/二、下载qwen2:0.5b模型(0.5b是为了方便测试,下载快,自己设备充足的话,可以下载更大的模型)1、如果你是windows电脑,点击win+R输入cmd,点击回车如果你是Mac电脑,按下Command(⌘)+ Space键打开Spotlight搜索。输入“Terminal”或“终端”,然后从搜索结果中选择“终端”应用程序。2、复制以下命令行,粘贴进入,点击回车:3、回车后,会开始自动下载,等待完成(这里下载久了,可能会发现卡着不动,不知道下载了多少了。鼠标点击一下窗口,键盘点空格,就会刷新了)4、下载完成后你会发现,大模型已经在本地运行了。输入文本即可进行对话。

基于多模态大模型给现实世界加一本说明书

优点:适应性极好,通过提示词工程,方便「适应各种奇葩需求」。对算法的要求降低了不少,大部分功能由大模型提供,特别是非结构化信息的处理。大模型的API访问方式简化了边缘设备的要求,无论在Android、iOS、HarmonyOS()或各种嵌入式设备上都能方便适配。「AGI终将到来,拥抱未来,虽然路途艰难但相信方向是正确的。」缺点:大模型的推理时长目前仍是最大的障碍,传统目标检测或人脸识别优化后能达到100~300ms,而大模型动则需要10秒的延时,限制了许多场景。模型的幻象和错误率仍然较高,导致上述推理时长问题,在多链路的复杂应用中迅速变得不可行。在大多数生产模式下,仍然需要使用云服务数据中心,提交的画面不可避免地涉及到隐私问题。商业私有化部署是刚需,当下的开源模型离GPT4代差在半年以上,技术人员任重道远的。

【SD】向未来而生,关于SDXL你要知道事儿

SDXL的大模型分为两个部分:第一部分,base+refiner是必须下载的,base是基础模型,我们使用它进行文生图的操作;refiner是精炼模型,我们使用它对文生图中生成的模型进行细化,生成细节更丰富的图片。第二部分,是SDXL还有一个配套的VAE模型,用于调节图片的画面效果和色彩。这三个模型,我已经放入了云盘链接中,大家可以关注我的公众号【白马与少年】,然后回复【SDXL】获取下载链接。想要在webUI中使用SDXL的大模型,首先我们要在秋叶启动器中将webUI的版本升级到1.5以上。接下来,将模型放入对应的文件夹中,base和refiner放在“……\sd-webui-aki-v4.2\models\Stable-diffusion”路径下;vae放在“……\sd-webui-aki-v4.2\models\VAE”路径下。完成之后,我们启动webUI,就可以在模型中看到SDXL的模型了。我们正常的使用方法是这样的:先在文生图中使用base模型,填写提示词和常规参数,尺寸可以设置为1024*1024,进行生成。我这边使用了一个最简单的提示词“1girl”,来看看效果。生成的图片大家可以看一下,我觉得是相当不错的。

其他人在问
如何使用LLM分析企业的私有化数据,是否有工具推荐?
以下是关于使用 LLM 分析企业私有化数据及工具推荐的相关内容: RAG 加速器提供了数据抽取服务,这是基于 LLM 的解决方案。在利用 LLM 进行信息抽取时,需要了解构建抽取服务的基本组件和要点。 实现过程中,有两个简单但强大的思路可以提升性能: 1. 确保 LLM 以正确的格式回应。函数调用已成为确保 LLM 严格输出特定格式的新且相对靠谱的方法,可参考结构化输出文档,其中高层次的 LangChain API 展示了不同 LLM 如何调用工具和函数。 2. 使用参考样例。尽管没有样例也能设置抽取问题,但实际操作中,将输入和对应输出的样例纳入其中通常大有裨益,有时这些样例比指示本身更能有效指导 LLM 处理特定情况。在提取用例文档中,可以找到更多细节,助您从 LLMs 中提取更好的性能。
2024-09-02
私有化部署的大模型工具
以下是关于私有化部署的大模型工具的相关内容: Fooocus 部署: 大模型(base 和 Refiner)默认放在:Fooocus_win64_1110\\Fooocus\\models\\checkpoints LoRA 模型默认放在:Fooocus_win64_1110\\Fooocus\\models\\loras Fooocus 程序默认用到 3 个 SDXL 的模型,包括一个 base、一个 Refiner 和一个 LoRA。若单独安装,需下载三个模型: SDXL 基础模型:https://huggingface.co/stabilityai/stablediffusionxlbase1.0/resolve/main/sd_xl_base_1.0_0.9vae.safetensors refiner 模型:https://huggingface.co/stabilityai/stablediffusionxlrefiner1.0/resolve/main/sd_xl_refiner_1.0_0.9vae.safetensors LoRA 模型:https://huggingface.co/stabilityai/stablediffusionxlbase1.0/resolve/main/sd_xl_offset_examplelora_1.0.safetensors 若部署了 SD 秋叶包,可共用模型(大模型和 LoRA),在 Fooocus_win64_1110\\Fooocus\\modules\\path.py 中用 text 记事本打开,修改路径为秋叶包模型对应的路径,如大模型路径:sdwebui\\models\\Stablediffusion\\SDXL;LoRA 模型路径:sdwebui\\models\\lora。配置好后点击 run.bat 文件启动。 SDXL 本地部署: 大模型分为两个部分:第一部分,base + refiner 必须下载,base 用于文生图操作,refiner 用于对生成的模型细化以生成细节更丰富的图片;第二部分是配套的 VAE 模型,用于调节图片的画面效果和色彩。 可关注公众号【白马与少年】,回复【SDXL】获取模型下载链接。 在 webUI 中使用 SDXL 大模型,需在秋叶启动器中将 webUI 版本升级到 1.5 以上,将模型放入对应文件夹,base 和 refiner 放在“……\\sdwebuiakiv4.2\\models\\Stablediffusion”路径下,vae 放在“……\\sdwebuiakiv4.2\\models\\VAE”路径下,启动 webUI 后可在模型中看到 SDXL 模型。 Langchain + Ollama + RSSHub 实现 RAG 部署: 安装完后,确保 ollama 后台服务已启动(在 mac 上启动 ollama 应用程序,在 linux 上通过 ollama serve 启动),可通过 ollama list 确认。 可通过 ollama 命令下载模型,如 Gemma(Google 推出的轻量级模型)、Mistral(欧洲法国 Mistral AI 团队推出的大模型)、Mixtral(Mistral AI 团队推出的 87B 的 MoE 模型)、Qwen(阿里巴巴推出的大模型)。
2024-08-16
agent一般是私有化部署,还是公有化部署
AI助手或智能代理(Agent)的部署可以是私有化部署,也可以是公有化部署,具体取决于应用场景、需求、安全考虑以及成本效益等因素。 1. 私有化部署: 在企业或组织的内部网络中部署,通常用于处理敏感数据或需要高度定制化的服务。 提供更高的安全性和隐私保护,因为系统不公开于互联网。 允许更精细的控制和管理,适合有特定业务流程和需求的企业。 2. 公有化部署: 在云服务提供商的基础设施上部署,通过互联网提供服务。 易于扩展,维护成本较低,因为云服务商负责大部分的维护工作。 适用于面向公众的服务,如在线客服机器人、开放平台的API服务等。 选择哪种部署方式取决于以下因素: 数据敏感性:如果处理的数据非常敏感,私有化部署更有利于保护数据安全。 成本:私有化部署可能需要更多的初始投资,而公有化部署可能带来更高的灵活性和可扩展性。 维护能力:如果企业有足够的技术力量来维护私有化部署的系统,这可能是一个更好的选择。 定制化需求:私有化部署更容易根据企业的特定需求进行定制。 法规遵从性:某些行业或地区的法律法规可能要求企业必须进行私有化部署。 在实际应用中,一些企业可能会选择混合部署模式,即在私有云中部署核心的、敏感的业务组件,同时将一些非核心或较不敏感的组件部署在公有云上,以此来平衡安全性、成本和灵活性。
2024-05-11
如何在微信中私有化部署开源模型
在微信中私有化部署开源模型通常指的是将开源的人工智能模型部署到微信服务或微信小程序中,以便在微信环境中使用这些模型的功能。以下是一些基本步骤和考虑因素: 1. 选择合适的模型:根据你的需求选择合适的开源模型。例如,如果你需要一个文本处理模型,可能可以选择GPT系列模型。 2. 模型转换:一些模型可能需要转换为适合移动设备的格式,如使用TensorFlow Lite或Core ML等格式。 3. 微信小程序开发:如果你想在微信小程序中使用模型,需要使用微信小程序的开发框架进行开发。小程序提供了云开发功能,可以部署一些后端服务。 4. 服务器部署:对于需要较高计算能力的模型,可能需要在服务器上部署。你可以选择自己的服务器或使用云服务提供商的服务器。 5. API开发:将模型包装成API服务,这样微信小程序可以通过HTTP请求与模型交互。 6. 微信小程序与API集成:在小程序中使用微信提供的API接口与后端模型服务通信。 7. 安全性:确保你的API服务是安全的,使用HTTPS协议,并考虑使用微信的OAuth2.0进行用户认证。 8. 性能优化:根据需要对模型进行优化,以适应移动设备的计算能力限制。 9. 测试:在微信环境中对模型进行充分的测试,确保它在小程序中的性能和准确性。 10. 遵守微信政策:确保你的部署遵守微信的相关政策和法规,尤其是关于用户数据和隐私的部分。 11. 用户界面:为微信小程序设计用户界面,使用户能够方便地与模型交互。 12. 部署上线:完成开发和测试后,将你的小程序提交给微信审核,审核通过后即可上线。 请注意,私有化部署涉及到后端服务的搭建和前端的集成,可能需要一定的技术背景。如果你不熟悉服务器管理和API开发,可能需要寻求专业的开发人员帮助。同时,微信平台对于小程序有特定的技术要求和政策限制,需要在开发过程中严格遵守。
2024-04-18
有没有可以根据教材内容生成PPT的软件?
目前有一些可以根据教材内容生成 PPT 的软件,例如讯飞智文。它是由科大讯飞推出的 AI 辅助文档编辑工具,利用了科大讯飞在语音识别和自然语言处理领域的技术优势,可能提供智能文本生成、语音输入、文档格式化等功能,有助于提高文档编辑效率。 目前市面上大多数 AI 生成 PPT 通常按照以下思路来完成设计和制作: 1. AI 生成 PPT 大纲 2. 手动优化大纲 3. 导入工具生成 PPT 4. 优化整体结构 为您推荐 2 篇市场分析的文章供参考: 1. 《》 2. 《》 此外,还有通过 VBA 代码生成 PPT 的工具,如李继刚开发的工具,其相关 prompt 最佳实践可参考 。用户可以根据自己的需求和喜好选择合适的 AI PPT 工具,以提高工作效率和演示效果。
2024-08-27
国内外好用的图生视频模型
以下是一些国内外好用的图生视频模型: 可灵(国内,免费) 网址:https://klingai.kuaishou.com/ 支持文生视频、图生视频。 支持图生视频首尾帧功能。 提示词可使用中文。 文生视频支持正向提示词、反向提示词、运镜控制、时长选择(5s、10s),支持 16:9、9:16、1:1 尺寸。 图生视频除了不可运镜控制以外,其他跟文生视频基本相同。 默认生成 5s 的视频。 ETNA(国内) 网址:https://etna.7volcanoes.com/ 由七火山科技开发的文生视频 AI 模型。 可以根据用户简短的文本描述生成相应的视频内容。 生成的视频长度在 8 15 秒,画质可达到 4K,最高 38402160,画面细腻逼真,帧率 60fps。 文生视频,支持中文,时空理解。 关于可灵的文生视频效果,测试者 Austin 周安鑫进行了以下测试: 1. 场景识别:包括室内和室外,如客厅的沙发、液晶电视、漂亮的波斯猫、超现实主义的蜿蜒河流、茂密森林、灿烂花海、碧绿草坪等。 2. 物体识别:涵盖静态和动态物体,如水晶球、跳动的火焰、翱翔的飞鸟、闪烁的流星、飞溅的水珠等。 3. 人物识别:包括面部和姿态,如一个人笑容灿烂、一个人惊恐愤怒,一位芭蕾舞女孩在冰面上跳舞等。 4. 动作识别:包含基本和复杂动作,如短跑运动员快速奔跑、赛车手驾驶跑车激烈漂移等。 5. 事件检测:有简单和复杂事件,如一位帅哥在喝水、外星文明和地球进行星际大战等。 6. 环境变化:涉及光线和天气,如奇幻的极光舞动变幻、城市写字楼灯光忽明忽暗、闪电交加、乌云密布、台风、大雨等。 7. 多对象场景:包括单一和多对象场景,如 1 个飞行员驾驶战斗机翱翔太空、海军指挥航母战斗群展开激烈战斗等。 8. 特殊场景:有遮挡和非标准场景,如城市大雾遮挡摩天大楼、一边是神秘海底世界,一边是梦幻糖果屋。 9. 细节检测:包含小物体和微表情,如崭新的苹果电脑屏幕上播放电影、瞳孔收缩、脸颊泛红、嘴唇微微颤抖。
2024-09-19
你自己使用的是什么模型
以下是关于模型的相关信息: 新的 gpt3.5turbo 模型针对会话进行了优化,原始的 GPT3.5 模型针对文本补全进行了优化。 用于创建嵌入和编辑文本的端点有自己的一组专用模型。 在 AI 输入框下方有一个下拉列表,允许选择要使用的模型。默认情况下,Cursor 已准备好使用的模型包括:GPT4o、GPT4、Claude 3.5 Sonnet、cursorsmall。其中,cursorsmall 是 Cursor 的自定义模型,不如 GPT4 智能,但速度更快,用户可无限制访问。您可以在 Cursor Settings > Models > Model Names 下添加其他模型。 谷歌一直在测试自己的人工智能 Bard,由各种基础模型驱动,最近是名为 PaLM 2 的模型。 Anthropic 发布了 Claude 2,其最值得注意的是有非常大的上下文窗口,与其他大型语言模型相比,不太可能恶意行事。
2024-09-19
推荐下好用的具备图像OCR能力的大模型
目前在具备图像 OCR 能力的大模型方面,一些较为知名和好用的包括百度的文心大模型、阿里云的通义大模型等。但大模型的性能和适用场景可能会因具体需求和使用场景的不同而有所差异。您可以根据自己的具体需求进一步评估和选择。
2024-09-19
AI 大模型命名 带有-instruct的含义
AI 大模型中带有“instruct”通常与指令微调相关。在大模型的训练过程中,指令微调是其中一个重要阶段。此阶段模型被训练以理解并执行具体指令,例如翻译文本等,从而能够回答问题。指令微调阶段输入的内容通常包括三个部分,如“Instruct:请你翻译下面这段话”“Input:一段英文”“Output:一段中文”。通过指令微调,模型能够更好地按照人类的期望和具体要求进行输出。
2024-09-19
你是基于哪个AI大模型的
我是 WaytoAGI 专属问答机器人,基于 Aily 和云雀大模型。 Aily 是飞书团队旗下的企业级 AI 应用开发平台,提供了简单、安全且高效的环境,帮助企业轻松构建和发布 AI 应用,推动业务创新和效率提升。 云雀是由字节跳动研发的语言模型,通过便捷的自然语言交互,能够高效地完成互动对话、信息获取、协助创作等任务。 此外,还有一些免费的大模型接口,如阿里的通义千问大模型接口,可创建 API key。智谱 AI(ChatGLM)、科大讯飞(SparkDesk)也有免费接口,但国内的大模型大多限制一定免费额度的 Token。 谷歌的 Gemini 大模型(gemini 1.5)、海外版 Coze 的 GPT4 模型是免费且能图片识别,但需要给服务器挂梯子。想使用的话,可参考张梦飞同学写的教程。 在深入了解 AI 运作原理和众多落地产品后,重新思考 AI 大模型引发的变革。此前曾有疑问,大模型与智能语音技能的 NLU 存在差异。语音技能 NLU 是通过一系列规则、分词策略等训练而成,运作逻辑规律可观测,具有 ifelse 式逻辑性。而大模型凭借海量数据在向量空间中学习知识的关联性形成,运作逻辑难以观测,脱离了 ifelse 的层面。
2024-09-19
如果我需要一名助手帮我运营跨境电商的线上店铺,我需要一些精准的关键词就可以训练模型吗?
训练模型来协助运营跨境电商线上店铺,仅依靠一些精准的关键词通常是不够的。模型的训练需要多方面的数据和信息,包括但不限于产品的详细描述、客户的评价和反馈、市场趋势、竞争对手的情况等。精准的关键词可以作为其中的一部分输入,但不足以全面有效地训练模型以达到理想的辅助运营效果。
2024-09-19
蛟龙16pro配置(处理器R7-7745HX,显卡RTX4060 8G,硬盘512GPCIE4.0SSD)可以用于审计人员本地化部署大模型用于数据分析工作吗
蛟龙 16pro 的配置(处理器 R77745HX,显卡 RTX4060 8G,硬盘 512G PCIE4.0 SSD)对于审计人员本地化部署大模型用于数据分析工作来说,可能存在一定的局限性。 处理器 R77745HX 具有一定的计算能力,但在处理大规模数据和复杂的模型运算时,其性能可能不够强劲。 显卡 RTX4060 8G 对于一些较为复杂的图形处理和计算任务能够提供一定的支持,但对于大规模的深度学习模型训练和数据分析,可能会显得不足。 512G 的 PCIE4.0 SSD 硬盘容量相对较小,在存储大量数据时可能会很快耗尽空间。 综上所述,该配置在一定程度上可以用于简单的数据分析任务,但对于较为复杂和大规模的大模型本地化部署及数据分析工作,可能需要更强大的硬件配置,例如更高性能的处理器、更大容量和更高性能的显卡,以及更大的存储空间。
2024-09-14
蛟龙16pro配置可以用于审计人员本地化部署大模型用于数据分析工作吗
蛟龙 16pro 的配置信息对于能否用于审计人员本地化部署大模型进行数据分析工作,需要更多关于该设备具体配置的详细信息才能准确判断。一般来说,本地化部署大模型进行数据分析工作对计算机的硬件配置有较高要求,包括但不限于强大的 CPU 性能、充足的内存容量、高速的存储设备以及优秀的显卡性能等。如果您能提供蛟龙 16pro 更详细的配置参数,我可以为您做出更准确的评估和建议。
2024-09-14
为审计人员利用大模型本地化部署进行数据分析的电脑如何配置
对于审计人员利用大模型本地化部署进行数据分析的电脑配置,以下是相关建议: 生成文字大模型: 最低配置:8G RAM + 4G VRAM 建议配置:16G RAM + 8G VRAM 理想配置:32G RAM + 24G VRAM(如果要跑 GPT3.5 差不多性能的大模型) 生成图片大模型(比如跑 SD): 最低配置:16G RAM + 4G VRAM 建议配置:32G RAM + 12G VRAM 生成音频大模型: 最低配置:8G VRAM 建议配置:24G VRAM 需要注意的是,最低配置运行速度可能非常慢。另外,对于 SDXL 的大模型,分为两个部分: 第一部分,base + refiner 是必须下载的,base 是基础模型,用于文生图操作;refiner 是精炼模型,用于对生成的模型进行细化,生成细节更丰富的图片。 第二部分,还有一个配套的 VAE 模型,用于调节图片的画面效果和色彩。 想要在 webUI 中使用 SDXL 的大模型,首先要在秋叶启动器中将 webUI 的版本升级到 1.5 以上。接下来,将模型放入对应的文件夹中,base 和 refiner 放在“……\\sdwebuiakiv4.2\\models\\Stablediffusion”路径下;vae 放在“……\\sdwebuiakiv4.2\\models\\VAE”路径下。完成之后,启动 webUI,就可以在模型中看到 SDXL 的模型。
2024-09-12
最为审计人员利用大模型本地化部署在电脑上进行数据分析,电脑如何配置
对于审计人员利用大模型本地化部署在电脑上进行数据分析,电脑配置需要考虑以下方面: 模型选择与下载: SDXL 大模型分为 base+refiner 两个必须下载的部分,base 是基础模型用于文生图操作,refiner 是精炼模型用于细化生成的模型,还有一个配套的 VAE 模型用于调节图片效果和色彩。您可以关注公众号【白马与少年】,回复【SDXL】获取下载链接。 除了上述模型,还可在 Civitai(C 站)https://civitai.com/ 寻找更多模型。使用 C 站时需科学上网,点击右上角筛选按钮找到所需模型类型,如 Checkpoint=大模型、LoRA=Lora,看到感兴趣的模型点击下载保存到电脑本地。 模型存放路径与使用: 将下载的模型放入对应文件夹,base 和 refiner 放在“……\\sdwebuiakiv4.2\\models\\Stablediffusion”路径下,vae 放在“……\\sdwebuiakiv4.2\\models\\VAE”路径下。启动 webUI 后可在模型中看到 SDXL 模型。 硬件配置需求: ChatGLM6B 模型:模型文件下载至本地需要 15 GB 存储空间。量化等级不同,对 GPU 显存要求不同,如 FP16(无量化)最低 GPU 显存(推理)需 13 GB,高效参数微调需 14 GB;INT8 推理需 8 GB,高效参数微调需 9 GB;INT4 推理需 6 GB,高效参数微调需 7 GB。 MOSS 模型:模型文件下载至本地需要 70 GB 存储空间。FP16(无量化)最低 GPU 显存(推理)需 68 GB。 Embedding 模型:默认选用的约占用显存 3GB,也可修改为在 CPU 中运行。
2024-09-12
使用开源大模型本地化部署使用电脑配置,推荐几款笔记本电脑
以下是关于使用开源大模型本地化部署所需电脑配置及笔记本电脑推荐的相关信息: 运行大模型需要较高的机器配置,个人玩家大多负担不起。以下是不同类型大模型的配置要求: 生成文字大模型: 最低配置:8G RAM + 4G VRAM 建议配置:16G RAM + 8G VRAM 理想配置:32G RAM + 24G VRAM(跑 GPT3.5 差不多性能的大模型) 生成图片大模型(比如跑 SD): 最低配置:16G RAM + 4G VRAM 建议配置:32G RAM + 12G VRAM 生成音频大模型: 最低配置:8G VRAM 建议配置:24G VRAM 对于本地化部署,不建议使用最低配置,因为速度会非常慢。例如,用 8G 的 Mac 电脑尝试过,效果不佳。 由于本地化部署对电脑配置要求较高,不太推荐本地化安装实现。如果想使用开源大模型,可选择利用云厂商已提供好的大模型运行环境和计算能力,比如阿里云的 PAI 和 AutoDL。 在笔记本电脑选择方面,建议选择具备以下配置的机型: 1. 内存:16GB 及以上的 RAM。 2. 显卡:具有 8GB 及以上 VRAM 的独立显卡。 但具体的笔记本电脑型号还需根据您的预算和其他需求来确定。
2024-09-12
本地化部署
以下是关于本地化部署的相关内容: SDXL 的本地化部署: SDXL 的大模型分为两个部分: 1. 第一部分,base+refiner 是必须下载的,base 是基础模型,用于文生图操作;refiner 是精炼模型,用于对文生图生成的模型进行细化,生成细节更丰富的图片。 2. 第二部分,SDXL 还有一个配套的 VAE 模型,用于调节图片的画面效果和色彩。 这三个模型的下载链接可关注公众号【白马与少年】,回复【SDXL】获取。 在 webUI 中使用 SDXL 大模型,需先在秋叶启动器中将 webUI 的版本升级到 1.5 以上。然后将模型放入对应的文件夹中,base 和 refiner 放在“……\\sdwebuiakiv4.2\\models\\Stablediffusion”路径下;vae 放在“……\\sdwebuiakiv4.2\\models\\VAE”路径下。完成后启动 webUI,即可在模型中看到 SDXL 的模型。 正常使用方法:先在文生图中使用 base 模型,填写提示词和常规参数,尺寸可设为 10241024 进行生成。生成图片后,可将其发送到图生图中,大模型切换为“refiner”,重绘幅度开小一点,再次点击生成。 对于配置较高的电脑,如显卡为 4080ti,生成时间约在十秒左右。配置较低的需自行测试。 还可安装 refine 插件,在扩展列表中搜索 refine 并安装,重启后可在文生图界面直接使用 refine 模型进行绘画。 Google Gemma 的本地化部署: Google 发布的家用版小模型 Gemma 有 2b(20 亿参数)和 7b(70 亿参数)版本。 部署环境准备: 1. 首先提一下 Ollama,它是一个开源的大型语言模型服务,可方便地部署最新版本的 GPT 模型并通过接口使用,支持热加载模型文件,无需重新启动即可切换不同的模型。 2. 进入 ollama.com,下载程序并安装(支持 windows,linux 和 macos)。 3. 查找 cmd 进入命令提示符,输入 ollama v 检查版本,安装完成后版本应显示 0.1.26。 4. 输入 cls 清空屏幕,然后直接输入 ollama run gemma 运行模型(默认是 2b),首次需下载,等待一段时间。若想用 7b,运行 ollama run gemma:7b。完成后即可直接对话,2 个模型都安装后,可重复上述指令切换。
2024-09-11