Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

2025年出的模型有哪些

Answer

以下是 2025 年可能出现的一些模型:

  • DeepSeek 发布了最新模型 V3 与 R1,采用混合专家(MoE)架构,V3 引入多头潜注意力(MLA),R1 通过强化学习激活推理能力。
  • 字节跳动推出新技术 OmniHuman,利用单张图片和音频生成生动的视频。
  • OpenAI 发布新模型 o1,基于思维链和强化学习的新训练和推理方法,展现出明显超出 GPT-4 等传统模型的复杂推理能力。
  • 苹果公司发布面向 iPhone、iPad 和 Mac 的个人智能化系统 Apple Intelligence,嵌入一个大约 30 亿参数的本地模型。

此外,2024 年的一些模型发展趋势也可能延续到 2025 年,如:

  • 多模态能力的提升,包括视频生成模型的发展,如 OpenAI 的 Sora 引发业界轰动,带动一众模型公司追逐,到年底视频生成已成为各大模型公司的标配能力。
  • 开源项目的发展,如 Meta 推出的 Llama 3.1 405B 版本,中国的开源项目 Qwen-2、DeepSeek 等在全球范围内赢得众多用户。
  • 随着“蒸馏”和“量化”等技术的发展,模型的小型化和端侧化逐渐形成趋势,多家公司推出 40 亿参数以下的专业或端侧小模型。
Content generated by AI large model, please carefully verify (powered by aily)

References

2月7日 社区动态速览

《[陈巍:DeepSeek是否有国运级的创新?从V3到R1的架构创新与误传的万字长文分析(上)](https://zhuanlan.zhihu.com/p/21208287743)》DeepSeek最新模型V3与R1采用混合专家(MoE)架构,显著提升计算效率,挑战OpenAI的闭源模型。V3引入多头潜注意力(MLA),将KV缓存压缩至新低,提升计算性能。R1则通过强化学习激活推理能力,首次验证无需监督微调即可实现推理。DeepSeek正以“国运级的创新”打破算力壁垒,开启大模型新时代。《[AI「视觉图灵」时代来了!字节OmniHuman,一张图配上音频,就能直接生成视频](https://mp.weixin.qq.com/s/0OYlkcxoFvx6Z9IN-aq90w)》字节跳动推出的新技术OmniHuman,利用单张图片和音频生成生动的视频,突破了传统技术的局限。它通过多模态混合训练,解决了高质量数据稀缺的问题,实现了对任意尺寸图像的支持,生成自然的人物运动。《[甲子光年:2025 DeepSeek开启AI算法变革元年](https://waytoagi.feishu.cn/record/S5Jtrlw9neyXMccQ6CAcZsxHnXu)》DeepSeek的出现标志着算力效率拐点显现,其通过优化算法架构,显著提升了算力利用效率,打破了算力至上的传统认知。同时,AI基础大模型的参数量迎来拐点,2025年发布的大模型呈现低参数量特征,为本地化部署到AI终端运行提供了可能。此外,报告强调2025年是算法变革的元年,DeepSeek的推理模型开启了算法变革,其训练过程聚焦于强化学习,提升了模型的推理能力。

展望2025,AI行业有哪些创新机会? | 峰瑞报告

2024年,OpenAI在大部分时间处于“被挑战”的状态。Anthropic发布的Claude 3.5 Sonnet和Google发布的Gemini 1.5等头部基座大模型一直在冲击和挑战OpenAI的GPT-4。直到接近Q3末,OpenAI发布新模型o1,其基于思维链和强化学习的新训练和推理方法,展现出来明显超出GPT-4等传统模型的复杂推理能力,才维持住了OpenAI业界第一的地位。“多模态”让人惊喜。2024年初,OpenAI的视频生成模型Sora横空出世,首次具备强大的视频生成能力,引发业界的轰动。5月份,OpenAI发布G PT-4o,其中“o”是“omni(全能)”的缩写,这个模型能够处理或生成文本、图像和音频等多种形式的数据,甚至还拥有逼真的实时语音对话能力。开源世界也不遑多让。比如Meta在7月推出Llama 3.1 405B版本,在推理、数学、多语言处理和长上下文任务上能够与GPT-4o和Claude 3.5 Sonnet等头部基座模型不相上下。可以说,Llama 3.1缩小了开放模型与封闭模型之间的差距,进一步挤压了全球非头部基座大模型的生存空间。此外,中国的开源项目,例如Qwen-2、DeepSeek等在全球范围内也赢得了众多用户。随着“蒸馏”和“量化”等技术的发展,模型的小型化和端侧化也逐渐形成一种趋势。多家公司推出4B(40亿)参数以下的专业或端侧小模型,在尽量保持性能的前提下,大幅降低对算力的需求。苹果公司在6月份发布面向iPhone、iPad和Mac的个人智能化系统Apple Intelligence,在上述设备中嵌入一个大约3B(30亿参数)的本地模型,提供强大的生成式AI功能。

码观 | 共识与非共识:从模型到应用,2024 AI 趋势回首与展望

多模态能力跃迁视频生成模型破局Transformer架构无往而不利在o系列模型之外,今年最大模型层最大的进展,要数视频生成模型。年初的Sora演示石破天惊,带动一众模型公司进行追逐。到年底,从字节的即梦、快手的可灵,到Google的Veo2,视频生成已从天方夜谭变为各大模型公司的标配能力。这一突破源于Sora巧妙结合了扩散模型(Diffusion Model)和Transformer架构,开创性地实践了DiT(Diffusion Transformer)架构,突破了传统CNN的局限:如果说传统的U-Net架构像是“局部的精雕细琢”,依赖于感受野逐层扩大来理解局部特征。那么融入Transformer的新架构则像是具备“全局视野”的艺术家,能够同时关注和协调画面的每个细节。视频模型的突破,再次印证了Transformer架构的Scaling Law——足够多的数据和足够好的算法模型,就能突破瓶颈。一年过去,Sora类的视频模型已经不再稀奇,人们关注视频模型的下一步:首先是物理一致性问题。这点在真正的世界模型能够做好之前,不会有真正的解法。就像大语言模型的“幻觉“问题一样,视频生成模型与现实世界的不一致性似乎难以完全避免。展望2025年,关键或许不在于完全消除这种不一致,而是找到更好的方式与之共存,就像我们已经学会了用RAG等技术来控制语言模型的幻觉一样。

Others are asking
在 2025 年 环境下的 AI 小白,如何学习,学习什么,才能够赶上初始 AI 人的脚步
对于 2025 年环境下的 AI 小白,以下是一些学习建议和学习内容,以帮助您赶上初始 AI 人的脚步: 1. 积极参与相关活动: 参加类似上海火山引擎原动力大会、camelai 的现场黑客松活动等。 参与社区共学智能体搭建的课程分享。 报名参加如 VB 等各类 AI 建模和绘画活动。 2. 学习提示词: 从复制社区里他人的提示词开始,逐渐提升自己撰写提示词的能力。 了解提示词撰写的要点,如明确主体、动作、场景,避免使用专有名词和网络名词,给 AI 清晰描述。 3. 参与社区共建: 写产品体验文章等,与其他学习者交流经验。 4. 制定学习计划: 明确学习目标和步骤,例如规划参与特定的课程和活动。 5. 学习 AI 编程: 认识到不懂代码学 AI 编程入门不易,但可借助工具。 参加如 build down tree AI 编程挑战活动。 按照后续课程安排进行系统学习。 6. 学习 AI 视频制作: 重视人物设定与剧本,包括主体、动作、场景等要素。 掌握分镜处理,明确用几个镜头表述内容。 熟悉生成与后期的流程,包括抽卡、粗检和如 AI 配音剪辑、加过渡滤镜等后期处理。 做好脚本即提示词,耐心抽卡,不断提升撰写提示词能力。 选择适合自己的工具,如剪映(主力机是 MacBook Pro 可使用 final cut)。 向 ChatGPT 询问获取灵感。 总之,要相信自己,只要不停下学习的脚步,就一定能够在 AI 领域取得进步。
2025-03-10
最新的AI行业动态和进展有哪些,包含2025年
以下是关于最新的 AI 行业动态和进展(包含 2025 年)的内容: 2024 年: 图片超短视频的精细操控:包括表情、细致动作、视频文字匹配。 有一定操控能力的生成式短视频:风格化、动漫风最先成熟,真人稍晚。 AI 音频能力长足进展:带感情的 AI 配音基本成熟。 “全真 AI 颜值网红”出现,可以稳定输出视频,可以直播带货。 游戏 AI NPC 有里程碑式进展,出现新的游戏生产方式。 AI 男/女朋友聊天基本成熟:记忆上有明显突破,可以较好模拟人的感情,产品加入视频音频,粘性提升并开始出圈。 实时生成的内容开始在社交媒体内容、广告中出现。 AI Agent 有明确进展,办公场景“AI 助手”开始有良好使用体验。 AI 的商业模式开始有明确用例:数据合成、工程平台、模型安全等。 可穿戴全天候 AI 硬件层出不穷,虽然大多数不会成功。 中国 AI 达到或超过 GPT4 水平;美国出现 GPT5;世界上开始现“主权 AI”。 华为昇腾生态开始形成,国内推理芯片开始国产替代(训练替代要稍晚)。 AI 造成的 DeepFake、诈骗、网络攻击等开始进入公众视野,并引发担忧。 AI 立法、伦理讨论仍然大规模落后于技术进展。 2025 2027 年: AI 3D 技术、物理规则成熟:正常人无法区别 AI 生成还是实景拍摄。 全真 AI 虚拟人成熟:包含感情的 AI NPC 成熟,开放世界游戏成熟;游戏中几乎无法区别真人和 NPC。 AR/VR 技术大规模商用。 接近 AGI 的技术出现。 人与 AI 配合的工作方式成为常态,很多日常决策开始由 AI 来执行。 AI 生产的数据量超过全人类生产数据量,“真实”成为稀缺资源。 具身智能、核聚变、芯片、超导、机器人等技术有明显进展突破。 “人的模型”出现,出现“集中化 AGI”与“个人 AGI”的历史分叉。 AI 引发的社会问题开始加重,结构性失业开始出现。 AGI 对于地缘政治的影响开始显露。 此外,还有以下相关动态: 算力瓶颈不只是单纯的技术和建设问题,而是影响整个行业竞争格局的重要变量。 逐渐进入多模态灵活转换的新时代,实现文本、图像、音频、视频及其他更多模态之间的互相理解和相互转换。 人类劳动形式逐步“软件化”,复杂劳动被抽象为可调用的软件服务,劳动流程被大幅标准化和模块化,劳动能力像“即插即用”的工具一样易于获取。 AI 行业目前仍处于严重亏损的阶段,商业化进程仍有巨大提升空间。 云厂商是产业链中毋庸置疑的“链主”。 2024 年,头部 AI 应用的品类变化并不显著。创意工具(如图像和视频内容创作)依然占据最大比重。To P(面向专业用户)应用展现出强大的市场潜力,ToB(面向企业)应用发展路径相对复杂,ToC 应用面临较大的挑战。 在 AI 应用领域,Copilot 和 AI Agent 是两种主要的技术实现方式。 北美和欧洲贡献了 AI 移动应用市场三分之二的份额,众多中国 AI 公司积极出海。 2024 年 10 月的大事记包括: Gartner 发布 2025 年十大战略技术趋势。 DeepSeek 开源多模态 LLM 框架 Janus。 司南开源大模型能力评估模型 CompassJudger。 Anthropic 发布新功能 computer use,发布 Claude 3.5 Haiku,更新 Claude 3.5 Sonnet。 Stability AI 发布 Stable Diffusion 3.5。 x.AI 正式推出 API。 ComfyUI V1 官方桌面版开放内测。 华为发布纯血操作系统鸿蒙 OS NEXT。 Jina AI 推出高性能分类器 Classifier API。 OpenAI 发布图像生成模型 sCM。 Midjourney 上线外部图片编辑器。 Runway 发布动画视频功能 ActOne。 Ideogram 推出 AI 画板工具 Canvas。 Genmo 开源视频生成模型 Mochi 1。 荣耀发布操作系统 MagicOS 9.0。 美国 14 岁少年与 C.AI 聊天后离世。 新华社发文表示警惕「AI 污染」乱象。 港中文&趣丸推出 TTS 模型 MaskGCT。 科大讯飞发布讯飞星火 4.0 Turbo。 阿里通义代码模式开始内测。 Anthropic Claude 新增数据分析功能。 北京市大中小学推广 AI 学伴和 AI 导学应用。 稚晖君开源「灵犀 X1」全套资料。 OpenAI 高管 Miles Brundage 离职。
2025-02-17
今日2025.2.13日的AI日报
以下是 2025 年 2 月 13 日的 AI 日报: 近 7 日更新日志: 《》:Codeium 是一款面向企业用户的 AI 编程工具,能提升开发效率,适合非科技企业。其新产品 Windsurf 结合 AI 助手和开发者工作流程,提供无缝协作体验。与 GitHub Copilot 和 Cursor 相比,在代码生成和上下文感知能力上表现更佳,价格有竞争力。 《》:OpenAI 产品负责人 Kevin Weil 称 AI 模型成本下降,智能水平提升。未来将推出 o3 系列模型,具备更强推理能力,并计划在 2025 年让聊天机器人在现实世界实际操作。 《》:OpenAI 即将推出 GPT5,预计所有用户可免费使用。GPT4.5 将是最后一个非推理模型,GPT5 将整合多项技术,具备自主思考和快速响应能力,ChatGPT 多项功能将被整合,用户将享受免费深度研究额度。 社区动态速览: 2000 亿欧元投资,设立 12 个 AI 超算中心,抗衡美国与中国的竞争。 Anthropic CEO:AI 发展将加速至超人级智能 预计 2026 2030 年 AI 将达到“超级天才”级别,若无监管可能失控。 Cerebras 为 Perplexity AI Sonar 搜索模型提供加速,搜索速度提升 10 倍,优化信息准确性与计算成本。 更多详细内容查看
2025-02-13
在2025年2月12日这个时间点,我有哪些方式可以快速,稳定的使用 deepseek r1
在 2025 年 2 月 12 日,您可以通过以下方式快速、稳定地使用 DeepSeek R1: PPIO 派欧云(https://ppinfra.com/modelapi/product/llmapi?utm_medium=article&utm_source=WayToAGI):提供满血版全版本的 DeepSeekR1,输入价格为¥4/百万 tokens,输出价格为¥16/百万 tokens。有开发者福利,新注册立得 500 万 tokens(关注 PPIO 公众号回“deepseek”再领 1 亿),初创企业认证有 10 万算力补贴。产品服务特点为服务稳定性 99.9%,保持 0 故障,与 DeepSeek 官方同价,客户支持通道 10 分钟响应。 百度智能云:DeepSeekR1 限时免费,配额 1000RPM/10000TPM,无调用 tokens 上限。本模型将于 2025 年 2 月 19 日 00:00 起正式商用计费,输入价格 0.002 元/千 tokens,输出价格 0.008 元/千 tokens,有在线体验。 硅基流动:DeepSeekR1 输入价格为¥4/M Tokens,输出价格为¥16/M Tokens,有在线体验。2025 年 2 月 6 日起,未实名用户每日最多请求此模型 100 次。 此外,在 2 月 12 日,还有以下相关内容: 《》,来自社区伙伴 Hua 的投稿,手把手指导您在微软 Azure AI Foundry 平台上完成 DeepSeek R1(671B)模型的完整部署流程,包含环境准备、资源管理、模型测试及 API 调用说明。 《》Anthropic 正式发布 Anthropic AI Economic Index,聚焦 AI 对经济的长期影响。该指数直观展现 AI 如何融入现代经济的各类实际任务,并从职业(occupation)和具体工作任务(task)两个维度,量化 AI 对劳动力市场的影响。 《》DeepSeekR1 的火爆现象背后,企业可以获得显著提升。其强化学习和联网搜索能力,改变了信息获取方式,从“检索—阅读—摘要”转变为“提问—获得答案”,大幅提升工作效率。同时,DeepSeek 的开源策略打破了技术垄断,让国内大模型能力迅速提升。
2025-02-12
2025年 如何使用AGI赚钱
以下是关于 2025 年如何使用 AGI 赚钱的相关信息: 1. OpenAI 方面:到 2025 年,OpenAI 需从实验室和初创企业转型为长期发展的公司,董事会制定了一系列战略目标,包括优化非营利/盈利结构,将现有盈利机构转型为特拉华州公共利益公司(PBC),吸引资本支持使命;增强非营利组织的可持续性,非营利组织对现有盈利机构的权益将以 PBC 股份形式体现,并由独立财务顾问公平估值;强化部门功能分工,新结构下,PBC 将负责运营和业务,而非营利机构将专注于医疗、教育和科学等领域的慈善事业。OpenAI 的发展目标是助力建设一个以 AGI 为核心的新经济,同时确保其造福全人类。 2. DeepSeek 方面:DeepSeek 大模型近日在中国爆红,吸引了大量商家和博主借机“搞钱”,以高价售卖接入教程和培训课程。但官方提醒大部分收费内容均为假冒,用户无需花费。专家指出,普通人完全可以通过自学和开源社区获取知识,避免被虚假宣传误导。同时要警惕假冒网站。 3. 国产 AI 产业方面:东吴证券发布的研究报告指出,国产 AI 产业在 2025 年迎来加速发展机遇,字节跳动的 AI 生态布局尤为关键。2024 年大模型技术差距缩小,国内 AI 应用渗透率快速提升。字节跳动凭借顶级资源和创新姿态,在 AI 领域布局激进,其豆包大模型快速追赶,火山引擎云服务有望弯道超车。 4. 另外,Sam Altman 确信在 2025 年,可能会看到第一批人工智能 Agent“加入劳动力大军”,并对公司的生产力产生实质性的影响。超级智能工具可以极大地加速科学发现和创新,从而显著增加财富和繁荣。
2025-02-09
2025年AI新年春晚在哪儿直播?几点直播?从哪个平台上可以看得到?微信视频号?抖音?B站还是什么渠道可以看得到?
2025 年 AI 春晚的相关信息如下: 直播视频名称:共创贺新春,AI 中国年,第二届 AI 春晚! 60 字内容简介:30 多个共创 AI 节目,来自 1000 多位共创者 3 个月的辛勤筹备。2025 年 1 月 29 日(大年初一)晚上 6:00 准点开播。 正式开放配置时间:1 月 29 日晚上 5:45 正式直播时间:1 月 29 日晚上 6:00 关于转播: 有转播经验的:能直接接受 https,rtmp 信号源的可以直接用拉流地址。 第一次转播的小伙伴:如果直播平台不能直接接入信号源,请先下载一个 OBS:https://obsproject.com/zhcn/download 。配置教程已置顶主流直播平台推流地址获取方式可以参考这篇文章后半段:https://zhuanlan.zhihu.com/p/653204958?utm_id=0 。 直播技术问题咨询: AI 春晚是由 WaytoAGI 社区组织的一场由 AI 技术驱动的晚会,首届 AI 春晚的完整视频可在 B 站上观看。首届 AI 春晚于 24 年大年初一当晚直播,18 万人在线观看,后续视频播放量超过 200 万,媒体曝光量超过 500 万,被誉为 AI 视频寺庙时代的一部现象级作品。 更多详细信息可参考 WaytoAGI 的官方网站。 完整版:https://www.bilibili.com/video/BV15v421k7PY/?spm_id_from=333.999.0.0 。 相关进度:
2025-01-24
大模型和HR和招聘日常工作有哪些结合点?
大模型与 HR 和招聘日常工作的结合点主要体现在以下几个方面: 1. 面试环节:面试不仅仅是单点功能,面试后的结果如何发送到公司 HR 系统,以及如何通知 HR 人员的录用或不录用情况,需要一套工作流系统将大模型 Agent 框架的能力与企业原有的业务系统紧密连接。 2. 不同场景的应用:企业在不同的 HR 场景,如面试、员工评估等,可能会有专门的大模型。例如面试有面试大模型,员工评估也有相应的大模型。 3. 新员工招聘:将招聘流程分解得足够细,如搜集简历、编写职位描述、制定招聘计划、确定招聘需求、筛选简历、安排面试、数字人自动面试、结果评估和发录取通知书等。然后结合大模型目前成熟的能力进行筛选,同时考虑场景的容错度和数据准备度。
2025-03-10
如何训练自己的模型
训练自己的模型可以参考以下步骤: 1. 选择合适的底模,如 Baichuan27BChat 模型,配置模型本地路径和提示模板。 在 Train 页面里选择 sft 训练方式,加载定义好的数据集,如 wechat 和 self_cognition。 注意学习率和训练轮次的设置,要根据数据集大小和收敛情况来调整。 使用 FlashAttention2 可减少显存需求,加速训练速度。 显存小的情况下,可以减少 batch size 并开启量化训练,内置的 QLora 训练方式很实用。 需要用到 xformers 的依赖。 显存占用约 20G,训练时间根据聊天记录规模大小而定,少则几小时,多则几天。 2. 对于 AI 绘画模型的训练,如 Stable Diffusion: 设置 sample_sampler,可选择多种 sampler,默认是“ddim”。 设置 save_model_as,可选择多种格式,目前 SD WebUI 兼容"ckpt"和"safetensors"格式模型。 完成训练参数配置后,运行训练脚本进行全参微调训练。 选择合适的底模型,如 WeThinkIn_SD_二次元模型。 利用 accelerate 库封装训练脚本,可根据需求切换训练环境参数。 3. 创建图像描述模型: 模型由编码器和解码器组成,编码器将输入图像转换为特征向量,解码器根据特征生成描述文本,二者组合形成完整模型。 自定义损失函数,如使用稀疏分类交叉熵并屏蔽填充部分。 编译模型后开始训练,可使用单个 GPU 训练,每个 epoch 约 15 至 20 分钟,可根据需求增加训练次数。 训练完成后进行推理与生成字幕,重构解码器结构,编写自定义推理循环以生成完整句子。
2025-03-10
最近一个月有哪些令人惊艳的开源大模型
以下是最近一个月令人惊艳的开源大模型: 1. 三月初,Meta 的 LLaMA 泄露给公众,随后社区出现一系列创新,包括指令调整、量化、质量改进、人类评估、多模态、RLHF 等变体,解决了扩展问题,降低了培训和实验的准入门槛。 2. 1 月 20 日,DeepSeek 宣布开源 R1 模型,将大模型行业推进到推理时代,引发了深刻影响。 3. 2024 年 5 月: 谷歌在 Google Cloud Next 2024 上发布一系列生成式 AI 产品和服务。 OpenAI 发布 GPT4 Turbo 模型,并开源评估框架 simpleevals。 xAI 发布首个多模态模型 Grok1.5V 的预览版。 微软 WizardLM 团队发布 WizardLM2,后紧急撤回进行毒性测试。 Mistral AI 开源 Mistral 8x22B 模型。 Meta 发布拥有 4000 亿参数的开源大模型 Llama 3。
2025-03-10
有关国产大模型介绍及对比
以下是关于国产大模型的介绍及对比: 过去一年,国内大模型取得了显著进步。综合能力超过 GPT 3.5 和 GeminiPro 的国产模型有 11 个,如百度的文心一言 4.0、阿里云的通义千问 2.0 和 Qwen 72BChat、OPPO 的 AndesGPT、清华&智谱 AI 的智谱清言、字节跳动的云雀大模型等。在 SuperCLUE 测评中,国外模型平均成绩为 69.42 分,国内模型平均成绩为 65.95 分,差距约 4 分,且国内外平均水平差距在缩小。 国内开源模型在中文上表现优于国外开源模型,如百川智能的 Baichuan213BChat、阿里云的 Qwen72B、Yi34BChat 均优于 Llama213BChat。国内大模型竞争格局方面,从国内 TOP19 大模型的数量来看,创业公司和大厂的占比几乎持平。 此外,还有针对国产大模型的测评机制,包括以同组提示词下 ChatGPT 4.0 生成的内容做对标参照,对复杂提示词理解和执行、推理能力、文本生成能力、提示词设计能力、长文本归纳总结能力等方面进行多轮测评。 国外的代表性大模型如 GPT4 的不同版本、Claude2、Llama2 有较好的稳定性表现。国内开源模型总体表现较好,成绩最好的开源模型在中文某些场景或任务上接近 GPT 4,大版本的模型通常优于中小版本,众多创业公司是开源模型的主力。
2025-03-10
LLM大模型与运维
以下是关于 LLM 大模型与运维的相关内容: 部署方面: 本地部署包括三大部分:本地部署大语言模型、本地部署 FastGPT+OneAPI、本地部署 HOOK 项目或 COW。 下载并安装 Ollama:根据电脑系统,从 https://ollama.com/download 下载,双击打开点击“Install”,安装完成后将下方地址复制进浏览器中确认:http://127.0.0.1:11434/ 。 下载 qwen2:0.5b 模型:Windows 电脑点击 win+R 输入 cmd 回车,Mac 电脑按下 Command(⌘)+Space 键打开 Spotlight 搜索输入“Terminal”或“终端”,然后复制命令行粘贴回车等待自动下载完成。 训练方面: 模型训练比推理复杂得多,是一个计算量极大的过程。获取参数面临计算复杂性问题。例如训练 Llama2 70B 这样的开源模型,需要约 10TB 的文本,通常来源于互联网的抓取,大约 6000 个 GPU,运行约 12 天,费用约 200 万美元,得到的参数文件约 140GB,压缩比约 100 倍,且是有损压缩。 整体架构方面: 基础层:为大模型提供硬件支撑,数据支持,如 A100、数据服务器等。 数据层:包括静态的知识库和动态的三方数据集。 模型层:有 LLm(如 GPT,一般使用 transformer 算法)或多模态模型(如文生图、图生图等,训练数据为图文或声音等多模态数据集)。 平台层:如大模型的评测体系或 langchain 平台等,提供模型与应用间的组成部分。 表现层:即应用层,是用户实际看到的地方。
2025-03-09
lora模型
LoRA 模型相关信息如下: Fooocus 程序默认用到了 3 个 SDXL 的模型,包括一个 base、一个 Refiner 和一个 LoRA。LoRA 模型默认放在 Fooocus_win64_1110\\Fooocus\\models\\loras 。如果单独安装,需要下载三个模型: SDXL 基础模型:https://huggingface.co/stabilityai/stablediffusionxlbase1.0/resolve/main/sd_xl_base_1.0_0.9vae.safetensors refiner 模型:https://huggingface.co/stabilityai/stablediffusionxlrefiner1.0/resolve/main/sd_xl_refiner_1.0_0.9vae.safetensors LoRA 模型:https://huggingface.co/stabilityai/stablediffusionxlbase1.0/resolve/main/sd_xl_offset_examplelora_1.0.safetensors 若部署了 SD 秋叶包,也可共用模型(大模型和 LoRA),可在 Fooocus_win64_1110\\Fooocus\\modules\\path.py 中修改路径为秋叶包模型对应的路径,配置好后点击 run.bat 文件启动。 Lora 全称 LowRank Adaptation Models,中文翻译为低阶自适应模型,作用在于影响和微调画面,通过它可以再现人物或物品的特征。大模型训练复杂且对电脑配置要求高,LoRA 采用在原模型中插入新的数据处理层的方式,避免修改原有模型参数,训练轻量化,显存达到 6G 即可开启训练。 有利用新版 SDXL 生成的 lora 如针线娃娃,需要使用 SDXL1.0 的模型才可以运行,触发词是 BJ_Sewing_doll。想体验可添加公众号【白马与少年】,回复【SDXL】。
2025-03-09