Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

你是用什么底层模型驱动?

Answer

目前常见的 AI 模型驱动情况如下:

  • 谷歌的 Bard 由各种基础模型驱动,最近是名为 PaLM 2 的模型。
  • Anthropic 发布了 Claude 2,Claude 最显著的特点是有一个非常大的上下文窗口。
  • OpenAI 制作了 GPT-3.5 和 GPT-4,它们驱动了 ChatGPT 和微软的 Bing(在 Edge 浏览器上访问)。
  • ComfyUI Playground2.5 是一个根据文本提示生成图像的模型,它是一个使用两个固定的、预训练的文本编码器(OpenCLIP-ViT/G 和 CLIP-ViT/L)的潜在扩散模型,遵循与 Stable Diffusion XL 相同的架构(底层框架是 SDXL)。
Content generated by AI large model, please carefully verify (powered by aily)

References

如何使用 AI 来做事:一份带有观点的指南

谷歌一直在测试自己的人工智能供消费者使用,他们称之为Bard,但是由各种基础模型驱动,最近是一个名叫PaLM 2的模型。对于开发出LLM技术的公司来说,他们非常令人失望,尽管昨天宣布的改进表明他们仍在研究基础技术,所以有希望。它已经获得了运行有限代码和解释图像的能力,但我目前通常会避免它。最后一家公司Anthropic发布了Claude 2。Claude最值得注意的是有一个非常大的上下文窗口-本质上是LLM的记忆。Claude几乎可以保存一整本书或许多PDF。与其他大型语言模型相比,它不太可能恶意行事,这意味着,在实际上,它倾向于对你做一些事情进行责骂。现在,来看看一些用途:

ComfyUI Playground2.5

Playground2.5模型地址https://civitai.com/models/325263/playground-ais-playground-v25-1024pxhttps://huggingface.co/playgroundai/playground-v2.5-1024px-aesthetic/tree/main该模型根据文本提示生成图像。它是一个使用两个固定的、预训练的文本编码器(OpenCLIP-ViT/G和CLIP-ViT/L)的潜在扩散模型。它遵循与Stable Diffusion XL相同的架构(底层框架是SDXL)。另外这个模型的风格化比较强,所以注意一下,CGF的权重不要给太高默认使用EDMDPMSolverMultistepScheduler调度程序,以获得更清晰的细节。这是DPM++ 2M Karras调度程序的EDM表达。对于这个调度程序,guidance_scale=3.0是一个很好的默认值。EDMEulerScheduler调度程序。这是Euler调度程序的EDM表达。对于这个调度程序,guidance_scale=5.0是一个很好的默认值

如何使用 AI 来做事:一份带有观点的指南

当我们现在谈论人工智能时,我们通常谈论的是大型语言模型或简称为LLMs。大多数AI应用程序都由LLM驱动,其中只有几个基础模型,由少数几个组织创建。每家公司都通过聊天机器人直接访问他们的模型:OpenAI制作了GPT-3.5和GPT-4,它们驱动了[ChatGPT](https://chat.openai.com/)和微软的[Bing](https://www.bing.com/search?q=Bing+AI&showconv=1&FORM=hpcodx&sydconv=1)(在Edge浏览器上访问)。Google在[Bard](https://bard.google.com/)的标签品牌下有各种模型。Anthropic制造了Claude和[Claude 2](https://claude.ai/)。还有其他我不会讨论的LLMs。第一个是[Pi](https://pi.ai/talk),一个由Inflection构建的聊天机器人。Pi针对对话进行了优化,真的、真的想成为你的朋友(真的,试试看我在说什么)。它不喜欢做除了聊天之外的任何事情,尝试让它为你工作是一种令人沮丧的事情。我们也不会涵盖任何人都可以使用和修改的各种开源模型。它们通常对今天的普通用户来说不是很容易使用或有用,但是有真正的希望。未来的指南可能会包括它们。因此,这是一份快速参考图表,总结了LLM的现状:

Others are asking
你的底层大模型用的是哪个?
目前常见的大型语言模型多采用右侧只使用 Decoder 的 Decoderonly 架构,例如我们熟知的 ChatGPT 等。这些架构都是基于谷歌 2017 年发布的论文“attention is all you need”中提出的 Transformer 衍生而来,其中包括 Encoder 和 Decoder 两个结构。 大模型的特点在于: 1. 预训练数据非常大,往往来自互联网上的论文、代码、公开网页等,一般用 TB 级别的数据进行预训练。 2. 参数非常多,如 Open 在 2020 年发布的 GPT3 就已达到 170B 的参数。 大模型之所以能有效生成高质量有意义的回答,关键在于“大”。例如 GPT1 的参数规模是 1.5 亿,GPT2 Medium 的参数规模是 3.5 亿,到 GPT3.5 时,参数规模达到惊人的 1750 亿,参数规模的增加实现了量变到质变的突破,“涌现”出惊人的“智能”。 大模型的预训练机制是指其“脑袋”里存储的知识都是预先学习好的,预训练需要花费相当多的时间和算力资源。在没有其他外部帮助的情况下,大模型所知道的知识信息总是不完备且滞后的。
2025-02-18
不同厂家的AI产品是底层算法不一样吗?比如ChatGPT和豆包
不同厂家的 AI 产品底层算法通常是不一样的。 以常见的 ChatGPT 和豆包为例,ChatGPT 是由 OpenAI 开发的,其底层算法具有独特的特点和优势。而豆包是由字节跳动开发的,也有其自身的算法设计和优化。 在当前的 AI 领域,大多数 AI 应用程序都由大型语言模型(LLMs)驱动,其中只有几个基础模型,由少数几个组织创建。例如 OpenAI 制作了 GPT3.5 和 GPT4,Google 有 Bard 等。 从相关的访问量数据来看,不同的 AI 产品在市场上的表现也有所不同。比如在某些月份,ChatGPT 的访问量较高,而豆包的访问量也在不断变化。但这并不能直接反映其底层算法的差异,只是从侧面反映了它们在用户中的受欢迎程度和使用情况。
2025-01-17
ChatGPT的底层原理是什么
ChatGPT 的底层原理主要包括以下几个方面: 1. 数据获取与训练:从网络、书籍等来源获取大量人类创作的文本样本,然后训练神经网络生成“类似”的文本。 2. 神经网络结构:由非常简单的元素组成,尽管数量庞大。基本操作是为每个新单词(或单词部分)生成“输入”,然后将其“通过其元素”(没有任何循环等)。 3. 生成文本方式:通过自回归生成,即把自己生成的下一个词和之前的上文组合成新的上文,再生成下一个词,不断重复生成任意长的下文。 4. 训练目的:不是记忆,而是学习以单字接龙的方式训练模型,学习提问和回答的通用规律,实现泛化,以便在遇到没记忆过的提问时,能利用所学规律生成用户想要的回答。 5. 与搜索引擎的区别:搜索引擎无法给出没被数据库记忆的信息,而ChatGPT作为生成模型,可以创造不存在的文本。 其结果表明人类语言(以及背后的思维模式)的结构比我们想象的要简单和更具有“法律属性”,ChatGPT已经隐含地发现了它。同时,当人类生成语言时,许多方面的工作与ChatGPT似乎相当相似。此外,GPT的核心是单字接龙,在翻译等场合应用时,先直译再改写能使Transform机制更好地起作用。
2024-12-03
ai的底层逻辑是什么
AI 的底层逻辑包括以下几个方面: 1. 决策方面:AI 在越来越多的场景落地,成为企业管理和决策的重要工具。然而,AI 的决策过程并非真正的“理解”,而是基于复杂计算和模式匹配,其本质存在局限性,是个“黑盒”,输出结果可见但决策过程难以理解,这种不透明性给企业决策带来风险。 2. 大模型方面:大模型依靠概率计算逐字接龙工作,参数规模的增加使其实现量变到质变的突破,从而“涌现”出智能。大模型的知识是通过预训练预先学习和存储的,但在没有外部帮助时,其知识信息可能不完备和滞后。 3. 神经网络方面:计算机科学家以人脑神经元细胞结构为灵感,利用概览模型在计算机上实现对人脑结构的模仿,但大模型内部如同人类大脑一样是混沌系统,即使是开发者也无法解释其微观细节。
2024-11-13
ai的底层逻辑
AI 的底层逻辑主要涉及以下几个方面: 1. 大模型的底层原理: 大语言模型依靠概率计算逐字接龙的方式工作,平时看到的逐字输出并非特效,而是其真实的工作方式。 大模型参数规模的增加,如从 GPT1 的 1.5 亿到 GPT3.5 的 1750 亿,实现了量变到质变的突破,从而“涌现”出智能。这种“涌现”结构在人类的进化和个体学习成长中也存在。 预训练是大模型获取知识的方式,其需要大量时间和算力资源。在没有外部帮助的情况下,大模型的知识信息可能不完备且滞后。 GPT 是生成式预训练转换器模型(Generative Pretrained Transformer),生成式指大模型根据已有输入不断计算生成下一个字词,直至计算出概率最大时结束输出。 2. 必须理解的核心概念: LLM 是 Large language model 的缩写,即大语言模型。 Prompt 是提示词,即输入给大模型的文本内容,其质量会显著影响回答质量。 Token 是大模型语言体系中的最小单元,不同厂商对中文的切分方法不同,通常 1Token≈12 个汉字,大模型的收费和输入输出长度限制以 token 为单位。 上下文指对话聊天内容的前后信息,其长度和窗口会影响大模型回答质量。
2024-11-06
如果想学习ai,作为ai产品经理,需要ai底层的算法掌握到什么程度
作为 AI 产品经理,对 AI 底层算法的掌握程度需要达到以下几个方面: 1. 理解产品核心技术:了解基本的机器学习算法原理,以便做出更合理的产品决策。 2. 与技术团队有效沟通:掌握一定的算法知识,减少信息不对称带来的误解。 3. 评估技术可行性:在产品规划阶段,能够准确判断某些功能的技术可行性。 4. 把握产品发展方向:了解算法前沿,更好地把握产品未来的发展趋势。 5. 提升产品竞争力:发现产品的独特优势,提出创新的产品特性。 6. 数据分析能力:掌握相关算法知识,提升数据分析能力。 同时,如果希望在 AI 领域继续精进,还需要了解以下基础内容: AI 背景知识: 基础理论:清楚人工智能、机器学习、深度学习的定义及其之间的关系。 历史发展:简要回顾 AI 的发展历程和重要里程碑。 数学基础: 统计学基础:熟悉均值、中位数、方差等统计概念。 线性代数:了解向量、矩阵等基本概念。 概率论:掌握基础的概率论知识,如条件概率、贝叶斯定理。 算法和模型: 监督学习:了解常用算法,如线性回归、决策树、支持向量机(SVM)。 无监督学习:熟悉聚类、降维等算法。 强化学习:了解其基本概念。 评估和调优: 性能评估:知道如何评估模型性能,包括交叉验证、精确度、召回率等。 模型调优:学会使用网格搜索等技术优化模型参数。 神经网络基础: 网络结构:理解包括前馈网络、卷积神经网络(CNN)、循环神经网络(RNN)等的基本结构。 激活函数:熟悉常用的激活函数,如 ReLU、Sigmoid、Tanh。
2024-11-05
给我一些关于数据驱动的免费的优质的课程
以下是为您找到的关于数据驱动的免费优质课程相关信息: 一、数字营销方面 1. 2025 年数字营销十大趋势 Bridging the AI skills gap:具备 AI 技能的团队可以制定更加精准、数据驱动的营销策略,提高效率和效果,使品牌在快速适应市场变化和消费者需求方面具备优势。 Advanced Personalization:借助 AI,营销人员可以实时分析消费者行为,从而提供高度个性化的体验,提升客户参与度,加强品牌忠诚度。 Resource Optimization:通过培训现有员工而不是依赖外部招聘,公司可以最大化利用内部资源,降低招聘成本,并为 AI 驱动的项目建立可持续的基础。 许多公司正在投资于 AI 培训项目,以提升其营销团队的技能。例如,Google 提供免费的 AI 和机器学习认证课程,而像 IBM 这样的公司为员工提供高级 AI 培训和导师项目。这些项目涵盖了数据分析、AI 驱动的客户细分和预测建模等关键技能,帮助公司在不断发展的数字领域保持竞争力。 二、智能导购方面 智能导购的 100 个创意方向中的数据驱动场景(20 个方向): 1. 用户生命周期价值分析:预测客户长期贡献并制定维护策略。 2. 关联购买推荐:分析历史订单推荐互补商品(如包包+丝巾)。 3. 社交媒体舆情分析:抓取小红书/微博数据生成品牌健康报告。 4. 客户分群策略:按消费频率、客单价等维度自动划分群体。 5. 促销效果模拟器:预测不同折扣方案对利润的影响。 6. 天气关联销售预测:结合天气数据推荐应季商品(如雨天推伞具)。 7. 门店选址分析:通过人流、竞品分布数据推荐新店位置。 8. 客户旅程地图:可视化用户从认知到复购的全链路行为。 9. A/B 测试自动化:自动分配流量并对比页面转化率。 10. 实时销售看板:整合多渠道数据生成动态业绩仪表盘。 11. 会员续费预测:通过行为数据预测会员卡续费概率。 12. 商品评论情感分析:从评价中提取用户满意度与改进点。 13. 滞销品组合促销:捆绑低动销率商品提升整体销量。 14. 客户等待时间优化:通过排队数据调整导购资源配置。 15. 个性化折扣券:根据用户偏好发放差异化优惠券。 16. 新品接受度预测:通过历史数据预测新品上市成功率。 17. 流失客户召回:自动触发短信/邮件推送挽回策略。 18. 供应链风险预警:监控原材料价格波动触发备选方案。 19. 跨渠道库存同步:实现官网、门店、仓库库存实时共享。 20. 客户反馈聚类分析:自动归类投诉建议并分配处理部门。
2025-02-26
音频驱动视频人物口型
以下是关于音频驱动视频人物口型的相关信息: PixVerse V3 : 本次更新内容丰富,包括已有能力升级,提供更精准的提示词理解能力和更惊艳的视频动态效果。 支持多种视频比例,如 16:9、9:16、3:4、4:3、1:1。 Style风格化功能重新回归升级,支持动漫、现实、粘土和 3D 四种风格选择,同时支持文生视频和图生视频的风格化。 全新上线了 Lipsync 功能,在生成的视频基础上,允许用户输入文案或上传音频文件,PixVerse 会自动根据文案或音频文件内容,对视频中的人物口型进行适配。 还有 Effect 功能,提供 8 个创意效果,包括变身僵尸、巫师帽、怪兽入侵等万圣节主题模板,一键实现创意构思。并且 Extend 功能支持将生成的视频再延长 5 8 秒,且支持控制延长部分的内容。 字节跳动开源的 LatentSync : 是精准唇形同步工具,能够自动根据音频调整角色嘴型,实现精准口型同步,无需复杂中间步骤。 提出“时间对齐”技术,解决画面跳动或不一致问题,效果显著。 具有开箱即用的特点,预训练模型加持,操作简单,支持高度定制化训练。 GitHub 链接:https://github.com/bytedance/LatentSync 论文链接:https://arxiv.org/pdf/2412.09262
2025-02-16
如果想用几张照片,驱动自己的数字人视频,有哪个平台可以搞
以下是一些可以用照片驱动生成数字人视频的平台及使用方法: 1. HEYGEN: 优点:人物灵活,五官自然,视频生成很快。 缺点:中文的人声选择较少。 使用方法: 点击网址注册后,进入数字人制作,选择Photo Avatar上传自己的照片。 上传后效果如图所示,My Avatar处显示上传的照片。 点开大图后,点击Create with AI Studio,进入数字人制作。 写上视频文案并选择配音音色,也可以自行上传音频。 最后点击Submit,就可以得到一段数字人视频。 2. DID: 优点:制作简单,人物灵活。 缺点:为了防止侵权,免费版下载后有水印。 使用方法: 点击上面的网址,点击右上角的Create vedio。 选择人物形象,你可以点击ADD添加你的照片,或者使用DID给出的人物形象。 配音时,你可以选择提供文字选择音色,或者直接上传一段音频。 最后,点击Generate vedio就可以生成一段视频。 打开自己生成的视频,可以下载或者直接分享给朋友。 3. KreadoAI: 优点:免费(对于普通娱乐玩家很重要),功能齐全。 缺点:音色很AI。 使用方法: 点击上面的网址,注册后获得120免费k币,这里选择“照片数字人口播”的功能。 点击开始创作,选择自定义照片。 配音时,你可以选择提供文字选择音色,或者直接上传一段音频。 打开绿幕按钮,点击背景,可以添加背景图。 最后,点击生成视频。 4. 出门问问Mobvoi:提供了照片数字人的工作流及语音合成(TTS)API,可参考相关效果展示及工作流作者、创意策划等信息。 5. 剪映数字人“个性化”: 尽管剪映有很多公模数字人,但私模数字人更受欢迎。 使用方法: 第一步打开谷歌浏览器,点击链接https://github.com/facefusion/facefusioncolab 并点击open colab就进到程序主要运行界面,在右上角点击“代码执行程序”选择“全部运行”就行,无需安装,无需付费。点击红框对应的URL就会打开操作界面。 第二步,点击“source”上传自己的照片和“target”上传之前的剪映数字人视频,保持默认参数,点击“START”就能生成。 第三步:等着自己专属的数字人视频出炉。
2025-02-07
音频驱动视频
以下是关于音频驱动视频的相关信息: INFP:字节二元交互的新型音频驱动头部动画生成技术 用户输入一段对话音频,可以自动驱动两个数字人头像自然对话,不需要手动区分对话。AI 可以动态地在说话和聆听状态之间交替,实现自然的口型同步和头部与面部表情动作。它适应多种画风图像,支持歌唱、采访、对话(可以实现多 Agent 实时对话)等场景环境。 地址:https://grisoon.github.io/INFP/ LTX Studio:Face Expression 控制角色表情 LTX Studio 的新功能 Face Expression 可轻松完全控制角色的面部表情。可以从预设情绪中快速选择,在几秒钟内调整角色的表情,也可以使用自定义控件微调眼睛、嘴巴或眉毛等特定特征,打造所需的确切情感。 【TecCreative】帮助手册中的相关内容 音频驱动多场景数字人:支持音频和场景数字人一键合成,快速生成数字人口播视频。操作指引:上传音频链接——选择数字人角色和场景——选择输出类型——点击开始生成。音频文件支持 MP3 和 WAV 格式,文件大小上限 5M。 谷歌 Generating audio for video 为了生成更高质量的音频,并增加引导模型生成特定声音的能力,在训练过程中添加了更多信息,包括人工智能生成的注释,其中包含声音的详细描述和口语对话誊本。通过对视频、音频和附加注释进行训练,技术可以学会将特定音频事件与各种视觉场景联系起来,同时对注释或文本中提供的信息做出响应。
2025-01-24
从评审导师的角度优化“人工智能驱动企业供应链效率影响研究——基于专精特新中小企业的实证数据”这个工商学术研究生学位论文题目
作为评审导师,以下是对这个论文题目的一些优化建议: “人工智能对专精特新中小企业供应链效率的驱动作用及影响研究——基于实证数据分析” 这样的表述更加清晰地突出了人工智能的驱动作用,并且明确了是基于实证数据进行的分析。您觉得如何?
2025-01-08
AI驱动的自动化任务在PC端
以下是为您介绍的两个与 AI 驱动的自动化任务在 PC 端相关的产品: 1. Design Buddy:这是一个 Figma 插件,作为协作伙伴发挥作用,能对 UI 设计提供深入反馈。它涵盖布局、颜色、排版、可访问性等方面的结构化评论,并为每个类别分配客观评分,有助于识别 UI 设计中常被忽视的缺陷,减少未来修订需求。 2. AI Employe:这是一个开源、由 GPT4 视觉驱动的工具,用于自动化浏览器环境中的复杂任务。用户可通过在浏览器中概述和演示任务来创建工作流程,它能自动执行类人智能任务,如理解电子邮件、收据和发票,并将数据从电子邮件传输到 CRM/ERP 系统,只记录浏览器更改,不捕获屏幕、麦克风或摄像头,还能从图表、复杂表格和基于图像的 OCR 提供独特见解。
2024-12-26
我想让大模型给我写程序,你有什么建议?
以下是让大模型为您写程序的一些建议: 1. 选择合适的大模型: 常见的大模型如 Kimi(https://kimi.moonshot.cn/),免费好用,适合科学上网困难的小伙伴。 功能更强大的 ChatGPT(https://chatgpt.com/),有条件可以选择。 例如在脚本创作方面有优势的 Claude(https://claude.ai/new)。 2. 明确提示词的结构: 描述要做什么样的程序,比如具体的功能、应用场景等。 指出程序要包含的关键元素,如特定的算法、数据结构等。 对程序的输出提出要求,如格式、规范等。 3. 注意硬件配置: 运行大模型需要较高的机器配置。 生成文字大模型,最低配置为 8G RAM + 4G VRAM,建议配置为 16G RAM + 8G VRAM,理想配置为 32G RAM + 24G VRAM(如果要跑 GPT3.5 差不多性能的大模型)。 生成图片大模型(比如跑 SD),最低配置为 16G RAM + 4G VRAM,建议配置为 32G RAM + 12G VRAM。 生成音频大模型,最低配置为 8G VRAM。 4. 如果有“代码恐惧症”,可以尝试用大模型替代代码节点实现变量类型转换,但大模型节点效果不稳定,运行速度较慢,还可能带来额外花费,因此能使用代码节点时仍建议优先使用。
2025-03-05
有没有一种小模型,语料只是一个知识库,超出范围的无法回答?
以下是关于您问题的回答: 在医疗领域,存在一种智能体,其在提示词中约定回答只能来自于知识库。例如生物医药小助手,为了避免在医疗这个严肃领域出现误导性的回答,其回答被限制在特定的知识库范围内,可能存在问题超出知识库范畴的情况,但尚未发现有医学上不严谨的回答现象。 同时,模型存在一定的局限性。在训练过程中,模型虽接触大量知识,但未完美记忆且不清楚知识边界,可能尝试回答深奥话题并虚构不正确内容,产生幻觉。例如要求模型描述虚构的牙刷产品时,会给出逼真但虚构的描述。在构建应用程序时,可使用一些技术避免这种情况,如要求模型先从文本中找相关引文,再用引文回答问题并追溯源文件,以减少幻觉的发生。 另外,“小模型”在特定任务上表现出色,如专门识别猫或狗的模型,但无法用于其他任务。而“大模型”像多功能基础平台,能处理多种任务,应用范围广泛且有更多通识知识,但大模型的知识来源于有限的训练数据,不能拥有无限知识,且知识库不会自动更新,在某些特定或专业领域知识可能不够全面。
2025-03-05
裁判模型prompt
裁判模型的 prompt 相关内容如下: 在 2023 年度中文大模型基准测评报告中,对 OPT 主要测评选择题,构造了统一的 prompt 供模型使用,要求模型选取 ABCD 中唯一的选项。多轮简答题 OPEN 更能反应模型真实能力,故权重设置提高。包括 1060 道多轮简答题(OPEN)和 3213 道客观选择题(OPT)。 Prompt 是给到大模型输入的一段原始输入,能够帮助模型更好地理解用户的需求并按照特定的模式或规则进行响应。比如可以设定“假设你是一位医生,给出针对这种症状的建议”,还可以在 prompt 的设定中,要求模型按照一定的思路逻辑去回答,如思维链(cot),也可以让模型按照特定格式的 json 输出等。 在质证意见 prompt 各大模型评测中,Claude 2.0 输入 prompt 后欢迎语按指示输出,输入 4 份简单证据后输出质证意见书,在格式和内容的真实性、合法性、关联性、证明力等方面进行质证,总结得 5.5 分,结束语没问题。文心一言 3.5 输入 prompt 后欢迎语按指示输出,输入 4 份证据后进行专业分析,在格式和内容各方面的质证都非常专业,总结得 8 分,结束语没问题,提示签署委托代理协议的回复也很棒。
2025-03-05
Joy_caption_two_load模型下载
Joy\_caption\_two\_load 模型的下载方式如下: 1. siglipso400mpatch14384(视觉模型): siglip 由 Google 开发,负责理解和编码图像内容。 工作流程包括接收输入图像、分析图像的视觉内容并将其编码成特征向量。 打开 ComfyUI\\models\\clip,在地址栏输入 CMD 回车,打开命令行,输入相关命令拉取模型(也可在网盘中下载)。下载好后,目录的文件会存在。 2. image_adapter.pt(适配器): 连接视觉模型和语言模型,优化数据转换。 工作流程包括接收来自视觉模型的特征向量、转换和调整特征以及进行特定任务的优化或微调。 通过 https://huggingface.co/spaces/fancyfeast/joycaptionprealpha/tree/main/wpkklhc6 下载,放到 models 的 Joy_caption 文件夹里,如果该文件夹不存在,就新建一个。 3. MetaLlama3.18Bbnb4bit(语言模型): 大型语言模型,负责生成文本描述。 工作流程包括接收经过适配器处理的特征、基于特征生成相应文本描述以及应用语言知识确保描述的连贯性和准确性。 打开 ComfyUI\\models\\LLM,地址栏输入 CMD 回车,在命令行输入相关命令。从 https://huggingface.co/unsloth/MetaLlama3.18Bbnb4bit 下载并放到 Models/LLM/MetaLlama3.18Bbnb4bit 文件夹内。 此外,还需注意以下几点: 1. 网盘链接:提供了方便下载的网盘。 2. 环境问题:如果因为环境问题,可以在网盘中下载。 3. 模型存放位置:三个模型分别存放到指定的文件夹,如 3.5G 的模型放到“你的\\ComfyUI\\models\\clip\\siglipso400mpatch14384”,5.7G 的模型放到“你的\\ComfyUI\\models\\LLM\\MetaLlama3.18Bbnb4bit”,86MB 的模型放到“你的\\ComfyUI\\models\\Joy_caption”。
2025-03-05
你是基于哪个大模型的?
我调用的是抖音集团的云雀大模型。大模型中的“大”通常指用于表达 token 之间关系的参数多,主要是模型中的权重(weight)与偏置(bias),例如 GPT3 拥有 1750 亿参数。以 Transform 为代表的大模型采用自注意力(Selfattention)机制来学习不同 token 之间的依赖关系,生成高质量 embedding。常见的将 Token 表示成稠密矩阵向量的算法有基于统计的 Word2Vec、GloVe,基于深度网络的 CNN、RNN/LSTM,基于神经网络的 BERT、Doc2Vec 等。
2025-03-05
你认为 目前已知的模型,哪个更全面实用?
目前已知的较为全面实用的模型有以下几种: 1. OpenAI GPT4.5:这是 OpenAI 推出的模型,是其最大且知识最丰富的模型。它在 GPT4 的基础上进一步扩展了预训练,采用了新的监督技术结合传统方法进行训练,如监督微调(SFT)和基于人类反馈的强化学习(RLHF)。早期测试显示其交互更自然,知识基础更广泛,与用户意图的对齐更强,情感智力有所提升,适用于写作、编程和解决实际问题等任务。 2. Kolors:这是一个开源的文生图模型,在技术上有全面的改进,包括更强的中文文本编码器、机造的高质量文本描述、人标的高质量图片、强大的中文渲染能力,以及巧妙的 noise schedule 解决高分辨率图加噪不彻底的问题,实测效果不错。 3. DeepSeek 深夜发布的大一统模型 JanusPro:它将图像理解和生成统一在一个模型中,采用统一的 Transformer 架构,能使用同一个模型完成图片理解和生成,提供 1B 和 7B 两种规模以适配多元应用场景,全面开源,支持商用,MIT 协议,部署使用便捷,在 Benchmark 表现优异,能力更全面。
2025-03-05