Navigate to WaytoAGI Wiki →
Home/question.detail.breadcrumb.questionList/question.detail.breadcrumb.questionDetail

本地大模型有啥用途

Answer

本地大模型具有多种用途,以下为您详细介绍:

  1. 在图像生成方面,如 SDXL 的大模型,分为 base、refiner 和配套的 VAE 模型。base 用于文生图操作,refiner 用于细化生成的图片以获得更丰富的细节,VAE 用于调节图片的画面效果和色彩。使用时需将模型放入对应文件夹,在秋叶启动器中将 webUI 版本升级到 1.5 以上,然后在文生图中填写提示词和常规参数进行生成。
  2. 资讯问答方面,如 Langchain + Ollama + RSSHub 实现 RAG。Ollama 支持多种大型语言模型,包括通义千问、Llama 2、Mistral 和 Gemma 等,适用于多种操作系统,提供模型库,支持自定义模型,有 REST API 用于运行和管理模型及与其他应用程序集成,社区贡献丰富。
  3. 对话和回答问题方面,通过 Open WebUI 使用大模型。一般有聊天对话和 RAG 能力(让模型根据文档内容回答问题)两种使用方式。若要求不高,可实现和本地大模型的对话功能。ChatGPT 访问速度快是因其服务器配置高,回答效果好是因其训练参数多、数据更优及训练算法更好。若想更灵活掌握知识库可进一步操作。
Content generated by AI large model, please carefully verify (powered by aily)

References

【SD】向未来而生,关于SDXL你要知道事儿

SDXL的大模型分为两个部分:第一部分,base+refiner是必须下载的,base是基础模型,我们使用它进行文生图的操作;refiner是精炼模型,我们使用它对文生图中生成的模型进行细化,生成细节更丰富的图片。第二部分,是SDXL还有一个配套的VAE模型,用于调节图片的画面效果和色彩。这三个模型,我已经放入了云盘链接中,大家可以关注我的公众号【白马与少年】,然后回复【SDXL】获取下载链接。想要在webUI中使用SDXL的大模型,首先我们要在秋叶启动器中将webUI的版本升级到1.5以上。接下来,将模型放入对应的文件夹中,base和refiner放在“……\sd-webui-aki-v4.2\models\Stable-diffusion”路径下;vae放在“……\sd-webui-aki-v4.2\models\VAE”路径下。完成之后,我们启动webUI,就可以在模型中看到SDXL的模型了。我们正常的使用方法是这样的:先在文生图中使用base模型,填写提示词和常规参数,尺寸可以设置为1024*1024,进行生成。我这边使用了一个最简单的提示词“1girl”,来看看效果。生成的图片大家可以看一下,我觉得是相当不错的。

本地部署资讯问答机器人:Langchain+Ollama+RSSHub 实现 RAG

1.支持多种大型语言模型:Ollama支持包括通义千问、Llama 2、Mistral和Gemma等在内的多种大型语言模型,这些模型可用于不同的应用场景。2.易于使用:Ollama旨在使用户能够轻松地在本地环境中启动和运行大模型,适用于macOS、Windows和Linux系统,同时支持cpu和gpu。3.模型库:Ollama提供了一个模型库,用户可以从中下载不同的模型。这些模型有不同的参数和大小,以满足不同的需求和硬件条件。Ollama支持的模型库可以通过https://ollama.com/library进行查找。4.自定义模型:用户可以通过简单的步骤自定义模型,例如修改模型的温度参数来调整创造性和连贯性,或者设置特定的系统消息。5.API和集成:Ollama还提供了REST API,用于运行和管理模型,以及与其他应用程序的集成选项。6.社区贡献:Ollama社区贡献丰富,包括多种集成插件和界面,如Web和桌面应用、Telegram机器人、Obsidian插件等。7.总的来说,Ollama是一个为了方便用户在本地运行和管理大型语言模型而设计的框架,具有良好的可扩展性和多样的使用场景。后面在捏Bot的过程中需要使用Ollama,我们需要先安装,访问以下链接进行下载安装。https://ollama.com/download/

手把手教你本地部署大模型以及搭建个人知识库

1.首先访问如下网址当你打开这个页面的时候,会让你登陆,这个时候我们随便使用一个邮箱注册一个账号即可1.和本地大模型进行对话登陆成功之后,如果你已经使用过ChatGPT等类似的大模型对话网站,我相信你对这个页面并不陌生。Open WebUI一般有两种使用方式第一种是聊天对话第二种是RAG能力,也就是可以让模型根据文档内容来回答问题。这种能力就是构建知识库的基础之一如果你的要求不高的话,我们已经搭建了一个本地大模型了,并且通过Web UI实现了和大模型进行对话的功能。相信通过这么一通折腾,你就理解了ChatGPT的信息流,至于为什么ChatGPT的访问速度比我们自己的要快,而且回答效果要好,有两个原因快:是因为GPT大模型部署的服务器配置高好:是因为GPT大模型的训练参数多,数据更优以及训练算法更好如果你想要更加灵活的掌握你的知识库,请接着往下看

Others are asking
Gamma的用途介绍
Gamma 有以下几种常见用途: 1. 在图像处理中,Gamma 可用于改变图像的 Gamma 值,从而调整图像的亮度和对比度。节点选项说明中,gamma 表示图像的 Gamma 值。 2. Gamma 也是一个在线演示文稿制作平台。它利用人工智能技术帮助用户快速创建和设计演示文稿。用户通过简单的文本输入生成幻灯片,其 AI 系统会根据内容自动提供布局建议和设计元素。该平台支持多种多媒体格式嵌入,如 GIF 和视频,提供多种预设主题和自定义选项,简化演示文稿创建过程,让非设计专业人士也能轻松制作出具有专业外观的演示文稿,使用户节省设计时间,专注于内容表达和创意发挥。 此外,在开源大模型领域,谷歌发布的 Gemma 模型中也涉及到相关技术细节。Gemma 是一个轻量级的 SOTA 开放模型系列,在语言理解、推理和安全方面表现强劲。谷歌发布了 20 亿参数和 70 亿参数两个版本,并提供了预训练以及针对对话、指令遵循、有用性和安全性微调的 checkpoint。不同尺寸满足不同的计算限制、应用程序和开发人员要求。Gemma 在 18 个基于文本的任务中的 11 个上优于相似参数规模的开放模型。
2024-10-14
Ai主要用途
人工智能(AI)的主要用途广泛,涵盖以下多个领域: 1. 医疗保健: 医学影像分析:辅助诊断疾病。 药物研发:加速研发过程,识别潜在药物候选物和设计新疗法。 个性化医疗:分析患者数据,提供个性化治疗方案。 机器人辅助手术:提高手术精度和安全性。 2. 金融服务: 风控和反欺诈:降低金融机构风险。 信用评估:帮助做出更好的贷款决策。 投资分析:辅助投资者做出明智决策。 客户服务:提供 24/7 服务,回答常见问题。 3. 零售和电子商务: 产品推荐:根据客户数据推荐感兴趣的产品。 搜索和个性化:改善搜索结果和提供个性化购物体验。 动态定价:根据市场需求调整产品价格。 4. 制造业: 预测性维护:避免机器故障和停机。 质量控制:检测产品缺陷。 供应链管理:优化供应链,提高效率和降低成本。 机器人自动化:控制工业机器人,提高生产效率。 5. 交通运输: 自动驾驶:提高交通安全性和效率。 交通管理:优化信号灯和交通流量,缓解拥堵。 物流和配送:优化路线和配送计划,降低运输成本。 无人机送货:将货物快速送达偏远地区。 6. 其他领域: 教育:提供个性化学习体验。 农业:分析农田数据,提高农作物产量和质量。 娱乐:开发虚拟现实和增强现实体验。 能源:优化能源使用,提高能源效率。 需要注意的是,AI 的应用场景还在不断扩展,未来将对我们的生活产生更加深远的影响。
2024-08-28
ai在建筑方面的用途
AI 在建筑方面有多种用途,以下是一些能够帮助建筑设计师审核规划平面图的 AI 工具: 1. HDAidMaster:云端工具,可在建筑、室内和景观设计领域使用主流 AIGC 功能进行方案创作,搭载自主训练的建筑大模型 ArchiMaster,软件 UI 和设计成果颜值高。 2. Maket.ai:主要面向住宅行业,在户型设计和室内软装设计方面有 AI 技术探索,可根据输入的房间面积需求和土地约束自动生成户型图。 3. ARCHITEChTURES:AI 驱动的三维建筑设计软件,提供全新设计模式,可在住宅设计早期引入标准和规范约束 AI 生成的设计结果,保证设计合规性。 4. Fast AI 人工智能审图平台:从住宅设计图的构件开始,形成全自动智能审图流程,同时为建筑信息自动建模打下基础,最终实现建筑全寿命周期内信息的集成和管理。 这些工具都可以帮助建筑设计师提高效率、减少错误并提供更多设计可能性。但每个工具都有其特定应用场景和功能,建议根据具体需求选择合适的工具。
2024-07-10
ai在酒店用途
AI 在酒店中有多种用途,以下是一些常见的应用: 客服助手:Viff.ai 是一个酒店评论回复工具,它可以为酒店客人的评论生成个性化、针对性和有礼貌的回复。它能学习用户的语气和品牌声音,并以同样一致的声音生成回复。使用 Viff.ai,酒店可以立即回复评论,从而在所有的酒店客人评论中提供准确的回复,并保持一贯性。通过回复评论,酒店可以提升声誉,吸引更多的预订。 酒店预订系统:Staypia 是一个利用人工智能技术的酒店预订系统,提供全球超过 316 万家酒店的最优惠优惠。这个平台利用人工智能技术,提供一系列独家折扣,使其成为最具成本效益的酒店预订平台之一。 知识图谱:在搜索时,展示知识图谱。这些信息是从知识图谱中产生的,意味着列出这些人和与其相关的关键信息,如生日,年纪等。酒店知识图谱可能包含大量信息,让人们在查地图时,可以快速找到准确信息。
2024-07-10
自己的ai来源模型是什么
智谱·AI 的开源模型包括以下部分: 其他模型: WebGLM10B:利用百亿参数通用语言模型(GLM)提供高效、经济的网络增强型问题解答系统,旨在通过将网络搜索和检索功能集成到预训练的语言模型中,改进现实世界的应用部署。 WebGLM2B MathGLM2B:在训练数据充足的情况下,20 亿参数的 MathGLM 模型能够准确地执行多位算术运算,准确率几乎可以达到 100%,其结果显著超越最强大语言模型 GPT4 在相同测试数据上 18.84%的准确率。 MathGLM500M MathGLM100M MathGLM10M MathGLMLarge:采用 GLM 的不同变体作为骨干来训练 MathGLM,包括具有 335M 参数的 GLMlarge 和 GLM10B。此外,还使用 ChatGLM6B 和 ChatGLM26B 作为基座模型来训练 MathGLM。这些骨干模型赋予 MathGLM 基本的语言理解能力,使其能够有效理解数学应用题中包含的语言信息。 多模态模型: CogAgent18B:基于 CogVLM17B 改进的开源视觉语言模型。CogAgent18B 拥有 110 亿视觉参数和 70 亿语言参数,支持 11201120 分辨率的图像理解,在 CogVLM 功能的基础上,具备 GUI 图像的 Agent 能力。 CogVLM17B:强大的开源视觉语言模型(VLM)。基于对视觉和语言信息之间融合的理解,CogVLM 可以在不牺牲任何 NLP 任务性能的情况下,实现视觉语言特征的深度融合。 Visualglm6B:一个开源的,支持图像、中文和英文的多模态对话语言模型,语言模型基于 ChatGLM6B,具有 62 亿参数;图像部分通过训练 BLIP2Qformer 构建起视觉模型与语言模型的桥梁,整体模型共 78 亿参数。 部署和训练自己的 AI 开源模型的主要步骤如下: 1. 选择合适的部署方式,包括本地环境部署、云计算平台部署、分布式部署、模型压缩和量化、公共云服务商部署等,根据自身的资源、安全和性能需求选择合适的部署方式。 2. 准备训练所需的数据和计算资源,确保有足够的训练数据覆盖目标应用场景,并准备足够的计算资源,如 GPU 服务器或云计算资源。 3. 选择合适的预训练模型作为基础,可以使用开源的预训练模型如 BERT、GPT 等作为基础,也可以自行训练一个基础模型。 4. 针对目标任务进行模型微调训练,根据具体应用场景对预训练模型进行微调训练,优化模型结构和训练过程以提高性能。 5. 部署和调试模型,将训练好的模型部署到生产环境,对部署的模型进行在线调试和性能优化。 6. 注意安全性和隐私保护,大模型涉及大量数据和隐私信息,需要重视安全性和合规性。 总的来说,部署和训练自己的大模型需要综合考虑多方面因素,包括部署方式、数据准备、模型训练、部署调试以及安全性等。需要根据具体需求选择合适的方法,并注意优化各个环节以提高模型性能和应用效果。
2024-12-27
基于多模态大模型的具身智能 技术原理是什么
基于多模态大模型的具身智能技术原理主要包括以下方面: 决策模块是具身智能系统的核心,负责接收感知模块的环境信息,进行任务规划和推理分析,以指导行动模块生成动作。早期决策模块主要依赖人工编程规则和专用任务算法,而基于近端策略优化算法和 Qlearning 算法的强化学习方法在具身智能自主导航等任务中展现出更好的决策灵活性,但在复杂环境适应能力等方面存在局限。 大模型的出现极大增强了具身智能体的智能程度,提高了环境感知、语音交互和任务决策能力。具身智能体的大模型是 AIGA,调用机械臂、相机等身体部件,其发展方向是视觉语言动作模型(VLA)和视觉语言导航模型(VLN)。 VLA 输入语言、图像或视频流,输出语言和动作,在统一框架内融合互联网、物理世界和运动信息,实现从自然语言指令到可执行动作指令的直接转换。 VLN 输入语言、图像或视频流,输出语言和移动轨迹,用于统一指令输入框架,使大模型直接生成运动方向、目标物体位置等操作信息。 Google Deepmind 从大模型入手打造具身智能,率先提出 Robotics Transformer 系列模型,如 RT1 等,并不断升级。RT1 基于模仿学习中的行为克隆学习范式,输入短的图像序列和指令,输出每个时间步的动作。随着数据量增加,有从分层模型过渡到端到端模型的趋势。 北大 HMI Lab 团队构建了全新的 RoboMamba 多模态大模型,使其具备视觉常识任务和机器人相关任务的推理能力。 在具身智能应用中,更强调“动态”学习方式,如强化学习、模拟学习等,让机器人与环境不断交互学习,通过奖励机制优化行为,获得最优决策策略,摒弃传统控制论算法物理建模的弊端。
2024-12-27
基于世界模型的具身智能 技术原理是什么
基于世界模型的具身智能技术原理主要包括以下方面: 谷歌发布的世界模型 Genie: 能够学习一致的动作空间,可能适合训练机器人,打造通用化的具身智能。 其架构中的多个组件基于 Vision Transformer构建而成,为平衡模型容量与计算约束,在所有模型组件中采用内存高效的 STtransformer 架构。 Genie 包含三个关键组件:潜在动作模型(Latent Action Model,LAM)用于推理每对帧之间的潜在动作;视频分词器(Tokenizer)用于将原始视频帧转换为离散 token;动态模型给定潜在动作和过去帧的 token,用来预测视频的下一帧。潜在动作模型以完全无监督的方式学习潜在动作。 相关论文《Genie:Generative Interactive Environments》已公布,论文地址为 https://arxiv.org/pdf/2402.15391.pdf,项目主页为 https://sites.google.com/view/genie2024/home?pli=1 ,论文的共同一作多达 6 人,包括华人学者石宇歌。 具身智能算法层: 机器人创业公司 Covariant 推出的首个机器人基础模型 RFM1 是基于真实任务数据训练的机器人大模型,共有 80 亿参数,是基于文本、图片、视频、机器人动作、传感器信息等多模态数据进行训练的 any to any 序列模型。 RFM1 将机器人的实际动作也视作 Token,其 token 包括多种模态,每个模块都有专门的 tokenizer 进行处理。操作只有一个——预测下一个 token。 RFM1 对物理世界的理解源自于其学习生成视频的过程,通过接受初始图像和机器人动作的输入,预测接下来视频帧的变化,掌握了模拟世界每个瞬间变化的低层次世界模型。 行业进展: 李飞飞在 AI 3D 生成领域的工作极大地加速了进展,通过对 3D 物体的生成所构建出的世界,再进行降维的视频生成,生成的视频自然符合物理世界的规律,生成的世界也可交互。 世界模型开启了在虚拟世界中预训练机器人的可能,这个虚拟世界完全符合物理规律,可以快速生成无限场景,支持并行训练多个任务,大幅降低试错成本,加速机器人的学习过程,为实现更复杂的机器人行为打开可能。这种进步正在催生新的应用可能,如更自然的人机交互界面、更安全的机器人控制系统、更高效的虚拟训练平台等。世界模型也在改变 AI 理解和交互世界的基本方式。
2024-12-27
微调模型
微调(Finetuning)包括以下方面: 数据格式化: 需一组训练示例,每个含输入(“提示”)及关联输出(“完成”)。 提示应以固定分隔符(如\n\n\n\n)结尾,完成应以空格开头,并以固定停止序列(如\n、等)结束。 推理时应按创建训练数据集的方式格式化提示及指定停止序列。 一般最佳实践: 使用更多高质量示例效果更好,至少几百个,最好经人类专家审查,示例数量增加通常能线性提高性能。 分类器较易上手,对于分类问题建议使用 ada,微调后通常比强大模型稍差但速度快、成本低。 若对已有数据集微调,应手动检查数据是否有问题。 创建微调模型: 假设已准备好训练数据,使用 OpenAI CLI 开始微调工作,需指定基本模型名称(ada、babbage、curie 或 davinci),可自定义微调模型名称。 运行命令会上传文件、创建作业、流式传输事件直至完成,可能需几分钟到数小时,完成后会显示微调模型名称,还可进行列出现有作业、检索状态或取消作业等操作。 使用微调模型: 作业成功后,fine_tuned_model 字段填充模型名称,可在 Completions API 中指定该模型并使用 Playground 发出请求。 首次完成后可能需几分钟准备,若请求超时可能是模型仍在加载,几分钟后重试。 可通过多种方式(如 OpenAI 命令行界面、cURL、Python、Node.js 等)传递模型名称发出请求,并使用其他完成参数。 删除微调模型: 组织中被指定为“所有者”才能删除。 准备数据集: 微调是强大技术,用于创建特定用例新模型,微调前建议阅读针对用例的最佳实践和具体指南。
2024-12-27
openai 发布的sora最新模型中,生成视频的提示词与一般问答提示词有什么区别或者注意事项?
Sora 是 OpenAI 于 2024 年 2 月发布的文本到视频的生成式 AI 模型。 生成视频的提示词与一般问答提示词的区别和注意事项如下: 1. 对于视频生成,神经网络是单射函数,拟合的是文本到视频的映射。由于视频的动态性高,值域大,因此需要丰富且复杂的提示词来扩大定义域,以学好这个函数。 2. 详细的文本提示能迫使神经网络学习文本到视频内容的映射,加强对提示词的理解和服从。 3. 和 DALL·E 3 一样,OpenAI 用内部工具(很可能基于 GPT4v)给视频详尽的描述,提升了模型服从提示词的能力以及视频的质量(包括视频中正确显示文本的能力)。但这会导致在使用时的偏差,即用户的描述相对较短。OpenAI 用 GPT 来扩充用户的描述以改善这个问题,并提高使用体验和视频生成的多样性。 4. 除了文本,Sora 也支持图像或者视频作为提示词,支持 SDEdit,并且可以向前或者向后生成视频,因此可以进行多样的视频编辑和继续创作,比如生成首尾相连重复循环的视频,甚至连接两个截然不同的视频。 以下是一些 Sora 的案例提示词,如:“小土豆国王戴着雄伟的王冠,坐在王座上,监督着他们广阔的土豆王国,里面充满了土豆臣民和土豆城堡。”“咖啡馆的小地图立体模型,装饰着室内植物。木梁在上方纵横交错,冷萃咖啡站里摆满了小瓶子和玻璃杯。”“一张写有‘SORA’的写实云朵图像。”“一群萨摩耶小狗学习成为厨师的电影预告片‘cinematic trailer for a group of samoyed puppies learning to become chefs’”
2024-12-27
大学教材数据大模型
以下是关于大学教材数据大模型的相关知识: 大模型通俗来讲,是输入大量语料,让计算机获得类似人类的“思考”能力,能够理解自然语言,进行文本生成、推理问答、对话、文档摘要等工作。 大模型的训练和使用过程可以类比为上学参加工作: 1. 找学校:训练大模型需要大量计算,GPU更合适,只有购买得起大量GPU的才有资本训练自己的大模型。 2. 确定教材:大模型需要的数据量特别多,几千亿序列(Token)的输入基本是标配。 3. 找老师:即用合适的算法讲述“书本”中的内容,让大模型更好理解Token之间的关系。 4. 就业指导:为了让大模型更好胜任某一行业,需要进行微调(fine tuning)指导。 5. 搬砖:就业指导完成后,正式干活,比如进行翻译、问答等,在大模型里称之为推导(infer)。 在LLM中,Token被视为模型处理和生成的文本单位,可以代表单个字符、单词、子单词,甚至更大语言单位,具体取决于所使用的分词方法(Tokenization)。Token是原始文本数据与LLM可以使用的数字表示之间的桥梁,在将输入进行分词时,会对其进行数字化,形成一个词汇表。 数字化便于计算机处理,为让计算机理解Token之间的联系,还需把Token表示成稠密矩阵向量,这个过程称为embedding,常见算法有: 基于统计:Word2Vec通过上下文统计信息学习词向量;GloVe基于词共现统计信息学习词向量。 基于深度网络:CNN使用卷积网络获得图像或文本向量;RNN/LSTM利用序列模型获得文本向量。 基于神经网络:BERT基于Transformer和掩码语言建模(Masked LM)进行词向量预训练;Doc2Vec使用神经网络获得文本序列的向量。 以Transform为代表的大模型采用自注意力(Selfattention)机制来学习不同token之间的依赖关系,生成高质量embedding。大模型的“大”指用于表达token之间关系的参数多,主要是模型中的权重(weight)与偏置(bias),例如GPT3拥有1750亿参数,其中权重数量达到这一量级,而词汇表token数只有5万左右。 常用的模型网站有: 下载模型后需要将之放置在指定的目录下,不同类型的模型放置目录不同。模型的类型可以通过检测。 大模型(Ckpt):放入models\\Stablediffusion VAE模型:一些大模型需要配合vae使用,对应的vae同样放置在models\\Stablediffusion或models\\VAE目录,然后在webui的设置栏目选择。 Lora/LoHA/LoCon模型:放入extensions\\sdwebuiadditionalnetworks\\models\\lora,也可以在models/Lora目录 Embedding模型:放入embeddings目录
2024-12-27