直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

如何本地部署大模型搭建个人知识库

回答

以下是关于本地部署大模型搭建个人知识库的详细步骤:

一、Ollama 的安装以及大模型下载

安装完成 Ollama 后,在命令行中运行如下命令即可:[model name]为您想运行的本地大模型的名称。若不知如何选择,可通过model library查看。这里以 llama2 大模型为例:llama2。考虑机器配置及不同版本的内存要求,可选择 7b 参数的模型。运行大模型时,Ollama 会自动下载大模型到本地。

二、RAG 是什么

利用大模型的能力搭建知识库属于 RAG 技术的应用。在进行本地知识库的搭建实操前,需对 RAG 有大概了解。大模型的训练数据有截止日期,当需要依靠不在训练集中的数据时,主要通过检索增强生成 RAG(Retrieval Augmented Generation)实现。RAG 的应用可抽象为 5 个过程:

  1. 文档加载:从多种不同来源加载文档。LangChain 提供 100 多种不同的文档加载器,包括 PDF 等非结构化数据、SQL 等结构化数据以及 Python、Java 之类的代码等。
  2. 文本分割:文本分割器把 Documents 切分为指定大小的块,称为“文档块”或“文档片”。
  3. 存储:涉及两个环节,分别是将切分好的文档块进行嵌入转换成向量的形式,以及将 Embedding 后的向量数据存储到向量数据库。
  4. 检索:通过某种检索算法找到与输入问题相似的嵌入片。

三、通过 Open WebUI 使用大模型

  1. 首先访问相关网址,打开页面时使用邮箱注册账号。
  2. 登陆成功后,Open WebUI 一般有两种使用方式,第一种是聊天对话,第二种是 RAG 能力,即让模型根据文档内容回答问题,这是构建知识库的基础之一。若要求不高,已搭建本地大模型并通过 Web UI 实现对话功能。ChatGPT 访问速度快且回答效果好的原因在于其服务器配置高、训练参数多、数据更优及训练算法更好。若想更灵活掌握知识库,请继续探索。
内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

手把手教你本地部署大模型以及搭建个人知识库

当安装完成ollama之后,我们就可以在命令行中运行如下命令既可以其中[model name]就是你想运行的本地大模型的名称,如果你不知道应该选择哪个模型,可以通过[model library](https://ollama.com/library)进行查看。这里我们选择llama2大模型:[llama2](https://ollama.com/library/llama2)考虑到我机器的配置以及不同版本的内存要求,我这里选择7b参数的模型当我们运行大模型的时候,ollama会自动帮我们下载大模型到我们本地。

手把手教你本地部署大模型以及搭建个人知识库

因为利用大模型的能力搭建知识库本身就是一个RAG技术的应用。所以在进行本地知识库的搭建实操之前,我们需要先对RAG有一个大概的了解。以下内容会有些干,我会尽量用通俗易懂的描述进行讲解。我们都知道大模型的训练数据是有截止日期的,那当我们需要依靠不包含在大模型训练集中的数据时,我们该怎么做呢?实现这一点的主要方法就是通过检索增强生成RAG(Retrieval Augmented Generation)。在这个过程中,首先检索外部数据,然后在生成步骤中将这些数据传递给LLM。我们可以将一个RAG的应用抽象为下图的5个过程:文档加载(Document Loading):从多种不同来源加载文档。LangChain提供了100多种不同的文档加载器,包括PDF在内的非结构化的数据、SQL在内的结构化的数据,以及Python、Java之类的代码等文本分割(Splitting):文本分割器把Documents切分为指定大小的块,我把它们称为“文档块”或者“文档片”存储(Storage):存储涉及到两个环节,分别是:将切分好的文档块进行嵌入(Embedding)转换成向量的形式将Embedding后的向量数据存储到向量数据库检索(Retrieval):一旦数据进入向量数据库,我们仍然需要将数据检索出来,我们会通过某种检索算法找到与输入问题相似的嵌入片

手把手教你本地部署大模型以及搭建个人知识库

1.首先访问如下网址当你打开这个页面的时候,会让你登陆,这个时候我们随便使用一个邮箱注册一个账号即可1.和本地大模型进行对话登陆成功之后,如果你已经使用过ChatGPT等类似的大模型对话网站,我相信你对这个页面并不陌生。Open WebUI一般有两种使用方式第一种是聊天对话第二种是RAG能力,也就是可以让模型根据文档内容来回答问题。这种能力就是构建知识库的基础之一如果你的要求不高的话,我们已经搭建了一个本地大模型了,并且通过Web UI实现了和大模型进行对话的功能。相信通过这么一通折腾,你就理解了ChatGPT的信息流,至于为什么ChatGPT的访问速度比我们自己的要快,而且回答效果要好,有两个原因快:是因为GPT大模型部署的服务器配置高好:是因为GPT大模型的训练参数多,数据更优以及训练算法更好如果你想要更加灵活的掌握你的知识库,请接着往下看

其他人在问
知识库都有哪些提示词框架
以下是一些常见的提示词框架: ICIO 框架:包括 Instruction(指令)、Context(背景信息)、Input Data(输入数据)、Output Indicator(输出引导)。 CRISPE 框架:涵盖 Capacity and Role(能力和角色)、Insight(见解)、Statement(声明)、Personality(个性)、Experiment(实验)。 BROKE 框架:包含 Background(背景)、Role(角色)、Objectives(目标)、Key Result(关键结果)。 TRACE 框架:有 TASK(任务)、REQUEST(请求)、ACTION(行动)、CONTEXT(上下文)、EXAMPLE(示例)。 ERA 框架:包括 EXPECTATION(期望)、ROLE(角色)、ACTION(行动)。 CARE 框架:由 CONTEXT(上下文)、ACTION(行动)、RESULT(结果)、EXAMPLE(示例)组成。 ROSES 框架:包含 ROLE(角色)、OBJECTIVE(目的)、SCENARIO(方案)。 Evolve 框架:包括试验并改进,通过改进输入、改进答案、重新生成等方法。 APE 框架。 COAST 框架:包含 CONTEXT(上下文背景)、OBJECTIVE(目的)、ACTION(行动)、SCENARIO(方案)、TASK(任务)。 TAG 框架:包括 TASK(任务)、ACTION(行动)、GOAL(目标)。 RISE 框架。
2024-10-17
基于飞书的知识库RAG的搭建,需要什么接口进行全文搜索
基于飞书的知识库 RAG 搭建,可用于全文搜索的接口方式主要有以下几种: 1. 语义检索:语义匹配关注查询和文档内容的意义,而非仅仅表面的词汇匹配。通过向量的相似性来判断语义的相似性。 2. 全文检索:这是基于关键词的检索方式。例如,对于句子“猫的饮食习惯包括吃鱼和鸡肉”,输入“猫”“饮食”“猫的饮食习惯”“吃鱼”等关键词可搜索到该句子,但输入“猫喜欢吃什么呀”则无法搜索到。 3. 混合检索:结合了语义匹配和全文检索的优点,通常系统先进行全文检索获取初步结果,然后再对这些结果进行语义匹配和排序。 此外,在本地部署资讯问答机器人实现 RAG 时,会涉及加载所需的库和模块,如 feedparse 用于解析 RSS 订阅源,ollama 用于在 python 程序中跑大模型。还会为文档内容生成向量,如使用文本向量模型 bgem3 等。 在开发 LangChain 应用开发指南中,实现 LangChain 和 RAG 的结合时,需要加载数据、分割文档、转换嵌入并存储到向量存储器、创建检索器以及聊天模型等步骤。
2024-10-17
推荐一些知识库系统
以下为您推荐一些知识库系统: 1. 专家系统: 是符号人工智能的早期成就之一,为充当有限问题领域的专家而设计。 包含从人类专家提取的知识库、推理引擎以及问题记忆。 推理引擎协调问题状态空间的搜索过程,必要时向用户提问。 例如根据动物物理特征判断动物的专家系统,可通过绘制 ANDOR 树或使用规则来表示知识。 2. AI Agent 中的外置知识: 由外部数据库提供,特点是能够动态更新和调整。 涉及多种数据存储和组织方式,包括向量数据库、关系型数据库和知识图谱。 实际应用中常采用 RAG 架构,结合检索和生成,增强模型的生成能力。 3. 知识管理体系: 是组织和管理信息、数据和知识的方法,帮助个人或组织有效捕捉、组织、访问和使用知识,提高效率、创新能力和决策质量。 包括收集信息、整理知识、分享经验、促进学习和创新等流程,以及分类、标签和索引等组织方式。 关键组成部分有知识的捕捉、组织、分享和应用。 创建知识管理体系可提高效率、增强决策能力、促进创新和增强适应能力。
2024-10-16
如何创建知识库?
创建知识库主要有以下两种方式: 1. 创建并上传表格数据: 在页面顶部进入知识库页面,并单击创建知识库。 在弹出的页面配置知识库名称、描述,并单击确认。需注意一个团队内的知识库名称不可重复,必须是唯一的。 在单元页面,单击新增单元。 在弹出的页面,选择表格格式,然后选择一种上传方式完成数据上传。 2. 创建并上传文本内容: 登录。 在左侧导航栏的工作区区域,选择进入指定团队。 在页面顶部进入知识库页面,并单击创建知识库。 在弹出的页面配置知识库名称、描述,并单击确认。同样一个团队内的知识库名称不可重复,必须是唯一的。 在单元页面,单击新增单元。 在弹出的页面选择要上传的数据格式,默认是文本格式,然后选择一种文本内容上传方式完成内容上传。 此外,还可以参考以下文章获取更详细的信息:
2024-10-15
你好,你的知识库管理采用的大模型流程是什么,请勇mermaid说明一些
以下是关于大模型流程的详细说明: RAG(Retrieval Augmented Generation,检索增强生成)技术应用于利用大模型能力搭建知识库,其流程主要包括以下 5 个过程: 1. 文档加载(Document Loading):从多种不同来源加载文档,如 PDF 等非结构化数据、SQL 等结构化数据以及 Python、Java 之类的代码等。LangChain 提供了 100 多种不同的文档加载器。 2. 文本分割(Splitting):文本分割器把文档切分为指定大小的块,称为“文档块”或者“文档片”。 3. 存储: 将切分好的文档块进行嵌入(Embedding)转换成向量的形式。 将 Embedding 后的向量数据存储到向量数据库。 4. 检索(Retrieval):通过某种检索算法从向量数据库中找到与输入问题相似的嵌入片。 5. 输出(Output):把问题以及检索出来的嵌入片一起提交给 LLM,LLM 会通过问题和检索出来的提示一起来生成更加合理的答案。 从用户提出问题开始,还经历了以下流程: 1. 用户问题的理解。 2. 根据用户问题进行路由。 3. 进行初步的检索。 4. 对初步检索的结果进行重排序。 5. 将重排序后的结果和用户的查询意图组合成上下文输入给大模型。 6. 大模型通过指定的提示词生成输出结果。 需要注意的是,重排序的结果通常不会都被用作大模型的上下文,因为大模型的上下文有限制。可以设置一个阈值进行截断,比如只使用前 3 5 个文档;也可以设置一个相关性分数的阈值,只取相关性分数大于某个值的文档。一些先进的 RAG 系统会对选中的文档进行摘要或压缩,以在有限的空间内包含更多相关信息。 在大模型输出结果后还有后置处理,可能包括敏感内容检测和移除、格式化输出等。 LLM 的工作原理可以这样理解:以“我今天吃了狮子头和蔬菜”这句话为例,在 Transformer 中,会由 Attention 层对这句话加入更多的信息来补充,比如补充“狮子头是一道菜”“今天是星期六”等等。这些补充信息,会作为输入给到下一个 Attention 层进行补充。最终层与层之间,哪些信息需要补充,哪些信息需要保留,哪些信息传递,均由模型自主学习完成。总结起来就是大模型以词向量和 Transformer 的模型学习了海量的知识,把知识作为向量空间中的一种关系网进行存储,并在接受输入时,通过向量空间中的一系列匹配进行输出。这就像人脑在阅读学习的过程,记忆的不是点状的知识,而是网状的经验。
2024-10-15
如何通过ollama 搭建本地知识库
以下是通过 Ollama 搭建本地知识库的步骤: 1. 了解背景:本文思路来源于视频号博主黄益贺,旨在分享如何部署本地大模型及搭建个人知识库,让您了解相关核心技术及流程。 2. Ollama 简介:Ollama 是一个开源框架,用于简化本地运行大型语言模型的过程,是轻量级、可扩展的,提供简单 API 和预构建模型库,适合初学者和非技术人员,能推动大型语言模型的发展和应用。 3. 安装 Ollama:官方下载地址为 https://ollama.com/download ,安装完成后可通过访问特定链接判断是否安装成功。 4. 运行本地大模型:安装完成后,在命令行中运行相应命令,模型名称可通过查看,如选择 llama2 大模型,可根据机器配置选择合适参数的模型,运行时 Ollama 会自动下载大模型到本地。 此外,还有关于本地部署资讯问答机器人:Langchain + Ollama + RSSHub 实现 RAG 的相关内容,包括加载所需库和模块、从订阅源获取内容、为文档内容生成向量等步骤。
2024-10-12
我正在做一个项目“基于chatGPT的剧本杀微信小程序开发”,现在要进行大数据平台后端的开发与搭建,请告诉我怎么入手
以下是基于您的项目“基于 chatGPT 的剧本杀微信小程序开发”进行大数据平台后端开发与搭建的入手步骤: 1. 搭建 OneAPI(https://github.com/songquanpeng/oneapi),其作用是汇聚整合多种大模型接口,方便后续更换使用各种大模型,同时会告知您如何白嫖大模型接口。 2. 搭建 FastGpt(https://fastgpt.in/),这是一个知识库问答系统。您将知识文件放入其中,并接入上面的大模型作为分析知识库的大脑,用于回答问题。如果不想接到微信,仅自己使用,搭建到此即可,它本身也有问答界面。 3. 搭建 chatgptonwechat(https://github.com/zhayujie/chatgptonwechat)以接入微信,并配置 FastGpt 将知识库问答系统接入微信。建议先使用小号以防封禁风险。搭建完成后若想拓展功能,可参考 Yaki.eth 同学的教程(https://waytoagi.feishu.cn/wiki/UADkwZ9B0iAWdTkFJIjcN7EgnAh),其中的 cow 插件具备文件总结、MJ 绘画的能力。 完成上述 3 步即可。
2024-10-16
如果我想做一个基于chatGPT的剧本杀创作的微信小程序开发项目,现在要进行大数据平台的后端开发与搭建,你建议怎么入手
以下是基于您的需求,对于大数据平台后端开发与搭建的建议: 1. 首先搭建 OneAPI(https://github.com/songquanpeng/oneapi),它能够汇聚整合多种大模型接口,方便后续更换使用不同的大模型,同时还会为您介绍如何白嫖大模型接口。 2. 接着搭建 FastGpt(https://fastgpt.in/),这是一个知识库问答系统。您可以将知识文件放入其中,并接入上面的大模型作为分析知识库的大脑,用于回答问题。如果不想接到微信使用,搭建到这里就可以,因为它本身也有问答界面。 3. 然后搭建 chatgptonwechat(https://github.com/zhayujie/chatgptonwechat)接入微信,并配置 FastGpt 将知识库问答系统接入微信。建议先使用小号,以防有封禁风险。搭建完成后若想拓展功能,可参考 Yaki.eth 同学的教程(https://waytoagi.feishu.cn/wiki/UADkwZ9B0iAWdTkFJIjcN7EgnAh),其中的 cow 插件具备文件总结、MJ 绘画的能力。 完成以上 3 步,整个项目就算基本完成。
2024-10-16
我想要自己搭建一个自己的agent,应该怎么做
要搭建自己的 agent ,您可以参考以下步骤: 1. 熟悉工具: 了解通常 Agent 框架中自带的工具,比如大聪明的插件:webcopilot 。 关注 Coze.cn 插件列表,可采用罗文提供的提示词获取插件说明: 。 了解互联网 API ,如 Jina (https://jina.ai/)、高德 API ()等。 熟悉本机软件。 2. 从案例入门: 三分钟捏 Bot : Step 1 :(10 秒)登录控制台,使用手机号或抖音注册/登录扣子控制台(coze.cn)。 Step 2 :(20 秒)在我的空间创建 Agent ,在扣子主页左上角点击“创建 Bot ”,选择空间名称为“个人空间”、Bot 名称为“第一个 Bot ”,并点击“确认”完成配置。如需使用其他空间,请先创建后再选择;Bot 名称可以自定义。 Step 3 :(30 秒)编写 Prompt ,填写 Prompt ,即自己想要创建的 Bot 功能说明。第一次可以使用一个简短的词语作为 Prompt 提示词。 Step 4 :(30 秒)优化 Prompt ,点击“优化”,使用来帮忙优化。 Step 5 :(30 秒)设置开场白。 Step 6 :(30 秒)其他环节。 Step 7 :(30 秒)发布到多平台&使用。 进阶之路: 15 分钟:查看下其他 Bot ,获取灵感。 1 小时:找到和自己兴趣、工作方向等可以结合的 Bot ,深入沟通,阅读相关文章。 一周:了解基础组件,寻找不错的扣子,借鉴&复制,加入 Agent 共学小组,尝试在群里问第一个问题。 一个月:合理安排时间,参与 WaytoAGI Agent 共学计划,自己创建 Agent ,并分享自己捏 Bot 的经历和心得。 3. 了解智能体相关知识: 智能体大多建立在大模型之上,从基于符号推理的专家系统逐步演进而来。 基于大模型的智能体具有强大的学习能力、灵活性和泛化能力。 智能体的核心在于有效控制和利用大型模型,提示词的设计直接影响智能体的表现和输出结果。 4. 动手实践: 基于公开的大模型应用产品(如 Chat GLM 、Chat GPT 、Kimi 等),尝试开发属于自己的智能体。 比如,在相关平台上: Step.1 点击“浏览 GPTs ”按钮。 Step.2 点击“Create ”按钮创建自己的智能体。 Step.3 使用自然语言对话进行具体设置或手工设置。 Step.4 开始调试您的智能体并发布。
2024-10-15
在AI领域,介绍一下智能体和搭建智能体
智能体是建立在大模型之上的,其发展从基于符号推理的专家系统逐步演进而来。基于大模型的智能体具有强大的学习能力,能通过大量数据学习,获得对语言、图像等多种信息的理解和处理能力;具有灵活性,可适应不同任务和环境;具有泛化能力,能将学到的知识泛化到新情境中解决类似问题。 简单理解,智能体就是 AI 机器人小助手,参照移动互联网,类似 APP 应用的概念。在 C 端,比如社交方向,用户注册后先捏一个自己的智能体,然后让其与他人的智能体聊天,两个智能体聊到一起后再真人介入。在 B 端,有帮助商家搭建智能体的机会。 目前有很多智能体开发平台,如字节的扣子 Coze,2 月 1 日字节正式推出其国内版,主要用于开发下一代 AI 聊天机器人。此外还有 Dify.AI 等。 搭建智能体可以基于一些公开的大模型应用产品,如 Chat GLM、Chat GPT、Kimi 等。具体步骤包括: 1. 点击“浏览 GPTs”按钮。 2. 点击“Create”按钮创建自己的智能体。 3. 使用自然语言对话或手工设置进行具体设置。 4. 开始调试智能体并发布。 智能体的开发是一个不断学习和进步的过程,通过实践能更好地理解其潜力和发掘应用场景的可能性。
2024-10-14
什么是搭建智能体
搭建智能体是指构建在特定场景下能够执行特定任务的人工智能实体。在游戏中,搭建智能体包括构建游戏的非玩家角色(NPC),涵盖创建其移动、寻路、攻击、对话等行为和交互动作,为游戏增添丰富内容。从更广泛的角度看,智能体可以被简单理解为 AI 机器人小助手,类似于移动互联网中的 APP 应用。在面向用户提供服务时,智能体是基于大型语言模型的能力构建的,被设计成在特定情景下充当专家角色,专门处理某个领域的专业任务。例如在社交方向,用户可以先创建自己的智能体,让其与他人的智能体聊天,然后真人再介入。在 B 端,也有帮助商家搭建智能体的机会。目前有很多公司关注智能体开发平台,如字节的扣子和腾讯的元器等。
2024-10-14
我的app应用想要对接大语言模型,结合APP用户自身的数据,实现更精准的对话,是否有行业比较成功的案例可以借鉴
以下是一些在 APP 应用对接大语言模型方面比较成功的案例,可供您借鉴: 1. Poe: 由 Quora 开发,有 APP 版本,支持跨端使用。 集成了 Chat GPT、GPT4、Claude+、Claude、Dragonfly 等模型,同时支持用户自建 Chatbot。 不同语言模型回复效果有差异,适合需要调用多种大语言模型的用户。 Dragonfly 擅长给出较短的回答,并擅长在输入中给出示例时遵循指示。 Claude 更擅长创造性回复,配合 Poe 中的提问引导,非常适合在查阅资料时使用。 支持分享用户和模型的对话内容,但 GPT4、Claude+产品需要付费订阅使用。 访问地址: Poe 中的提问引导真的能够启发到用户,midjourney prompt 扩写 Chatbot 能力很惊人。 2. Perplexity.ai: 本质是个可联网的搜索引擎,完全免费,支持网页版、APP(目前支持 iOS,安卓即将推出)、Chrome 插件。 网页版能力全面,能够根据提问从互联网上搜寻信息并给出总结后的答案。 很多 Chat GPT 中调用插件才能解决的事情(联网查询、旅行、住宿、商品推荐)靠 Perplexity 就可以解决。 能给出信息来源网址,并根据搜索内容给出继续对话的问题建议。 最新推出的 Copilot 能力支持根据搜索内容进行信息补充,每 4h 内使用 5 次,调用 GPT4。 支持分享聊天内容到多渠道。 首页推荐当下流行的新闻、搜索内容。 支持筛选 Academic(包含不同领域的学术研究论文)、Wolfram|Alpha(包含数学、科学、经济学、语言学、工程学、社会科学、文化等领域的知识库)、Wikipedia(维基百科)、Youtube、Reddit(娱乐、社交和新闻网站)、News 进行搜索。 Chrome 插件可针对当前页面给出即时摘要。 访问地址:
2024-10-18
大模型合规
大模型的安全问题包括以下方面: 1. 对齐保障:通过对齐(指令调优),如 ChatGPT 从 GPT3 经过对齐而来,使其更好地理解人类意图,增加安全保障,确保不输出有害内容。对齐任务可拆解为监督微调及获取奖励模型和进行强化学习来调整输出分布。例如 LLAMA2 使用安全有监督微调确保安全,强化学习能让模型根据人类反馈更细粒度思考答案的安全性,面对训练分布外数据也能拒绝不当回答。 2. 数据过滤:在预训练阶段对数据进行过滤,如 baichuan2 采用此技术减少有害输出,但因数据关联性,仅靠此方法可能不够,模型仍可能从关联中学到有害内容,且面对不良信息时可能因缺少知识而处理不当。 3. 越狱问题:用户可能通过越狱(Jailbreak)使模型的对齐失效,重新回答各种问题。 大模型的特点包括: 1. 架构:分为 encoderonly、encoderdecoder、decoderonly 三类,目前熟知的 AI 助手多为 decoderonly 架构,由 transformer 衍生而来。 2. 规模:预训练数据量大,来自互联网的多种来源,且参数众多,如 GPT3 已达 170B 的参数。 GPT3 与 ChatGPT 相比,除形式不同外,安全性也有差别。
2024-10-18
大模型安全相关资料
以下是关于大模型安全的相关资料: 大模型的架构:包括 encoderonly、encoderdecoder 和 decoderonly 三种类型。其中,我们熟知的 AI 助手基本采用 decoderonly 架构,这些架构都是由谷歌 2017 年发布的“attention is all you need”论文中提出的 transformer 衍生而来。 大模型的特点:预训练数据量大,往往来自互联网上的论文、代码、公开网页等,通常用 TB 级别的数据进行预训练;参数非常多,如 Open 在 2020 年发布的 GPT3 就已达到 170B 的参数。 大模型的安全性保障:通过对齐(指令调优),包括监督微调、获取 reward model 与进行强化学习来调整语言模型的输出分布,以保证语言模型不会输出有害内容和信息。例如 LLAMA2 专门使用了安全有监督微调确保安全。但 Alignment 并不足以防护所有安全问题,存在越狱(Jailbreak)现象,会使模型对齐失效。此外,还有隐私问题。 相关资源:如果想进一步了解大语言模型安全,可以访问 Github awesomellmsafety 项目:https://github.com/ydyjya/AwesomeLLMSafety
2024-10-18
目前最好用的机关公文写作大模型或智能体
目前在机关公文写作方面表现较好的大模型或智能体有: 智谱清言:由智谱 AI 和清华大学推出,基础模型为 ChatGLM 大模型。在工具使用排名国内第一,在计算、逻辑推理、传统安全能力上排名国内前三。更擅长专业能力,但在代码能力上还有优化空间,知识百科方面稍显不足。可应用场景广泛,在 AI 智能体方面相关的应用,包括任务规划、工具使用及长文本记忆相关场景表现出色,在较复杂推理应用上效果不错,也适用于广告文案、文学写作等。 此外,在大模型中,智能体是大模型的一个重要发展方向。智能体可以理解为在大模型(如 LLM)基础上增加了工具、记忆、行动、规划等能力。目前行业里主要用到的如 langchain 框架,能通过代码或 prompt 的形式将 LLM 与 LLM 之间以及 LLM 与工具之间进行串接。
2024-10-18
你知道有支持个性化训练的大预言模型么
以下是一些支持个性化训练的大语言模型: 1. Character.ai:更注重人格属性,试图满足社交、情感、陪伴等需求,与 ChatGPT 侧重不同,后者注重提高效率和解放生产力。 2. Midjourney:今天发布了模型个性化 Personalization 或 'p'的早期测试版本。模型个性化会学习用户的喜好,以便更可能用用户的口味来填补空白。其要求包括目前从成对排名中的投票和喜欢的探索页面上的图像中学习,需要大约 200 个成对排名/喜欢才能生效。使用时只需在提示后输入 'p',或使用提示栏中的设置按钮为所有提示启用个性化功能,还可以使用 's 100'控制个性化效果的强度。但需注意个性化目前不是一个稳定的功能,会随着进行更多的成对排名而变化,且可能会在接下来的几周内推出算法更新。
2024-10-18
我该如何利用文心一言、kimi等已有的大语言模型去作个性化训练?
已有的大语言模型如文心一言、kimi 等通常不支持个人进行个性化训练。 大语言模型的相关知识包括: 国内大模型有通用模型如文心一言、讯飞星火等,处理自然语言;还有垂直模型,专注特定领域。 大语言模型工作原理包括训练数据、算力、模型参数,在训练数据一致情况下,模型参数越大能力越强。 Transformer 是大语言模型训练架构,具备自我注意力机制能理解上下文和文本关联。 大模型可能因错误数据导致给出错误答案,优质数据集对其很重要。 Prompt 分为 system prompt、user prompt 和 assistant prompt,写好 prompt 的法则包括清晰说明、指定角色、使用分隔符、提供样本等。 Fine tuning 是基于通用大模型,针对特定领域任务提供数据进行学习和调整,以适应特定领域的需求。 学习大型语言模型(LLM)的开发是一个系统性的过程,需要涵盖多个方面的知识和技能: 掌握深度学习和自然语言处理基础,包括机器学习、深度学习、神经网络等基础理论,以及自然语言处理基础,如词向量、序列模型、注意力机制等。 理解 Transformer 和 BERT 等模型原理,掌握相关论文。 学习 LLM 模型训练和微调,包括大规模文本语料预处理,使用预训练框架,以及微调 LLM 模型进行特定任务迁移。 掌握 LLM 模型优化和部署,包括模型压缩、蒸馏、并行等优化技术,模型评估和可解释性,以及模型服务化、在线推理、多语言支持等。 进行 LLM 工程实践和案例学习,结合行业场景,进行个性化的 LLM 训练,分析和优化具体 LLM 工程案例,研究 LLM 新模型、新方法的最新进展。 持续跟踪前沿发展动态。 机器学习是人工智能的一个子领域,深度学习是机器学习的一个子领域,大语言模型是深度学习在自然语言处理领域的应用之一,具有生成式 AI 的特点。
2024-10-18
如何在个人电脑中部署本地RAG
在个人电脑中部署本地 RAG 可以按照以下步骤进行: 1. 加载所需的库和模块: 确保 ollama 服务已开启并下载好模型,ollama 用于在 python 程序中跑大模型。 feedparse 用于解析 RSS 订阅源。 2. 从订阅源获取内容: 函数用于从指定的 RSS 订阅 url 提取内容,如需接收多个 url 可稍作改动。 通过专门的文本拆分器将长文本拆分成较小的块,并附带相关元数据,如标题、发布日期和链接。最终,这些文档被合并成一个列表并返回,用于进一步的数据处理或信息提取任务。 3. 为文档内容生成向量: 使用文本向量模型 bgem3,从 hf 下载好模型后放置在指定路径,如 /path/to/bgem3,通过函数利用 FAISS 创建一个高效的向量存储。 4. 创建 Python 虚拟环境: 创建 python 虚拟环境,并安装相关库,版本如下: ollama:0.1.8 langchain:0.1.14 faisscpu:1.8.0(有 gpu 则安装 gpu 版本) gradio:4.25.0 feedparser:6.0.11 sentencetransformers:2.6.1 lxml:5.2.1 5. 导入依赖库。 6. 基于用户的问题,从向量数据库中检索相关段落,并根据设定的阈值进行过滤,最后让模型参考上下文信息回答用户的问题,从而实现 RAG。 7. 创建网页 UI:通过 gradio 创建网页 UI,并进行评测。 8. 问答测试:对于同样的问题和上下文,基于 Qwen7b、Gemma、Mistral、Mixtral 和 GPT4 分别进行多次测试。 总结: 1. 本文展示了如何使用 Langchain 和 Ollama 技术栈在本地部署一个资讯问答机器人,同时结合 RSSHub 来处理和提供资讯。 2. 上下文数据质量和大模型的性能决定了 RAG 系统性能的上限。 3. RAG 通过结合检索技术和生成模型来提升答案的质量和相关性,可以缓解大模型幻觉、信息滞后的问题,但并不意味着可以消除。
2024-10-13
dify的部署和ollama联动
以下是关于 Dify 与 Ollama 联动部署的相关信息: Ollama 的特点和功能: 1. 支持多种大型语言模型,如通义千问、Llama 2、Mistral 和 Gemma 等,适用于不同应用场景。 2. 易于使用,适用于 macOS、Windows 和 Linux 系统,同时支持 CPU 和 GPU。 3. 提供模型库,用户可从中下载不同参数和大小的模型,通过 https://ollama.com/library 查找。 4. 支持自定义模型,可修改温度参数调整创造性和连贯性,或设置特定系统消息。 5. 提供 REST API 用于运行和管理模型,以及与其他应用程序的集成选项。 6. 社区贡献丰富,包括多种集成插件和界面,如 Web 和桌面应用、Telegram 机器人、Obsidian 插件等。 Ollama 的安装和使用: 1. 访问 https://ollama.com/download/ 下载安装。 2. 安装完后,确保 Ollama 后台服务已启动。在 Mac 上启动 Ollama 应用程序,在 Linux 上通过 ollama serve 启动。可通过 ollama list 确认。 3. 通过 ollama 命令下载模型。 Google Gemma 的本地部署: 1. 进入 ollama.com 下载程序并安装(支持 Windows、Linux 和 macOS)。 2. 在命令提示符中输入 ollama v 检查版本,安装完成后版本应为 0.1.26。 3. 输入 cls 清空屏幕,然后输入 ollama run gemma 运行模型(默认是 2b),首次需要下载。若想用 7b,运行 ollama run gemma:7b 。 4. 完成后可直接对话。2b 反应速度快但互动话题有限,7b 输出内容质量相对高但可能卡顿,对非英文语种反馈不稳定。 5. 常用内部指令:/set 显示设置界面可调整的设置项;/show 显示模型信息;/load <model> 加载已有模型;/bye 退出。 整体框架设计思路: 可先采取 Langchain + Ollama 的技术栈作为 demo 实现,后续也可考虑使用 dify、fastgpt 等更直观易用的 AI 开发平台。本次开发的运行环境是 Intel Mac,其他操作系统也可行。下载模型等可能需要梯子。 Langchain 简介: Langchain 是当前大模型应用开发的主流框架之一,提供一系列工具和接口,使与 LLM 交互变简单。其核心在于“链”概念,是模块化组件系统,包括 Model I/O、Retrieval、Chains、Agents、Memory 和 Callbacks 等组件,可灵活组合支持复杂应用逻辑。其生态系统还包括 LangSmith、LangGraph 和 LangServe 等工具,帮助开发者高效管理从原型到生产的各个阶段以优化 LLM 应用。
2024-10-08
如在腾讯云上部署ollama
以下是在腾讯云上部署 Ollama 的详细步骤: 一、下载并安装 Ollama 1. 根据您的电脑系统,点击进入 https://ollama.com/download 下载 Ollama。 2. 下载完成后,双击打开,点击“Install”。 3. 安装完成后,将下方地址复制进浏览器中。如果出现下方字样,表示安装完成:http://127.0.0.1:11434/ 二、下载 qwen2:0.5b 模型(0.5b 是为了方便测试,下载快,自己设备充足的话,可以下载更大的模型) 1. 如果您是 Windows 电脑,点击 win+R,输入 cmd,点击回车。如果您是 Mac 电脑,按下 Command(⌘)+ Space 键打开 Spotlight 搜索,输入“Terminal”或“终端”,然后从搜索结果中选择“终端”应用程序。 2. 复制以下命令行,粘贴进入,点击回车。 3. 回车后,会开始自动下载,等待完成。(这里下载久了,可能会发现卡着不动,不知道下载了多少了。鼠标点击一下窗口,键盘点空格,就会刷新了) 4. 下载完成后您会发现,大模型已经在本地运行了。输入文本即可进行对话。 三、下载 Open WebUI 1. 回到桌面,再打开一个新的终端窗口(可以放心多个窗口,不会互相影响)。如果您是 Windows 电脑,点击 win+R,输入 cmd,点击回车。如果您是 Mac 电脑,按下 Command(⌘)+ Space 键打开 Spotlight 搜索,输入“Terminal”或“终端”,然后从搜索结果中选择“终端”应用程序。 2. 将以下命令输入,等待下载。 3. 出现相关图示,即是下载完成。 4. 点击或复制下方地址进入浏览器:http://localhost:3000/auth/ 5. 点击进行注册即可,注册输入昵称、邮箱、密码。注册完即可登录进入。 6. 登入后,看到如下页面,点击顶部的 Model,选择“llama3:8b”。 7. 完成。您已经拥有了一个属于自己的本地大语言模型。可以开始与他对话啦! 四、部署 Google Gemma 1. 首先进入 ollama.com,下载程序并安装(支持 windows,linux 和 macos)。 2. 查找 cmd 进入命令提示符,输入 ollama v 检查版本,安装完成后版本应该显示 0.1.26。 3. 输入 cls 清空屏幕,接下来直接输入 ollama run gemma 运行模型(默认是 2b),首次需要下载,需要等待一段时间,如果想用 7b,运行 ollama run gemma:7b 。 4. 完成以后就可以直接对话了,2 个模型都安装以后,可以重复上面的指令切换。
2024-09-27
部署本地知识库有哪些开源的
以下是一些关于部署本地知识库的开源相关信息: 在“手把手教你本地部署大模型以及搭建个人知识库”中提到: 利用大模型的能力搭建知识库本身就是一个 RAG 技术的应用。在这个过程中,首先检索外部数据,然后在生成步骤中将这些数据传递给 LLM。RAG 的应用可抽象为 5 个过程,包括文档加载(从多种不同来源加载文档,LangChain 提供了 100 多种不同的文档加载器)、文本分割(把 Documents 切分为指定大小的块)、存储(将切分好的文档块进行嵌入转换成向量的形式,并将 Embedding 后的向量数据存储到向量数据库)、检索(通过某种检索算法找到与输入问题相似的嵌入片)。 文中还介绍了如何使用 Ollama 一键部署本地大模型、通过搭建本地的聊天工具了解 ChatGPT 的信息流转、如何通过 AnythingLLM 这款软件搭建完全本地化的数据库。 智谱·AI 开源了以下模型: WebGLM10B:利用百亿参数通用语言模型(GLM)提供高效、经济的网络增强型问题解答系统。它旨在通过将网络搜索和检索功能集成到预训练的语言模型中,改进现实世界的应用部署。 WebGLM2B:与 WebGLM10B 类似。 MathGLM2B:在训练数据充足的情况下,20 亿参数的 MathGLM 模型能够准确地执行多位算术运算,准确率几乎可以达到 100%,其结果显著超越最强大语言模型 GPT4 在相同测试数据上 18.84%的准确率。
2024-09-24
dify私有化部署
以下是关于 Dify 私有化部署的相关信息: 1. 部署步骤: 通过云服务器进行部署,相关命令在宝塔面板的终端安装,例如在/root/dify/docker 目录下的 dockercompose 文件。 检查运行情况,若 nginx 容器无法运行,可能是 80 端口被占用,可将终端输出的代码粘贴给 AI 以解决。 在浏览器地址栏输入公网 IP(去掉宝塔面板地址栏后的:8888),随便填写邮箱密码建立知识库并进行设置。 2. 模型选择与配置: 可以选择国内有免费额度的模型,如智谱 AI。 以智谱 AI 为例,在其官网用手机号注册,添加 API keys 并查看免费额度,将钥匙复制保存。 随便创建应用,可先选择智谱 glm4 测试,然后点发布。 创建并复制 api 秘钥。 3. Dify 特点: 作为开源应用,易用性出色且功能强大,安装过程简单快捷,熟练用户约 5 分钟可在本地完成部署。 支持本地部署和云端应用,能应对工作流、智能体、知识库等。 本地部署需自行处理模型接入等问题,包括购买 API、接入不同类型模型,构建个人知识库时还需考虑数据量、嵌入质量和 API 费用等因素。
2024-09-20
dify部署
以下是关于 Dify 部署的相关信息: 1. 可以通过云服务器来部署 Dify。相关命令在宝塔面板的终端安装,比如在/root/dify/docker 目录下的 dockercompose 文件,可修改并学习其中文件的意思。若 docker compose ps 时发现 nginx 容器无法运行,可能是 80 端口被占用,可将终端输出的代码粘贴给 AI 来解决,要确保前一步成功再进行下一步。 2. 部署完成后,在浏览器地址栏输入公网 IP(去掉宝塔面板地址栏后面的:8888),随便填写邮箱密码建立知识库并进行设置。 3. 选择模型时,国内模型有免费额度,以智谱 AI 为例,点设置从其获取钥匙,在智谱官网用手机号注册,添加 API keys 并复制,查看免费额度,回到部署页面复制钥匙保存,创建应用。可先选择智谱 glm4 测试,有回应后点发布,创建并复制 api 秘钥。 4. Dify 是开源的私人定制类 AI 应用,易用性出色且功能强大,安装过程简单快捷,熟练用户约 5 分钟能在本地完成部署。它支持本地部署和云端应用,能应对工作流、智能体和知识库等,但本地部署需自行处理模型接入等问题,构建个人知识库时要考虑数据量、嵌入质量和 API 费用等因素。
2024-09-20