Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

给大模型喂养的知识库哪里有

Answer

以下是一些获取给大模型喂养的知识库的途径和相关信息:

  1. 在 Coze 中,大模型存在不准确和数据限制的问题,因此知识库的出现是为解决数据准确性。典型应用如客服系统,公司可将用户问题及答案记录在文档中作为知识库投喂给大模型,以实现更准确的回答。
  2. 在阿里云百炼中,为 AI 助手增加私有知识的步骤包括:上传文件,在百炼控制台的[数据管理]中的非结构化数据页签中点击导入数据;建立索引,进入[知识索引]创建新的知识库并选择上传的文件;引用知识,完成知识库创建后在[我的应用]中设置,打开知识检索增强开关、选择目标知识库并发布。
  3. 在探讨大模型的 Brain 模块时,知识分为两大类,其中内置知识又可细分为常识知识、专业知识和语言知识。常识知识涵盖日常生活的事实和逻辑规则,专业知识涉及特定领域的详细信息,语言知识包括语法规则、句型结构、语境含义等。
Content generated by AI large model, please carefully verify (powered by aily)

References

大圣:胎教级教程:万字长文带你使用Coze打造企业级知识库

大模型并不是100%准确的,它会产生幻觉,主要是因为以下两点训练大模型的数据是有日期限制的,如果你询问大模型超出日期限制的问题,则大模型无法准确回答大模型的数据来源于互联网,如果是公司内部的私有数据,则大模型无法感知因此知识库的出现就是为了解决大模型的数据准确性的问题。大模型可以额外学习外接知识库中的知识,从而来精准回复用户。知识库中最典型的一个应用就是客服系统:公司可以将用户所有问题以及答案记录在文档中,然后以知识库的形式投喂给大模型。这样当用户通过自然语言询问问题时,大模型就可以根据知识库中的内容给出更加准确的回答。

10分钟在网站上增加一个AI助手

接下来,我们可以尝试让大模型在面对客户问题时参考这份文档,以产出一个更准确的回答和建议。1.上传文件:在百炼控制台的[数据管理](https://bailian.console.aliyun.com/#/data-center)中的非结构化数据页签中点击导入数据,根据引导上传我们虚构的百炼系列手机产品介绍:2.根据您上传的文档大小,百炼需要一定时间解析,通常占用1~6分钟,请您耐心等待。3.1.2.建立索引:进入[知识索引](https://bailian.console.aliyun.com/#/knowledge-base),根据引导创建一个新的知识库,并选择刚才上传的文件,其他参数保持默认即可。知识库将为上一步骤中准备的文档建立索引,以便后续大模型回答时检索参考。3.选择向量存储类型时,如果您希望集中存储、灵活管理多个应用的向量数据,可选择ADB-PG。4.1.2.1.2.引用知识:完成知识库的创建后,可以返回[我的应用](https://bailian.console.aliyun.com/#/app-center)进入到刚才创建的应用设置界面,打开知识检索增强开关、选择目标知识库,测试验证符合预期后点击发布。Prompt中会被自动添加一段信息,以便大模型在后续回答时参考检索出来的信息。3.1.[heading3]4.2检验效果[content]有了参考知识,AI助手就能准确回答关于您公司的商品的问题了。

AI Agent系列(二):Brain模块探究

所以在深入讨论Brain模块的其他功能之前,我们首先需要了解大模型中所蕴含的知识类型。训练大模型其本质上就是将知识进行压缩,没有这些知识,模型是无法进行进一步推理、规划、反思的。[heading3]4.1内置知识[content]知识在大模型中通常被分为两大类。第一类是内置知识,这类知识在模型训练阶段就已经被整合进模型中。我们可以将内置知识进一步细分为三个主要类别:1.常识知识:常识知识包括了日常生活中广泛认可的事实和逻辑规则。这些信息帮助智能体具备了强大的泛化能力,使其在不进行特殊指导下也能进行基本的推理和判断。例如,它包括季节变化、物体的基本物理属性、社会行为准则等。这类知识对于构建智能体的世界观极为重要,使其能够在多种常见场景下作出符合逻辑的反应。1.专业知识:与常识知识不同,专业知识涉及深入特定领域的详细信息。这包括但不限于医学、法律、科技、艺术等领域的专有概念和操作方法。例如,在医学领域中,智能体需要了解疾病症状、治疗方法和药物作用机制;在法律领域,则需掌握法律条文、案例判例及其应用方式。这些专业知识使智能体在特定咨询或操作时更加精准有效。1.语言知识:语言是人类沟通的基础,对智能体同样重要。语言知识不仅仅是单纯的单词意义理解,更包括语法规则、句型结构、语境含义以及文化背景等。智能体通过这些复杂的语言系统来解析和生成自然语言,从而与人类进行有效交流。此外,语言知识还涉及到非文字部分如语调、停顿和强调等,这些都是理解和生成自然对话不可或缺的部分。

Others are asking
给ai的知识库哪里有?
以下是一些关于 AI 的知识库: 通往 AGI 之路(WaytoAGI)是一个由开发者、学者和有志人士等参与的学习社区和开源的 AI 知识库。在这里,您既是知识的消费者,也是知识的创作者。它不仅是一个知识库,还是连接学习者、实践者和创新者的社区,让大家在这里碰撞思想,相互鼓舞,一同成长。 特点:由一群热爱 AI 的专家和爱好者共同建设,大家贡献并整合各种 AI 资源,使得大家都可以轻松学习各种 AI 知识,应用各类 AI 工具和实战案例等。提供了一系列开箱即用的工具,文生图、文生视频、文生语音等详尽的教程。追踪 AI 领域最新的进展,时刻更新,让您紧跟 AI 领域的步伐,每次访问都能有新的收获。 网址:https://waytoagi.com/ 即刻体验:https://waytoagi.com/ 相关渠道:公众号“通往 AGI 之路”、内置知识库 AI 助手、B 站(https://space.bilibili.com/259768893)、小红书(https://www.xiaohongshu.com/user/profile/6457d2e4000000001f030dbe)、X(https://twitter.com/WaytoAGI),知识库精选内容同步。
2025-01-12
推荐一些AI学习知识库
以下是为您推荐的一些 AI 学习知识库: 1. 了解 AI 基本概念:建议阅读「」部分,熟悉 AI 的术语和基础概念,包括其主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。同时浏览入门文章,了解 AI 的历史、当前应用和未来发展趋势。 2. 开始 AI 学习之旅:在「」中,您能找到为初学者设计的课程,特别推荐李宏毅老师的课程。还可以通过在线教育平台(如 Coursera、edX、Udacity)按自己节奏学习并获取证书。 3. 选择感兴趣的模块深入学习:AI 领域广泛,比如图像、音乐、视频等,您可根据兴趣选择特定模块深入学习,同时掌握提示词技巧。 4. 实践和尝试:理论学习后,实践是巩固知识的关键,尝试使用各种产品做出作品。知识库中有很多实践后的作品、文章分享,欢迎您实践后分享。 5. 体验 AI 产品:与现有的 AI 产品(如 ChatGPT、Kimi Chat、智谱、文心一言等)互动,了解其工作原理和交互方式。 书籍推荐: 1. Python 方面:《Python 学习手册》《Python 编程》。 2. AI 方面:《人类简史》(“认知革命”相关章节)、《深度学习实战》。 课程&资源&信息推荐: 1. B 站 up 主“PAPAYA 电脑教室”的 Python 入门课,完全免费。 2. Andrej Karpathy 关于大模型的讲解,油管地址:https://www.youtube.com/watch?v=zjkBMFhNj_g ,B 站地址:https://www.bilibili.com/video/BV1AU421o7ob 。 3. AJ 和众多小伙伴们共创的资料库(一个飞书文档):🌈通往 AGI 之路(一个飞书文档),这是当下最全的中文 AI 资料库,免费、开源、共创,包含几乎所有有价值的文档、文章、资料、资讯,并永远第一时间更新,链接:https://waytoagi.feishu.cn/wiki/QPe5w5g7UisbEkkow8XcDmOpn8e 。
2025-01-11
RAG可以学习多大的知识库
RAG 可以让大模型从权威的、预先确定的知识来源中检索、组织相关信息,更好地控制大模型生成的文本输出,并且用户可以深入了解 LLM 如何生成最终的结果。 RAG 对大语言模型的作用就像开卷考试对学生一样,事实性知识与 LLM 的推理能力相分离,被存储在容易访问和及时更新的外部知识源中,具体分为参数化知识(模型在训练过程中学习得到,隐式地储存在神经网络的权重中)和非参数化知识(存储在外部知识源,例如向量数据库中)。 但目前没有关于 RAG 可以学习知识库大小的明确说明。
2025-01-10
知识库中有关于Agent的金融应用
智能体(Agent)在各种应用中扮演重要角色,以下是一些典型的应用领域: 1. 自动驾驶:自动驾驶汽车中的智能体感知周围环境,做出驾驶决策。 2. 家居自动化:智能家居设备(如智能恒温器、智能照明)根据环境和用户行为自动调节。 3. 游戏 AI:游戏中的对手角色(NPC)和智能行为系统。 4. 金融交易:金融市场中的智能交易算法,根据市场数据做出交易决策。 5. 客服聊天机器人:通过自然语言处理与用户互动,提供自动化的客户支持。 6. 机器人:各类机器人(如工业机器人、服务机器人)中集成的智能控制系统。 智能体可以根据其复杂性和功能分为几种类型: 1. 简单反应型智能体(Reactive Agents):根据当前的感知输入直接采取行动,不维护内部状态,也不考虑历史信息。示例:温控器,它根据温度传感器的输入直接打开或关闭加热器。 2. 基于模型的智能体(Modelbased Agents):维护内部状态,对当前和历史感知输入进行建模,能够推理未来的状态变化,并根据推理结果采取行动。示例:自动驾驶汽车,它不仅感知当前环境,还维护和更新周围环境的模型。 3. 目标导向型智能体(Goalbased Agents):除了感知和行动外,还具有明确的目标,能够根据目标评估不同的行动方案,并选择最优的行动。示例:机器人导航系统,它有明确的目的地,并计划路线以避免障碍。 4. 效用型智能体(Utilitybased Agents):不仅有目标,还能量化不同状态的效用值,选择效用最大化的行动,评估行动的优劣,权衡利弊。示例:金融交易智能体,根据不同市场条件选择最优的交易策略。 5. 学习型智能体(Learning Agents):能够通过与环境的交互不断改进其性能,学习模型、行为策略以及目标函数。示例:强化学习智能体,通过与环境互动不断学习最优策略。 从历史角度来看,随着大航海时代及全球贸易的兴起,“Agent”的角色在商业领域变得日益重要。16 至 17 世纪间,贸易代理和公司代理商开始在全球范围内进行商品交易,如荷兰东印度公司的代理人。18 至 19 世纪工业革命期间,“Agent”的职能进一步拓展到保险、房地产等新兴行业。此外,在 19 世纪,政府及情报领域也开始广泛使用“Agent”,比如情报特工和便衣警察,在维护国家安全与社会秩序方面发挥了不可或缺的作用。 在 20 世纪至 21 世纪的现代社会中,“Agent”一词涵盖了多种职业角色,尤其在娱乐和体育行业中,它指的是艺人经纪人和运动员经理等职位。这些专业经理人负责安排试镜、进行合同谈判以及规划职业生涯,确保客户能在竞争激烈的行业中获得成功。此外,“Agent”还包括劳务代理和招聘代理(猎头)。劳务代理提供劳动力匹配服务,帮助求职者找到合适的工作,并为雇主提供所需的人才,如劳务派遣公司将临时员工派遣到需要额外支持的企业单位。而猎头则专门为公司招募高技能或高级管理职位的专业人士,通过筛选简历、安排面试并评估候选人来帮助企业找到最合适的员工。凭借深厚的行业知识与广泛的联系网络,这些猎头为企业与顶尖人才之间搭建了重要桥梁。 从词源和词的历史变迁中,大家就能看到,“Agent”这个词本身就具有行动的含义,到了后期又附加了“替身”的意思。且无论哪个领域,“Agent”都多数情况下都在指:“拥有行动的替身,都是替代他人做某事“。 设计和实现一个智能体通常涉及以下几个步骤: 1. 定义目标:明确智能体需要实现的目标或任务。 2. 感知系统:设计传感器系统,采集环境数据。 3. 决策机制:定义智能体的决策算法,根据感知数据和目标做出决策。 4. 行动系统:设计执行器或输出设备,执行智能体的决策。 5. 学习与优化:如果是学习型智能体,设计学习算法,使智能体能够从经验中改进。 智能体在现代计算机科学和人工智能领域是一个基础且重要的概念。它们通过自主感知和行动,在广泛的应用领域中发挥重要作用。从简单的反应型系统到复杂的学习型系统,智能体技术的不断发展和应用正在改变我们的生活方式和工作模式。
2025-01-09
知识库是啥
知识库是用于存储和记忆外部数据的一种方式,通过语义匹配为模型补充知识。以车型数据为例,每个知识库的分段中保存一种车型的基础数据,当用户提问相关问题时能匹配到对应分段并获取信息。 在专家系统中,知识库代表某个问题领域的长期知识,是从人类专家那里人工提取的,不会因外部咨询而改变,它允许从一个问题状态前往另一个问题状态,因此也被称为动态知识。 在人工智能(AGI)领域,“通往 AGI 之路”是一个由开发者、学者和有志人士等参与的学习社区和开源的 AI 知识库,它不仅是知识库,还是连接学习者、实践者和创新者的社区,让大家在这里碰撞思想,相互鼓舞,一同成长。
2025-01-08
知识库如何保护知识产权?
在保护知识库的知识产权方面: 1. WaytoAGI 的核心价值观:赞成共创、开源、动手 Do it first、容错、创造可持续价值、好奇心、每个人都是独一无二的;反对违法乱纪、六个名额(割韭菜)、作恶、摘/偷果子、冒名顶替、侵权、夸大、过度营销、通过制造焦虑来营销或谋取个人利益。 2. 关于知识库内容著作权声明: 知识库中的内容可以用作学习。 不可以直接商用。 转载需要声明作者及来源。 转载不需要对原内容的修改之处提供说明文档。 可以对知识库中的作品修改后分发,但修改后作品与原作的相似度不可超过 30%,满足此条件后可以闭源。 衍生作品不能私自使用 WaytoAGI 或原作者的名字促销,需要授权。 此外,提示词攻击是黑客或不良用户利用精心设计的指令诱导 AI 智能体执行非预期或有害操作的行为,而知识库攻击是通过特定的提示词指令试图非法访问、篡改或泄露知识库中的宝贵资源,可能引发严重后果。
2025-01-08
大模型应用解决方案
以下是关于大模型应用解决方案的相关内容: 零跑汽车基于百炼实现大模型落地零跑座舱 客户介绍:零跑汽车成立于 2015 年 12 月 24 日,是一家创新型的智能电动汽车品牌,拥有智能电动汽车完整自主研发能力,2023 年已位列新能源品牌销量前三。从 2017 年起,零跑汽车便与阿里云展开深度合作。近日,零跑汽车已对 OTA 功能完成大规模升级,携手阿里云首次在座舱场景中增加“语音大模型”功能,用于聊天、基础知识问答、文生图等场景,提升用户驾驶体验。 阿里云的解决方案: 接入通义大模型实现开放式语音交互:改变了传统的固定形式的问答模式,支持用户与零跑智能座舱进行开放式语音交互(闲聊场景),进行自然、连贯的多轮对话,可秒级响应,同时结合企业知识库和互联网知识库,满足用户多元化的需求。 基于语音调用通义万相实现秒级作图:零跑采用语音助手调用云端通义系列大模型,帮助用户通用语音调用通义万相实现文生图换壁纸,实现秒级作图,提升娱乐互动;支持语音查找如何使用汽车功能、规划路径等功能,丰富用户操作体验;知识库内容覆盖了零跑全系汽车知识和其他汽车品牌开放领域的信息。 基于百炼构建大模型应用架构:基于百炼平台,零跑汽车构建了开放、可扩展的大模型应用架构,基于统一的大模型底座,实现了零跑座舱大模型应用场景的快速扩展与迭代,降低大模型应用的创新门槛与成本。 RAG 提示工程(一):基础概念 大语言模型应用于实际业务场景存在的问题: 知识的局限性:模型自身的知识完全源于训练数据,对于实时性、非公开或离线的数据无法获取。 幻觉问题:大模型基于数学概率的文字预测,存在提供虚假、过时或通用信息等问题。 数据安全性:企业担心数据泄露,不愿将私域数据上传第三方平台训练。 RAG 的优势:可以让大模型从权威、预先确定的知识来源中检索、组织相关信息,更好地控制生成的文本输出,用户可深入了解 LLM 生成结果的过程。并且,RAG 可以和微调结合使用,两者并不冲突。 七大行业的商业化应用 企业解决大模型落地难问题: 算力方面:国产芯片在软件适配度、稳定性方面不足,与英伟达显卡解耦能力弱。可以从协同化、模型小型化、再训练、融合计算四方面来解决算力矛盾问题。 价格方面:训练成本高、数据筛选难度大,千亿参数模型报价高昂,让很多客户望而却步。垂直大模型的数据生成规模小、场景易用、Chat 思维能力高。
2025-01-12
大模型应用架构
大模型应用架构主要包括以下几个方面: 1. 零跑汽车案例: 客户介绍:零跑汽车成立于 2015 年 12 月 24 日,是一家创新型的智能电动汽车品牌,坚持核心技术自主研发,位列新能源品牌销量前三,自 2017 年起与阿里云展开深度合作。 阿里云的解决方案:通过百炼平台实现大模型落地零跑座舱,接入通义大模型实现开放式语音交互,基于语音调用通义万相实现秒级作图,基于百炼构建开放、可扩展的大模型应用架构,降低创新门槛与成本。 2. 整体架构分层: 基础层:为大模型提供硬件支撑和数据支持,如 A100、数据服务器等。 数据层:包括静态的知识库和动态的三方数据集。 模型层:有 LLm(大语言模型,如 GPT,一般使用 transformer 算法实现)和多模态模型(如文生图、图生图等模型)。 平台层:如大模型的评测体系或 langchain 平台等,提供模型与应用间的组成部分。 表现层:即应用层,是用户实际看到的地方。 3. 基于多模态大模型的应用: 前言:随着 ChatGPT 的发展,多模态技术突飞猛进,呈现出一统计算机视觉(CV)和自然语言处理(NLP)的势头。 应用介绍:介绍了一款基于多模态大型模型的应用,能够实时分析当前地区新春的流行趋势。后端采用 llama.cpp 挂载 LLaVA 模型提供推理服务,部署 Flask 应用用于数据前处理和后处理,提供 Stream 流服务,前端页面采用 HTML5 采集画面和用户输入。
2025-01-12
你的大数据模型更新到什么时候?
以下是关于大数据模型更新的相关信息: 随着 GPT3.5Turbo 的发布,一些模型正在不断更新。为减少模型更改意外影响用户的可能性,还提供将在 3 个月内保持静态的模型版本。同时,人们能够贡献评估以帮助针对不同用例改进模型。如有兴趣,可查看存储库。以下模型是将在指定日期弃用的临时快照。若想使用最新的模型版本,请使用标准模型名称,如 GPT4 或 GPT3.5Turbo。 Midjourney 会定期发布新版本模型来提高效率、整体连贯性和质量。默认是最新的模型,可使用version 参数,其可选值为 1、2、3、4 和 5,该参数可缩写为v。Midjourney V5 模型是最新和最先进的模型,于 2023 年 3 月 15 日发布。要使用此模型,可在提示的末尾添加v 5 参数,或使用/settings 命令并选择 5️⃣MJ Version 5。 就在昨天,WebUI 的 ControlNet1.1.4 版本终于更新,这次的更新支持了 SDXL1.0 的模型。此次总共出了四种控制类型,分别是 Canny、Depth、Sketch 和 Openpose。可来到 Hugging Face 的网址:https://huggingface.co/lllyasviel/sd_control_collection/tree/main 查看相关模型。
2025-01-11
免费数字人模型
以下为您推荐免费数字人模型及相关制作方法: 开源且适合小白用户的数字人工具: 特点:具有一键安装包,无需配置环境,简单易用。 功能:能够生成数字人视频,支持语音合成和声音克隆,操作界面中英文可选。 系统兼容:支持 Windows、Linux、macOS。 模型支持:MuseTalk(文本到语音)、CosyVoice(语音克隆)。 使用步骤:下载 8G+3G 语音模型包,启动模型即可。 GitHub 链接: 官网: 在剪映中生成数字人的方法: 在剪映右侧窗口顶部,打开“数字人”选项,选取一位免费且适合的数字人形象,如“婉婉青春”。选择数字人形象时,软件会播放其声音,可判断是否需要,点击右下角“添加数字人”将其添加到当前视频中。剪映会根据提供的内容生成对应音视频并添加到视频轨道中,左下角会提示渲染完成时间,可点击预览按钮查看效果。 为使视频更美观,可增加背景图片。删除先前导入的文本内容,点击左上角“媒体”菜单并点击“导入”按钮选择本地图片上传,将图片添加到视频轨道上(会覆盖数字人),可通过拖动轨道右侧竖线使其与视频对齐,选中背景图片轨道,在显示区域拖动图片角放大到适合尺寸,并将数字人拖动到合适位置。
2025-01-11
如何微调大模型
微调大模型主要包括以下几个方面: 1. 理解大模型:大模型是通过输入大量语料,让计算机获得类似人类的“思考”能力,能够进行文本生成、推理问答、对话、文档摘要等工作。可以用“上学参加工作”来类比大模型的训练和使用过程,包括找学校(需要大量 GPU 进行训练)、确定教材(需要大量数据)、找老师(选择合适算法)、就业指导(微调)和搬砖(推导)。 2. 准备数据集:数据集是让大模型重新学习的知识。例如,对于 Llama3 的微调,可以参考相关文档获取和了解数据集,如下载数据集。 3. 选择微调方式:从参数规模的角度,大模型的微调分成两条技术路线,全量微调 FFT(Full Fine Tuning)对全量的模型参数进行全量训练,PEFT(ParameterEfficient Fine Tuning)只对部分模型参数进行训练。从成本和效果综合考虑,PEFT 是目前业界较流行的微调方案。 4. 进行微调操作:有了数据集后,将其上传到服务器,编写微调代码并执行,大概 15 分钟左右可完成微调。 5. 参考资源:OpenAI 官方微调教程 。 微调的好处包括提高模型在特定任务中的性能和提高模型效率。经过微调的模型可能会失去一些通用性,但对于特定任务会有更好的表现,同时还能实现更低的延迟和成本。
2025-01-10
如何把多个大模型接入一个智能体?
要将多个大模型接入一个智能体,可以参考以下步骤: 1. 理解相关概念: 统辖:是一种广义的包含关系,指普遍性理念或法则对个别事物的包容或管辖。 抽象:从具体事物中提取共同特性,形成概念。 演绎:通过逻辑推理从已知推导出新知识。 反应:对外界刺激或输入的回应或改变。 2. 统辖 prompt:在 prompt 工作流中设置普遍性、统一性或支配性原则,影响其他 prompt 的状态或行为,例如设置统一监督者角色评判其他模块,让大模型注意力集中在特定话题上以提高推理能力。 3. 利用阿里云百炼: 步骤一:创建智能体应用 进入百炼控制台中“我的应用”,单击新增应用,在智能体应用页签,单击直接创建。若之前已创建过应用,则单击右上角的新增应用。控制台页面链接:https://bailian.console.aliyun.com/?spm=5176.29619931.J__Z58Z6CX7MY__Ll8p1ZOR.1.2f3e59fciQnmL7/home 进入智能体应用管理界面后,选择大模型并进行参数配置,例如选择通义千问Max,可根据需求配置模型参数。 测试智能体应用:选择大模型后,可输入问题进行测试。 4. 在网站上增加一个 AI 助手: 创建大模型问答应用:通过创建百炼应用获取大模型的推理 API 服务。 进入百炼控制台的,在页面右侧点击新增应用,选择智能体应用并创建。在应用设置页面,模型选择通义千问Plus,其他参数保持默认,也可输入一些 Prompt 设定人设。在页面右侧提问验证模型效果,点击右上角发布。 获取调用 API 所需的凭证:在我的应用>应用列表中查看所有百炼应用 ID 并保存,在顶部导航栏右侧点击人型图标,点击 APIKEY 进入我的 APIKEY 页面,创建新 APIKEY 并保存。
2025-01-10