Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

私人知识库

Answer

以下是关于私人知识库的相关知识:

使用 GPT 打造个人知识库:

  • 可先将大文本拆分成若干小文本块(chunk),通过 embeddings API 将小文本块转换成与语义相关的 embeddings 向量,并在向量储存库中保存这些向量和文本块作为问答的知识库。
  • 当用户提出问题时,问题先通过 embeddings API 转换成问题向量,然后与向量储存库的所有文本块向量比对,查找距离最小的几个向量,把这几个向量对应的文本块提取出来,与原有问题组合成新的 prompt 发送给 GPT API。

理解 embeddings:

  • embeddings 是一个浮点数字的向量(列表),两个向量之间的距离衡量它们的关联性,小距离表示高关联度,大距离表示低关联度。
  • 向量是数学中表示大小和方向的量,通常用一串数字表示,在计算机科学和数据科学中常用列表来表示。
  • 计算向量之间距离常见的方式是欧几里得距离,即对应元素相减取平方和再开平方。

AI 时代的私人知识库:

  • 私人知识库中的内容一般有两种:日常从互联网收集的优质信息和个人日常的思考以及分享。
  • 基于私人知识库打造个人专属的 ChatGPT 常见有两种技术方案:训练专有大模型和利用 RAG(检索增强生成)技术。
    • 训练专有大模型:可以使用个人知识库训练专有的大模型,但此方案并非当下主流,存在高成本、更新难度大等缺陷。高成本体现在需要大量计算资源和专业知识;更新难度大在于若要更新模型知识,需重新训练或微调模型,过程复杂耗时。
Content generated by AI large model, please carefully verify (powered by aily)

References

从零开始,用GPT打造个人知识库

上面将文本转换成向量(一串数字)能大大节省空间,它不是压缩,可简单理解为索引(Index)。接下来就有意思了。比如我有一个大文本,可以先把它拆分成若干个小文本块(也叫chunk),通过embeddings API将小文本块转换成embeddings向量,这个向量是跟文本块的语义相关。在一个地方(向量储存库)中保存这些embeddings向量和文本块,作为问答的知识库。当用户提出一个问题时,该问题先通过embeddings API转换成问题向量,然后将这问题向量与向量储存库的所有文本块向量比对,查找距离最小的几个向量,把这几个向量对应的文本块提取出来,与原有问题组合成为新的prompt(问题/提示词),发送给GPT API。这样一来就不用一次会话中输入所有领域知识,而是输入了关联度最高的部分知识。一图胜千言,转一张原理图。再举一个极其简单的例子,比如有一篇万字长文,拆分成Chrunks包含:文本块1:本文作者:越山。xxxx。文本块2:公众号越山集的介绍:传播效率方法,分享AI应用,陪伴彼此在成长路上,共同前行。文本块3:《反脆弱》作者塔勒布xxxx。文本块4:“科技爱好者周刊”主编阮一峰会记录每周值得分享的科技内容,周五发布。...文本块n如果提问是”此文作者是谁?“。可以直观的看出上面的文本块1跟这个问题的关联度最高,文本块3次之。通过比较embeddings向量也可以得到这结论。那最后发送给GPT API的问题会类似于”此文作者是谁?从以下信息中获取答案:本文作者:越山。xxxx。《反脆弱》作者塔勒布xxxx。“这样一来,大语言大概率能回答上这个问题。

从零开始,用GPT打造个人知识库

embeddings(直译为嵌入)是一个浮点数字的向量(列表)。两个向量之间的距离衡量它们的关联性。小距离表示高关联度,大距离表示低关联度。进一步解释:向量(列表):向量是数学中表示大小和方向的一个量,通常用一串数字表示。在计算机科学和数据科学中,向量通常用列表(list)来表示。列表是一种数据结构,它包含一组有序的元素。例如,一个二维向量可以表示为[2,3],这意味着沿着两个轴的分量分别为2和3。在这里,"list"是一种编程术语,意味着一系列有序的数据。向量之间的距离:向量之间的距离是一种度量两个向量相似性的方法。有多种方式可以计算两个向量之间的距离,最常见的是欧几里得距离。欧几里得距离计算方法是将两个向量的对应元素相减,然后取平方和,再开平方。例如,向量A =[1,2]和向量B =[4,6]之间的欧几里得距离为sqrt((4-1)^2 +(6-2)^2)= 5。较小距离意味着高相关性,因为向量间相似度高。在OpenAI词嵌入中,靠近向量的词语在语义上相似。例如,“猫”和“狗”距离近,它们都是宠物,与“汽车”距离远,相关性低。文档上给了创建embeddings的示例上面的命令访问embeddings API接口,将input语句,转化成下面这一串浮点数字。

这可能是讲 Coze 的知识库最通俗易懂的文章了

KimiChat和ChatGPT等AI聊天软件为什么能够精准的回答问题,因为他们使用了整个互联网的语料进行了训练,从而拥有了整个互联网的知识。看到这里你应该知道我想要讲什么了,对,既然能用整个互联网的知识训练出KimiChat和ChatGPT等大模型,那我能不能使用我的知识库来训练一个专有的大模型呢?当然可以!而且这样的效果是最好的。但是这并不是当下主流的方案,因为他有以下几个缺陷:高成本:训练和维护一个大型专有模型的成本非常高,需要大量的计算资源和专业知识。更新难度:如果需要更新模型的知识,需要重新训练或微调模型,这可能是一个复杂且耗时的过程下面让我们来看另一个方案:RAG(检索增强生成)

Others are asking
推荐一些AI学习知识库
以下是为您推荐的一些 AI 学习知识库: 1. 了解 AI 基本概念:建议阅读「」部分,熟悉 AI 的术语和基础概念,包括其主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。同时浏览入门文章,了解 AI 的历史、当前应用和未来发展趋势。 2. 开始 AI 学习之旅:在「」中,您能找到为初学者设计的课程,特别推荐李宏毅老师的课程。还可以通过在线教育平台(如 Coursera、edX、Udacity)按自己节奏学习并获取证书。 3. 选择感兴趣的模块深入学习:AI 领域广泛,比如图像、音乐、视频等,您可根据兴趣选择特定模块深入学习,同时掌握提示词技巧。 4. 实践和尝试:理论学习后,实践是巩固知识的关键,尝试使用各种产品做出作品。知识库中有很多实践后的作品、文章分享,欢迎您实践后分享。 5. 体验 AI 产品:与现有的 AI 产品(如 ChatGPT、Kimi Chat、智谱、文心一言等)互动,了解其工作原理和交互方式。 书籍推荐: 1. Python 方面:《Python 学习手册》《Python 编程》。 2. AI 方面:《人类简史》(“认知革命”相关章节)、《深度学习实战》。 课程&资源&信息推荐: 1. B 站 up 主“PAPAYA 电脑教室”的 Python 入门课,完全免费。 2. Andrej Karpathy 关于大模型的讲解,油管地址:https://www.youtube.com/watch?v=zjkBMFhNj_g ,B 站地址:https://www.bilibili.com/video/BV1AU421o7ob 。 3. AJ 和众多小伙伴们共创的资料库(一个飞书文档):🌈通往 AGI 之路(一个飞书文档),这是当下最全的中文 AI 资料库,免费、开源、共创,包含几乎所有有价值的文档、文章、资料、资讯,并永远第一时间更新,链接:https://waytoagi.feishu.cn/wiki/QPe5w5g7UisbEkkow8XcDmOpn8e 。
2025-01-11
RAG可以学习多大的知识库
RAG 可以让大模型从权威的、预先确定的知识来源中检索、组织相关信息,更好地控制大模型生成的文本输出,并且用户可以深入了解 LLM 如何生成最终的结果。 RAG 对大语言模型的作用就像开卷考试对学生一样,事实性知识与 LLM 的推理能力相分离,被存储在容易访问和及时更新的外部知识源中,具体分为参数化知识(模型在训练过程中学习得到,隐式地储存在神经网络的权重中)和非参数化知识(存储在外部知识源,例如向量数据库中)。 但目前没有关于 RAG 可以学习知识库大小的明确说明。
2025-01-10
知识库中有关于Agent的金融应用
智能体(Agent)在各种应用中扮演重要角色,以下是一些典型的应用领域: 1. 自动驾驶:自动驾驶汽车中的智能体感知周围环境,做出驾驶决策。 2. 家居自动化:智能家居设备(如智能恒温器、智能照明)根据环境和用户行为自动调节。 3. 游戏 AI:游戏中的对手角色(NPC)和智能行为系统。 4. 金融交易:金融市场中的智能交易算法,根据市场数据做出交易决策。 5. 客服聊天机器人:通过自然语言处理与用户互动,提供自动化的客户支持。 6. 机器人:各类机器人(如工业机器人、服务机器人)中集成的智能控制系统。 智能体可以根据其复杂性和功能分为几种类型: 1. 简单反应型智能体(Reactive Agents):根据当前的感知输入直接采取行动,不维护内部状态,也不考虑历史信息。示例:温控器,它根据温度传感器的输入直接打开或关闭加热器。 2. 基于模型的智能体(Modelbased Agents):维护内部状态,对当前和历史感知输入进行建模,能够推理未来的状态变化,并根据推理结果采取行动。示例:自动驾驶汽车,它不仅感知当前环境,还维护和更新周围环境的模型。 3. 目标导向型智能体(Goalbased Agents):除了感知和行动外,还具有明确的目标,能够根据目标评估不同的行动方案,并选择最优的行动。示例:机器人导航系统,它有明确的目的地,并计划路线以避免障碍。 4. 效用型智能体(Utilitybased Agents):不仅有目标,还能量化不同状态的效用值,选择效用最大化的行动,评估行动的优劣,权衡利弊。示例:金融交易智能体,根据不同市场条件选择最优的交易策略。 5. 学习型智能体(Learning Agents):能够通过与环境的交互不断改进其性能,学习模型、行为策略以及目标函数。示例:强化学习智能体,通过与环境互动不断学习最优策略。 从历史角度来看,随着大航海时代及全球贸易的兴起,“Agent”的角色在商业领域变得日益重要。16 至 17 世纪间,贸易代理和公司代理商开始在全球范围内进行商品交易,如荷兰东印度公司的代理人。18 至 19 世纪工业革命期间,“Agent”的职能进一步拓展到保险、房地产等新兴行业。此外,在 19 世纪,政府及情报领域也开始广泛使用“Agent”,比如情报特工和便衣警察,在维护国家安全与社会秩序方面发挥了不可或缺的作用。 在 20 世纪至 21 世纪的现代社会中,“Agent”一词涵盖了多种职业角色,尤其在娱乐和体育行业中,它指的是艺人经纪人和运动员经理等职位。这些专业经理人负责安排试镜、进行合同谈判以及规划职业生涯,确保客户能在竞争激烈的行业中获得成功。此外,“Agent”还包括劳务代理和招聘代理(猎头)。劳务代理提供劳动力匹配服务,帮助求职者找到合适的工作,并为雇主提供所需的人才,如劳务派遣公司将临时员工派遣到需要额外支持的企业单位。而猎头则专门为公司招募高技能或高级管理职位的专业人士,通过筛选简历、安排面试并评估候选人来帮助企业找到最合适的员工。凭借深厚的行业知识与广泛的联系网络,这些猎头为企业与顶尖人才之间搭建了重要桥梁。 从词源和词的历史变迁中,大家就能看到,“Agent”这个词本身就具有行动的含义,到了后期又附加了“替身”的意思。且无论哪个领域,“Agent”都多数情况下都在指:“拥有行动的替身,都是替代他人做某事“。 设计和实现一个智能体通常涉及以下几个步骤: 1. 定义目标:明确智能体需要实现的目标或任务。 2. 感知系统:设计传感器系统,采集环境数据。 3. 决策机制:定义智能体的决策算法,根据感知数据和目标做出决策。 4. 行动系统:设计执行器或输出设备,执行智能体的决策。 5. 学习与优化:如果是学习型智能体,设计学习算法,使智能体能够从经验中改进。 智能体在现代计算机科学和人工智能领域是一个基础且重要的概念。它们通过自主感知和行动,在广泛的应用领域中发挥重要作用。从简单的反应型系统到复杂的学习型系统,智能体技术的不断发展和应用正在改变我们的生活方式和工作模式。
2025-01-09
知识库是啥
知识库是用于存储和记忆外部数据的一种方式,通过语义匹配为模型补充知识。以车型数据为例,每个知识库的分段中保存一种车型的基础数据,当用户提问相关问题时能匹配到对应分段并获取信息。 在专家系统中,知识库代表某个问题领域的长期知识,是从人类专家那里人工提取的,不会因外部咨询而改变,它允许从一个问题状态前往另一个问题状态,因此也被称为动态知识。 在人工智能(AGI)领域,“通往 AGI 之路”是一个由开发者、学者和有志人士等参与的学习社区和开源的 AI 知识库,它不仅是知识库,还是连接学习者、实践者和创新者的社区,让大家在这里碰撞思想,相互鼓舞,一同成长。
2025-01-08
知识库如何保护知识产权?
在保护知识库的知识产权方面: 1. WaytoAGI 的核心价值观:赞成共创、开源、动手 Do it first、容错、创造可持续价值、好奇心、每个人都是独一无二的;反对违法乱纪、六个名额(割韭菜)、作恶、摘/偷果子、冒名顶替、侵权、夸大、过度营销、通过制造焦虑来营销或谋取个人利益。 2. 关于知识库内容著作权声明: 知识库中的内容可以用作学习。 不可以直接商用。 转载需要声明作者及来源。 转载不需要对原内容的修改之处提供说明文档。 可以对知识库中的作品修改后分发,但修改后作品与原作的相似度不可超过 30%,满足此条件后可以闭源。 衍生作品不能私自使用 WaytoAGI 或原作者的名字促销,需要授权。 此外,提示词攻击是黑客或不良用户利用精心设计的指令诱导 AI 智能体执行非预期或有害操作的行为,而知识库攻击是通过特定的提示词指令试图非法访问、篡改或泄露知识库中的宝贵资源,可能引发严重后果。
2025-01-08
AI知识库有什么用?
AI 知识库具有以下重要作用: 1. 作为连接学习者、实践者和创新者的社区,让大家能够在此碰撞思想、相互鼓舞、共同成长。 2. 为探索人工智能(AGI)领域的人们提供有价值的信息和知识,帮助打破条条框框,实现“无弯路,全速前进”。 3. 是 AI 的“活字典”,能随时更新,让 AI 遇到不确定问题时从中检索相关信息,给出更新、更准确的回答。例如,可包含最新新闻、科技发展、法律法规等内容,使 AI 能回答有关最新事件的问题;像热门的 AI 搜索,就是将整个互联网的实时数据作为知识库,每次被询问时通过搜索引擎获取最新信息。 4. 在商业化问答场景中,相当于给“聪明”的 AI 员工发放的工作手册。即使 AI 模型对公共知识等十分擅长,但在特定工作场景下,知识库能让其更准确地做出反应,例如知道特殊的优惠规则等。
2025-01-08
怎么用已经公布的源代码,自己拥有一个私人ai。详细步骤让小白都能成功,并且列出硬件设施。
以下是使用已公布的源代码拥有一个私人 AI 的详细步骤,适合小白操作,并列出所需的硬件设施: 硬件设施: 云服务器 步骤: 1. 利用云服务器,在宝塔面板的终端安装相关命令。可通过以下链接获取详细信息:https://docs.dify.ai/v/zhhans/gettingstarted/installselfhosted/dockercompose 。这些命令在宝塔面板的终端安装,安装的 dockercompose 文件位于 /root/dify/docker 目录下。 2. 检查运行情况,使用 docker compose ps 命令,如果 nginx 容器无法运行,可能是 80 端口被占用。将终端输出的代码粘贴给 AI ,按照 AI 的方法检查谁占用了端口,并停止占用进程。确保每一步成功后再进行下一步,可将代码复制询问 AI 以确认。 3. 在浏览器地址栏输入公网 IP(可在腾讯云服务器或宝塔面板地址栏查看,去掉后面的:8888),随便填写邮箱密码建立一个知识库,在知识库中选择设置。 4. 选择模型,国内模型通常有免费额度,例如智谱 AI 。点击设置,从智谱 AI 获取钥匙,进入智谱官网用手机号注册,添加 API keys 并复制。查看免费额度(智谱在资源包管理中查看,赠送 500 万一个月)。 5. 回到之前的页面,复制钥匙并保存,随便创建一个应用。 6. 可以先选择智谱 glm4 进行测试,聊两句看是否有回应,然后点击发布。 7. 点击 api 秘钥,创建一个并复制。
2024-12-20
怎么用已经公布的源代码,自己拥有一个私人ai。详细步骤,并且列出硬件设施,说明jetson orin nano可以使用什么模型?
目前已公布的源代码种类繁多,要利用其拥有一个私人 AI 并非简单直接的过程,且需要一定的技术知识和经验。 一般来说,以下是大致的步骤: 1. 选择合适的源代码:根据您的需求和技术能力,从众多已公布的源代码中选择适合的项目。 2. 环境搭建:安装所需的开发工具、编程语言和相关依赖库。 3. 数据准备:收集和整理适合训练和优化模型的数据。 4. 代码理解与修改:深入理解所选源代码的结构和逻辑,根据您的需求进行必要的修改和优化。 5. 训练模型:使用准备好的数据对模型进行训练。 6. 评估与优化:对训练好的模型进行评估,根据评估结果进行进一步的优化。 关于硬件设施,Jetson Orin Nano 是一款性能不错的嵌入式计算设备。它可以支持多种模型,例如常见的深度学习模型如卷积神经网络(CNN)、循环神经网络(RNN)等。但具体能使用哪些模型,还取决于模型的规模、计算需求以及您对性能和资源的要求。
2024-12-20
AI+交易:来定制专属于你的私人高级交易顾问吧!
以下是关于“AI+交易:来定制专属于你的私人高级交易顾问吧!”的相关内容: 原本是一名 AIGC 创作者,在接触交易后,希望将交易与 AIGC 相结合,打造私人高级交易顾问。学习交易知识后认识到,单纯迷信技术分析提高胜率实现长期稳定盈利对个人投资者不可行,心态关键。新人对交易理论不熟悉更致命,成熟交易员单一策略熟练运用能找进出点、良好心态能长期盈利,但不熟悉行情只能观望。借助 AI 分析行情,期望在不熟悉市场时找到合适进场点,提高资金使用效率,多种策略配合提高理论胜率(有统计数据显示几千名专业交易员一年里平均胜率 70)。 此外,还有以下 AI 与工作场景结合的案例: 1. 销售方面:包括话术总结优缺点、定制销售解决方案。 2. 客服方面:定制客服话术,有关键词库,如产品知识、使用方法等。 3. HR 方面:团队绩效管理,根据绩效数据输出考评和改进建议;面试工具,如使用 GPT4 技术的实时转录工具帮助求职者生成回答。 另外,在七大行业的商业化应用中: 1. 企业运营:包括日常办公文档撰写整理、营销对话机器人等。 2. 教育:协助评估学生学习情况、定制学习内容等。 3. 游戏/媒体:如定制化游戏、出海文案生成等。 4. 零售/电商:包括舆情监测分析、品牌营销内容撰写等。 5. 金融/保险:如个人金融理财顾问、识别欺诈活动风险等。
2024-12-17
私人助理领域,如今有没有成熟的产品
在私人助理领域,目前有一些相关产品,但成熟的产品相对较少。 AI Agent 应用大多集中在 2B 场景,面向个人消费者的产品少之又少。一方面是高度智能化的 Agent 能力需要打磨,概念落地还有较长一段距离;另一方面是 AI 和娱乐消费诉求的结合还几乎没有,其主要带来的是生产方式变革和效率变革。个人消费者方向,目前只看到“私人助理”场景。 Dots 是目前看到的最接近理想 AI Agent 形态的 C 端私人助理。它支持用户发送文本和图像、音频信息并理解内容,能够为用户制定计划、进行文件管理、推荐咖啡店,帮助用户访问互联网中的最新工具和服务。不过,该产品需要排队较久的 waitlist,官方也较少更新动态。其官方 twitter 为:https://twitter.com/newcomputer ,官网介绍:https://new.computer/about 。
2024-12-12
如何通过投喂文档做私人智能体
要通过投喂文档做私人智能体,可以参考以下步骤: 1. 了解智能体的基本概念: 智能体大多建立在大模型之上,从基于符号推理的专家系统逐步演进而来。 具有强大的学习能力、灵活性和泛化能力。 核心在于有效控制和利用大型模型,提示词设计直接影响智能体的表现和输出结果。 2. 基于公开的大模型应用产品进行实践: 如 Chat GLM、Chat GPT、Kimi 等。 以 Chat GPT 为例: 点击“浏览 GPTs”按钮。 点击“Create”按钮创建自己的智能体。 使用自然语言对话或手工设置进行具体设置。 开始调试智能体并发布。 以 Chat GLM 为例: 点击“创建智能体”按钮。 输入对智能体的描述,如有准备好的提示词模板可直接粘贴。 智能体配置可自动生成,默认勾选增强能力,可根据实际需求调整,也可上传本地文件作为知识原料形成知识库。 3. 创建知识库: 手动清洗数据,提高数据准确性。 在线知识库:点击创建知识库,创建一个如画小二课程的 FAQ 知识库。选择飞书文档、自定义,输入区分内容,可编辑修改和删除,添加 Bot 并在调试区测试效果。 本地文档:注意合理拆分内容,如将课程章节按固定方式人工标注和处理,再选择创建知识库自定义清洗数据。 4. 发布应用:点击发布,确保在 Bot 商店中能够搜到,只有通过发布才能获取 API。 此外,还涉及多智能体协同的概念,以及个人和社区提示词分享等内容。由于最近盗版事件频发,获取在线课件需要扫群主二维码。
2024-10-26
有一个小朋友的私人教练微信群,个人手机中存储的微信聊天历史,如何提取成ai可以使用的知识库包含时间线,语音,图片视频。
目前要将个人手机中存储的包含时间线、语音、图片、视频的小朋友私人教练微信群聊天历史提取成 AI 可以使用的知识库,存在一定的技术难度。 对于文字聊天记录,可通过手动整理或使用一些第三方工具进行导出和整理。但对于语音、图片和视频,AI 直接处理和理解这些内容的能力有限。 语音需要先进行语音转文字的处理,这可能需要借助专门的语音转文字软件,且转换的准确性可能受到语音质量、口音等因素的影响。 图片和视频的内容提取则更为复杂,需要使用图像识别和视频分析技术,将其中的关键信息提取出来并转化为文字描述,但这种转化的准确性和完整性难以保证。 总的来说,要实现您的需求,需要综合运用多种技术和工具,并且可能无法达到完美的效果。
2024-08-08