直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

私人知识库

回答

以下是关于私人知识库的相关知识:

使用 GPT 打造个人知识库:

  • 可先将大文本拆分成若干小文本块(chunk),通过 embeddings API 将小文本块转换成与语义相关的 embeddings 向量,并在向量储存库中保存这些向量和文本块作为问答的知识库。
  • 当用户提出问题时,问题先通过 embeddings API 转换成问题向量,然后与向量储存库的所有文本块向量比对,查找距离最小的几个向量,把这几个向量对应的文本块提取出来,与原有问题组合成新的 prompt 发送给 GPT API。

理解 embeddings:

  • embeddings 是一个浮点数字的向量(列表),两个向量之间的距离衡量它们的关联性,小距离表示高关联度,大距离表示低关联度。
  • 向量是数学中表示大小和方向的量,通常用一串数字表示,在计算机科学和数据科学中常用列表来表示。
  • 计算向量之间距离常见的方式是欧几里得距离,即对应元素相减取平方和再开平方。

AI 时代的私人知识库:

  • 私人知识库中的内容一般有两种:日常从互联网收集的优质信息和个人日常的思考以及分享。
  • 基于私人知识库打造个人专属的 ChatGPT 常见有两种技术方案:训练专有大模型和利用 RAG(检索增强生成)技术。
    • 训练专有大模型:可以使用个人知识库训练专有的大模型,但此方案并非当下主流,存在高成本、更新难度大等缺陷。高成本体现在需要大量计算资源和专业知识;更新难度大在于若要更新模型知识,需重新训练或微调模型,过程复杂耗时。
内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

从零开始,用GPT打造个人知识库

上面将文本转换成向量(一串数字)能大大节省空间,它不是压缩,可简单理解为索引(Index)。接下来就有意思了。比如我有一个大文本,可以先把它拆分成若干个小文本块(也叫chunk),通过embeddings API将小文本块转换成embeddings向量,这个向量是跟文本块的语义相关。在一个地方(向量储存库)中保存这些embeddings向量和文本块,作为问答的知识库。当用户提出一个问题时,该问题先通过embeddings API转换成问题向量,然后将这问题向量与向量储存库的所有文本块向量比对,查找距离最小的几个向量,把这几个向量对应的文本块提取出来,与原有问题组合成为新的prompt(问题/提示词),发送给GPT API。这样一来就不用一次会话中输入所有领域知识,而是输入了关联度最高的部分知识。一图胜千言,转一张原理图。再举一个极其简单的例子,比如有一篇万字长文,拆分成Chrunks包含:文本块1:本文作者:越山。xxxx。文本块2:公众号越山集的介绍:传播效率方法,分享AI应用,陪伴彼此在成长路上,共同前行。文本块3:《反脆弱》作者塔勒布xxxx。文本块4:“科技爱好者周刊”主编阮一峰会记录每周值得分享的科技内容,周五发布。...文本块n如果提问是”此文作者是谁?“。可以直观的看出上面的文本块1跟这个问题的关联度最高,文本块3次之。通过比较embeddings向量也可以得到这结论。那最后发送给GPT API的问题会类似于”此文作者是谁?从以下信息中获取答案:本文作者:越山。xxxx。《反脆弱》作者塔勒布xxxx。“这样一来,大语言大概率能回答上这个问题。

从零开始,用GPT打造个人知识库

embeddings(直译为嵌入)是一个浮点数字的向量(列表)。两个向量之间的距离衡量它们的关联性。小距离表示高关联度,大距离表示低关联度。进一步解释:向量(列表):向量是数学中表示大小和方向的一个量,通常用一串数字表示。在计算机科学和数据科学中,向量通常用列表(list)来表示。列表是一种数据结构,它包含一组有序的元素。例如,一个二维向量可以表示为[2,3],这意味着沿着两个轴的分量分别为2和3。在这里,"list"是一种编程术语,意味着一系列有序的数据。向量之间的距离:向量之间的距离是一种度量两个向量相似性的方法。有多种方式可以计算两个向量之间的距离,最常见的是欧几里得距离。欧几里得距离计算方法是将两个向量的对应元素相减,然后取平方和,再开平方。例如,向量A =[1,2]和向量B =[4,6]之间的欧几里得距离为sqrt((4-1)^2 +(6-2)^2)= 5。较小距离意味着高相关性,因为向量间相似度高。在OpenAI词嵌入中,靠近向量的词语在语义上相似。例如,“猫”和“狗”距离近,它们都是宠物,与“汽车”距离远,相关性低。文档上给了创建embeddings的示例上面的命令访问embeddings API接口,将input语句,转化成下面这一串浮点数字。

这可能是讲 Coze 的知识库最通俗易懂的文章了

KimiChat和ChatGPT等AI聊天软件为什么能够精准的回答问题,因为他们使用了整个互联网的语料进行了训练,从而拥有了整个互联网的知识。看到这里你应该知道我想要讲什么了,对,既然能用整个互联网的知识训练出KimiChat和ChatGPT等大模型,那我能不能使用我的知识库来训练一个专有的大模型呢?当然可以!而且这样的效果是最好的。但是这并不是当下主流的方案,因为他有以下几个缺陷:高成本:训练和维护一个大型专有模型的成本非常高,需要大量的计算资源和专业知识。更新难度:如果需要更新模型的知识,需要重新训练或微调模型,这可能是一个复杂且耗时的过程下面让我们来看另一个方案:RAG(检索增强生成)

其他人在问
怎么构建个人本地知识库
构建个人本地知识库可以按照以下步骤进行: 1. 了解 RAG 技术: 利用大模型的能力搭建知识库是 RAG 技术的应用。 大模型训练数据有截止日期,RAG 可解决依靠不在训练集中的数据的问题。 RAG 应用包括文档加载、文本分割、存储、检索和输出 5 个过程。 文档加载可从多种来源加载,如 PDF 等非结构化数据、SQL 等结构化数据和代码等。 文本分割将文档切分为指定大小的块。 存储涉及将文档块嵌入转换为向量形式并存储到向量数据库。 检索通过算法找到与输入问题相似的嵌入片。 输出是将问题和检索出的嵌入片提交给 LLM 生成答案。 文本加载器将用户提供的文本加载到内存以便后续处理。 2. 准备软件: 需要一个额外的软件 AnythingLLM,它包含所有 Open WebUI 的能力,并额外支持选择文本嵌入模型和向量数据库。 3. 安装和配置: 安装地址:https://useanything.com/download 。 安装完成后进入配置页面,主要分为三步:选择大模型、选择文本嵌入模型、选择向量数据库。 4. 构建本地知识库: 在 AnythingLLM 中创建自己独有的 Workspace 与其他项目数据隔离。 首先创建一个工作空间。 上传文档并在工作空间中进行文本嵌入。 选择对话模式,AnythingLLM 提供 Chat 模式(大模型根据训练数据和上传文档综合给出答案)和 Query 模式(大模型仅依靠文档中的数据给出答案)。 完成配置后进行测试对话。 本文的思路来源于视频号博主黄益贺,作者按照其视频进行了实操并附加了一些关于 RAG 的额外知识。
2024-12-19
可不可以提供一个本地化的大模型方法,让我建立这个合规法律的知识库
以下是为您提供的本地化大模型及搭建合规法律知识库的方法: 一、通过 Open WebUI 使用大模型 1. 首先访问相关网址。打开页面时需使用邮箱注册账号。 2. 登陆成功后,若您使用过类似 ChatGPT 的大模型对话网站,对该页面不会陌生。 3. Open WebUI 一般有两种使用方式: 聊天对话。 RAG 能力,即让模型根据文档内容回答问题,这是构建知识库的基础之一。 4. 如果要求不高,此时已搭建本地大模型,并通过 Web UI 实现对话功能。 5. ChatGPT 访问速度快且回答效果好的原因: 速度快是因为 GPT 大模型部署的服务器配置高。 效果好是因为 GPT 大模型的训练参数多、数据更优及训练算法更好。 二、您的硬件达标了么 运行大模型需要很高的机器配置,个人玩家大多负担不起。以下是不同类型大模型的配置要求: 1. 生成文字大模型: 最低配置:8G RAM + 4G VRAM 建议配置:16G RAM + 8G VRAM 理想配置:32G RAM + 24G VRAM(如果要跑 GPT3.5 差不多性能的大模型) 2. 生成图片大模型(比如跑 SD): 最低配置:16G RAM + 4G VRAM 建议配置:32G RAM + 12G VRAM 3. 生成音频大模型: 最低配置:8G VRAM 建议配置:24G VRAM 最低配置运行非常慢,不建议使用。但这不妨碍我们亲自实操一遍,以加深对大模型构建知识库底层原理的了解。若想要更顺滑的体验知识库,可以参考文章: 三、本地知识库进阶 若要更灵活掌控知识库,需额外软件 AnythingLLM。它包含 Open WebUI 的所有能力,并额外支持以下能力: 1. 选择文本嵌入模型。 2. 选择向量数据库。 AnythingLLM 安装和配置 安装地址:https://useanything.com/download 。安装完成后进入配置页面,主要分为三步: 1. 第一步:选择大模型。 2. 第二步:选择文本嵌入模型。 3. 第三步:选择向量数据库。 构建本地知识库 AnythingLLM 中有 Workspace 的概念,可创建独有的 Workspace 与其他项目数据隔离。具体步骤: 1. 首先创建一个工作空间。 2. 上传文档并在工作空间中进行文本嵌入。 3. 选择对话模式。AnythingLLM 提供两种对话模式: Chat 模式:大模型会根据自己的训练数据和上传的文档数据综合给出答案。 Query 模式:大模型仅依靠文档中的数据给出答案。 4. 测试对话。完成上述配置后,即可与大模型进行对话。 四、写在最后 “看十遍不如实操一遍,实操十遍不如分享一遍”。若您对 AI Agent 技术感兴趣,可以联系我或者加我的免费知识星球(备注 AGI 知识库)。
2024-12-18
基于知识库系统的人工智能
基于知识库系统的人工智能包括以下方面: 专家系统: 是符号人工智能的早期成就之一,为充当有限问题领域的专家而设计。 基于从人类专家提取的知识库,并包含推理引擎。 像人类推理系统一样,包含短期记忆(问题记忆)和长期记忆(知识库)。 问题记忆包含与当前要解决问题有关的知识,称为静态知识。 知识库代表问题领域的长期知识,是动态知识。 推理引擎协调问题状态空间中的搜索过程,必要时向用户提问并找到适用规则。 例如,可根据动物物理特征判断动物的专家系统,其图称为 ANDOR 树,早期提取知识时绘制树形图有用,计算机中用规则表示更方便。 FastGPT: 基于 LLM 技术,能理解自然语言并生成高质量答案。 支持连接外部知识库获取更全面信息。 具有可视化工作流编排工具,方便创建复杂问答场景。 具备开箱即用的数据处理和模型调用功能,上手速度快。 是功能强大、易于使用的知识库问答系统,可帮助企业构建智能客服、知识库搜索、文档生成等应用。 相关资源: 您可以为喜欢的主题写一个 ANDOR 树。同时,可参见了解实施正向推理和反向推理的专家系统示例。需注意,此例简单,规则达一定数量(约 200 多条)时才会有智能行为,规则复杂时可能难以牢记,基于知识的系统重要特点是能准确解释任何决定的做出过程。
2024-12-17
我是一个投资人,我想针对每个项目建立知识库,类似一个个对话的形式,我把关于某个项目的材料全部丢进一个对话中,然后可以针对每个项目进行提问,或者要求AI帮我产出某种类型的文件。哪个App可以最好的满足我的需求?
以下是一些可能满足您需求的 App 选项: 1. WaytoAGI 网站: 提供和 AI 知识库对话的功能,您可以在此询问任何关于 AI 的问题。 集合了精选的 AI 网站,方便您按需求找到适合的工具。 有精选的 AI 提示词,可复制到 AI 对话网站使用。 会将每天知识库的精华内容呈现给大家。 2. 阿里千问模型:可以作为 AI 模型用于问答机器人的配置。 在配置问答机器人时,需要注意模型、提示词和知识库的协同作用。模型就像拥有无穷智慧的人,提示词能设定其角色和专注技能,知识库则如同工作手册,为其提供特定项目的详细信息。
2024-12-17
基于知识库做备考AI Agent,我该怎么做
以下是基于知识库为您提供的备考 AI Agent 的建议: 首先,建议您先吃透 prompt,这对于学习 AI Agent 很重要。 在 cost 平台有丰富的教程和比赛,您可以参与其中。 了解到 AI agent 是大语言模型衍生出的智能体,用于解决大模型在处理复杂任务时存在的一些问题,如无法获取最新外部信息、缺少规划、没有记忆能力等。 明天银海老师将详细讲解 AI agent,您可以关注。 此外,知识库中还提到了一些相关的活动和内容,如 prompt battle、AI 神经大赛等,您可以根据自己的兴趣参与。 对于与 AI 会话相关的内容,您可以通过关键词学设进行学习,比如每日选词丢入稳定扩散模型,积累大量提示词,还建有飞书群供感兴趣的同学加入练习。 在 AI 绘画方面,是视觉基础,有针对 AI 绘画学社做的关键词词库精选活动。同时,还收集了 AI 视频类词汇和相关词典,更具象的描述词汇能让模型发挥更好效果。 希望以上内容对您备考 AI Agent 有所帮助。
2024-12-16
请问我该在知识库的 哪里找到MJ的提示词库
以下是关于 MJ 提示词库的相关信息: MidJourney 200 条风格词汇: 《》 @TheMouseCrypto 发表了一份 200 条风格词汇整理,页数是 77 页,很全的宝典。 Prompt 网站精选(图像类 Prompt 网站): MidLibrary:Midjourney 最全面的流派、艺术技巧和艺术家风格库, MidJourney Prompt Tool:类型多样的 promot 书写工具,点击按钮就能生成提示词修饰部分, OPS 可视化提示词:这个网站有 Mid Journey 的图片风格、镜头等写好的词典库,方便你快速可视化生成自己的绘画提示词, AIart 魔法生成器:中文版的艺术作品 Prompt 生成器, IMI Prompt:支持多种风格和形式的详细的 MJ 关键词生成器, Prompt Hero:好用的 Prompt 搜索,Search prompts for Stable Diffusion,ChatGPT & Midjourney, OpenArt:AI 人工智能图像生成器, img2prompt:根据图片提取 Prompt, MidJourney 提示词工具:专门为 MidJourney 做的提示词工具,界面直观易用, PromptBase:Prompt 交易市场,可以购买、使用、销售各种对话、设计 Prompt 模板, AiTuts Prompt:精心策划的高质量 Midjourney 提示数据库,提供了广泛的不同风格供你选择, MJ 的随机种子库收集: 使用方法: 输入提示词 + sref random ar 1:1,可获得随机风格种子和图片。 测试风格种子的泛用性:{a girl,a boy,animals,plants,environment}sref 同一个风格种子
2024-12-08
AI+交易:来定制专属于你的私人高级交易顾问吧!
以下是关于“AI+交易:来定制专属于你的私人高级交易顾问吧!”的相关内容: 原本是一名 AIGC 创作者,在接触交易后,希望将交易与 AIGC 相结合,打造私人高级交易顾问。学习交易知识后认识到,单纯迷信技术分析提高胜率实现长期稳定盈利对个人投资者不可行,心态关键。新人对交易理论不熟悉更致命,成熟交易员单一策略熟练运用能找进出点、良好心态能长期盈利,但不熟悉行情只能观望。借助 AI 分析行情,期望在不熟悉市场时找到合适进场点,提高资金使用效率,多种策略配合提高理论胜率(有统计数据显示几千名专业交易员一年里平均胜率 70)。 此外,还有以下 AI 与工作场景结合的案例: 1. 销售方面:包括话术总结优缺点、定制销售解决方案。 2. 客服方面:定制客服话术,有关键词库,如产品知识、使用方法等。 3. HR 方面:团队绩效管理,根据绩效数据输出考评和改进建议;面试工具,如使用 GPT4 技术的实时转录工具帮助求职者生成回答。 另外,在七大行业的商业化应用中: 1. 企业运营:包括日常办公文档撰写整理、营销对话机器人等。 2. 教育:协助评估学生学习情况、定制学习内容等。 3. 游戏/媒体:如定制化游戏、出海文案生成等。 4. 零售/电商:包括舆情监测分析、品牌营销内容撰写等。 5. 金融/保险:如个人金融理财顾问、识别欺诈活动风险等。
2024-12-17
私人助理领域,如今有没有成熟的产品
在私人助理领域,目前有一些相关产品,但成熟的产品相对较少。 AI Agent 应用大多集中在 2B 场景,面向个人消费者的产品少之又少。一方面是高度智能化的 Agent 能力需要打磨,概念落地还有较长一段距离;另一方面是 AI 和娱乐消费诉求的结合还几乎没有,其主要带来的是生产方式变革和效率变革。个人消费者方向,目前只看到“私人助理”场景。 Dots 是目前看到的最接近理想 AI Agent 形态的 C 端私人助理。它支持用户发送文本和图像、音频信息并理解内容,能够为用户制定计划、进行文件管理、推荐咖啡店,帮助用户访问互联网中的最新工具和服务。不过,该产品需要排队较久的 waitlist,官方也较少更新动态。其官方 twitter 为:https://twitter.com/newcomputer ,官网介绍:https://new.computer/about 。
2024-12-12
如何通过投喂文档做私人智能体
要通过投喂文档做私人智能体,可以参考以下步骤: 1. 了解智能体的基本概念: 智能体大多建立在大模型之上,从基于符号推理的专家系统逐步演进而来。 具有强大的学习能力、灵活性和泛化能力。 核心在于有效控制和利用大型模型,提示词设计直接影响智能体的表现和输出结果。 2. 基于公开的大模型应用产品进行实践: 如 Chat GLM、Chat GPT、Kimi 等。 以 Chat GPT 为例: 点击“浏览 GPTs”按钮。 点击“Create”按钮创建自己的智能体。 使用自然语言对话或手工设置进行具体设置。 开始调试智能体并发布。 以 Chat GLM 为例: 点击“创建智能体”按钮。 输入对智能体的描述,如有准备好的提示词模板可直接粘贴。 智能体配置可自动生成,默认勾选增强能力,可根据实际需求调整,也可上传本地文件作为知识原料形成知识库。 3. 创建知识库: 手动清洗数据,提高数据准确性。 在线知识库:点击创建知识库,创建一个如画小二课程的 FAQ 知识库。选择飞书文档、自定义,输入区分内容,可编辑修改和删除,添加 Bot 并在调试区测试效果。 本地文档:注意合理拆分内容,如将课程章节按固定方式人工标注和处理,再选择创建知识库自定义清洗数据。 4. 发布应用:点击发布,确保在 Bot 商店中能够搜到,只有通过发布才能获取 API。 此外,还涉及多智能体协同的概念,以及个人和社区提示词分享等内容。由于最近盗版事件频发,获取在线课件需要扫群主二维码。
2024-10-26
有一个小朋友的私人教练微信群,个人手机中存储的微信聊天历史,如何提取成ai可以使用的知识库包含时间线,语音,图片视频。
目前要将个人手机中存储的包含时间线、语音、图片、视频的小朋友私人教练微信群聊天历史提取成 AI 可以使用的知识库,存在一定的技术难度。 对于文字聊天记录,可通过手动整理或使用一些第三方工具进行导出和整理。但对于语音、图片和视频,AI 直接处理和理解这些内容的能力有限。 语音需要先进行语音转文字的处理,这可能需要借助专门的语音转文字软件,且转换的准确性可能受到语音质量、口音等因素的影响。 图片和视频的内容提取则更为复杂,需要使用图像识别和视频分析技术,将其中的关键信息提取出来并转化为文字描述,但这种转化的准确性和完整性难以保证。 总的来说,要实现您的需求,需要综合运用多种技术和工具,并且可能无法达到完美的效果。
2024-08-08