Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

私人知识库

Answer

以下是关于私人知识库的相关知识:

使用 GPT 打造个人知识库:

  • 可先将大文本拆分成若干小文本块(chunk),通过 embeddings API 将小文本块转换成与语义相关的 embeddings 向量,并在向量储存库中保存这些向量和文本块作为问答的知识库。
  • 当用户提出问题时,问题先通过 embeddings API 转换成问题向量,然后与向量储存库的所有文本块向量比对,查找距离最小的几个向量,把这几个向量对应的文本块提取出来,与原有问题组合成新的 prompt 发送给 GPT API。

理解 embeddings:

  • embeddings 是一个浮点数字的向量(列表),两个向量之间的距离衡量它们的关联性,小距离表示高关联度,大距离表示低关联度。
  • 向量是数学中表示大小和方向的量,通常用一串数字表示,在计算机科学和数据科学中常用列表来表示。
  • 计算向量之间距离常见的方式是欧几里得距离,即对应元素相减取平方和再开平方。

AI 时代的私人知识库:

  • 私人知识库中的内容一般有两种:日常从互联网收集的优质信息和个人日常的思考以及分享。
  • 基于私人知识库打造个人专属的 ChatGPT 常见有两种技术方案:训练专有大模型和利用 RAG(检索增强生成)技术。
    • 训练专有大模型:可以使用个人知识库训练专有的大模型,但此方案并非当下主流,存在高成本、更新难度大等缺陷。高成本体现在需要大量计算资源和专业知识;更新难度大在于若要更新模型知识,需重新训练或微调模型,过程复杂耗时。
Content generated by AI large model, please carefully verify (powered by aily)

References

从零开始,用GPT打造个人知识库

上面将文本转换成向量(一串数字)能大大节省空间,它不是压缩,可简单理解为索引(Index)。接下来就有意思了。比如我有一个大文本,可以先把它拆分成若干个小文本块(也叫chunk),通过embeddings API将小文本块转换成embeddings向量,这个向量是跟文本块的语义相关。在一个地方(向量储存库)中保存这些embeddings向量和文本块,作为问答的知识库。当用户提出一个问题时,该问题先通过embeddings API转换成问题向量,然后将这问题向量与向量储存库的所有文本块向量比对,查找距离最小的几个向量,把这几个向量对应的文本块提取出来,与原有问题组合成为新的prompt(问题/提示词),发送给GPT API。这样一来就不用一次会话中输入所有领域知识,而是输入了关联度最高的部分知识。一图胜千言,转一张原理图。再举一个极其简单的例子,比如有一篇万字长文,拆分成Chrunks包含:文本块1:本文作者:越山。xxxx。文本块2:公众号越山集的介绍:传播效率方法,分享AI应用,陪伴彼此在成长路上,共同前行。文本块3:《反脆弱》作者塔勒布xxxx。文本块4:“科技爱好者周刊”主编阮一峰会记录每周值得分享的科技内容,周五发布。...文本块n如果提问是”此文作者是谁?“。可以直观的看出上面的文本块1跟这个问题的关联度最高,文本块3次之。通过比较embeddings向量也可以得到这结论。那最后发送给GPT API的问题会类似于”此文作者是谁?从以下信息中获取答案:本文作者:越山。xxxx。《反脆弱》作者塔勒布xxxx。“这样一来,大语言大概率能回答上这个问题。

从零开始,用GPT打造个人知识库

embeddings(直译为嵌入)是一个浮点数字的向量(列表)。两个向量之间的距离衡量它们的关联性。小距离表示高关联度,大距离表示低关联度。进一步解释:向量(列表):向量是数学中表示大小和方向的一个量,通常用一串数字表示。在计算机科学和数据科学中,向量通常用列表(list)来表示。列表是一种数据结构,它包含一组有序的元素。例如,一个二维向量可以表示为[2,3],这意味着沿着两个轴的分量分别为2和3。在这里,"list"是一种编程术语,意味着一系列有序的数据。向量之间的距离:向量之间的距离是一种度量两个向量相似性的方法。有多种方式可以计算两个向量之间的距离,最常见的是欧几里得距离。欧几里得距离计算方法是将两个向量的对应元素相减,然后取平方和,再开平方。例如,向量A =[1,2]和向量B =[4,6]之间的欧几里得距离为sqrt((4-1)^2 +(6-2)^2)= 5。较小距离意味着高相关性,因为向量间相似度高。在OpenAI词嵌入中,靠近向量的词语在语义上相似。例如,“猫”和“狗”距离近,它们都是宠物,与“汽车”距离远,相关性低。文档上给了创建embeddings的示例上面的命令访问embeddings API接口,将input语句,转化成下面这一串浮点数字。

这可能是讲 Coze 的知识库最通俗易懂的文章了

KimiChat和ChatGPT等AI聊天软件为什么能够精准的回答问题,因为他们使用了整个互联网的语料进行了训练,从而拥有了整个互联网的知识。看到这里你应该知道我想要讲什么了,对,既然能用整个互联网的知识训练出KimiChat和ChatGPT等大模型,那我能不能使用我的知识库来训练一个专有的大模型呢?当然可以!而且这样的效果是最好的。但是这并不是当下主流的方案,因为他有以下几个缺陷:高成本:训练和维护一个大型专有模型的成本非常高,需要大量的计算资源和专业知识。更新难度:如果需要更新模型的知识,需要重新训练或微调模型,这可能是一个复杂且耗时的过程下面让我们来看另一个方案:RAG(检索增强生成)

Others are asking
请帮我梳理WaytoAGI知识库所有信息的目录
以下是 WaytoAGI 知识库的信息目录: 1. 通往 AGI 之路知识库使用指南 智能纪要 总结 关于 AI 知识库使用及 AIPO 活动的介绍 AIPO 线下活动及 AI 相关探讨 way to AGI 社区活动与知识库介绍 关于 AI 知识库及学习路径的介绍 时代杂志评选的领军人物 AI 相关名词解释 知识库的信息来源 社区共创项目 学习路径 经典必读文章 初学者入门推荐 历史脉络类资料 2. 介绍说明 AJ,产品经理,「通往 AGI 之路」WaytoAGI 开源知识库的创建者 项目的起源和社群开发的初衷 社区介绍 WaytoAGI 是一个致力于人工智能学习的中文知识库和社区平台,为学习者提供系统全面的 AI 学习路径,覆盖从基础概念到实际应用的各个方面。 全球领先的 AI 开源社区,最新最全面的 AI 资源,丰富多样的技术活动,100+进行中的活动,4000+学习资源,1500000+社区成员。 知识库与社区平台:汇集了上千个人工智能网站和工具,提供最新的 AI 工具、AI 应用、AI 智能体和行业资讯。 学习资源:提供丰富的学习资源,包括文章、教程、工具推荐以及最新的 AI 行业资讯等。 实践活动:社区定期组织活动,如视频挑战赛、模型创作大赛等,鼓励成员在实践中学习,促进交流与合作。 开放共享:引领并推广开放共享的知识体系,倡导共学共创等形式,孵化了 AI 春晚、离谱村等大型共创项目。 用户基础:在没有任何推广的情况下,一年时间已有超过 100 万用户和超千万次的访问量。 目标与愿景:让每个人的学习过程少走弯路,让更多的人因 AI 而强大。 目前合作过的公司/产品:阿里云,通义千问,淘宝,智谱,支付宝,豆包,火山引擎,marscode,coze,堆友,即梦,可灵,MiniMax 海螺 AI,阶跃星辰,百度,Kimi,吐司,liblib,华硕,美团,美的,360,伊利,魔搭,央视频,Civitai,Openart,Tripo3D,青椒云等 3. 「用 AI 一起搞钱搞事搞脑子他们在线下密谋」 WaytoAGI 是啥? 是一个专门讲人工智能的“百科全书”,从基础到高级,还有实用的 AI 工具推荐、案例分享、行业最新动态,用飞书文档整理得清楚。 对我有啥用? 对 AI 一窍不通,从零开始教。 懂点 AI,提供实用工具和案例。 怕错过 AI 最新动态,帮你整理资讯。 想用 AI 赚钱或创业,告诉你相关工具和方法。 不想浪费时间找资源,帮你筛选推荐。
2025-02-26
知识库中关于 deepseek 有哪些文档
以下是关于 DeepSeek 的相关文档和内容: 章节: 知识点: 申请: 接入: 此外,还有以下相关内容: 【今晚 8 点】聊聊你怎么使用 DeepSeek!2025 年 2 月 6 日的智能纪要,包括关于 DP 模型的使用分享、音系学和与大模型互动的分享、DeepSeek 的介绍与活动预告等。 DP 模型的功能、使用优势、存在问题、审核方法、使用建议、使用场景和案例展示。 音系学研究、大模型取队名。 DeepSeek 文档分享、使用介绍、未来活动预告。
2025-02-25
大模型+知识库
大模型与知识库的结合: RAG(RetrievalAugmented Generation)即搜索增强生成,指大模型结合广泛的知识库数据,检索相关片段后生成答案。这种方式能减少大模型的幻觉,提高特定任务表现,提升搜索文档信息和生成回答的效率与体验。 LangChain 是实现 RAG 的开源框架,提供基础组件和工具,允许开发人员将大语言模型与外部数据源结合搭建应用。LangChainChatchat 是在 LangChain 基础上构建的具体应用,目标是建立对中文场景和开源模型支持友好、可离线运行的知识库问答解决方案。 在商业化问答场景中,大模型有时会回复不准确,如未根据正确的知识库内容回答,在严肃场景中这是不能接受的错误。优化大模型更准确回答问题的过程称为 RAG。 在基于大模型+知识库的 Code Review 实践中,涉及语言、根据知识库返回的上下文信息、变更的代码等。开源大模型与领域知识库结合并私有化部署是企业级应用的一种实践方式,大模型在 Chat 聊天中的产品形态更多是展示能力,最终产品形态需依具体场景而定。
2025-02-25
知识库
以下是关于知识库的相关内容: 智能体创建: 手动清洗数据:本次创建知识库使用手动清洗数据,上节课程是自动清洗数据,自动清洗数据会出现目前数据不准的情况,本节视频就尝试使用手动清洗数据,提高数据的准确性。参考链接: 在线知识库:点击创建知识库,创建一个画小二课程的 FAQ 知识库。飞书在线文档中每个问题和答案以分割,可选择飞书文档、自定义的自定义,输入后可编辑修改和删除,添加 Bot 后可在调试区测试效果。 本地文档:本地 word 文件,注意拆分内容以提高训练数据准确度,将海报的内容训练的知识库里面。画小二这个课程 80 节课程,分为了 11 个章节,不能一股脑全部放进去训练,要先将 11 章的大的章节名称内容放进来,章节内详细内容按固定方式进行人工标注和处理,然后选择创建知识库自定义清洗数据。 发布应用:点击发布,确保在 Bot 商店中能够搜到,没有通过发布的获取不到 API。 概述:扣子提供了几种方式来存储和记忆外部数据,以便 Bot 精准回复用户。知识库是大量知识分片,通过语义匹配,给模型补充知识。以车型数据为例,每个知识库的分段中,保存了一种车型的基础数据。数据库类似传统软件开发的数据库功能,以表格结构存储信息,通过 NoSQL 方式使用。目前提供的是关系型数据库,还有 AI 便签和单词本等。 智能体“竖起耳朵听”:扣子的知识库功能强大,可以上传和存储外面的知识内容,并提供多种查找知识的方法。在这个智能体中,用到了自己的知识库,收集了很多关于地道口语表达的短句,知识库可以包含多种格式的文件,这里只用了文本格式,有了自己的知识库,智能体回答用户时会首先检索自己的知识库内容。还可以添加开场白,提升体验。
2025-02-25
如何用coze搭建和维护知识库
以下是关于如何用 Coze 搭建和维护知识库的详细步骤: 1. 创建知识库: 来到个人空间,找到知识库导航栏,点击创建知识库。 选择知识库的格式,目前(2024.06.08)Coze 支持三种格式:文档、表格(CSV、Excel 等)、图片(上传图片并填写图片文字说明)。 可以选择本地文档(问答对可选择表格),并进行自定义的文档切割。 数据处理完成后,一个问答对会被切割成一个文档片。 2. 使用知识库: 可参考教程: 。 3. 手动清洗数据的相关操作: 在线知识库:点击创建知识库,创建一个如画小二课程的 FAQ 知识库。知识库的飞书在线文档中,每个问题和答案以“”分割。选择飞书文档、自定义的自定义,输入“”,然后可编辑修改和删除。点击添加 Bot,添加好后可在调试区测试效果。 本地文档:对于如画小二课程这类内容,不能一股脑全部放进去训练。正确的方法是先将大的章节名称内容放进来,再按照固定方式对章节内详细内容进行人工标注和处理,然后选择创建知识库自定义清洗数据。 4. 发布应用:点击发布,确保在 Bot 商店中能够搜到。 创建知识库时的小技巧:知识库好不好用,跟内容切分粒度有很大关系,可以在内容中加上一些特殊分割符,比如“”,分段标识符号选择“自定义”,内容填“”。
2025-02-25
AGI网站和飞书知识库有什么区别
AGI 网站和飞书知识库存在以下区别: 1. 功能方面: AGI 网站提供和 AI 知识库对话、集合精选的 AI 网站、集合精选的提示词、呈现知识库精选内容等功能。 飞书知识库则更像是一个知识的存储和分享平台,包含 AI 工具的说明书、经验分享、实用秘籍等。 2. 使用方式: AGI 网站可以通过在网站首页直接输入问题得到回答,也可以加入飞书群@机器人。 飞书知识库通过点击飞书链接进入。 3. 内容呈现: AGI 网站的界面有左边的导航栏、上面的搜索框和中间的内容区。 飞书知识库的内容呈现方式类似于藏宝图。 总之,AGI 网站和飞书知识库各自独立但又相互关联,都是为了帮助用户更好地学习和获取 AI 相关知识。
2025-02-25
如何搭建私人知识库
搭建私人知识库可以参考以下方法: 1. 基于 GPT 搭建: 给 GPT 输入(投喂)定制化的知识,但 GPT3.5(即当前免费版的 ChatGPT)一次交互(输入和输出)只支持最高 4096 个 Token,约等于 3000 个单词或 2300 个汉字,容量对于绝大多数领域知识不够。 OpenAI 提供了 embedding API 解决方案,embeddings 是一个浮点数字的向量(列表),两个向量之间的距离衡量它们的关联性,小距离表示高关联度,大距离表示低关联度。 将大文本拆分成若干个小文本块(chunk),通过 embeddings API 将小文本块转换成 embeddings 向量,在一个地方(向量储存库)中保存这些 embeddings 向量和文本块,当用户提出问题时,将问题先通过 embeddings API 转换成问题向量,然后与向量储存库的所有文本块向量比对,查找距离最小的几个向量,把这几个向量对应的文本块提取出来,与原有问题组合成为新的 prompt(问题/提示词),发送给 GPT API。 2. 本地部署大模型搭建: 利用大模型的能力搭建知识库本身就是一个 RAG 技术的应用,在进行本地知识库的搭建实操之前,需要先对 RAG 有大概的了解。 RAG 的应用包括文档加载(从多种不同来源加载文档,LangChain 提供了 100 多种不同的文档加载器)、文本分割(把 Documents 切分为指定大小的块)、存储(将切分好的文档块进行嵌入转换成向量的形式,并将 Embedding 后的向量数据存储到向量数据库)、检索(通过某种检索算法找到与输入问题相似的嵌入片)、Output(把问题以及检索出来的嵌入片一起提交给 LLM,LLM 会通过问题和检索出来的提示一起来生成更加合理的答案)。 文本加载器就是将用户提供的文本加载到内存中,便于进行后续的处理。
2025-01-22
怎么用已经公布的源代码,自己拥有一个私人ai。详细步骤让小白都能成功,并且列出硬件设施。
以下是使用已公布的源代码拥有一个私人 AI 的详细步骤,适合小白操作,并列出所需的硬件设施: 硬件设施: 云服务器 步骤: 1. 利用云服务器,在宝塔面板的终端安装相关命令。可通过以下链接获取详细信息:https://docs.dify.ai/v/zhhans/gettingstarted/installselfhosted/dockercompose 。这些命令在宝塔面板的终端安装,安装的 dockercompose 文件位于 /root/dify/docker 目录下。 2. 检查运行情况,使用 docker compose ps 命令,如果 nginx 容器无法运行,可能是 80 端口被占用。将终端输出的代码粘贴给 AI ,按照 AI 的方法检查谁占用了端口,并停止占用进程。确保每一步成功后再进行下一步,可将代码复制询问 AI 以确认。 3. 在浏览器地址栏输入公网 IP(可在腾讯云服务器或宝塔面板地址栏查看,去掉后面的:8888),随便填写邮箱密码建立一个知识库,在知识库中选择设置。 4. 选择模型,国内模型通常有免费额度,例如智谱 AI 。点击设置,从智谱 AI 获取钥匙,进入智谱官网用手机号注册,添加 API keys 并复制。查看免费额度(智谱在资源包管理中查看,赠送 500 万一个月)。 5. 回到之前的页面,复制钥匙并保存,随便创建一个应用。 6. 可以先选择智谱 glm4 进行测试,聊两句看是否有回应,然后点击发布。 7. 点击 api 秘钥,创建一个并复制。
2024-12-20
怎么用已经公布的源代码,自己拥有一个私人ai。详细步骤,并且列出硬件设施,说明jetson orin nano可以使用什么模型?
目前已公布的源代码种类繁多,要利用其拥有一个私人 AI 并非简单直接的过程,且需要一定的技术知识和经验。 一般来说,以下是大致的步骤: 1. 选择合适的源代码:根据您的需求和技术能力,从众多已公布的源代码中选择适合的项目。 2. 环境搭建:安装所需的开发工具、编程语言和相关依赖库。 3. 数据准备:收集和整理适合训练和优化模型的数据。 4. 代码理解与修改:深入理解所选源代码的结构和逻辑,根据您的需求进行必要的修改和优化。 5. 训练模型:使用准备好的数据对模型进行训练。 6. 评估与优化:对训练好的模型进行评估,根据评估结果进行进一步的优化。 关于硬件设施,Jetson Orin Nano 是一款性能不错的嵌入式计算设备。它可以支持多种模型,例如常见的深度学习模型如卷积神经网络(CNN)、循环神经网络(RNN)等。但具体能使用哪些模型,还取决于模型的规模、计算需求以及您对性能和资源的要求。
2024-12-20
AI+交易:来定制专属于你的私人高级交易顾问吧!
以下是关于“AI+交易:来定制专属于你的私人高级交易顾问吧!”的相关内容: 原本是一名 AIGC 创作者,在接触交易后,希望将交易与 AIGC 相结合,打造私人高级交易顾问。学习交易知识后认识到,单纯迷信技术分析提高胜率实现长期稳定盈利对个人投资者不可行,心态关键。新人对交易理论不熟悉更致命,成熟交易员单一策略熟练运用能找进出点、良好心态能长期盈利,但不熟悉行情只能观望。借助 AI 分析行情,期望在不熟悉市场时找到合适进场点,提高资金使用效率,多种策略配合提高理论胜率(有统计数据显示几千名专业交易员一年里平均胜率 70)。 此外,还有以下 AI 与工作场景结合的案例: 1. 销售方面:包括话术总结优缺点、定制销售解决方案。 2. 客服方面:定制客服话术,有关键词库,如产品知识、使用方法等。 3. HR 方面:团队绩效管理,根据绩效数据输出考评和改进建议;面试工具,如使用 GPT4 技术的实时转录工具帮助求职者生成回答。 另外,在七大行业的商业化应用中: 1. 企业运营:包括日常办公文档撰写整理、营销对话机器人等。 2. 教育:协助评估学生学习情况、定制学习内容等。 3. 游戏/媒体:如定制化游戏、出海文案生成等。 4. 零售/电商:包括舆情监测分析、品牌营销内容撰写等。 5. 金融/保险:如个人金融理财顾问、识别欺诈活动风险等。
2024-12-17
私人助理领域,如今有没有成熟的产品
在私人助理领域,目前有一些相关产品,但成熟的产品相对较少。 AI Agent 应用大多集中在 2B 场景,面向个人消费者的产品少之又少。一方面是高度智能化的 Agent 能力需要打磨,概念落地还有较长一段距离;另一方面是 AI 和娱乐消费诉求的结合还几乎没有,其主要带来的是生产方式变革和效率变革。个人消费者方向,目前只看到“私人助理”场景。 Dots 是目前看到的最接近理想 AI Agent 形态的 C 端私人助理。它支持用户发送文本和图像、音频信息并理解内容,能够为用户制定计划、进行文件管理、推荐咖啡店,帮助用户访问互联网中的最新工具和服务。不过,该产品需要排队较久的 waitlist,官方也较少更新动态。其官方 twitter 为:https://twitter.com/newcomputer ,官网介绍:https://new.computer/about 。
2024-12-12
如何通过投喂文档做私人智能体
要通过投喂文档做私人智能体,可以参考以下步骤: 1. 了解智能体的基本概念: 智能体大多建立在大模型之上,从基于符号推理的专家系统逐步演进而来。 具有强大的学习能力、灵活性和泛化能力。 核心在于有效控制和利用大型模型,提示词设计直接影响智能体的表现和输出结果。 2. 基于公开的大模型应用产品进行实践: 如 Chat GLM、Chat GPT、Kimi 等。 以 Chat GPT 为例: 点击“浏览 GPTs”按钮。 点击“Create”按钮创建自己的智能体。 使用自然语言对话或手工设置进行具体设置。 开始调试智能体并发布。 以 Chat GLM 为例: 点击“创建智能体”按钮。 输入对智能体的描述,如有准备好的提示词模板可直接粘贴。 智能体配置可自动生成,默认勾选增强能力,可根据实际需求调整,也可上传本地文件作为知识原料形成知识库。 3. 创建知识库: 手动清洗数据,提高数据准确性。 在线知识库:点击创建知识库,创建一个如画小二课程的 FAQ 知识库。选择飞书文档、自定义,输入区分内容,可编辑修改和删除,添加 Bot 并在调试区测试效果。 本地文档:注意合理拆分内容,如将课程章节按固定方式人工标注和处理,再选择创建知识库自定义清洗数据。 4. 发布应用:点击发布,确保在 Bot 商店中能够搜到,只有通过发布才能获取 API。 此外,还涉及多智能体协同的概念,以及个人和社区提示词分享等内容。由于最近盗版事件频发,获取在线课件需要扫群主二维码。
2024-10-26