Chat with Wiki - 学习新手从哪几个维度了解知识库

Answer

对于学习新手来说，可以从以下几个维度了解知识库：

知识库的整体构成：
- 知识库是一整套领域知识，是 Bot 加载的最小单位。
- 单元是知识库的一部分，可上传的最小内容单位可以是一个.txt、.pdf、.csv 文件或一个网页。
- 分段是一个单元切分成多个分段，是模型查询的最小单位，分段内容的完整度和准确性会影响模型回答问题的准确性。
具体知识内容：
- 如关于 transformer 的知识，计划从算法 1（NLP 中的 transformer 网络结构）、算法 2（CV 中的 transformer 网络结构）、算法 3（多模态下的 transformer 网络结构）、训练（transformer 的分布式训练）、部署（transformer 的 tvm 量化与推理）这五个方面进行介绍。
- 常见的 LLM 基座模型里的 3 种 transformer 架构，包括 encoder-only、encoder-decoder 和 decoder-only。
与其他元素的关系：
- 在商业化问答场景中，模型、提示词、知识库三者相互配合。大语言模型像一个学习过无数知识的人，提示词是告知其角色和专注技能，使其成为所需“员工”，知识库则是给“员工”的工作手册。

Content generated by AI large model, please carefully verify (powered by aily)

References

扣子的知识库功能提供了简单易用的方式来存储和管理外部数据，让你的Bot可以与指定的数据进行交互。将数据上传到知识库后，扣子会自动将你的文档分割成一个个内容片段进行存储，并通过向量搜索来检索最相关的内容来回答用户问题。知识库由大到小可分为：知识库：一整套领域知识，是Bot加载的最小单位。单元：知识库的一部分，可上传的最小内容单位可以是一个.txt、.pdf、.csv文件或一个网页。分段：一个单元切分成多个分段，模型查询的最小单位。分段内容的完整度和准确性度会影响模型回答问题的准确性。

小A-技术开发/大模型

|标题|备注|作者|链接|发布日期|附件(1)|单选| |-|-|-|-|-|-|-| |Perplexity指标究竟是什么?|笔者小A从自己实际入坑的经验出发，尝试总结梳理出新手友好的transformer入坑指南。一方面能倒逼自己理清知识脉络，另一方面希望能让后面的新同学少走弯路，更快拿到自己想要的知识。 本系列计划从以下五个方面对transformer进行介绍 算法1:NLP中的transformer网络结构 算法2:CV中的transformer网络结构 算法3:多模态下的transformer网络结构 训练:transformer的分布式训练 部署:transformer的tvm量化与推理|[aaronxic](https://www.zhihu.com/people/aaronxic)|[（1）Perplexity指标究竟是什么?](https://ywh1bkansf.feishu.cn/wiki/E1pjwy9OMirKTdkFQDEcDDlfnTh)|2023/07/05||| |初探LLM基座模型|本篇内容主要介绍LLM基座模型里常见的3种transformer架构，encoder-only，encoder-decoder和decoder-only|[aaronxic](https://www.zhihu.com/people/aaronxic)|[（2）初探LLM基座模型](https://ywh1bkansf.feishu.cn/wiki/UU9pwtOFtiKIqAkQiSVc3Zdun7e)|2023/07/06|||

【AI+知识库】商业化问答场景，让AI回复更准确，一篇专为所有“小白”讲透RAG的实例教程（上篇）

上方页面左侧画红框的地方，是这个“问答机器人”的配置，右侧是与“机器人”的一轮对话。左侧有三处配置：AI模型提示词知识库。模型、提示词、知识库三者可以想象成：大语言模型：是一个学习过无数本书、拥有无穷智慧的人。他读过无数的书、看过无数的段子，因此对公共知识、学识技能、日常聊天十分擅长。然而，在工作场景下，只会聊天侃大山可不行，你想让他帮你干活。这个时候，就需要“提示词”出场了，提示词：是你告诉这个全知全能的人，他是一个什么样的角色、他要专注于哪些技能，让他能够按照你的想法，变成一个你需要的“员工”。知识库：相当于你给这个“聪明”员工的发放了一本工作手册。即使是看过再多的书、浏览过再多的文字，也不会准确的知道见到老板娘过来吃饭要打三折，张梦飞过去吃饭要打骨折。而知识库，就是把这些内容写在了工作手册上。让这个聪明的员工，见到有人来的时候，就翻一翻手册，然后再做出反应。我的设定：AI模型：这里使用的是阿里千问模型。