Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

如何搭建定制知识库

Answer

以下是关于如何搭建定制知识库的相关内容:

要搭建基于 GPT API 的定制化知识库,需要给 GPT 输入定制化的知识。但 GPT-3.5(即当前免费版的 ChatGPT)一次交互支持的 Token 数量有限,约 4096 个,相当于 3000 个单词或 2300 个汉字,容量对于多数领域知识不够。为处理大量领域知识,OpenAI 提供了 embedding API 解决方案,可参考 OpenAI embedding documents。

embeddings 是浮点数字的向量(列表),两个向量之间的距离衡量它们的关联性,小距离表示高关联度,大距离表示低关联度。向量是用一串数字表示大小和方向的量,在计算机科学和数据科学中通常用列表表示。向量之间的距离是度量相似性的方法,常见的如欧几里得距离。在 OpenAI 词嵌入中,靠近的向量词语在语义上相似。

LlamaIndex 是更高一层 LangChain 的抽象,之前叫 GPT Index。之前的文章基于 GPT3.5 搭建定制化知识库中的例子使用了 LlamaIndex 包,它简化了 LangChain 对文本分割和查询的接口,并提供了更丰富的 Data Connector。LlamaIndex 只针对 GPT Model 做 Index,而 LangChain 可对接多个 LLMs,可扩展性更强。参考 https://gpt-index.readthedocs.io/en/latest/

在基于大模型+知识库的 Code Review 实践中,对于自定义知识库-飞书文档(自定义),没有格式要求,能看懂正确代码即可。可直接使用 LangChain 提供的LarkSuite文档加载类,对有权限的飞书文档进行获取,使用 CharacterTextSplitter/RecursiveCharacterTextSplitter 将文本分割成固定长度的块(chunks),方法有两个主要参数:chunk_size 控制每个块的长度,如设置为 1024,则每个块包含 1024 个字符;chunk_overlap 控制相邻两个块之间的重叠长度,如设置为 128,则每个块会与相邻块重叠 128 个字符。

因为大模型有足够多的数据,想让大模型按要求执行就需要用到“Prompt 提示词”。

最近各家大厂接连放大招,AI 技术和应用突飞猛进,GPT-4 接口已支持最大 32K 输入,AI 的开发和使用门槛会越来越低。垂直领域知识库的搭建和优化可能更多是业务问题,而非技术问题。

Content generated by AI large model, please carefully verify (powered by aily)

References

从零开始,用GPT打造个人知识库

要搭建基于GPT API的定制化知识库,涉及到给GPT输入(投喂)定制化的知识。但GPT-3.5,也就是当前免费版的ChatGPT一次交互(输入和输出)只支持最高4096个Token,约等于3000个单词或2300个汉字。这点容量对于绝大多数领域知识根本不够。为了使用GPT的语言能力来处理大量的领域知识,OpenAI提供了embedding API解决方案。参考OpenAI embedding documents。[heading2]理解embeddings[content]embeddings(直译为嵌入)是一个浮点数字的向量(列表)。两个向量之间的距离衡量它们的关联性。小距离表示高关联度,大距离表示低关联度。进一步解释:向量(列表):向量是数学中表示大小和方向的一个量,通常用一串数字表示。在计算机科学和数据科学中,向量通常用列表(list)来表示。列表是一种数据结构,它包含一组有序的元素。例如,一个二维向量可以表示为[2,3],这意味着沿着两个轴的分量分别为2和3。在这里,"list"是一种编程术语,意味着一系列有序的数据。向量之间的距离:向量之间的距离是一种度量两个向量相似性的方法。有多种方式可以计算两个向量之间的距离,最常见的是欧几里得距离。欧几里得距离计算方法是将两个向量的对应元素相减,然后取平方和,再开平方。例如,向量A=[1,2]和向量B=[4,6]之间的欧几里得距离为sqrt((4-1)^2+(6-2)^2)=5。较小距离意味着高相关性,因为向量间相似度高。在OpenAI词嵌入中,靠近向量的词语在语义上相似。例如,“猫”和“狗”距离近,它们都是宠物,与“汽车”距离远,相关性低。文档上给了创建embeddings的示例上面的命令访问embeddings API接口,将input语句,转化成下面这一串浮点数字。

从零开始,用GPT打造个人知识库

LlamaIndex是更高一层LangChain的抽象,之前叫GPT Index。之前的文章[基于GPT3.5搭建定制化知识库](http://mp.weixin.qq.com/s?__biz=MzIyNDAzMzYxNQ==&mid=2652028778&idx=1&sn=985a386f915dea0d4dc97186af7c50b6&chksm=f3f3314ac484b85ce64579538987cea764181f92a4bb953724b055f0f2b9c73c03b109cfbe27&scene=21#wechat_redirect)中的例子就是使用的LlamaIndex包。它简化了LangChain对文本分割,查询这块的接口,提供了更丰富的Data Connector。LlamaIndex只针对GPT Model做Index,而LangChain是可以对接多个LLMs,可扩展性更强。参考https://gpt-index.readthedocs.io/en/latest/[heading2]写在最后[content]最近各家大厂接连放大招,AI技术和应用突飞猛进,GPT-4接口已经支持最大32K输入,AI的开发和使用门槛肯定会越来越低,就像当年的Windows,Office。垂直领域知识库的搭建和优化可能更多的是一个业务问题,而不是一个技术问题。欢迎关注公众号”越山集“,多交流。让我们保持好奇心,不断探索,共同进步。

信鑫:基于大模型 + 知识库的 Code Review 实践

飞书文档没有格式要求,能看懂正确代码是怎样就行这里直接使用LangChain提供的[LarkSuite](https://link.zhihu.com/?target=https%3A//python.langchain.com/docs/integrations/document_loaders/larksuite)文档加载类,对有权限的飞书文档进行获取,使用CharacterTextSplitter/RecursiveCharacterTextSplitter将文本分割成固定长度的块(chunks),方法有两个主要参数:chunk_size:控制每个块的长度。例如设置为1024,则每个块包含1024个字符。chunk_overlap:控制相邻两个块之间的重叠长度。例如设置为128,则每个块会与相邻块重叠128个字符。[heading3]Prompt指令设计[content]因为大模型有足够多的数据,我们想让大模型按要求执行就需要用到『Prompt提示词』。图源Stephen Wolfram

Others are asking
如何构建企业AI知识库
构建企业 AI 知识库可以参考以下步骤: 1. 结合企业私有数据与 RAG 模型的私有化部署。如有特殊需求,还可以进行模型的 Finetuning(微调),以优化性能。基础模型负责提供推理提示,RAG 用于整合新知识,实现快速迭代和定制化信息检索。 2. 确定功能范围,包括编写【prompt】提示词,设定 Bot 的身份和目标。 3. 创建【知识库】: 整理“关键字”与“AI 相关资料链接”的对应关系,并将信息存储起来。 选择创建知识库路径,如个人空间知识库创建知识库。 支持的知识库文档类型包括本地文档、在线数据、飞书文档、Notion 等,可根据需求选择,如本次使用【本地文档】。 按照操作指引上传文档、分段设置、确认数据处理。 小技巧:知识库的好用程度与内容切分粒度有关,可以在内容中加上特殊分割符,如“”,便于自动切分数据。分段标识符号选择“自定义”,内容填“”。如果内容有误需要编辑,可以点击具体内容,鼠标右键会看到“编辑”和“删除”按钮进行相应操作。 在构建过程中,KnowHow 很重要,同时工作流不必复杂,能实现目的即可,所以在设计 Bot 前“确定目的”和“确定功能范围”很关键。
2025-01-23
本地怎么构建知识库
以下是关于本地构建知识库的详细步骤和相关知识: 一、硬件配置要求 运行大模型需要较高的机器配置,个人玩家可能负担不起。 生成文字大模型: 最低配置:8G RAM + 4G VRAM 建议配置:16G RAM + 8G VRAM 理想配置:32G RAM + 24G VRAM(如果要跑 GPT3.5 差不多性能的大模型) 生成图片大模型(比如跑 SD): 最低配置:16G RAM + 4G VRAM 建议配置:32G RAM + 12G VRAM 生成音频大模型: 最低配置:8G VRAM 建议配置:24G VRAM 二、RAG 技术 利用大模型的能力搭建知识库本身就是一个 RAG 技术的应用。在进行本地知识库的搭建实操之前,需要先对 RAG 有大概的了解。 RAG 是指检索增强生成(Retrieval Augmented Generation),当需要依靠不包含在大模型训练集中的数据时,通过以下 5 个过程实现: 1. 文档加载(Document Loading):从多种不同来源加载文档。LangChain 提供了 100 多种不同的文档加载器,包括 PDF 在内的非结构化的数据、SQL 在内的结构化的数据,以及 Python、Java 之类的代码等。 2. 文本分割(Splitting):文本分割器把 Documents 切分为指定大小的块。 3. 存储:涉及将切分好的文档块进行嵌入(Embedding)转换成向量的形式,并将 Embedding 后的向量数据存储到向量数据库。 4. 检索:通过某种检索算法找到与输入问题相似的嵌入片。 5. Output(输出):把问题以及检索出来的嵌入片一起提交给 LLM,LLM 会通过问题和检索出来的提示一起来生成更加合理的答案。 三、本地知识库搭建步骤 如果想要对知识库进行更加灵活的掌控,需要一个额外的软件:AnythingLLM。 1. 安装 AnythingLLM 安装地址:https://useanything.com/download 安装完成后,会进入到其配置页面,主要分为三步: 第一步:选择大模型 第二步:选择文本嵌入模型 第三步:选择向量数据库 2. 构建本地知识库 AnythingLLM 中有一个 Workspace 的概念,可以创建自己独有的 Workspace 跟其他的项目数据进行隔离。 首先创建一个工作空间。 上传文档并且在工作空间中进行文本嵌入。 选择对话模式。AnythingLLM 提供了两种对话模式: Chat 模式:大模型会根据自己的训练数据和上传的文档数据综合给出答案。 Query 模式:大模型仅仅会依靠文档中的数据给出答案。 测试对话:当上述配置完成之后,就可以跟大模型进行对话了。 四、写在最后 “看十遍不如实操一遍,实操十遍不如分享一遍”。如果对 AI Agent 技术感兴趣,可以联系作者或者加作者的免费知识星球(备注 AGI 知识库)。
2025-01-22
如何搭建私人知识库
搭建私人知识库可以参考以下方法: 1. 基于 GPT 搭建: 给 GPT 输入(投喂)定制化的知识,但 GPT3.5(即当前免费版的 ChatGPT)一次交互(输入和输出)只支持最高 4096 个 Token,约等于 3000 个单词或 2300 个汉字,容量对于绝大多数领域知识不够。 OpenAI 提供了 embedding API 解决方案,embeddings 是一个浮点数字的向量(列表),两个向量之间的距离衡量它们的关联性,小距离表示高关联度,大距离表示低关联度。 将大文本拆分成若干个小文本块(chunk),通过 embeddings API 将小文本块转换成 embeddings 向量,在一个地方(向量储存库)中保存这些 embeddings 向量和文本块,当用户提出问题时,将问题先通过 embeddings API 转换成问题向量,然后与向量储存库的所有文本块向量比对,查找距离最小的几个向量,把这几个向量对应的文本块提取出来,与原有问题组合成为新的 prompt(问题/提示词),发送给 GPT API。 2. 本地部署大模型搭建: 利用大模型的能力搭建知识库本身就是一个 RAG 技术的应用,在进行本地知识库的搭建实操之前,需要先对 RAG 有大概的了解。 RAG 的应用包括文档加载(从多种不同来源加载文档,LangChain 提供了 100 多种不同的文档加载器)、文本分割(把 Documents 切分为指定大小的块)、存储(将切分好的文档块进行嵌入转换成向量的形式,并将 Embedding 后的向量数据存储到向量数据库)、检索(通过某种检索算法找到与输入问题相似的嵌入片)、Output(把问题以及检索出来的嵌入片一起提交给 LLM,LLM 会通过问题和检索出来的提示一起来生成更加合理的答案)。 文本加载器就是将用户提供的文本加载到内存中,便于进行后续的处理。
2025-01-22
我是一名数据产品经理,想转行ai产品经理,该从哪里入手。你的知识库里有哪些可以帮到我。最好把他们列举出来,具体一些最好有步骤
以下是为您整理的从数据产品经理转行 AI 产品经理的相关知识和建议: 一、AIPM 技能树 1. 理解产品核心技术 了解基本的机器学习算法原理,有助于做出更合理的产品决策。 2. 与技术团队有效沟通 掌握一定的算法知识,减少信息不对称带来的误解。 3. 评估技术可行性 在产品规划阶段,能更准确地判断某些功能的技术可行性。 4. 把握产品发展方向 了解算法前沿,更好地把握产品的未来发展方向。 5. 提升产品竞争力 发现产品的独特优势,提出创新的产品特性。 6. 数据分析能力 掌握相关知识,提升数据分析能力。 二、AI 提示词工程师岗位技能要求 1. 学历和专业背景 本科及以上学历,计算机科学、人工智能、机器学习相关专业背景。 2. 熟悉 AI 工具 熟悉 ChatGPT、Llama、Claude 等 AI 工具的使用及原理,并具有实际应用经验。 熟练掌握 ChatGPT、Midjourney 等 AI 工具的使用及原理。 3. 项目经验 负责制定和执行 AI 项目,如 Prompt 设计平台化方法和模板化方法。 4. 技术理解 了解并熟悉 Prompt Engineering,包括常见的 Prompt 优化策略(例如 CoT、Fewshot 等)。 5. 数据分析与决策 对数据驱动的决策有深入的理解,能够基于数据分析做出决策。 6. 创新思维 具有创新思维,能够基于业务需求提出并实践 AI first 的解决方案。 7. 技术关注 对 AI 技术与算法领域抱有强烈的好奇心,并能付诸实践。 对 AIGC 领域有深入的理解与实际工作经验,保持对 AI 技术前沿的关注。 8. 编程能力 具备一定的编程和算法研究能力,能应用新的 AI 技术和算法于对话模型生成。 具有一定的编程基础,熟练使用 Python、Git 等工具。 三、AI 市场与 AI 产品经理分析 当前有两个场景: 1. 企业(包括传统企业和互联网企业)如何实现 AI 转型或用好 AI。 2. 产品经理如何转型 AI 产品经理。 希望以上内容对您有所帮助。
2025-01-21
适合小白的AI知识库
以下是适合小白的 AI 知识库内容: 通识篇: 现有常见 AI 工具小白扫盲: 文章链接: 视频链接:(1 小时 32 分开始) 适用人群:对 AI 都没太多概念的纯纯小白 简要说明:给与 AI 之间有道墙、还在墙外的人简单介绍当前各种 AI 工具、0 成本最快速感受当下 AI 工具的力量 AI 常见名词、缩写解释: 文章链接: 适用人群:对 AI 都没太多概念的纯纯小白 简要说明:给看不懂“黑话”和诸多缩写的小白,请善用这张表+多问 AI 对话工具(如豆包 or Kimi)结合食用 工具入门篇: (Prompt)现成好用的 Prompt: 文章链接: 适用人群:完全没有 AI 使用经验,只下载过 kimi、豆包、chatgpt 一类对话软件的小白 简要说明:想直接拿好用的提示词拿来用用的小伙伴,可以从这里开始,有很多可以直接复制、粘贴的优秀 prompt 案例,它们都有完整的结构。 (AI Agent)Agent 工具 小白的 Coze 之旅: 文章链接: 视频链接:Coze 之旅 1.0: 适用人群:完全没有编程基础,但对 AI 已有一点概念的小白 简要说明:为纯粹小白补的分享 AI AGENT 搭建平台,为什么是它、怎么 30 分钟就能开始用它 (AI Pic)现在主流的 AI 绘图工具网站: 文章链接: 适用人群:完全没接触过 AI 出图、只是听说过的小伙伴 简要说明:为纯粹的小白提供一个工具列表和扫盲 (AI Tools)数据工具 多维表格小白之旅: 文章链接: 视频链接: 适用人群:Excel 重度使用者、手动数据处理使用者、文件工作者 简要说明:用表格 + AI 进行信息整理、提效、打标签,满足 80%数据处理需求 (AI Code)编程工具 Cursor 的小白试用反馈: 文章链接: 适用人群:0 编程经验、觉得编程离我们很遥远的小白 简要说明:通过 AI 工具对编程祛魅,降低技术壁垒 (AI Music)音乐工具 Suno 的小白探索笔记: 文章链接: 适用人群:0 乐理知识、觉得作词作曲和我们毫不相关成本巨大的小白 简要说明:AI 赋能音乐创作,无需乐理知识即可参与音乐制作
2025-01-20
从0到1搭建知识库
从 0 到 1 搭建知识库的方法如下: 【智能体】让 Coze 智能体机器人连上微信和微信群: 创建智能体: 知识库:本次创建知识库使用手动清洗数据,上节课程是自动清洗数据。自动清洗数据会出现目前数据不准的情况,本节视频就尝试使用手动清洗数据,提高数据的准确性。 在线知识库:点击创建知识库,创建一个画小二课程的 FAQ 知识库。知识库的飞书在线文档,其中每个问题和答案以分割,暂时不要问为什么。选择飞书文档、自定义的自定义,输入,然后就将飞书的文档内容以区分开来,这里可以点击编辑修改和删除。点击添加 Bot,添加好可以在调试区测试效果。 本地文档:本地 word 文件,注意如何拆分内容,提高训练数据准确度,将海报的内容训练的知识库里面。画小二这个课程 80 节课程,分为了 11 个章节,不能一股脑全部放进去训练。正确的方法是首先将 11 章的大的章节名称内容放进来,章节内详细内容格式依次类推细化下去。每个章节都按照这种固定的方式进行人工标注和处理,然后选择创建知识库自定义清洗数据。 发布应用:点击发布,确保在 Bot 商店中能够搜到。 使用 Dify 构建知识库: 准备数据:收集需要纳入知识库的文本数据,包括文档、表格等格式。对数据进行清洗、分段等预处理,确保数据质量。 创建数据集:在 Dify 中创建一个新的数据集,并将准备好的文档上传至该数据集。为数据集编写良好的描述,描述清楚数据集包含的内容和特点。 配置索引方式:Dify 提供了三种索引方式供选择:高质量模式、经济模式和 Q&A 分段模式。根据实际需求选择合适的索引方式,如需要更高准确度可选高质量模式。 集成至应用:将创建好的数据集集成到 Dify 的对话型应用中,作为应用的上下文知识库使用。在应用设置中,可以配置数据集的使用方式,如是否允许跨数据集搜索等。 持续优化:收集用户反馈,对知识库内容和索引方式进行持续优化和迭代。定期更新知识库,增加新的内容以保持知识库的时效性。 【知识库】FastGPT + OneAPI + COW 带有知识库的机器人: 创建知识库应用: 地址输入浏览器:http://这里替换为你宝塔左上角的那一串:3000/ 进入后,点击应用并创建,选择 qwen 模型。 创建知识库。点击知识库 选择 qwen Embedding 1 点击确认创建。 上传文件,等待处理,最后文本状态是“已就绪”。 回到刚刚创建的应用,关联上创建的知识库。 点击两个发布。之前第一个叫做保存。 点击新建,创建 key。创建后保存同时将 API 根地址最后加上/v1 并保存下来。 安装并接入 cow: 回到宝塔,打开【终端】。 依次粘贴并回车:cd/root 。 git clone https://github.com/zhayujie/chatgptonwechat ,注意一定要粘贴完整。 出现下方的样子,就是成功了。如果失败,或者没反应,刷新一下,重新再试一次。 继续一行一行,依次输入:cd chatgptonwechat/ ,pip install r requirements.txt 。 等待执行完成,继续粘贴:pip install r requirements optional.txt 。 上边的都执行完成后,到“文件”菜单中去执行,点击文件 找到 root,进入 root 文件夹,找到 chatgpt on wechat 文件夹,并进入。
2025-01-19
新手小白,如何从0开始搭建AI Agent
对于新手小白从 0 开始搭建 AI Agent,以下是一些建议: 1. 规划阶段: 制定任务的关键方法,总结任务目标与执行形式。 将任务分解为可管理的子任务,确立逻辑顺序和依赖关系。 设计每个子任务的执行方法。 2. 实施阶段: 在 Coze 上搭建工作流框架,设定每个节点的逻辑关系。 详细配置子任务节点,并验证每个子任务的可用性。 3. 完善阶段: 整体试运行 Agent,识别功能和性能的卡点。 通过反复测试和迭代,优化至达到预期水平。 此外,还需要了解一些关于 AI Agent 的基本概念: AI Agent 是基于大型语言模型(LLM)和其他技术实现的智能实体,其核心功能在于自主理解、规划决策、执行复杂任务。 AI Agent 包括 Chain(通常一个 AI Agent 可能由多个 Chain 组成,一个 Chain 视作是一个步骤,可以接受一些输入变量,产生一些输出变量,大部分的 Chain 是大语言模型完成的 LLM Chain)、Router(可以使用一些判定,甚至可以用 LLM 来判定,然后让 Agent 走向不同的 Chain)、Tool(Agent 上可以进行的一次工具调用,例如对互联网的一次搜索,对数据库的一次检索)。 常见的 AI Agent 有 Responser Agent(主 agent,用于回复用户)、Background Agent(背景 agent,用于推进角色当前状态)、Daily Agent(每日 agent,用于生成剧本,配套的图片,以及每日朋友圈)。这些 Agent 每隔一段时间运行一次(默认 3 分钟),会分析期间的历史对话,变更人物关系、反感度等,抽简对话内容,提取人物和用户的信息成为“增长的记忆体”,按照时间推进人物剧本,有概率主动聊天(与亲密度正相关,跳过夜间时间)。
2025-01-23
我想学习智能体搭建
以下是关于智能体搭建的相关知识: 智谱 BigModel 共学营第二期:把你的微信变成超级 AI 助理 1. 注册智谱 Tokens 智谱 AI 开放平台:https://bigmodel.cn/ 新注册用户,注册即送 2000 万 Tokens 充值/购买多种模型的低价福利资源包 直接充值现金,所有模型可适用:https://open.bigmodel.cn/finance/pay 语言资源包:免费 GLM4Flash 语言模型/ 多模态资源包: 多模态资源包: 所有资源包购买地址:https://bigmodel.cn/finance/resourcepack 共学营报名赠送资源包 2. 先去【财务台】左侧的【资源包管理】看看自己的资源包,本次项目会使用到的有 GLM4、GLM4VPlus、CogVideoX、CogView3Plus 模型。 3. 进入智能体中心我的智能体,开始创建智能体。此流程会手把手进行编辑,完成一个简单智能体的搭建,此智能体完成以下功能: 小众打卡地——优秀创作者奖 1. 智能体基本信息 名称:小众打卡地 链接:https://tbox.alipay.com/pro/share/202412APCyNn00194489?platform=WebService 2. 基本功能介绍:小众打卡地推荐,输入一个旅游目的地地点城市,给您推荐 3 个小众打卡地小红书类文案,适合分享或旅游参考,还有精美的旅行地配图。 3. 智能体核心价值 为用户发掘非大众化的特色景点,避开人流 提供个性化的旅行建议,并且有目的地的图片参考 帮助用户快速获取高质量的旅行参考信息 提供小红书文案,也适合发小红书 4. 智能体效果 输入一个目的地后,等待一小段时间,即可获得带图文案。从手机支付宝小程序更加方便,可以一键复制后获取。 5. 智能体搭建思路重点 录入了小红书的相关文案参考知识库 通过文本模型组成搜索词进行搜索,从搜索到的所有网页链接中,通过代码节点提取相关的 url 用代码节点滤除需要安全认证的网站,包括挑选一些非周边城市攻略推荐,并且尽量检查“小众”或“冷门” 通过 url 网页正文后,提取相关的小众地点输出,同时通过代码进行打卡点的字符串输出用于后续节点运用 根据需要搜索的小众旅行地进行图片搜索。此处代码节点随机提取一条图片的 url,注意此处在调试过程中发现有些图片搜索后的 url 打卡图片会失效,代码节点将部分失效的网站进行了过滤 最后的文案输出,非常适合小红书文案和旅行发布参考 智能体在品牌卖点提炼中的应用 1. 确定智能体的结构 按照市场营销的逻辑组织智能体的结构。 2. 搭建完整智能体 以品牌卖点提炼六步法为核心的流程,将其他的分析助手加入工作流中,包括: 品牌卖点定义与分类助手 品牌卖点提炼六步法 STP 市场分析助手 用户画像分析助手 触点收集助手 同时还包括一些结构中没有体现,但是在后续的品牌卖点应用过程中有效的分析工具: 用户需求分析的 KANO 助手 营销六层转化漏斗分析 超级转化率六要素
2025-01-22
扣子应用搭建示例
以下是关于扣子应用搭建的相关内容: 白嫖 Groq 平台算力的落地应用: 通过扣子工作流,用代码模块进行 HTTP 访问,实现 0 token 脱离扣子模型来使用 Groq 作为 LLM,可参考梦飞大佬教程将扣子接入微信机器人(有微信封号风险)。 由于 Groq 的 API 与 OpenAI 的 API 几乎兼容,可以适配到任何 APP 产品填 APIKEY 调用的场景,以沉浸式翻译为例。 接入手机类 APP,比如通过快捷方式接入 Siri。 接入扣子工作流:搭建细节可移步 WaytoAGI 自学。建立工作流只需一个代码节点,需配置代码节点的输入引用、输出等。可建立 Bot 调用工作流,但建议不发布,以免代理流量被他人使用。 在扣子调用已有的 API 制作插件: Body:用于传递请求主体部分,GET 方法中通常不用于传递参数。 Path:用于定义请求路径部分,GET 方法中可传递参数,常编码为 URL 一部分。 Query:用于定义请求查询部分,是 GET 方法中常用的参数传递方式。 Header:用于定义 HTTP 请求头信息部分,GET 方法中通常不用于传递参数。配置输出参数,填对后可点击自动解析,调试与校验工具是否能正常运行。 搭建邮票收藏馆应用: 业务背景与逻辑梳理:源于客户需求,功能包括生成邮票、收藏邮票、收藏列表、查看藏品详情,规划了生成和查看两个页面。 页面设计: 第一页:导航栏有应用名称、查看收藏入口、用户头像;陈列展示生成的图片;生成和收藏部分可输入关键字生成并收藏。 第二页:收藏列表会加载用户所有收藏,数量超 100 需优化加翻页;收藏详情可查看大图、关键字、收藏时间。
2025-01-21
搜索模型搭建
以下是关于搜索模型搭建的相关知识: 嵌入(Embeddings): 概述:第一代模型(以001结尾的模型)都使用 GPT3 分词器,最大输入为 2046 个分词。第一代嵌入由五个不同的模型系列生成,针对三个不同任务进行调整,包括文本搜索、文本相似性和代码搜索。搜索模型成对出现,有用于短查询和长文档的。不同系列包括多种质量和速度不同的型号,如 Davinci 能力最强但更慢更贵,Ada 能力最差但速度快成本低。 相似性嵌入:最擅长捕捉文本片段之间语义相似性,如 textsimilaritybabbage001、textsimilaritycurie001、textsimilaritydavinci001。 文本搜索嵌入:有助于衡量长文档与短搜索查询的相关性,使用两种模型,分别用于嵌入搜索查询和要排名的文档,如 textsearchadaquery001 等。 代码搜索嵌入:与搜索嵌入类似,有两种类型,分别用于嵌入自然语言搜索查询和要检索的代码片段,如 codesearchadatext001 等。对于001 文本嵌入,建议将输入中的换行符替换为单个空格。 部署大语言模型: 下载并安装 Ollama:根据电脑系统,从 https://ollama.com/download 下载,双击打开点击“Install”,安装完成后将下方地址复制进浏览器中,若出现相关字样表示安装完成,即 http://127.0.0.1:11434/ 。 下载 qwen2:0.5b 模型:Windows 电脑按 win+R 输入 cmd 回车,Mac 电脑按下 Command(⌘)+Space 键打开 Spotlight 搜索输入“Terminal”或“终端”选择“终端”应用程序,复制相关命令行粘贴回车等待完成。 检索原理: 信息筛选与确认:对检索器提供的信息进行评估,筛选出最相关和最可信的内容,涉及对信息来源、时效性和相关性的验证。 消除冗余:识别和去除多个文档或数据源中的重复信息。 关系映射:分析不同信息片段之间的逻辑和事实关系,如因果、对比、顺序等。 上下文构建:将筛选和结构化的信息组织成连贯的上下文环境,包括排序、归类和整合。 语义融合:合并意义相近但表达不同的信息片段。 预备生成阶段:整合好的上下文信息被编码成适合生成器处理的格式。 大模型生成回答:全新的上下文传递给大语言模型,大语言模型根据提供的信息回答问题。
2025-01-19
如果搭建ai智能体
搭建 AI 智能体可以参考以下步骤: 1. 明确需求:在品牌卖点提炼中,要清楚 AI 智能体是引导型助手,帮助提供思考维度,而非直接给出从 0 到 1 的卖点。 2. 明确 AI 的能力和局限:AI 对公司的诸多方面了解程度接近于 0,如主要产品、产品解决的用户需求、独特之处、获得的认可、核心渠道、核心购买人群、营销手段、期望的新渠道结果等。但 AI 能通过分析数据和信息进行逻辑推理、快速处理和分析数据、利用大量训练数据输出更全面信息、理解用户内容并按正确结构梳理输出。 3. 逐步搭建: 配置工作流,得到可用的工作流(如整理入库、选择内容)。 进行整体配置,包括创建 Bot、填写 Bot 介绍、切换模型(如测试效果较好的通义千问)、添加工作流、新增变量{{app_token}}、添加外层 bot 提示词等。完成后可在「预览与调试」窗口与智能体对话并使用全部功能。
2025-01-19
我是一个AI小白,我希望能通过不断了解AI为我的工作和生活提效,请为我量身定制逐步深入的AI学习计划
以下是为您量身定制的逐步深入的 AI 学习计划: 一、了解 AI 基本概念 1. 阅读「」部分,熟悉 AI 的术语和基础概念,包括人工智能的定义、主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。 2. 浏览入门文章,了解 AI 的历史、当前的应用和未来的发展趋势。 二、开始 AI 学习之旅 1. 在「」中,找到为初学者设计的课程,特别推荐李宏毅老师的课程。 2. 通过在线教育平台(如 Coursera、edX、Udacity)上的课程,按照自己的节奏学习,并有机会获得证书。 三、选择感兴趣的模块深入学习 1. AI 领域广泛(比如图像、音乐、视频等),根据自己的兴趣选择特定的模块进行深入学习。 2. 掌握提示词的技巧,它上手容易且很有用。 四、实践和尝试 1. 理论学习之后,进行实践以巩固知识,尝试使用各种产品做出自己的作品。 2. 在知识库中查看大家实践后的作品、文章分享,并分享自己实践后的成果。 五、体验 AI 产品 与现有的 AI 产品进行互动,如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人,了解它们的工作原理和交互方式,获得对 AI 在实际应用中表现的第一手体验,并激发对 AI 潜力的认识。 六、如果希望继续精进 1. 了解 AI 背景知识,包括基础理论(人工智能、机器学习、深度学习的定义及其之间的关系)、历史发展(简要回顾 AI 的发展历程和重要里程碑)。 2. 掌握数学基础,包括统计学基础(熟悉均值、中位数、方差等统计概念)、线性代数(了解向量、矩阵等线性代数基本概念)、概率论(基础的概率论知识,如条件概率、贝叶斯定理)。 3. 学习算法和模型,如监督学习(了解常用算法,如线性回归、决策树、支持向量机(SVM))、无监督学习(熟悉聚类、降维等算法)、强化学习(简介强化学习的基本概念)。 4. 学会评估和调优,包括性能评估(了解如何评估模型性能,包括交叉验证、精确度、召回率等)、模型调优(学习如何使用网格搜索等技术优化模型参数)。 5. 掌握神经网络基础,包括网络结构(理解神经网络的基本结构,包括前馈网络、卷积神经网络(CNN)、循环神经网络(RNN))、激活函数(了解常用的激活函数,如 ReLU、Sigmoid、Tanh)。 七、学习模式和注意事项 1. 您可以参考《雪梅 May 的 AI 学习日记》,如果您是纯 AI 小白,可以先看左边的目录。学习模式可以是输入→模仿→自发创造。 2. 注意学习内容可能会更新,您可以去 waytoAGI 社区发现自己感兴趣的 AI 领域,学习最新的内容。 3. 学习时间可以灵活安排,不必每天依次进行,有空的时候学习即可。 4. 本学习计划中的学习资源大多是免费开源的。
2024-12-30
AI+交易:来定制专属于你的私人高级交易顾问吧!
以下是关于“AI+交易:来定制专属于你的私人高级交易顾问吧!”的相关内容: 原本是一名 AIGC 创作者,在接触交易后,希望将交易与 AIGC 相结合,打造私人高级交易顾问。学习交易知识后认识到,单纯迷信技术分析提高胜率实现长期稳定盈利对个人投资者不可行,心态关键。新人对交易理论不熟悉更致命,成熟交易员单一策略熟练运用能找进出点、良好心态能长期盈利,但不熟悉行情只能观望。借助 AI 分析行情,期望在不熟悉市场时找到合适进场点,提高资金使用效率,多种策略配合提高理论胜率(有统计数据显示几千名专业交易员一年里平均胜率 70)。 此外,还有以下 AI 与工作场景结合的案例: 1. 销售方面:包括话术总结优缺点、定制销售解决方案。 2. 客服方面:定制客服话术,有关键词库,如产品知识、使用方法等。 3. HR 方面:团队绩效管理,根据绩效数据输出考评和改进建议;面试工具,如使用 GPT4 技术的实时转录工具帮助求职者生成回答。 另外,在七大行业的商业化应用中: 1. 企业运营:包括日常办公文档撰写整理、营销对话机器人等。 2. 教育:协助评估学生学习情况、定制学习内容等。 3. 游戏/媒体:如定制化游戏、出海文案生成等。 4. 零售/电商:包括舆情监测分析、品牌营销内容撰写等。 5. 金融/保险:如个人金融理财顾问、识别欺诈活动风险等。
2024-12-17
生成定制化PPT的AI工具有哪些?
以下是一些生成定制化 PPT 的 AI 工具: 1. GPT4:可辅助生成 PPT 相关的内容。 2. WPS AI:能在 PPT 制作中提供帮助。 3. chatPPT:专门用于制作 PPT。 4. Gamma:在线 PPT 制作网站,通过输入文本和想法提示快速生成幻灯片,支持嵌入多媒体格式。网址:https://gamma.app/ 5. 美图 AI PPT:由美图秀秀团队推出,通过输入简单文本描述生成专业 PPT 设计,有丰富模板库和设计元素。网址:https://www.xdesign.com/ppt/ 6. Mindshow:AI 驱动的 PPT 辅助工具,提供智能设计功能,如自动布局、图像选择和文本优化等。网址:https://www.mindshow.fun/
2024-09-20
我要的是剪映更新后的数字人教程,现在不是在剪映可以定制自己的形象?
以下是关于剪映更新后的数字人教程及相关信息: 剪映最近更新突飞猛进,新增了多种 AI 功能。 新增能力包括:剪映 ai 生成音乐——唱出你想说的话,一键生成专属音乐视频;照片数字人/定制数字人——照片唱歌和说话;ai 配旁白(全网独家功能)——一键 ai 剪辑视频,并配抖音网感文案;ai 生图片/视频能力(即梦)接入剪映。 定制数字人已上线,其亮点为很逼真(口型自然,可以说话/唱歌/说外语)、制作效率高(写好口播脚本可批量快速制作内容)。只要有图就可以制作逼真的说话或唱歌的 UGC 数字人娱乐视频,例如歌手照片+有词的歌、老照片+影视剧+梗文案或唱歌、宠物唱歌表白/表情包玩梗等。 录制或上传视频,即可根据视频里的动作,1 分钟快速定制自己的数字分身。数字人适用于口播自媒体等场景。 相关链接: 剪映 AI 功能内测:https://bytedance.larkoffice.com/docx/SdDwdsNnAo3B16xLLNscIiHDnxb AI 音乐免费内测排队入口:https://bytedance.larkoffice.com/share/base/form/shrcntN7P3HEdo35fCOiM6QdFrb 照片说话/AI 配旁白/视频生成进剪映免费内测排队入口:https://bytedance.larkoffice.com/share/base/form/shrcnq7rM9EEJytIW5LKyUpVaee 内测视频翻译功能申请地址:https://bytedance.larkoffice.com/share/base/form/shrcnq7rM9EEJytIW5LKyUpVaee 。审批很快,但目前只支持在 app 手机端体验,且只支持本人的视频进行翻译,有声音认证环节。
2024-08-30
有没有有关定制个人食谱的prompt,或者能够根据食材搭配出食谱的prompt或智能体之类的。
以下是为您找到的有关定制个人食谱的相关内容: ChefGPT 具有以下核心特性: 个性化食谱推荐:能根据您手头的食材提供建议。 定制化饮食计划:可根据健身目标和饮食要求创建计划。 完美搭配:为每道菜寻找理想的葡萄酒或啤酒。还有 PantryChef、MasterChef、MacrosChef、MealPlanChef、PairPerfect 和 Shopping List 等其他功能。 Claude 官方提示词(厨艺大师):根据食材和饮食偏好,推荐菜谱主意。需要注意的是,这个是 API 里的 system prompt 。其任务是根据用户提供的可用食材和饮食偏好,生成个性化的食谱建议。利用这些信息,建议各种创意美味的食谱,可以使用给定的食材,同时满足用户的任务需求(如果有提及)。对于每个食谱,提供简短的描述、所需食材清单和简单的做法步骤。确保食谱易于操作、营养丰富,且只需最少量的额外食材或厨具即可烹制。
2024-08-23
我是一个创业者,想做AI软件外包业务,帮助其他公司定制AI软件应用,我自身应该掌握哪些知识?
如果您想做 AI 软件外包业务,帮助其他公司定制 AI 软件应用,自身应掌握以下知识: 1. AIPM 技能: 理解产品核心技术,了解基本的机器学习算法原理,以做出更合理的产品决策。 与技术团队有效沟通,掌握一定的算法知识,减少信息不对称带来的误解。 评估技术可行性,在产品规划阶段做出更准确的判断。 把握产品发展方向,了解算法前沿,更好地规划产品未来。 提升产品竞争力,发现产品独特优势,提出创新特性。 具备数据分析能力,处理和分析相关数据。 2. 提示词工程相关: 了解 2C 业务,为 C 端用户制作有丰富提示词的网页应用程序。 熟悉 B2B2C 业务,为垂直领域企业定制提示词应用。 3. Python 及相关编程知识: Python 基础:包括基本语法规则、数据类型、控制流。 函数:定义和调用函数,理解参数和返回值,以及作用域和命名空间。 模块和包:学会导入模块,使用包来扩展程序功能。 面向对象编程:了解类和对象、属性和方法等概念。
2024-08-12