Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

api是什么东西?能实现什么?

Answer

API 就像是一个信差,它接受一端的请求,告诉那边的系统您想要做的事情,然后把返回的信息发回给您。

以“奥本海默”的搜索为例,比如像 themoviedb.org 这样的网站,其网址包含域名(www.themoviedb.org)用于定位网站,路径(/search)指定特定页面位置,查询参数(如 query=奥本海默)则明确具体的搜索内容。

对于 GPT 来说,使用 API 时首先要明确想要做什么样的 GPT 以及是否需要外部数据,然后去寻找所需的外部数据的 API 文档,或者自己开发 API 以及寻找市面上可用的 Action。对于一些不熟悉的 API,需要在 Prompt 里告知如何使用。

如果您对 Action 很感兴趣,可以从系统学习 API 相关知识、在网上寻找可用的 API 练习、发掘 GPT Action 更多潜力等方向继续前进。

Content generated by AI large model, please carefully verify (powered by aily)

References

像高手一样编写 GPT:从基础到实践,学习使用 GPT 的 Action

总结一下:今天我们的讨论起始于人工智能中的“Agent&Action”,然后转向OpenAI对智能体(Agent)能力模型的定义。接着,我们深入探讨了ChatGPT中的Action(搜索、画图、代码解释器),以及GPT系列中的不同Action。使用了一个容易上手的Action Webpilot,用于访问网页获取实时的文本内容。最后,我们初步了解了API的概念,以及GPT如何通过Action与外部数据进行交互和使用。如果对Action很感兴趣,你可以从以下方向开始继续前进:系统的了解和学习API相关的知识去网上寻找可以用的API来练习发掘GPT Action更多的潜力以上是我认为相对容易入门的知识框架,但是我们都知道:你不可能只在一次分享/一篇文章中就获得完整的Action相关知识学习虽然没有终点,但有阶段性目标。大家可以通过后续看到的不同的教程和资料,识别这些知识之间的共性和逻辑关系,然后继续深化对这个主题的理解,构建你自己的知识体系。如果你对GPT开发有兴趣,想要认识更多玩GPT的朋友,欢迎加入GPTGeeker的星球:

像高手一样编写 GPT:从基础到实践,学习使用 GPT 的 Action

这是第一个结果的数据,对应了搜索结果页的内容,你会发现展现的内容远比数据维度要少——这是因为有些数据虽然不展现,但为了支持筛选所保留的。注意看,这里出现了‘backdrop_path’,记得原先Prompt是怎么写的吗:取出backdrop_path这个数据作为主视觉图——所以这里是一个图片地址(),但它是不完整的,只有后半部分。就像是一个分成两块的藏宝图,两部分拼起来才是完整的图片地址。TMDb的官方API文档(https://developer.themoviedb.org/docs/image-basics)里就写了如何构造完整的图片URL:但是因为我们的Baby GPT已经是一个成熟的GPT了。实际上,它已经有TMDb的训练数据了(相当于裤兜里已经有半拉地图了)——所以即使你不说,它也会自己完成构建完整的图片地址。对于一些它不熟悉的API,还是需要在Prompt里告诉他要怎样使用。比如剩下的数据也可以用类似的方式让ChatGPT来处理,比如让他列出:上映时间'release_date'、评分'vote_average'、评分人数'vote_count':它就能很+我们最后提炼一下Action的工作流:首先,想一下你想要做一个什么样的GPT,以及是否需要外部数据——这两个谁先谁后不重要;然后,去你需要的外部数据寻找API文档,或者基于你的需求,自己开发一个API,寻找市面上可以直接用的Action;最后,基于API文档,编写Action里的Schema,和Prompt(如何处理取回来的信息)写在最后

像高手一样编写 GPT:从基础到实践,学习使用 GPT 的 Action

这个页面大家应该一眼就能看明白,这是一个搜索结果页,搜索的关键词是“奥本海默”,返回了两个结果,每个结果的信息都有海报、名称、上映时间、描述。这个页面的网址是这样的:https://www.themoviedb.org/search?query=奥本海默域名(www.themoviedb.org):域名指定了网站的位置,类似地图上的地址。在这个URL中,www.themoviedb.org是themoviedb.org网站的域名,用于定位和访问网站。为了方便理解,我把URL和Schema里的红框部分做一个对应关系,你会发现他们不一样,这是因为一个是面向普通用户,一个是面向开发者的。就和ChatGPT网页版和ChatGPT API的关系差不多。路径(/search):路径指定了在网站上特定页面的位置。在这个例子中,路径是/search,通常表示网站的搜索页面或功能。query,就是一个“查询参数”,其中query是参数的名称,奥本海默是分配给该参数的值。这个网址完整的意思是:访问themoviedb.org网站上的搜索功能,执行一个搜索“奥本海默”关键词的操作——我要找一个名叫“奥本海默”的电影。有些同学在写提示词的时候会用这种等号或者冒号的方式,其实都是一种变量的形式,请记住这个感觉,后面我们会继续用到这个概念。也就是说:刚刚TMDB的Action实际上就是访问了下面的网址,提供了query和language参数,然后发起了请求,获取数据,如下:但虽然我们大致理解了GPT发送请求是怎么回事,你可能有个问题一直在想:我要如何才能知道去哪请求,查询参数怎么写呢?寻找API文档

Others are asking
调用api是什么
调用 API(Application Programming Interface,应用程序编程接口)是指软件系统之间进行交互和通信的一种方式。通过调用 API,一个程序可以请求并获取另一个程序或服务所提供的数据、功能或执行特定的操作。 API 通常定义了一组规则、协议和方法,包括请求的格式、参数的传递方式、响应的数据结构等。开发人员可以使用特定的编程语言和工具,按照 API 的规定发送请求,并处理返回的响应结果,以实现不同系统之间的集成和数据共享。 例如,在 Web 开发中,调用第三方提供的 API 可以获取天气信息、地图数据、社交媒体内容等,从而丰富自己的应用功能。在移动应用开发中,也可以调用系统提供的 API 来实现诸如访问设备传感器、发送短信等功能。 总之,调用 API 是现代软件开发中实现功能扩展和系统集成的重要手段。
2025-03-05
秘塔搜索 api接口
以下是关于秘塔搜索的相关信息: 秘塔 AI 搜索是由秘塔科技开发的,具有多模式搜索、无广告干扰、结构化展示和信息聚合等功能,能提升用户的搜索效率和体验。 在获取微信公众号文章封面时,可使用秘塔 AI 搜索。输入文章链接,通过一个在线工具(https://www.mgpaiban.com/tool/wxfm.html )即可获取封面。
2025-03-05
有哪些平台提供文生图API
以下是一些提供文生图 API 的平台: Coze:在国内低代码 Agent 平台中体验较好,即使即将收费但仍具性价比。其 API 更新开放了多模态对话和知识库修改能力,可玩性增强。通过 API 可在微信中实现多种图片功能,如重绘风格、微调内容等。使用时需在 chatgptonwechat 中的 config.json 中配置自己的 Coze API Key 和 Coze Bot ID。 Stability AI:发布了 Stable Diffusion 3 和 Stable Diffusion 3 Turbo,可通过其开发者平台 API 使用。ComfyUI 中的 Stable Diffusion 3 API 已更新,目前支持多种比例的 SD3 文生图,使用时先申请 API 再填入 config.json 文件,每账户有 25 免费积分,SD3 每张图 6.5 积分。项目地址:https://github.com/ZHOZHOZHO/ComfyUIStableDiffusion3API 。需注意 SD3 图生图模式不支持选择比例,SD3 Turbo 模型不支持负面提示词。
2025-03-02
怎么部署GPTs的api?
部署 GPTs 的 API 可以参考以下步骤: 1. 参考文章,了解之前的部署情况。 2. 登录地址,点击 Copy Link 进行复制 Actions API 链接。 3. 配置 GPTs Actions API: 打开 ChatGPT,点击创建 GPTs>Configure>Create new action。 输入来自 Gapier 的 Actions API 并点击 Import。 4. 授权: 在 Gapier 复制授权码。 在 Authentication 下选择配置图标,进入授权页面。 按照以下设置进行配置: Authentication Type:选择 API Key。 Auth Type:选择 Basic。 输入从网站上复制的授权码并点击 Save。 5. 引用 Action: 确定调用的 Action,并在 Prompt 中引用。 查看 Action 的方式分为两种: GPTs>Configure>Actions 页面。 网页查看,地址为。 另外一种引用的方式是:只要在 Instructions 中申明清楚需求,GPT 会自动选择合适的 API。 此外,还需注意以下几点: 1. 了解 OpenAPI 规范,通过 Schema 让 ChatGPT 懂这个 API。 2. 对于带参数的 Post 请求,需要创建规范文件、修改 GPTs 的 Action、调整 Prompt 等。 3. 注意如果不和说传入中文,它会给我们翻译了再传。
2025-03-01
基础搭建的知识库效果很差,模型答案的幻觉很严重,我应该怎么改进?(Deepseek调用api接入本地faiss的rag库)
以下是一些改进基础搭建的知识库效果、减轻模型答案幻觉问题的建议: 1. 更换大模型:例如从 ChatGLM26B 替换成 baichuan213b,针对您的场景,后者的性能可能提升一倍左右。 2. 更换 embedding 模型:将 embedding 模型从 LangChain Chatchat 默认的 m3ebase 替换为 bgelargezh,后者可能更优。 3. 测试不同 Top k 的值:比较 Top 5、Top 10、Top 15 的结果,发现 Top 10 时效果可能最优。 4. 对文档名称进行处理:人工对文件进行重命名,上传相同文件构建知识库,同时在构建知识库时勾选【开启中文标题加强】选项,虽然重命名文件对结果的提升效果不明显,但勾选该选项后,回答的无关信息可能减少,效果有所提升。 RAG(RetrievalAugmented Generation)即检索增强生成,由检索器和生成器两部分组成。检索器从外部知识中快速找到与问题相关的信息,生成器利用这些信息制作精确连贯的答案,适合处理需要广泛知识的任务。 在大模型中,向量可想象成空间中的点位,每个词或短语对应一个点。系统通过查看词在虚拟空间中点的位置,寻找直线距离最近的点来检索语义上接近的词语或信息。理解向量后,当收到一个对话时,RAG 的完整工作流程为:检索器从外部知识中检索相关信息,生成器利用这些信息生成答案。 要优化幻觉问题和提高准确性,需要了解从“问题输入”到“得到回复”的过程,针对每个环节逐个调优,以达到最佳效果。
2025-02-27
Claude3/grok3/Gemini使用API调用时消耗token的价格是?
Claude 3 的 API 调用价格为:每百万输入 token 0.25 美元,每百万输出 token 1.25 美元。可以处理和分析 400 起最高法院案件或 2500 张图片只需 1 美元。相关链接:https://x.com/imxiaohu/status/1768284259792691366?s=20
2025-02-27
waytoagi东西好多,我不知道从哪里看起
以下是关于如何使用 WayToAGI 知识库的指导: 1. 从 Agent 板块开始: 以 Agent 板块为例,链接: 。 用法:从下往上看,逐个点击,都有视频。 选择原因:共学都有视频,是从注册开始的手把手教学,多看几遍基本能保障调通一个工具、搭好一个 Agent。 注意事项:内容较多,点进去看看哪个工具您听过就从哪个工具开始,以免太累。 2. 看了一些视频之后: 链接: 。 用法:明确自己想看理论还是应用,找到导航,想看哪里点哪里。 备注:智能千帆、阿里云百炼有视频,其余部分没有。 注意事项:内容较多,要考虑聚焦,先挑一个,开始手把手一起做,只要开始用起来,就有可能达成目标。 3. 快捷方式: 点开链接就能看,不用注册,不用花钱,直接点这个链接就能看:点击 。 想看啥就看啥,比如想学 AI 绘画,就去看“AI 绘画”部分;想找 AI 工具,就去“工具推荐”部分,内容分类清晰。 有问题还能问,如果看了还有不懂的,或者想跟别人交流,可以加入社群讨论。 WayToAGI 是一个帮助您快速入门 AI、学会用 AI 搞事情的“武器库”。无论您是完全不懂 AI 的小白,还是想用 AI 赚钱的普通人,它都能提供帮助。AI 是未来的趋势,现在学习一点都不晚,如果您想了解 AI、用 AI、甚至靠 AI 搞钱,WayToAGI 就是您最该看的“AI 宝典”。
2025-03-04
开发转AI产品经理,需要学习哪些东西,请推荐资料库的内容给我让我学习
如果您从开发转型为 AI 产品经理,以下是一些您需要学习的内容和推荐的学习资料: 1. 技术原理方面: 思维链:谷歌在 2022 年的一篇论文提到思维链可以显著提升大语言模型在复杂推理的能力(即有推理步骤),即使不用小样本提示,也可以在问题后面加一句【请你分步骤思考】。 RAG(检索增强生成):外部知识库切分成段落后转成向量,存在向量数据库。用户提问并查找到向量数据库后,段落信息会和原本的问题一块传给 AI;可搭建企业知识库和个人知识库。 PAL(程序辅助语言模型):2022 年一篇论文中提出;比如对于语言模型的计算问题,核心在于不让 AI 直接生成计算结果,而是借助其他工具比如 Python 解释器作为计算工具。 ReAct:2022 年一篇《React:在语言模型中协同推理与行动》的论文提出了 ReAct 框架,即 reason 与 action 结合,核心在于让模型动态推理并采取行动与外界环境互动。比如用搜索引擎对关键字进行搜索,观察行动得到的结果。可借助 LangChain 等框架简化构建流程。 2. 个人总结:很多大佬发言表示要关注或直接阅读技术论文,比如产品经理转型 AI 产品经理,需要懂技术脉络。但小白直接看技术论文有难度,虽然现在可以让 AI 辅助阅读,不过还是要完成一定的知识储备。林粒粒呀的这期视频是一个很好的科普入门。 3. 视频二:技术框架与关于未来的想象。之前对安克创新的印象可能是卖充电宝和安防设备,但看了这期访谈,被 CEO 阳萌的认知震撼,很多观点有启发,强烈建议看原访谈视频。其中提到 Transformer 是仿生算法的阶段性实现,10 年、20 年后大家将不再用 TA 。
2025-03-03
model endpoint ID是什么东西?请用文字、数据、案例、比喻等形式进行教学
很抱歉,目前没有关于“model endpoint ID”的相关内容。但一般来说,“model endpoint ID”可以理解为模型服务端点的标识符。 打个比方,就像每个房间都有一个独特的门牌号,“model endpoint ID”就是模型服务这个“房间”的门牌号,通过它可以准确地找到和调用特定的模型服务。 在实际的数据处理中,它可能类似于一个唯一的编码,比如“MEID12345”,用于区分不同的模型服务端点,以便系统能够准确地将请求路由到对应的模型服务进行处理。 希望这样的解释能对您有所帮助,如果您还有其他疑问,请随时向我提问。
2025-02-26
想要入行ai产品经理,要学的东西很多,还有本职工作,很焦虑,怎么办
如果您想要入行 AI 产品经理但感到焦虑,以下是一些建议: 1. 合理规划时间:在本职工作之余,制定一个合理的学习计划,将学习 AI 产品经理所需的知识和技能分解为小目标,逐步实现。 2. 明确学习重点:根据行业需求,例如参考 AI 提示词工程师的岗位技能要求,包括本科及以上学历,计算机科学、人工智能、机器学习相关专业背景;熟悉 ChatGPT、Llama、Claude 等 AI 工具的使用及原理,并具有实际应用经验;熟练掌握 ChatGPT、Midjourney 等 AI 工具的使用及原理;负责制定和执行 AI 项目,如 Prompt 设计平台化方法和模板化方法;了解并熟悉 Prompt Engineering,包括常见的 Prompt 优化策略(例如 CoT、Fewshot 等);对数据驱动的决策有深入的理解,能够基于数据分析做出决策;具有创新思维,能够基于业务需求提出并实践 AI first 的解决方案;对 AIGC 领域有深入的理解与实际工作经验,保持对 AI 技术前沿的关注;具备一定的编程和算法研究能力,能应用新的 AI 技术和算法于对话模型生成;具有一定的编程基础,熟练使用 Python、Git 等工具。明确自己需要重点学习和提升的方面。 3. 掌握算法知识:理解产品核心技术,了解基本的机器学习算法原理,有助于更好地理解 AI 产品的核心技术,从而做出更合理的产品决策;掌握一定的算法知识,可以帮助与开发团队进行更有效的沟通,减少信息不对称带来的误解;在产品规划阶段,能够评估某些功能的技术可行性;了解算法前沿可以帮助更好地把握产品的未来发展方向;了解算法可以帮助发现产品的独特优势,提出创新的产品特性,从而提升产品的竞争力;掌握相关知识可以提升数据分析能力。 4. 借鉴他人经验:可以参考身边 AI 产品经理的工作内容和经验,例如从 01 打造产品、完成 LLM 评测体系的搭建等。 5. 调整心态:认识到学习和成长需要时间,不要过分焦虑,保持积极的心态,逐步积累和进步。
2025-02-19
cursorrules是个什么东西,为什么在做cursor需要用到它?
.cursorrules 是 Cursor 中的一个特殊文件,需放在打开文件夹的根目录。它具有以下重要作用: 1. 改变 Cursor 对于后台 LLM 的 prompt:文件中的所有内容都会作为 prompt 的一部分发给后端的 AI,如 GPT 或 Claude,为定制化带来极大灵活性。例如,可以把计划的内容放在这个文件里,让 Cursor 在对话时获取最新版计划,还能在文件中给予更详细的指令。 2. 实现闭环:Cursor 会自动读取该文件内容了解最新动态,经过思考后将更新后的进度和下一步计划写回文件。 3. 支持更多工具的使用:由于可以通过.cursorrules 直接控制给 Cursor 的 prompt,且 Cursor 有运行命令的能力,可事先在文件中向它介绍工具用法,使其学会使用工具完成任务。例如,对于网页浏览和搜索工具,可在文件中进行相关设置和说明。 4. 规范代码生成:就像给助手的“整理指南”,提前把编码规则、项目结构、注意事项写在这个文件里,AI 会自动按照要求写代码,避免生成混乱的代码。
2025-02-06
nvidia ptx是什么东西
Nvidia PTX 是 NVIDIA 推出的一种中间表示语言(Intermediate Representation Language)。它用于在 CUDA(Compute Unified Device Architecture)编程模型中,为不同的 NVIDIA GPU 架构提供一种通用的代码表示形式。PTX 允许开发者编写一次代码,然后由 NVIDIA 的编译器根据具体的 GPU 架构将其编译为可执行的机器码,从而提高了代码的可移植性和开发效率。
2025-02-04
利用智能体可以实现一键生成ppt吗
利用智能体可以实现一键生成 PPT。以下是一些相关的信息: 爱设计&AiPPT.cn 是一家 AIGC 数字科技企业,旗下的 AiPPT.cn 致力于打造“下一代个人与组织的 Ai 工作站”,能够帮助用户“一分钟一键生成 PPT”,是国内 AiPPT 赛道创业公司第 1 的产品,全球第 4,国内所有 AIGC 产品 PC 端 Top10。目标市场包括市场、运营、销售、人力、财务、行政、技术、产品、总助、公务员、学生、老师等基层及中高层管理岗位人员。 增强版 Bot 作为基于 AI 驱动的智能创作平台,可以实现一站式内容生成,包括 PPT 一键生成。用户在对话框输入诉求,如“帮我生成一篇包含以上架构风格的完整 PPT”,即可生成幻灯片内容及相关模板选择。 此外,2024 年 6 月 22 日更新的研究报告中,《》提到 AiPPT 是爱设计推出的 AI 大模型与 PPT 场景深度结合的产品,能够实现一键生成专业 PPT,并提供丰富模板和低创作门槛。
2025-03-05
怎么用AI实现手机自动记账
目前关于使用 AI 实现手机自动记账的方法,暂时没有相关内容。但一般来说,可能需要以下步骤:首先,需要选择一款支持 AI 功能的记账应用程序;其次,对该应用进行相关设置,例如关联银行账户、设定记账分类规则等;然后,利用应用中的 AI 功能,如智能识别消费记录、自动分类等。不过,具体的实现方式还会因不同的应用和技术而有所差异。
2025-03-05
我能用AI实现手机自动记账吗
目前利用 AI 技术实现手机自动记账是可行的。通过使用具备自然语言处理和机器学习能力的 AI 应用,能够对您的消费信息进行智能识别和分类记录。例如,某些记账应用可以自动解析短信中的消费通知,或者通过语音输入您的消费描述来完成记账。但要实现较好的效果,可能需要您对相关应用进行一定的设置和训练,以适应您的消费习惯和记账需求。
2025-03-05
我想通过ai先提取图片数据,然后将获取的数据根据固定话术模板输出,要用什么软件可以实现呢
目前有多种软件可以帮助您实现从图片提取数据并根据固定话术模板输出的需求。以下是一些常见的选择: 1. TensorFlow:这是一个广泛使用的深度学习框架,可用于图像识别和数据处理。 2. OpenCV:提供了丰富的图像处理和计算机视觉功能。 3. PyTorch:常用于深度学习任务,包括图像数据的处理。 但具体选择哪种软件,还需要根据您的具体需求、技术水平和项目特点来决定。同时,您还需要掌握相关的编程知识和图像处理技术,以便有效地运用这些软件来实现您的目标。
2025-03-05
怎样用AI实现年入百万
以下是一些可能有助于实现年入百万的 AI 相关途径和案例: 有产品在 2 个月内实现 0 2000 万美元年经常性收入,用户超 200 万,团队仅 20 人,其产品功能包括自动写代码、运行及部署,全部操作在浏览器中完成。相关链接: 字节启动 AGI 长期研究计划:Seed Edge,确定五大研究方向,鼓励长期主义与大胆试验,提供独立算力支持。相关链接: 利用藏师傅介绍的方法,用 AI 三步制作任意公司的周边图片,整个流程包括获取 Logo 描述、生成提示词、用 ComfyUI 输出成品。相关链接: 利用飞书旗下的多维表格,它是一款灵活的数据管理工具,具备自动化处理和数据可视化能力,适用于多种场景。近年来随着技术门槛降低,个人和小团队利用其创建产品的案例逐渐增多,甚至年收入可达百万。
2025-03-05
RAG架构图和实现案例
以下是关于 RAG 架构图和实现案例的相关内容: RAG 是当今大多数现代人工智能应用程序的标准架构。以 Sana 的企业搜索用例为例,其工作原理如下: 1. 应用程序加载和转换无结构文件(如 PDF、幻灯片、文本文件),跨越企业数据孤岛(如 Google Drive 和 Notion),通过数据预处理引擎(如 Unstructured)转换为 LLM 可查询格式。 2. 这些文件被“分块”成更小的文本块,以实现更精确的检索,并作为向量嵌入存储在数据库(如 Pinecone)中。 3. 当用户提出问题时,系统检索语义上最相关的上下文块,并将其折叠到“元提示”中,与检索到的信息一起馈送给 LLM。LLM 从检索到的上下文中合成答复返回给用户。 在生产中,AI 应用程序具有更复杂的流程,包含数十甚至数百个检索步骤,通常具有“提示链”,不同类型的任务并行执行多个“提示链”,然后将结果综合在一起生成最终输出。 随着 RAG 的发展,出现了自适应的检索(也被称作主动检索),其核心思想与 LLM Agent 相似。根据判断依据可分为 Promptbase 和 Tuningbase: 1. Promptbase:通过 Prompt Engineering 的方式让 LLM 对流程进行控制。典型实现案例是 FLARE,其核心思想是 LM 仅在缺乏所需知识时进行检索,以避免被动检索增强的 LM 中出现不必要或不适当的检索。FLARE 迭代地生成下一个临时句子,并检查是否包含低概率标记。如果是这样,系统将检索相关文档并重新生成句子。 2. Tuningbase:对 LLM 进行微调使其生成特殊的 token,以此来触发检索或生成。典型案例是 SelfRAG,具体步骤包括:给定输入提示和前面的生成结果,首先预测特殊 token“Retrieve”判断是否通过检索段落对继续的生成进行增强是有帮助;如果有帮助,调用检索模型,模型会生成一个 critique token 来评估检索段的相关性、下一个响应片段和一个批判令牌来评估响应片段中的信息是否得到了检索段的支持;最后,一个新的批判令牌评估响应的整体效用。模型会并行处理这些内容,并选择最佳结果作为最终的输出。 此外,系统的内存是 LMM 的上下文窗口,存在架构限制,窗口越大推理越慢,同时模型会失焦,降低推理的准确度。前沿模型研发团队都力争做到吞吐量、速度还有准确度的最佳平衡。大模型应用领域常用的方法是 RAG,例如 Perplexity、面向企业知识库的 Glean 以及面向个人知识库的 Maimo 等应用。
2025-03-05