Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

API是什么意思

Answer

API 就像是一个信差,它接受一端的请求,告诉那边的系统您想要做的事情,然后把返回的信息发回给您。

以搜索“奥本海默”电影为例,在这个过程中,通过特定的网址(如 https://www.themoviedb.org/search?query=奥本海默 ),其中域名(www.themoviedb.org)指定了网站的位置,路径(/search)指定了特定页面的位置,而 query(奥本海默)则是查询参数。

在 GPT 中,它可以通过预先配置的 Action 里的 TMDB API 获取电影相关的专有信息。当您询问“奥本海默”这部电影讲了什么时,GPT 会识别您的意图,使用 Action 去 The Movie DB 寻找相关数据,处理并返回最终结果。

配置一个 Action 通常需要:Schema(相当于操作手册,告诉它可以去哪、干什么、需要准备什么)、Available actions(可用行动)、Authentication(认证)、Privacy policy(隐私政策)。但 Schema 的结构可能涉及前端工程师相关领域的知识。

如果您对 Action 很感兴趣,可以从系统学习 API 相关知识、寻找可用的 API 练习、发掘 GPT Action 更多潜力等方向继续深入。

Content generated by AI large model, please carefully verify (powered by aily)

References

像高手一样编写 GPT:从基础到实践,学习使用 GPT 的 Action

这个页面大家应该一眼就能看明白,这是一个搜索结果页,搜索的关键词是“奥本海默”,返回了两个结果,每个结果的信息都有海报、名称、上映时间、描述。这个页面的网址是这样的:https://www.themoviedb.org/search?query=奥本海默域名(www.themoviedb.org):域名指定了网站的位置,类似地图上的地址。在这个URL中,www.themoviedb.org是themoviedb.org网站的域名,用于定位和访问网站。为了方便理解,我把URL和Schema里的红框部分做一个对应关系,你会发现他们不一样,这是因为一个是面向普通用户,一个是面向开发者的。就和ChatGPT网页版和ChatGPT API的关系差不多。路径(/search):路径指定了在网站上特定页面的位置。在这个例子中,路径是/search,通常表示网站的搜索页面或功能。query,就是一个“查询参数”,其中query是参数的名称,奥本海默是分配给该参数的值。这个网址完整的意思是:访问themoviedb.org网站上的搜索功能,执行一个搜索“奥本海默”关键词的操作——我要找一个名叫“奥本海默”的电影。有些同学在写提示词的时候会用这种等号或者冒号的方式,其实都是一种变量的形式,请记住这个感觉,后面我们会继续用到这个概念。也就是说:刚刚TMDB的Action实际上就是访问了下面的网址,提供了query和language参数,然后发起了请求,获取数据,如下:但虽然我们大致理解了GPT发送请求是怎么回事,你可能有个问题一直在想:我要如何才能知道去哪请求,查询参数怎么写呢?寻找API文档

像高手一样编写 GPT:从基础到实践,学习使用 GPT 的 Action

总结一下:今天我们的讨论起始于人工智能中的“Agent&Action”,然后转向OpenAI对智能体(Agent)能力模型的定义。接着,我们深入探讨了ChatGPT中的Action(搜索、画图、代码解释器),以及GPT系列中的不同Action。使用了一个容易上手的Action Webpilot,用于访问网页获取实时的文本内容。最后,我们初步了解了API的概念,以及GPT如何通过Action与外部数据进行交互和使用。如果对Action很感兴趣,你可以从以下方向开始继续前进:系统的了解和学习API相关的知识去网上寻找可以用的API来练习发掘GPT Action更多的潜力以上是我认为相对容易入门的知识框架,但是我们都知道:你不可能只在一次分享/一篇文章中就获得完整的Action相关知识学习虽然没有终点,但有阶段性目标。大家可以通过后续看到的不同的教程和资料,识别这些知识之间的共性和逻辑关系,然后继续深化对这个主题的理解,构建你自己的知识体系。如果你对GPT开发有兴趣,想要认识更多玩GPT的朋友,欢迎加入GPTGeeker的星球:

像高手一样编写 GPT:从基础到实践,学习使用 GPT 的 Action

在这个例子里,GPT就通过预先配置的Action里的TMDB API,获取了电影相关的专有信息。当我问“奥本海默”这部电影讲了什么之后:GPT识别到了我的意图,按照Prompt进行第一个任务。使用Action去The Movie DB寻找相关数据,从数据中取出backdrop_path这个数据作为主视觉图,然后处理剧情数据、生成背景知识。最后使用webpilot搜索评价,返回整理后的数据,也就是最终你看到的结果:接下来,我们继续深入GPT Action的配置项:配置一个Action,你需要:Schema:(下图)通过导入或者直接填写,相当于给Baby GPT的一个📓操作手册,告诉它可以去哪,干什么,需要准备什么。这个示例的版本很简单,真正的会更复杂一些。Available actions:(上图)可用行动,在你输入Schema后会自动生成,展示大纲中可以使用的行动,对应operationId,get,path——加入操作手册是本魔法书,Available actions就是可以用的魔法Authentication:(上图)认证,可以理解成身份证,没带证件不能请求数据Privacy policy:(上图)隐私政策,因为Baby GPT会携带用户的需求访问别的服务器,所以需要一个隐私声明,这个一般在网站底部都可以找到,把网址填进去就行。然后来看Schema的结构:是不是有点懵?懵就对了,这已经是前端工程师相关领域的知识了,我们的知识体系里还没有建立这些信息的映射关系。

Others are asking
AI换衣API推荐, 并多维度对比,选择最适合的API推荐给我
以下为您推荐的 AI 换衣相关的 API 并进行多维度对比: Comfyui_Object_Migration: 特点:可高精度迁移服装样式到目标人物图像,保持高一致性和细节完整性,支持从卡通到写实的风格互相转换,甚至可将平面角色图像转换为可 3D 打印的模型。 应用场景:虚拟角色服装设计迁移到真实照片、为动画角色添加写实服装、微调权重生成独特服装设计。 详细介绍及教程: GitHub: 在选择适合的 AI 大模型 API 服务时,需要考虑以下因素: 对于像开发 AI Share Card 插件这类情况,如果将模板生成功能设计为固定的代码组件,让大模型专注于内容总结的功能,那么对模型的要求就不会过高。 选型要求包括:较长的上下文窗口,因为内容总结类任务需要较大的上下文长度;响应速度要快、并发支持要高,以在多人使用插件时保持良好性能;免费或尽量低价,以减少模型 token 费用。例如,AI Share Card 选用的是 GLM4flash(截至 202412,长达 128k 的上下文窗口,完全免费的调用价格,200 RPM 高并发支持)。
2025-01-08
数字人api
以下是关于数字人 API 的相关信息: HeyGen 开放数字人 API,提供虚拟人制作、视频翻译和互动虚拟人等功能,可应用于在线营销、客户支持、培训教程等多场景,助力打造全球化、多语言互动数字体验。相关链接: 出门问问提供语音合成(TTS)API,接口请求域名:https://open.mobvoi.com/api/tts/v1,接口请求频率限制为 5 次/秒。其语音合成技术可以将任意文本转化为语音,应用场景广泛,如视频 APP 配音解说、小说 App 有声阅读等,并提供多种方言和风格。请求参数方面,HTTP Method 支持 POST 请求。 如果您对 ComfyUI 部署不了解,但想体验并使用数字人照片的驱动及 AI 配音,可以微信搜索「奇妙元」「魔音工坊」,或扫描二维码。若在实操中遇到报错问题,如打开 ComfyUI 调用 api 的节点丢失爆红,需检查是否下载了 api 节点的包,放进 node 里再试试;若输出节点框显示 404,可查看 text 文字情况,也可以获取生成的链接,从浏览器的页面打开即可下载。目前发现官方的 python311 版本和节点有安装依赖冲突,若节点正确放到节点文件夹仍然爆红请使用 python310 运行安装环境依赖。若使用 310 仍然爆红,可以联系 Wechat:9755294(备注 ComfyUI)。
2025-01-08
文生图 api
以下是关于文生图 API 的相关信息: 10 月 AI 行业大事记中,LiblibAI 开放了全新生图 API。 文生图的简易上手教程如下: 定主题:明确生成图片的主题、风格和要表达的信息。 选择 Checkpoint:根据主题选择贴近的模型,如麦橘、墨幽的系列模型。 选择 lora:寻找与生成内容重叠的 lora 以控制图片效果和质量。 设置 VAE:通常选择 840000 即可。 CLIP 跳过层(Liblibai 中):设为 2。 Prompt 提示词:用英文写想要生成的内容,以单词和短语组合,用英文半角逗号隔开,无需考虑语法和长句。 负向提示词 Negative Prompt:同样用英文单词和短语组合,隔开方式相同,写明想要避免生成的内容。 采样方法:一般选 DPM++2M Karras 较多,也可参考模型作者推荐的采样器。 采样次数/迭代步数:选 DPM++2M Karras 时,通常在 30 40 之间,过多意义不大且慢,过少出图效果差。 尺寸:根据个人喜好和需求选择。 生成批次(Liblibai 中):默认 1 批。 对于 ControlNet 和局部重绘,可后续再学习。
2025-01-07
如何系统学习API知识
系统学习 API 知识可以从以下几个方面入手: 1. 首先,要对 API 的概念有清晰的理解。API 就像是一个信差,它接受一端的请求,告诉那边的系统您想要做的事情,然后把返回的信息发回给您。 2. 系统地了解和学习 API 相关的知识。 3. 去网上寻找可以用的 API 来练习。 4. 发掘 GPT Action 更多的潜力。 5. 构建自己的知识体系。可以通过后续看到的不同的教程和资料,识别这些知识之间的共性和逻辑关系,然后继续深化对这个主题的理解。 6. 对于一些不熟悉的 API,需要在 Prompt 里告诉它要怎样使用。 7. 最后提炼一下 Action 的工作流:首先,想一下您想要做一个什么样的 GPT,以及是否需要外部数据(这两个谁先谁后不重要);然后,去您需要的外部数据寻找 API 文档,或者基于您的需求,自己开发一个 API,寻找市面上可以直接用的 Action;最后,基于 API 文档,编写 Action 里的 Schema,和 Prompt(如何处理取回来的信息)。 同时,在使用 API 时还需要注意以下几点: 1. 对于文本补全(Text completion),该 API 能够理解文本的上下文并以不同方式重新表述它。 2. 限制 API 制造答案可能性的方法有:为 API 提供基础事实信息;使用较低概率并告诉 API 如何说“我不知道”。 3. 对于涉及理解或生成代码等任务,建议使用 Codex 模型处理。
2025-01-07
通过 API 调用大模型
以下是通过 API 调用大模型的相关步骤: 1. 创建大模型问答应用: 进入百炼控制台的,在页面右侧点击新增应用。在对话框,选择智能体应用并创建。 在应用设置页面,模型选择通义千问Plus,其他参数保持默认。您也可以选择输入一些 Prompt,比如设置一些人设以引导大模型更好的应对客户咨询。 在页面右侧可以提问验证模型效果。不过您会发现,目前它还无法准确回答你们公司的商品信息。点击右上角的发布。 2. 获取调用 API 所需的凭证: 在我的应用>应用列表中可以查看所有百炼应用 ID。保存应用 ID 到本地用于后续配置。 在顶部导航栏右侧,点击人型图标,点击 APIKEY 进入我的 APIKEY 页面。在页面右侧,点击创建我的 APIKEY,在弹出窗口中创建一个新 APIKEY。保存 APIKEY 到本地用于后续配置。 3. 直接调用大模型(之前完成过 coze 对接的同学,直接去二、百炼应用的调用): 百炼首页:https://bailian.console.aliyun.com/ 当在 COW 中直接调用千问的某一个大模型时,只需要更改 key 和 model 即可。以调用“qwenmax”模型为例,在/root/chatgptonwechat/文件夹下,打开 config.json 文件:需要更改"model",和添加"dashscope_api_key"。 获取 key 的视频教程: 图文教程:以下是参考配置。 注意:需要“实名认证”后,这些 key 才可以正常使用,如果对话出现“Access to mode denied.Please make sure you are eligible for using the model.”的报错,那说明您没有实名认证,点击去,或查看自己是否已认证。 4. 本地部署教学(node.js)小白推荐: 申请大模型的 API 接口: silicon 硅基接口:官方提供的接入 API 的教学文档。以平时使用的 silicon 接口为例,有众多开源模型(Yi、Qwen、Llama、Gemma 等)免费使用。另赠送 14 元体验金,有效期未知,是个人认为 API 接口最方便最实惠的接口了。silicon 注册和使用地址:邀请码:ESTKPm3J(谢谢支持)。注册登录后,单击左边栏的 API 密钥,单击新建 API 密钥。单击密钥即可完成 API 密钥的复制。silicon 支持多种大模型,也支持文生图、图生图、文生视频,可自行探索。这一步得到 silicon 的密钥即可,我们可以调用千问 2.5 的这个模型,满足日常对话完全没有问题,并且是免费调用的。 智普 GLM4 接口:正在 BigModel.cn 上用智谱 API 打造新一代应用服务,通过专属邀请链接注册即可获得额外 GLM4Air 2000 万 Tokens 好友专属福利,期待和您一起在 BigModel 上探索 AGI 时代的应用;链接:https://www.bigmodel.cn/invite?icode=xxcbnybpRLOsZGMNOkqaLnHEaazDlIZGj9HxftzTbt4%3D。进入个人中心,先完成实名认证,再单击左边栏 API KEYS 或右上角的 API 密钥,进入后单击右上角的添加 API,鼠标移至密钥上方,单击复制即可得到智普的 APIkey。这一步做的是注册 silicon 和智普 GLM 的大模型账号,申请 API 密钥,保存密钥,等下配置需要填写。密钥一定要保管好不能公开,否则后果很严重。
2025-01-06
通过 API 调用大模型
以下是通过 API 调用大模型的相关步骤: 1. 创建大模型问答应用: 进入百炼控制台的,在页面右侧点击新增应用。在对话框,选择智能体应用并创建。 在应用设置页面,模型选择通义千问Plus,其他参数保持默认。您也可以选择输入一些 Prompt,比如设置一些人设以引导大模型更好的应对客户咨询。 在页面右侧可以提问验证模型效果。不过您会发现,目前它还无法准确回答你们公司的商品信息。点击右上角的发布。 2. 获取调用 API 所需的凭证: 在我的应用>应用列表中可以查看所有百炼应用 ID。保存应用 ID 到本地用于后续配置。 在顶部导航栏右侧,点击人型图标,点击 APIKEY 进入我的 APIKEY 页面。在页面右侧,点击创建我的 APIKEY,在弹出窗口中创建一个新 APIKEY。保存 APIKEY 到本地用于后续配置。 3. 直接调用大模型(之前完成过 coze 对接的同学,直接去二、百炼应用的调用): 百炼首页:https://bailian.console.aliyun.com/ 当在 COW 中直接调用千问的某一个大模型时,只需要更改 key 和 model 即可。以调用“qwenmax”模型为例,在/root/chatgptonwechat/文件夹下,打开 config.json 文件,需要更改"model",和添加"dashscope_api_key"。 获取 key 的视频教程: 图文教程:以下是参考配置。 注意:需要“实名认证”后,这些 key 才可以正常使用,如果对话出现“Access to mode denied.Please make sure you are eligible for using the model.”的报错,那说明您没有实名认证,点击去,或查看自己是否已认证。 4. 申请大模型的 API 接口(以 silicon 硅基接口为例): 官方提供的接入 API 的教学文档。 以平时使用的 silicon 接口为例,有众多开源模型(Yi、Qwen、Llama、Gemma 等)免费使用。另赠送 14 元体验金,有效期未知,是个人认为 API 接口最方便最实惠的接口了。 silicon 注册和使用地址: 邀请码:ESTKPm3J(谢谢支持) 注册登录后,单击左边栏的 API 密钥,单击新建 API 密钥。 单击密钥即可完成 API 密钥的复制。 silicon 支持多种大模型,也支持文生图、图生图、文生视频,可自行探索。 这一步得到 silicon 的密钥即可,我们可以调用千问 2.5 的这个模型,满足日常对话完全没有问题,并且是免费调用的。 5. 申请大模型的 API 接口(以智普 GLM4 接口为例): 正在 BigModel.cn 上用智谱 API 打造新一代应用服务,通过专属邀请链接注册即可获得额外 GLM4Air 2000 万 Tokens 好友专属福利,期待和您一起在 BigModel 上探索 AGI 时代的应用;链接:https://www.bigmodel.cn/invite?icode=xxcbnybpRLOsZGMNOkqaLnHEaazDlIZGj9HxftzTbt4%3D 进入个人中心,先完成实名认证,再单击左边栏 API KEYS 或右上角的 API 密钥,进入后单击右上角的添加 API。 鼠标移至密钥上方,单击复制即可得到智普的 APIkey。 这一步做的是注册 silicon 和智普 GLM 的大模型账号,申请 API 密钥,保存密钥,等下配置需要填写。 密钥一定要保管好不能公开,否则后果很严重。
2025-01-06
AGI 是什么意思
AGI 是 artificial general intelligence 的缩写,意思是通用人工智能,即能够做任何人类可以做的事。目前 AI 分为 ANI 和 AGI,ANI(artificial narrow intelligence 弱人工智能)得到了巨大发展,可应用于智能音箱、网站搜索、自动驾驶、工厂与农场等领域,但 AGI 还未取得巨大进展。在生成式 AI 的发展中,也对 AGI 有所展望,期待其成为技术发展的下一个阶段。同时,Web3 和人工智能初创公司 AGII 获得了 1500 万美元融资,AGII 是一个 AI 驱动的平台,能为用户提供多种生成内容的功能。
2025-01-08
SOTA是什么意思?
SOTA 是“State Of The Art”的缩写,意思是“最先进的”“当前最佳水平”。 在 AI 领域中,例如在多模态的研究中,(c)类方法虽然是 SOTA,但很多想法都受到(d)类的代表作 ViLT 启发。ViLT 把 VE 彻底换成简单的 patch projection 模块,借鉴了 ViT 的思维,其出发点是对视觉数据处理方式的创新。 以往的许多研究通过使用各种方法对视频数据进行生成建模,包括循环网络、生成对抗网络、自回归变换器和扩散模型。但这些工作通常存在一些局限性,而 Sora 作为一个视觉数据的通用模型,可以生成持续时间、纵横比和分辨率各异的视频和图像,长达一分钟的高清视频。
2025-01-07
GPT是什么意思
GPT 是“生成式预训练变换器”(Generative Pretrained Transformer)的缩写,是一种大型语言模型(LLM),也是生成式人工智能的重要框架。 首个 GPT 由 OpenAI 于 2018 年推出。GPT 模型是基于 Transformer 模型的人工神经网络,在大型未标记文本数据集上进行预训练,并能够生成类似于人类自然语言的文本。 截至 2023 年,大多数 LLM 都具备这些特征,并广泛被称为 GPT。而所谓的生成式预训练,其实是机器学习领域一个由来已久的概念。 2018 年,OpenAI 发表了一篇名为《通过生成式预训练提高语言理解能力》的文章,首次介绍了基于转换器的生成式预训练模型(GPT)系统,即我们所说的“GPT1”。 ChatGPT 是一种基于 GPT 架构的人工智能模型,由 OpenAI 开发。它是一种自然语言处理(NLP)工具,能够理解和生成接近人类水平的文本。目前 ChatGPT 官网有 GPT3.5 和 GPT4 两个版本。
2025-01-07
多模态大模型是什么意思
多模态大模型(MLLM)是一种在统一框架下,集成多种不同类型数据处理能力的深度学习模型,这些数据包括文本、图像、音频和视频等。通过整合多样化的数据,MLLM 能够更全面地理解和解释现实世界中的复杂信息,在面对复杂任务时表现出更高的准确性和鲁棒性。其架构通常包括一个编码器、一个连接器和一个 LLM,还可选择性地在 LLM 上附加一个生成器以生成除文本之外的更多模态。连接器大致可分为基于投影的、基于查询的和基于融合的三类。 Google 的人工智能多模态大模型叫 Gemini,是 Google DeepMind 团队开发的。Gemini 不仅支持文本、图片等提示,还支持视频、音频和代码提示,能够理解和处理几乎任何输入,结合不同类型的信息,并生成几乎任何输出,被称为 Google 迄今为止最强大、最全面的模型,从设计之初就支持多模态,能够处理语言、视觉、听觉等不同形式的数据。 学习多模态大模型很有必要,因为它可以从图像中提取文本,理解图像或视频中发生的事情,识别物体、场景甚至情绪。例如,有人想为猫买新衣服,可给模型提供猫的图片和文本提示,模型会给出适合猫的衣服建议;在学生解决物理问题的例子中,模型能根据包含问题和答案的图像以及文本提示,进行推理并判断答案是否正确。输入可以是文本、图像、音频的混合,顺序很重要。
2025-01-02
scalinglaw什么意思
Scaling Law(规模定律)指的是在模型预训练中,只要三个关键因素——模型大小、数据量、训练时间(计算量)不断增长,模型性能就能大斜率指数级爆发式提升。足够的规模带来——“涌现”,即自发地产生复杂智能,完成复杂问题的推理、并形成非同分布下的泛化性提升。 2024 年整年,一个争论笼罩着 AI 界——Scaling Law 是正确的,但在现实中,Scaling Law 是不是已经触及天花板。算力需求已达惊人规模,基础设施跟不上发展速度,优质数据接近极限,合成数据训练存在“近亲繁殖”问题可能导致模型能力长期衰退。 在 OpenAI 的相关研究中,“良好且通用的数据表示,良好且通用的数据标注,良好且通用的算法”为检测 Scaling Law 做好了准备。同时,在 Sora 的研究中,也遵循了 Scaling Law,即在足量的数据、优质的标注、灵活的编码下,Scaling Law 在 transformer+diffusion model 的架构上继续成立,其想法很大程度上沿袭了大语言模型的经验。
2024-12-30
绘画提示词中的“P”是什么意思?
在绘画提示词中,“P”通常不是一个具有特定普遍含义的独立符号或缩写。但“POV”是“Point of View”的缩写,意为“视角”。在美术创作中,尤其是绘画和摄影领域,视角指的是观察者或摄像机所在的位置和角度。选择不同的视角可以极大地影响作品的视觉效果和观众对作品的感受。 视角在绘画中的作用包括: 1. 视觉引导:可以用来引导观众的视线,通过选择特定的角度,艺术家可以强调作品中的某些元素,使它们更加突出。 2. 情感表达:不同的视角可以传达不同的情感和氛围。例如,从高处看的视角可能会让物体显得更小、更脆弱,而从低处看的视角可能会让物体显得更强大、更有威严。 3. 空间感:通过精确的透视技巧,视角可以帮助艺术家在二维平面上创造出深度和空间感,使画面更加立体和真实。 4. 故事叙述:视角可以用来讲述故事,通过选择与故事内容相匹配的视角,艺术家可以增强叙事的力度和清晰度。 在创作提示词时,有一些技巧: 1. 透视:了解和运用透视原理是掌握不同视角的关键。透视可以创造出深度感和空间感,使画面更加逼真。 2. 构图:选择合适的视角可以帮助艺术家更好地构图,通过角度和视点的选择来平衡画面,创造出和谐的画面效果。 3. 光影:不同的视角会影响光线的方向和强度,艺术家需要根据所选的视角来调整光影效果,以增强画面的真实感和表现力。 在提示词的语法方面,根据自己想画的内容写出提示词,多个提示词之间使用英文半角符号。一般而言,概念性的、大范围的、风格化的关键词写在前面,叙述画面内容的关键词其次,最后是描述细节的关键词。提示词的顺序很重要,越靠后的权重越低。关键词最好具有特异性,措辞越不抽象越好,尽可能避免留下解释空间的措辞。还可以使用括号人工修改提示词的权重。
2024-12-26