以下是关于如何调用 AI 模型的相关内容:
Liblibai 简易上手教程:
COW 项目:
AI 调用外部工具: AI 本身不会直接调用工具,也不是依赖关键词识别。实际流程为:
1.首页-模型广场:发布了其他大手子炼成的模型。如你所见,收藏和运行数(被其他用户来生图的次数)较多的模型都在首页前排,点击后可以看模型的详细信息,将模型加入模型库可用于今后生图时的快速调用。模型详情信息的下方,是用这个模型生成的图片,俗称返图区。1.Checkpoint:生图必需的基础模型,任何生图操作必须要选定一个checkpoint模型才能开始操作。注意,checkpoint区别于lora,这两个东西在模型广场都是混着展示的。checkpoint必选,lora可选可不选,任何主题的作图需求,都可以试着在模型广场上搜索或者浏览,然后收集到模型库中用于生图。1.lora:低阶自适应模型,你可以理解为checkpoint的小插件,生图的时候lora可有可无。但是lora的价值还是很明显的,基本上你看到一些精细的控制,如面部、材质、物品等等细节都常见于用相应的lora进行控制。这个也是可以加入模型库的。1.VAE:是个编码器,功能类似于我们熟悉的滤镜,调整生图的饱和度。无脑选择右侧截图中840000这个即可。1.CLIP跳过层:可以用于在生成图片之后控制、调整构图变化,一般设成2就行了,早期不用花太多精力在这里。1.Prompt提示词:想要AI生成的内容(不绝对有效,需要从入门阶段就费功夫学习,哪怕从照抄别人开始)。2.负向提示词Negative Prompt:想要AI避免产生的内容(不绝对有效,也需要费功夫学,哪怕从照抄别人开始)。1.采样方法:使用何种采样器,通俗说就是让AI用什么算法生图。
在COW项目中,调用千问系列的模型。是可以直接使用key、选择model进行调用,此时就是直接调用的某一个大模型。类似于直接调用智普模型、或直接调用了OpneAI的模型。2、调用应用能力:阿里云百炼的“应用”服务。当我们需要使用更多的能力时候,比如工作流、搜索等能力。此时就需要调用百炼的“应用”。在百炼平台里的“应用”概念,类似于Coze中的“bot”、或ChatGPT的GPTs概念。因此,大家可以简单理解为:阿里提供了两种调用方式1、直接调用模型:对接简单,调试不方便。2、调用应用(bot):对接相对麻烦,调试简单。(推荐)以下教学教学了两种调用方式,大家可以自由选择使用任意一种。(之前完成过coze对接的同学,直接使用第二种,不然会报错)强烈推荐第二种,调用百炼的应用,这样大家在修改和调整Prompt的时候,就不需要重复登录微信了,只需要在“百炼”应用里进行调试即可。
🫧宝玉日报「2月6日」✨✨✨✨✨✨✨✨1⃣️📄多模态语言模型vs.PDF OCR:优势与挑战Gemini 2.0可低成本解析复杂PDF,借助多模态能力提升OCR效率。现实挑战:模型可能因图像分割错误、拼写修正、“自作聪明”解数学题等问题导致OCR识别不准。安全风险:容易受“恶意”提示词干扰,影响最终结果。个人体验:多模态模型OCR方便,但仍有“幻觉”问题,需人工校对。🔗相关文章:📖Ingesting Millions of PDFs and why Gemini 2.0 Changes Everything[https://sergey.fyi/articles/gemini-flash-2](https://sergey.fyi/articles/gemini-flash-2)📖Why LLMs Suck at OCR[https://runpulse.com/blog/why-llms-suck-at-ocr](https://runpulse.com/blog/why-llms-suck-at-ocr)📖翻译版:[https://baoyu.io/translations/gemini-flash-2](https://baoyu.io/translations/gemini-flash-2)2⃣️🔧AI如何调用外部工具?误区:AI本身不会直接调用工具,也不是依赖关键词识别。实际流程:1.程序调用AI接口,AI生成JSON结构化数据,告知是否需要工具、使用何种工具及参数。2.程序解析JSON并调用工具,获取结果后返回AI。3.AI根据工具返回的数据生成最终回答。示例:查询天气