Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

集成LLM的工具

Answer

以下是关于集成 LLM 的工具的相关内容:

一、“手臂和腿部”:赋予模型使用工具的能力

  1. 从知识挖掘转向行动导向,增加模型使用工具的能力,有望在消费者和企业领域实现一系列用例。
    • 对于消费者,LLMs 可能给出菜谱建议并订购食材,或推荐早午餐地点并预订餐桌。
    • 在企业领域,创始人可接入 LLMs 使应用程序更易用,如在 Salesforce 等应用中,用户能用自然语言更新,模型自动更改,减少维护 CRM 所需时间。
  2. LLM 虽对常见系统有复杂理解能力,但无法执行提取的信息。不过,公司在不断改善其使用工具的能力。
    • 老牌公司如必应、谷歌和初创公司如 Perplexity、You.com 推出搜索 API。
    • AI21 Labs 推出 Jurassic-X,解决独立 LLMs 缺陷。
    • OpenAI 推出 ChatGPT 插件测试版,允许与多种工具交互,在 GPT-3.5 和 GPT-4 中引入函数调用,允许开发者将 GPT 能力与外部工具链接。

二、无需微调,仅用提示词工程就能让 LLM 获得 tool calling 的功能

  1. 提示词工程主要由提示词注入和工具结果回传两部分代码组成。
  2. 提示词注入用于将工具信息及使用工具的提示词添加到系统提示中,包含 TOOL_EAXMPLE、tools_instructions、REUTRN_FORMAT 三个部分。
    • TOOL_EAXMPLE 提示 LLM 如何理解和使用工具,编写时用无关紧要工具作示例避免混淆。
    • tools_instructions 是通用工具字典转换成 LLM 可读的工具列表,可动态调整。
    • REUTRN_FORMAT 定义调用 API 格式。
  3. 工具结果回传阶段利用正则表达式抓取输出中的“tool”和“parameters”参数,对于 interpreter 工具使用另一种正则表达式提取 LLM 输出的代码,提高使用成功率。通过识别 LLM 返回的调用工具字典,提取对应值传入工具函数,将结果以 observation 角色返回给 LLM,对于不接受某些角色的 LLM 接口,可改为回传给 user 角色。通过以上提示词工程,可让无 tool calling 能力的 LLM 获得稳定的该能力。
Content generated by AI large model, please carefully verify (powered by aily)

References

生成式人工智能领域的 4 个突破点

通过从知识挖掘转向行动导向,增加手臂和腿部的能力有望在各种公司和用户类型之间实现一系列用例。对于消费者而言,LLMs可能很快就能给出菜谱建议,然后为您订购所需的食材,或者建议一个早午餐地点并为您预订餐桌。在企业领域,创始人可以通过接入LLMs使他们的应用程序更易于使用。正如Amodei所指出的:“对于从用户界面角度来说非常难以使用的功能,我们可能只需用自然语言描述即可实现复杂的操作。”例如,对于Salesforce等应用程序,LLM集成应允许用户用自然语言进行更新,并使模型自动进行这些更改,从而大大减少了维护CRM所需的时间。像Cohere和Adept这样的初创公司正在致力于将LLMs集成到这类复杂工具中。Gomez认为,虽然LLMs能够在2年内使用Excel等应用程序的可能性越来越大,但“仍然需要进行许多细化工作。我们将拥有第一代能够使用工具的模型,这将是引人注目但易碎的。最终,我们将获得梦寐以求的系统,我们可以将任何软件交给模型,并附上一些描述,例如‘这是工具的功能,这是如何使用它的’,它将能够使用它。一旦我们可以为LLMs提供特定和通用的工具,它所带来的自动化将成为我们领域的巅峰之作。”关键突破点:LLMs将能够与我们今天使用的工具进行更加有效的交互。

生成式人工智能领域的 4 个突破点

LLMs的真正威力在于使自然语言成为行动的媒介。LLMs对常见且有详细文档的系统具有复杂的理解能力,但它们无法执行从这些系统中提取的任何信息。例如,OpenAI的ChatGPT、Anthropic的Claude和Character AI的Lily可以详细描述如何预订航班,但它们本身无法原生地预订航班(尽管像ChatGPT的插件等技术进展正在推动这一边界)。Amodei表示:“这个大脑在理论上拥有所有这些知识,只是缺少从名称到按钮的映射。”他说:“连接这些电缆并不需要太多的训练。你有一个没有实体的大脑,它知道如何移动,但它还没有连接上手臂和腿部。”随着时间的推移,我们已经看到公司不断改善LLMs使用工具的能力。像必应和谷歌这样的老牌公司和Perplexity和You.com这样的初创公司推出了搜索API。AI21 Labs推出了Jurassic-X,它通过将模型与一组预定工具(包括计算器、天气API、维基百科API和数据库)结合起来,解决了独立LLMs的许多缺陷。OpenAI推出了ChatGPT的插件测试版,允许ChatGPT与Expedia、OpenTable、Wolfram、Instacart、Speak、网络浏览器和代码解释器等工具进行交互,这一突破被认为类似于苹果的“应用商店”时刻。最近,OpenAI在GPT-3.5和GPT-4中引入了函数调用,允许开发者将GPT的能力与任何外部工具进行链接。

无需微调,仅用提示词工程就能让 LLM 获得 tool calling 的功能

本文采用的提示词工程主要有两部分代码组成:提示词注入和工具结果回传。提示词注入用于将工具信息以及使用工具的提示词添加到系统提示中。工具结果回传则是解析tool calling的输出,并将工具返回的内容再次嵌入LLM。[heading2]1、提示词注入阶段[content]INSTRUCTION为最后注入到系统提示中的字符串,他又包含了TOOL_EAXMPLE、tools_instructions、REUTRN_FORMAT三个部分。TOOL_EAXMPLE用于提示LLM如何理解tool以及如何使用tool。在编写TOOL_EAXMPLE时,请注意用一些无关紧要的工具作为示例,例如本文使用的将数字加一和数字减一的工具,从而避免LLM混淆真正可以使用的工具与示例工具。tools_instructions是由目前通用的工具字典转换成LLM可读的工具列表。实际使用LLM时,可以通过输入不同的工具来动态调整tools_instructions,让LLM得知目前可用的工具有哪些以及如何使用。REUTRN_FORMAT定义了调用API的格式。[heading2]2、工具结果回传阶段[content]利用正则表达式抓取输出中的"tool"和"parameters"参数。对于interpreter工具,使用了另一种正则表达式来提取LLM输出的代码,提高LLM使用interpreter工具的成功率。本文使用代码如下:通过识别LLM返回的调用工具的字典,提取出对应的值,再传入相应的工具函数,最后将工具返回的结果以observation的角色返回给LLM。对于一些不接受observation、tool、function角色的LLM接口,可以改为回传给user角色,例如:通过以上提示词工程,可以避免微调,让完全没有tool calling能力的LLM获得稳定的tool calling能力。

Others are asking
什么是llm
LLM(大型语言模型)是一种具有重要地位和强大功能的人工智能系统。 从不同角度来看: 它更像是新操作系统的核心程序,能够协调跨多种模式的输入与输出(如文本、音频、视觉),具备代码解释和运行程序的能力,还拥有浏览器/上网功能、嵌入式数据库用于文件和内部内存存储与检索等。 在开发中,LLM 是 LangChain 平台与各种大模型进行交互的核心模型,是一个抽象概念,输入是字符串表示的用户请求或问题,输出也是字符串表示的模型回答或结果,能调用不同大模型完成不同语言任务,让开发者无需关心大模型细节,还能灵活选择和切换大模型,甚至自己封装 LLM 实现特定语言逻辑和功能。 简单理解,LLM 就像一个非常聪明、知识丰富的“朋友”,能够通过学习大量文字数据来理解和生成自然语言,回答各种问题、写故事、完成作文等。可以把它想象成一个从小读了很多书、知识不断丰富的小朋友,虽然不是真人而是计算机程序,但能处理和学习海量文字数据,这些数据来源广泛。如今的搜索引擎背后可能就有 LLM 的支持,能更准确完整地回答问题。 总的来说,LLM 是一种通过学习大量文本数据,能够理解和生成自然语言的人工智能系统。
2025-03-01
anythingLLM和RAG Flow哪个部署更容易
RAG Flow 和 LLM 的部署难易程度如下: RAG Flow: 公网 MaaS:通常只需要一个 API key 即可对接,默认提供了通义千问。比较特殊的是 OpenAI 的接口上提供了修改 endpoint,也就是支持中间商。 本地部署:目前仅支持 Xinference 和 Ollama 方式部署。但是实际上只要是 API 接口一致,对接方式一致都可以用该方式对接。此处基础 Url 只需要写到 v1 为止,不需要写 embeddings 的二级接口。添加模型后需要在“系统模型配置”中设置,方能让模型生效。 LLM:关于 LLM 的部署难易程度,上述内容中未给出直接对比信息。但 Dify.AI 作为一个开源的大规模语言模型应用开发平台,具有快速部署等特点,用户可以在 5 分钟内部署定制化的聊天机器人或 AI 助手。 综合来看,仅根据所提供的信息,难以确切判断 RAG Flow 和 LLM 哪个部署更容易,还需结合更多具体的技术细节和实际需求进行评估。
2025-02-27
帮我推荐一本入门llm的书
以下是为您推荐的入门 LLM 的相关资源: 1. 《皇子:LLM 经典论文速读版,看完感觉自己通透了》:包含 31 篇 LLM 的经典论文速读版,涵盖大语言模型架构、RAG、预训练、微调、提示词等内容。阅读前可安装浏览器插件“沉浸式翻译”方便中文阅读,将 arxiv PDF 论文原地址域名中的 x 更换成 5 可调整为 HTM 版本方便阅读。 2. 课程学习: 首先学习大语言模型(LLM)入门者的课程,这是了解 LLM 的基础。 进一步学习面向开发者的课程,帮助更好地应用 LLM 于实际项目中。 3. AI 大神 Karpathy 再发的 LLM 入门介绍视频:时长三个半小时,详细介绍 LLM 训练的全部过程,包括预训练、有监督微调和强化学习。即使没有技术背景也能看懂,将提供对 ChatGPT 等 LLM 完整训练流程的直观理解,包含许多示例,并可能帮助思考当前的能力、所处的位置以及未来的发展方向。
2025-02-23
如何在本地服务器上微调LLM
在本地服务器上微调 LLM 可以参考以下内容: 1. 提示词工程: 提示词工程主要由提示词注入和工具结果回传两部分代码组成。 提示词注入用于将工具信息及使用工具的提示词添加到系统提示中,其中 INSTRUCTION 包含 TOOL_EAXMPLE、tools_instructions、REUTRN_FORMAT 三个部分。TOOL_EAXMPLE 用于提示 LLM 如何理解和使用工具,编写时应注意用无关紧要的工具作示例。tools_instructions 可通过输入不同工具动态调整,让 LLM 得知可用工具及使用方法。REUTRN_FORMAT 定义调用 API 的格式。 工具结果回传阶段利用正则表达式抓取输出中的“tool”和“parameters”参数,对于 interpreter 工具使用另一种正则表达式提取 LLM 输出的代码,提高成功率。通过识别 LLM 返回的调用工具字典,提取对应值传入工具函数,将结果以 observation 角色返回给 LLM,对于不接受相关角色的 LLM 接口,可改为回传给 user 角色。 2. 微调方法: 传统微调:采用在通用数据集上预训练的模型,复制模型后在新的特定领域数据集上重新训练,但大型语言模型微调面临训练时间长、计算成本高等挑战。 参数有效调优:这是一种创新的调优方法,旨在通过仅训练一部分参数来减少微调 LLM 的挑战,参数可以是现有模型参数的子集或全新的参数。 为使微调达到最佳效果,应从明确目标和高质量数据集开始,使用体现所需输出类型的数据,进行迭代测试,从小的渐进变化开始并评估结果。 对于 OpenAI 的模型,微调包括使用其提供的 API 在数据集上进一步训练,需调整超参数并监控性能。对于开源 LLM,微调可能需要更多实践工作,包括设置训练环境、管理数据流及调整模型架构。 对于需要快速迭代新用例的场景,微调作用较小。要实现微调功能,需创建大型训练数据集,整理成适当格式,启动训练任务并评估性能。建立模型改进工作流程,监控性能变化,依据反馈改进模型,记录生成的模型及评分指标,许多 LLMOps 平台能自动收集和显示最佳数据,方便微调。
2025-02-21
在coze上实现notebookllm
以下是关于在 Coze 上实现 NotebookLLM 的相关信息: LLM 作为知识问答工具有缺陷,如无法实时获取最新信息、存在“幻觉”问题、无法给出准确引用来源等。搜索引擎虽体验不够简便直接,但加上 LLM 可能带来更优信息检索体验。 在生成标题、导语、大纲时,因为涉及文本理解与创作,这是 LLM 节点的工作,需要对其进行配置。为减少 token 消耗和节省模型调度费用,在满足预期情况下,应尽量减少大模型处理环节。经过实测,豆包·function call 32k 模型能在一轮对话中稳定生成相关内容。每个大模型节点配置项丰富,入门用户主要关注一些方面,如在“标题、导语、大纲”节点中,希望 LLM 接收原文信息后一次性生成所需内容,还需视实际情况调大模型的最大回复长度,并设计填入用户提示词。
2025-02-19
notebookllm
NotebookLM 是谷歌推出的一款工具,具有以下特点和用途: 有人称它为笔记工具、AI 学习工具或播客生成器。 只要上传文档、音频或网页链接(如 YouTube 等),就能生成专业的播客,其中主持人对话生动自然,包含各种人类语气和行为。 可以将公众号文章等内容变成双人对谈播客。 是 Google AI Lab 开发的笔记应用,基于 Gemini 1.5 Pro 的长文本理解和多模态能力。 用户可通过上传文件或链接快速生成笔记和音频内容,适合教育和研究等场景。 支持协作,适合整理公众号文章、编写书稿等多种用途。 体验地址:https://notebooklm.google/
2025-02-19
AI 能和OA系统集成吗
AI 能和 OA 系统集成。AI 可以在某些方面辅助 OA 系统的工作,例如承担计划、拆分任务和调用工具的角色,但目前无法完全评定任务结果的正确性和质量。现阶段更适合让 AI 辅助完成部分任务,如辅助处理一些流程性工作,但需要人类验证后才能进行下一步操作。完全依赖 AI 可能带来风险,如生产环境出错或被黑客恶意利用漏洞。 同时,像影刀 RPA 的 AI Power 就集成了丰富的 AI 组件及各种技能组件,可以极大地拓展 AI 服务的能力边界,打造 AI Agent。它提供了多种调用方式,如网页分享、对话助理、API 集成等,方便企业在不同的业务场景下灵活选择最适合的接入方式,包括与内部的 OA 系统进行集成,让内部员工便捷地与 AI 交互。并且,影刀 AI Power 拥有完整的服务团队,为客户提供教学培训、技术答疑、场景共创等方面的贴身服务,帮助企业把 AI 落地到 OA 系统等业务中。
2025-02-11
企业级应用集成AI大模型架构白皮书
以下是关于企业级应用集成 AI 大模型架构的相关内容: 从整体分层的角度来看,目前大模型整体架构可以分为以下几层: 1. 基础层:为大模型提供硬件支撑,数据支持等,例如 A100、数据服务器等等。 2. 数据层:这里的数据层指的不是用于基层模型训练的数据基集,而是企业根据自己的特性,维护的垂域数据。分为静态的知识库,和动态的三方数据集。 3. 模型层:包括 LLm 或多模态模型。LLm 即 largelanguagemodel 大语言模型,例如 GPT,一般使用 transformer 算法来实现。多模态模型即市面上的文生图、图生图等的模型,训练所用的数据与 llm 不同,用的是图文或声音等多模态的数据集。 4. 平台层:模型与应用间的平台部分,比如大模型的评测体系,或者 langchain 平台等,提供模型与应用间的组成部分。 5. 表现层:也就是应用层,用户实际看到的地方。 此外,以下报告也涉及相关内容: 1. 量子位智库发布的《》概述了大模型技术在多个行业中的应用和发展趋势。强调大模型在编程、教育、医疗等领域的重要性,并预测其将推动生产力和创新服务的增长。大模型业务模式涵盖应用开发、模型 API 和模型服务,其中模型服务和 API 是核心。报告还讨论了大模型在不同地域和行业的落地情况,以及企业在大模型技术投资方面的需求。 2. 亿欧智库发布的《》聚焦于企业中人工智能大模型的应用和落地情况。报告涵盖了 AI 大模型在企业中的应用现状、发展趋势以及面临的挑战。它详细分析了 AI 技术如何推动企业创新、提高效率和降低成本,并探讨了不同行业如何利用 AI 大模型实现数字化转型。此外,白皮书还提供了关于如何克服实施过程中的障碍和最大化 AI 大模型价值的见解。 对于大模型 API,与大模型对话产品的提示词不同。对于大模型 API,需要利用插件预先获取的网页内容变量、提示词和 API 请求参数,拼搭出完整的 API 提示请求,精确引导 API 返回想要的生成结果。根据 BigModel 官网给出的请求示例,可以看到需要在请求中传递 Model 类型、系统提示词、用户提示词、top_p、temperature 等关键参数。可以构建相应的 API 请求内容,包括设定系统提示词定义基础任务、设定用户提示词提供具体任务数据并要求大模型按 JSON 格式返回生成结果等。如果缺少参数设定的经验,也可以先询问 AI 文本总结类的模型 API 请求,temperature 设定多少合适,再逐步调试效果即可。
2025-02-06
将Agent集成应用到公司网站、网站客服
将 Agent 集成应用到公司网站、网站客服可以按照以下步骤进行: 1. 搭建示例网站 创建应用:点击打开函数计算应用模板,参考相关图示选择直接部署,并填写获取到的百炼应用 ID 以及 APIKEY。其他表单项保持默认,点击页面左下角的创建并部署默认环境,等待项目部署完成(预计耗时 1 分钟)。 访问网站:应用部署完成后,在应用详情的环境信息中找到示例网站的访问域名,点击即可查看,确认示例网站已经部署成功。 2. 为网站增加 AI 助手 增加 AI 助手相关代码:回到应用详情页,在环境详情的最底部找到函数资源,点击函数名称,进入函数详情页。在代码视图中找到 public/index.html 文件,然后取消相关位置的代码注释。最后点击部署代码,等待部署完成。 验证网站上的 AI 助手:重新访问示例网站页面以查看最新效果。此时会发现网站的右下角出现了 AI 助手图标,点击即可唤起 AI 助手。 智能体(Agent)的相关知识: 1. 智能体的应用: 自动驾驶:自动驾驶汽车中的智能体感知周围环境,做出驾驶决策。 家居自动化:智能家居设备(如智能恒温器、智能照明)根据环境和用户行为自动调节。 游戏 AI:游戏中的对手角色(NPC)和智能行为系统。 金融交易:金融市场中的智能交易算法,根据市场数据做出交易决策。 客服聊天机器人:通过自然语言处理与用户互动,提供自动化的客户支持。 机器人:各类机器人(如工业机器人、服务机器人)中集成的智能控制系统。 2. 智能体的设计与实现: 定义目标:明确智能体需要实现的目标或任务。 感知系统:设计传感器系统,采集环境数据。 决策机制:定义智能体的决策算法,根据感知数据和目标做出决策。 行动系统:设计执行器或输出设备,执行智能体的决策。 学习与优化:如果是学习型智能体,设计学习算法,使智能体能够从经验中改进。 一些好的 Agent 构建平台包括: 1. Coze:新一代的一站式 AI Bot 开发平台,适用于构建基于 AI 模型的各类问答 Bot,集成丰富插件工具拓展 Bot 能力边界。 2. Mircosoft 的 Copilot Studio:主要功能包括外挂数据、定义流程、调用 API 和操作,以及将 Copilot 部署到各种渠道。 3. 文心智能体:百度推出的基于文心大模型的智能体(Agent)平台,支持开发者根据自身需求打造大模型时代的产品能力。 4. MindOS 的 Agent 平台:允许用户定义 Agent 的个性、动机、知识,以及访问第三方数据和服务或执行设计良好的工作流。 5. 斑头雁:2B 基于企业知识库构建专属 AI Agent 的平台,适用于客服、营销、销售等多种场景,提供多种成熟模板,功能强大且开箱即用。 6. 钉钉 AI 超级助理:依托于钉钉强大的场景和数据优势,提供更深入的环境感知和记忆功能,在处理高频工作场景如销售、客服、行程安排等方面表现出色。
2025-01-07
有什么好用的AI集成工具
以下是一些好用的 AI 集成工具: 画 CAD 图的工具: CADtools 12:Adobe Illustrator 插件,添加 92 个绘图和编辑工具。 Autodesk Fusion 360:集成 AI 功能的云端 3D CAD/CAM 软件。 nTopology:基于 AI 的设计软件,可创建复杂 CAD 模型。 ParaMatters CogniCAD:基于 AI 的 CAD 软件,能自动生成 3D 模型。 主流 CAD 软件的生成设计工具:如 Autodesk 系列、SolidWorks 等。 辅助写邮件的工具: Grammarly:提供语法检查、拼写纠正等功能,支持多种平台和语言。 Hemingway Editor:简化句子结构,提高可读性。 ProWritingAid:全面的语法和风格检查,提供详细写作报告。 Writesonic:基于 AI 生成各种文本,包括邮件。 Lavender:专注邮件写作优化,提供个性化建议和模板。 帮助建筑设计师审核规划平面图的工具: HDAidMaster:云端工具,在建筑、室内和景观设计领域表现出色。 Maket.ai:在户型和室内软装设计方面有探索。 ARCHITEChTURES:AI 驱动的三维建筑设计软件。 Fast AI 人工智能审图平台:实现全自动智能审图流程和数据汇总管理。 需要注意的是,每个工具都有其特定的应用场景和功能,建议根据具体需求选择合适的工具。同时,以上内容由 AI 大模型生成,请仔细甄别。
2024-12-23
如何将COZE做成智能客服集成到APP中
将 COZE 做成智能客服集成到 APP 中,可参考以下步骤: 1. 访问微信客服 https://kf.weixin.qq.com/,点击开通。 2. 勾选同意,点击下一步。 3. 按步骤填写,勾选同意,注册企业微信。 4. 注册成功后,可能会出现“企业未认证,累计仅可接待 100 位客户,认证后可提升接待上限”的提醒,个人测试无需认证,不影响使用。 5. 完成上述步骤后,开始复制粘贴操作: 点击配置>到微信客服的企业信息,复制企业 ID >到 coze 页面进行粘贴填写企业 ID,并点击下一步。 到微信客服的开发配置,找到回调配置,复制 Token、EncodingAESKey(如果为空,点击“随机获取”),到 coze 页面进行粘贴,点击下一步。 到微信客服的开发配置,配置回调地址 URL、复制 Secret 到 coze 的页面粘贴。 6. 第一次设置回调地址时,需注意目前需要企业认证才可以接入微信客服。若企业未认证,在配置回调 URL 时会报错:回调域名校验失败。之前未认证就发布过微信客服的不受影响。第一次设置成功后,后续修改在相应页面进行。 7. 到微信客服的客服账号,创建一个客服账号,复制客服账号名称,到 coze 的页面粘贴,点击保存。 8. 保存后,在 coze 发布页面的发布平台的微信客服这里,显示“已配置”,剩下的就是勾选,点击发布。
2024-12-09
国内现在有哪些集成了多个种类AI的平台
国内集成了多个种类 AI 的平台有: 1. 腾讯元宝:相对较晚推出,但凭借独特优势在市场上站稳脚跟。其最大亮点是强大的 AI 搜索功能,能访问大量微信生态系统内的私域资源,包括微信公众号的内容和腾讯内部、互联网上的其他优秀资源。还依托腾讯“混元”大语言模型生成高质量内容,是 GPT Search 的良好替代选择,尤其适合需要访问中文内容和微信生态系统信息的用户。 2. 目前有创业公司在模仿国外的模型市场模式,如 HuggingFace,但尚未有接近的成果。 此外,在健身领域有以下 AI 产品: 1. Keep:中国最大的健身平台,提供全面的健身解决方案。 2. Fiture:集硬件、丰富课程内容、明星教练和社区于一体。 3. Fitness AI:利用人工智能进行锻炼,增强力量和速度。 4. Planfit:健身房家庭训练与 AI 健身计划,AI 教练使用 800 多万条文本数据和 ChatGPT 实时提供指导。
2024-09-14
我是一名自媒体创作者,想用AI工具文字生图,图片内容如下:一个穿着发光衣服的美女在室内。请你给我提示词
以下是为您生成的提示词,用于生成一个穿着发光衣服的美女在室内的图片: 人物及主体特征:一位美丽的女性,身着发光的衣服,精致的五官,迷人的微笑,优雅的动作 场景特征:室内环境,装饰精美,有柔和的灯光 环境光照:温暖的灯光,营造出温馨的氛围 画幅视角:适中的距离,展现人物的全貌,正常的人物比例,平视的观察视角 画质:高画质,高分辨率 画风:写实 英文提示词为:, drawing, paintbrush, a beautiful woman wearing shining clothes, in an indoor environment with soft lights, delicate features, charming smile, elegant movement, decorated interior, warm lighting, moderate distance, normal proportion,平视视角, high quality, high resolution, realistic 。 同时,您还可以添加反向提示词来排除不想要的效果,例如:NSFw, 。 对于新手而言,您可以通过以下功能型辅助网站来帮助书写提示词: http://www.atoolbox.net/ ,它可以通过选项卡的方式快速地填写关键词信息。 https://ai.dawnmark.cn/ ,它的每种参数都有缩略图可以参考,可以方便更加直观地选择提示词。 您还可以去 C 站(https://civitai.com/)里面抄作业,每一张图都有详细的参数,点击下面的复制数据按钮,然后直接粘贴到正向提示词栏里,点击生成按钮下的第一个按键,Stable Diffusion 就可以将所有的参数自动匹配。但要注意图像作者使用的大模型和 LORA,不然即使参数一样,生成的图也会截然不同。您也可以只取其中比较好的一些描述词使用,比如人物描写、背景描述、一些小元素或者是画面质感之类的。
2025-03-02
有好用切免费的文字转语音工具吗
以下是一些好用且免费的文字转语音工具: 1. 飞书妙记(https://www.feishu.cn/product/minutes):飞书的办公套件之一。 2. 通义听悟(https://tingwu.aliyun.com/home):阿里推出的 AI 会议转录工具。 3. 讯飞听见(https://www.iflyrec.com/):讯飞旗下智慧办公服务平台。 4. Otter AI(https://otter.ai/):转录采访和会议纪要。 更多会议记录工具请访问网站:https://waytoagi.com/sites/category/29 。 此外,还有一些在线 TTS 工具推荐: 1. Eleven Labs:https://elevenlabs.io/ ,是一款功能强大且多功能的 AI 语音软件,能高保真地呈现人类语调和语调变化,并能根据上下文调整表达方式。 2. Speechify:https://speechify.com/ ,是一款人工智能驱动的文本转语音工具,可作为 Chrome 扩展、Mac 应用程序、iOS 和 Android 应用程序使用,用于收听网页、文档、PDF 和有声读物。 3. Azure AI Speech Studio:https://speech.microsoft.com/portal ,Microsoft Azure Speech Studio 是一套服务,提供了支持 100 多种语言和方言的语音转文本和文本转语音功能,还提供了自定义的语音模型。 4. Voicemaker:https://voicemaker.in/ ,可将文本转换为各种区域语言的语音,并允许创建自定义语音模型,易于使用,适合为视频制作画外音或帮助视障人士。 Hedra 也支持文字转语音,目前有 6 个语音,还可以直接上传音频。Hedra.com 放出了基础模型 Character1 的研究预览版,即日起在 http://hedra.com(桌面和移动)上提供。
2025-03-02
AI抠图工具
以下为关于 AI 抠图工具的相关内容: 可以使用 remove 直接抠图,也可以安装在 PS 里进行操作。图片上传即可抠图,可用于制作一些素材,如叶子飘落、战斗时石头等素材,以辅助制作氛围动画。 对于复杂的图片,如多人多活动的图,可采取以下步骤: 首先将长图分多个模块。 第二步进行智能抠图,用工具把要动的内容去除掉,用 AI 生成图片部分。 第三步将要动起来的部分抠出,放在绿幕背景里或者画的背景颜色,导出图片。 第四步用 AI 视频生成工具写入提示词让图片动起来,如即梦、海螺、混元等工具,不停尝试抽卡。 第五步用剪映把抽卡合格的视频放在去掉内容的背景图片,通过视频的背景用色度抠图调整去掉背景。多个视频放在背景图片,一起动即可。
2025-03-01
AI编程工具推荐
以下是为您推荐的一些 AI 编程工具: 1. GitHub Copilot:由 GitHub 联合 OpenAI 和微软 Azure 团队推出,支持多种语言和 IDE,能为程序员快速提供代码建议,助其更快、更少地编写代码。 2. 通义灵码:阿里巴巴团队推出,基于通义大模型,提供行级/函数级实时续写、自然语言生成代码等多种能力。 3. CodeWhisperer:亚马逊 AWS 团队推出,由机器学习技术驱动,为开发人员实时提供代码建议。 4. CodeGeeX:智谱 AI 推出的开源免费 AI 编程助手,基于 130 亿参数的预训练大模型,可快速生成代码提升开发效率。 5. Cody:代码搜索平台 Sourcegraph 推出,借助强大的代码语义索引和分析能力,了解开发者的整个代码库。 6. CodeFuse:蚂蚁集团支付宝团队为国内开发者提供的免费 AI 代码助手,基于自研的基础大模型微调的代码大模型。 7. Codeium:一个由 AI 驱动的编程助手工具,通过提供代码建议等帮助软件开发人员提高编程效率和准确性。 更多辅助编程 AI 产品,还可以查看这里:https://www.waytoagi.com/category/65 。每个工具的功能和适用场景可能不同,您可以根据自身需求选择最适合的工具。 此外,使用 AI 编程工具(如 Cursor)的关键技能包括:准确描述需求、具备架构能力、专业编程能力和调试能力。关于不同 AI 编程工具的讨论和使用策略,您可以参考以下内容: 对于 Cursor,不同用户态度不一,有人觉得好用离不开,有人担心依赖心理或认为不好用,还有人对 AI 代码生成存在信任问题。作者建议使用 Git 管理代码版本,对 AI 代码进行 Review,任务分解为单一模块,借助 AI 生成测试代码等。 在 v0 与 Claude 的对比方面,Claude 在纯 UI 场景的生成效果往往更好,而 v0 和 Cursor 会因系统提示词和上下文猜测添加大量无关内容。v0 的优势在于傻瓜式操作。建议结合使用,当 Cursor、v0 效果不佳时,可将问题抽象独立出来,切换到 Claude、ChatGPT 或 Gemini 进行处理。
2025-03-01
解决AI 问题的工具
以下是一些解决 AI 问题的工具: Agentic AI:它具有使用工具和多步决策的核心特质。使用工具方面,例如通过调用计算器来解决数学计算不精确的问题,调用互联网搜索工具、公司内部数据库查询工具等改善 AI 能力短板。多步决策方面,如 Agentic Cursor 或 Devin 会根据命令执行结果进行修改与调试,一个回合中可包含多个指令,数量根据工具调用结果动态决定。 Google DeepMind 发布的可视化工具:可用于了解语言模型的内部工作原理,能提取有意义的特征,揭示语言模型内部的激活状态。详细原理解释:https://xiaohu.ai/p/12186 链接:https://x.com/imxiaohu/status/1818825233778061560 Runway 推出的 Gen3 Alpha Turbo 版本:新版视频生成速度比原版快 7 倍,效果相当,即将推出图像到视频模型,并大幅降价,向免费用户开放。链接:https://x.com/imxiaohu/status/1818839942010913182 Google 推出的 Gemma 2 2B 模型:能在手机、笔记本电脑、台式机等边缘设备上运行,在 LMSYS Chatbot Arena 排行榜上超越所有 GPT3.5 模型,甚至超越 Mixtral8x7b,可处理多种文本生成任务,如问答、摘要和推理。详细:https://xiaohu.ai/p/12197 链接:https://x.com/imxiaohu/status/1818882249263398927 MathGPTPro:专门用于解决数学问题的 AI 工具。
2025-03-01
一键生成短视频的免费工具
以下为您介绍一些一键生成短视频的免费工具: 1. 基于其它博主开源的视频生成工作流优化而来的工具,通过表单输入主题观点,可自动创建文案短视频,并将创建完成的视频链接推送至飞书消息。此工具涉及 Coze 平台(工作流、DeepSeek R1、文生图、画板、文生音频、图+音频合成视频、多视频合成)、飞书(消息)、飞书多维表格(字段捷径、自动化流程)。大体路径为:通过 coze 创建智能体及工作流,使用 DeepSeek R1 根据用户观点创建文案和视频,发布 coze 智能体到飞书多维表格,在多维表格中使用字段捷径引用该智能体,并创建自动化流程推送消息给指定飞书用户。 2. MoneyPrinterTurbo:输入主题或关键词可自动生成 1 分钟长的短视频,包含文案、视频片段、字幕、背景音乐。这是一个开源项目,能够简化视频制作过程。相关链接:https://github.com/harry0703/MoneyPrinterTurbo 、https://x.com/imxiaohu/status/1772811303712866713?s=20
2025-03-01