Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

有哪些使用语言模型的最佳实践案例?

Answer

以下是一些使用语言模型的最佳实践案例:

  1. 转换类应用:
    • 大型语言模型擅长将输入转换为不同格式,如语言翻译、拼写和语法矫正、格式转换等。例如,可以输入一段不符合语法规范的文本让其修改,或输入 HTML 输出 JSON。
    • 可以执行翻译任务,模型在多种语言的大量文本上训练,能够掌握数百种语言。
  2. 基础提示词:
    • 提示词包含传递到模型的指令、问题等信息,也可包含上下文、输入或示例等详细信息,以更好地指导模型获得更好结果。
    • 对于 OpenAI 的聊天模型,可使用 system、user 和 assistant 三种角色构建 prompt,通常示例仅使用 user 消息作为 prompt。
    • 提示工程探讨如何设计最佳提示词,如通过改进提示词完善句子输出。
  3. 提示工程:
    • 将复杂任务分解为更简单的子任务,如使用意图分类识别用户查询中的指令,对长对话进行总结或过滤,将长文档分段总结。
    • 给予模型“思考”时间,如让模型在给出最终答案前先进行“思考链”推理,指导其先给出解决方案,使用“内心独白”或系列查询隐藏推理过程,询问是否遗漏信息以确保完整性。
Content generated by AI large model, please carefully verify (powered by aily)

References

6.转换类应用

大型语言模型非常擅长将其输入转换为不同的格式,例如将一种语言中的文本输入并将其转换或翻译成另一种语言,或帮助拼写和语法矫正,因此,您可以输入一段可能不完全符合语法规范的文本,并帮助你稍微修改一下,或者甚至转换格式,例如输入HTML并输出JSON。因此,我以前用一堆正则表达式写的一堆应用程序现在肯定可以更简单地实现,只需要使用一个大型语言模型和几个提示即可。大型语言模型可以使这些转换过程更加简单和高效,为人们提供更好的文本相关应用体验。是的,我现在基本上会使用ChatGPT来校对我所写的每一篇文章,所以现在我很高兴向您展示更多Notebook中的例子。所以首先我们将导入OpenAI并使用相同的getCompletion帮助函数,这是我们在视频中一直在使用的。[heading2]6.1翻译任务[content]接下来我们将执行一个翻译任务。因此,大型语言模型是在很多来源的文本上进行训练的,其中很多是互联网的内容,并且这些文本内容是以许多不同的语言呈现的。这种训练使模型具有进行翻译的能力。这些模型能够以不同程度掌握数百种语言,因此我们将讨论如何使用这种能力的一些示例。让我们从一些简单的例子开始。在第一个例子中,提示是将以下英文文本翻译成西班牙语。Hi,我想订购一个搅拌机。回复是Hola,me gustaría ordenar una licuadora。非常抱歉,对于所有的西班牙语使用者,我从未学过西班牙语,您肯定已经注意到了。好的,让我们再试一个例子。在此例中,提示是告诉我这是什么语言。然后,这是法语,Combien coûte la lampe d’air。让我们运行一下。模型已经确定这是法语。

基本概念

您可以通过简单的提示词(Prompts)获得大量结果,但结果的质量与您提供的信息数量和完善度有关。一个提示词可以包含您传递到模型的_指令_或_问题_等信息,也可以包含其他详细信息,如_上下文_、_输入_或_示例_等。您可以通过这些元素来更好地指导模型,并因此获得更好的结果。看下面一个简单的示例:提示词输出结果如果使用的是OpenAI Playground或者其他任何LLM Playground,则可以提示模型,如以下屏幕截图所示:需要注意的是,当使用OpenAI的gpt-4或者gpt-3.5-turbo等聊天模型时,您可以使用三个不同的角色来构建prompt:system、user和assistant。其中system不是必需的,但有助于设定assistant的整体行为,帮助模型了解用户的需求,并根据这些需求提供相应的响应。上面的示例仅包含一条user消息,您可以使用user消息直接作为prompt。为简单起见,本指南所有示例(除非明确提及)将仅使用user消息来作为gpt-3.5-turbo模型的prompt。上面示例中assistant的消息是模型的响应。您还可以定义assistant消息来传递模型所需行为的示例。您可以在[此处(opens in a new tab)](https://www.promptingguide.ai/models/chatgpt)了解有关使用聊天模型的更多信息。从上面的提示示例中可以看出,语言模型能够基于我们给出的上下文内容`"The sky is"完成续写。而输出的结果可能是出人意料的,或远高于我们的任务要求。但是,我们可以通过改进提示词来获得更好的结果。让我们试着改进以下:提示词输出结果结果是不是要好一些了?本例中,我们告知模型去完善句子,因此输出的结果和我们最初的输入是完全符合的。提示工程(Prompt Engineering)就是探讨如何设计出最佳提示词,用于指导语言模型帮助我们高效完成某项任务。以上示例基本说明了现阶段的大语言模型能够发挥的功能作用。它们可以用于执行各种高级任务,如文本概括、数学推理、代码生成等。

提示工程: 如何与大型语言模型高效沟通【OpenAI官网翻译】

正如软件工程中将复杂系统分解成多个模块一样,将提交给语言模型的任务分解成更小的子任务也是一种良好的实践。复杂任务通常比简单任务更容易出错,而且可以将复杂任务重新定义为一系列简单任务的工作流程,其中每个任务的输出作为下一个任务的输入。策略:使用意图分类识别用户查询中最相关的指令,根据用户意图选择最相关的指令集。对于需要很长对话的应用,总结或过滤之前的对话内容,避免超出模型的上下文窗口大小限制。将长文档分段总结,并递归构建完整摘要,逐步总结长文档的内容。[heading3]4.给予模型“思考”时间[content]就像你需要时间计算17乘以28一样,模型也需要时间进行推理才能得到正确答案。在回答问题之前,给予模型一定的“思考”时间可以减少推理错误。可以让模型在给出最终答案之前先进行“思考链”推理,提高答案的可靠性。策略:指导模型在得出结论之前先尝试给出自己的解决方案,避免受到用户提供的错误解决方案的干扰。使用“内心独白”或一系列查询来隐藏模型的推理过程,避免在某些应用场景中泄露答案。询问模型是否在之前的回答中遗漏了什么,确保信息的完整性。

Others are asking
有没有具体的案例供参考呢?
以下为您提供一些 AI 应用的具体案例供参考: 即梦的智能参考功能: 模特图方面,可实现变装、换发型、换脸、换发色和调整人物姿势等,例如将模特衣服换成婚纱、将图片背景换成橙色等。 产品图方面,能改变产品材质和调整画面背景,比如将沙发材质换成布或毛绒等。 电商海报方面,支持随意更改背景、元素以适应不同营销主题,例如把图片背景改成居家风格。 基础操作包括打开即梦官网 https://jimeng.jianying.com/ ,选择图片生成,然后选择导入参考图并点击智能参考。 原文链接:https://mp.weixin.qq.com/s/sD0RFMqnFZ6Bj9ZcyFuZNA AIGC 落地应用案例推荐: 部分案例取自以下来源:AIGC 交流群工具沉淀.by 向阳、通往 AGI 之路、No.1 关于 AI 的 107 个人,61 个工具和 28 个通讯.by 赛博禅心、Chat GPT Plugins 全面测评.by 捡到一束光、https://www.futurepedia.io/aitools/funtools 等。 周三【workshop】一起写 Prompts 成果展示: 小组 1 中,一个 prompt 主要用于输入主题为老师生成 PPT,使用者为教师(生成)和学生(阅读)。目前的最好解决方案包括提炼教学内容核心概念确定主题、增加提纲、对提纲进行关键词描述、根据关键词书写提纲下的摘要,并让用户确认生成的课件提纲和内容是否需要修改。成熟的案例参考:step 1(根据 PPT 大纲助手 GPTs 生成 PPT 大纲):https://chat.openai.com/g/gOKorMBxxUpptdagangzhushou ;step 2(根据输入文本生成 PPT 内容 GPTs 生成 PPT 内容):https://chat.openai.com/g/gYJs9jxVBHshuruwenbenshengchengpptneirong ;step 3(将生成的内容复制到 Marp Web 渲染简洁的 PPT):https://web.marp.app/
2025-02-28
土木建筑类AI案例
以下是一些能够帮助建筑设计师审核规划平面图的 AI 工具: 1. HDAidMaster:这是一款云端工具,建筑师能在平台上使用主流的 AIGC 功能进行有趣的集卡式方案创作,在建筑、室内和景观设计领域表现出色,平台搭载自主训练的建筑大模型 ArchiMaster,软件 UI 和设计成果颜值在线。 2. Maket.ai:主要面向住宅行业,在户型和室内软装设计方面有 AI 技术探索,设计师输入房间面积需求和土地约束,软件能自动生成户型图并查看详细设计结果。 3. ARCHITEChTURES:AI 驱动的三维建筑设计软件,提供全新设计模式,在住宅设计早期可引入标准和规范约束 AI 生成的设计结果,保证合规性。 4. Fast AI 人工智能审图平台:形成全自动智能审图流程,从住宅设计图构件开始,集自动导入、区域划分、构件识别、强条审查和自动导出结果于一体,为建筑信息自动建模打下基础,实现建筑全寿命周期内信息集成和数据汇总管理。 每个工具都有特定应用场景和功能,建议根据具体需求选择合适的工具。但需注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-02-28
AI 项目企业落地方向和案例。
以下是关于 AI 项目企业落地方向和案例的相关内容: AI 企业落地应用方面,有文章能带你快速搞懂本轮 AI 大模型革命的核心知识信息,从历史到今天,从原理到应用,从产业到趋势,以通俗易懂但不失专业严谨的方式带你走入 AI 的世界。 Anthropic 在 AI Engineer Summit 2025 上分享了企业应用 AI 的最佳实践,并总结了常见错误。核心挑战包括如何入手、如何评估效果、技术选择困惑(如是否需要微调)。关键经验是评估先行,明确“智能度、成本、延迟”之间的平衡,避免过早微调,先进行基础优化。案例方面,Intercom 通过评估优化 AI Agent Fin,使其处理 86%的客服请求,其中 51%无需人工介入。相关链接: 此外,还有用飞书+DeepSeek R1 搭建自动化 AI 工作流的相关内容。流程包括 URL 内容抓取➝DeepSeek R1 翻译➝自动改写➝生成文章。飞书提供快速启动模板,支持翻译、OCR 等任务。工作流链接: 。 宝玉 Q&A 中提到处理大规模代码,可使用 XML 包裹,超大代码可上传 GitHub 供 AI 分析,AI 还可生成代码并搜索相关库。查看内容: 。ChatGPT 免费用户可使用 GPT4o mini 语音版,免费用户可体验自然对话节奏,Plus/Pro 用户享特权。
2025-02-27
AI介入设计的相关案例
以下是大淘宝设计部 2023 年度 AI 设计实践的相关案例: 1. 在工作流方面: 主要工具为 Midjourney 和 Stabel Diffusion,辅助工具有 RUNWAY 和 PS beta 等。 在营销设计中,AI 设计使整体项目设计时间大约减少 18%左右,其中在创意阶段丰富性提升 150%左右、时间节省 60%左右。 创意多样,项目中不同创意概念的提出数量增加了 150%。 执行加速,设计师在创意生成阶段的时间缩短了平均 60%。 整体提效,从创意发散到落地执行品效都有显著提升。 2. 具体应用场景案例: 大促营销:通过 AI 生成图像或素材,再结合平面合成及修正,确保符合品牌形象,更精准表达营销活动主题,如淘宝天猫大促视觉、双 11 大促横向会场版头模板化应用、天猫小黑盒新品联名等。 AI 布景:对于定制化真人模特实景素材的主题活动,通过 AI 完成页面所有素材的生产和输出,如七夕主题活动页面、超级品类日传播拍摄创意等。 产品营销视觉:在 UI 设计场景中,采用 AI 能力快速定制多种用户需要的视觉效果,如 88VIPAI 定制皮肤。 品牌超级符号映射:根据品牌符号的模型训练和结构控制,用户输入丰富关键词即可快速完成准确的超级符号主视觉,如双 11AI 创作赢红包、双 11 联合传播猫头海报&花车大巡游、超级品类日品牌符号系列海报等。 品牌 IP 形象 AI 生成:训练特定的天猫/淘宝/营销 IP 公仔模型,稳定输出定制化 IP 形象,如天猫 AI 玩行动品牌联合海报、天猫双 11出游主题喵卡、淘宝天猫一起冲亚、天猫 U 先公仔三视图生成及应用等。 传播&投放:如双 11 超级发布品牌联合海报、媒介投放开屏海报。
2025-02-26
model endpoint ID是什么东西?请用文字、数据、案例、比喻等形式进行教学
很抱歉,目前没有关于“model endpoint ID”的相关内容。但一般来说,“model endpoint ID”可以理解为模型服务端点的标识符。 打个比方,就像每个房间都有一个独特的门牌号,“model endpoint ID”就是模型服务这个“房间”的门牌号,通过它可以准确地找到和调用特定的模型服务。 在实际的数据处理中,它可能类似于一个唯一的编码,比如“MEID12345”,用于区分不同的模型服务端点,以便系统能够准确地将请求路由到对应的模型服务进行处理。 希望这样的解释能对您有所帮助,如果您还有其他疑问,请随时向我提问。
2025-02-26
TPM 限制是什么意思?请用文字、数据、案例、比喻等形式进行教学
TPM 限制指的是每分钟处理的事务数(Transactions Per Minute)的限制。 以字节火山引擎为例,它默认提供了高达 500 万 TPM 的初始限流。这对于像一次工作流测试就消耗 3000 多万 tokens 的用户来说,限流的设置具有重要意义。 打个比喻,TPM 限制就好像是一条道路上设置的通行车辆数量限制,如果超过这个限制,就可能导致交通拥堵或者无法正常通行。在 AI 领域,超过 TPM 限制可能会影响服务的性能和稳定性。 比如,当有大量的请求同时发送到系统,如果没有 TPM 限制,可能会导致系统响应变慢甚至崩溃;而有了合理的 TPM 限制,就能保证系统有序地处理请求,为用户提供稳定可靠的服务。
2025-02-26
如何建立一个行业的知识库,并建立这个行业的专属AI模型?
建立一个行业的知识库并建立专属 AI 模型可以参考以下步骤: 1. 明确行业需求和目标:确定知识库和 AI 模型要解决的具体问题和实现的功能。 2. 收集和整理数据:包括行业相关的各种信息、文档、案例等,为知识库提供素材。 3. 设计提示词:明确 AI 模型的角色和专注的技能,使其能够按照设定进行工作。 4. 构建知识库:将行业特定的规则、流程、案例等内容整理成工作手册,供 AI 模型参考。 5. 选择合适的 AI 模型:例如可以使用阿里千问模型等。 6. 进行模型训练和优化:根据收集的数据和设定的提示词、知识库对模型进行训练,并不断优化。 7. 融合实际场景:让人类专家配备可穿戴设备,收集现实世界的互动供 AI 学习,避免复制危险的偏见。 8. 持续评估和改进:根据实际应用效果,对知识库和 AI 模型进行评估和改进。 例如,在医疗保健领域,开发具有潜在空间层次结构的堆叠 AI 模型,反映对每个基本元素的理解或预测能力。创建专门从事医疗保健特定领域的 AI,让其接触到顶级从业人员的多样化视角。在财经领域,依托中央财经大学的资源优势,基于内容增强型知识插槽技术构建高质量知识库,与客户自有知识库结合,实现全业务场景的支撑,可实现快速的专家级 Agent 构建与管理维护。在文档处理领域,如上海普米智图智能科技有限公司,自主研发的数据框架 Ananke 和 Agent 框架 Moros,利用智能体技术提升工作流效率。
2025-03-01
模型蒸馏
模型蒸馏是指教师模型将知识蒸馏给学生模型,有多种蒸馏方式。其应用场景广泛,例如在车机等算力有限的场景中,能让小模型在特定领域取得良好效果,还能实现低成本高速推理和修复模型幻觉。 在实际操作中,PaaS 平台支持多机分布式部署,满足推理性能要求,能一站式完成模型蒸馏。例如在阿里云 PAI 平台上进行模型蒸馏微调时,由于上一步中蒸馏的数据集很小,不足以改变模型权重,因此可以使用别人做好的数据集。在使用前可以打开查看里面的结构,和蒸馏出来的数据结构是否一致。然后下载并解压数据集,在 PAI 平台的数据集中找到 OSS 存储,建立数据集并上传。接着选择模型进行部署训练,如选择 7binstruct 的原生模型,选择训练,注意超参配置。训练完成后可以测试模型效果,在 model gallery 里面找到训练好的模型进行部署和调试。 此外,ComfyUI 原生支持 FLUX.1,FLUX.1 有三个变体:FLUX.1是一个蒸馏的 4 步模型,拥有 Apache 2.0 商用许可,适用于在本地进行部署或者个人使用。相关模型的链接、模型与工作流地址以及说明文档均可获取。 在云端部署操作方面,登录 Pad 控制台,通过 model gallery 进行部署,如 Deepseek R1 模型,可选择 SG 浪或 Vim 推理框架,根据资源出价,部署后可在模型在线服务 EAS 查看状态。模型试用可以使用 postman,通过修改接口和复制文档中的内容进行在线调试,发送请求查看状态码,根据模型名称和相关要求输入内容进行试用。同时要注意模型 API 的调用方法,包括查找位置、获取 token 等,使用后要及时停止或删除服务以避免持续付费。
2025-02-28
deepseek 的提示词应该怎么写?和以往的大语言模型的提示词有什么不同?
DeepSeek 的提示词具有以下特点: 1. 语气上还原帝王语气,不过分用力,使用相对古典但兼顾可读性的文字,避免傻气的表达。 2. 对历史细节熟悉,这可能与支持“深度探索”和“联网搜索”同时开启有关,能准确还原如“太极宫”“甘露殿”“掖庭局”“观音婢”“宫门鱼符”等唐初的历史称谓。 3. 输出极其具体且充满惊人细节,行文的隐喻拿捏到位,如“狼毫蘸墨时发现指尖残留着未洗净的血痂”“史官们此刻定在掖庭局争吵。该用‘诛’还是‘戮’,‘迫’还是‘承’。‘只是这次,他不敢触碰我甲胄上元吉的掌印’”等句子,虽未直接写“愧疚与野心,挣扎与抱负”,但句句体现。 与以往大语言模型的提示词的不同在于:以往模型可能在语气、历史细节和具体细节的处理上不如 DeepSeek 出色。
2025-02-28
利用大模型构建系统的工具
以下是关于利用大模型构建系统的工具的相关内容: 大模型的发展历程: 2017 年发布的 Attention Is All You Need 论文是起源。 2018 年,Google 提出 BERT,其创新性地采用双向预训练并行获取上下文语义信息和掩码语言建模,开创了预训练语言表示范式,参数规模为 110M 到 340M。 2018 年,OpenAI 提出 GPT,开创了仅使用自回归语言建模作为预训练目标而无需额外监督信号,展示了强大的语言生成能力,参数规模达 1750 亿。 2021 年,Meta 提出 Large LAnguage Model Approach(LLAMA),这是首个开源模型,为构建更大规模、更通用的语言模型提供了系统化的方法与工具,参数规模为十亿到千亿。 Inhai:Agentic Workflow:AI 重塑了我的工作流: 以 Kimi Chat 为例,它利用「网页搜索」工具在互联网上检索相关内容,并基于检索结果进行总结分析,给出结论。同时,PPT 中介绍了众多不同领域类型的工具,为大模型在获取、处理、呈现信息上做额外补充。 Planning:Agent 通过自行规划任务执行的工作流路径,面向简单或线性流程的运行。例如,先识别男孩姿势,再使用相关模型合成女孩图像,接着使用图像理解文本模型,最后语音合成输出。 Multiagent Collaboration:吴恩达通过开源项目 ChatDev 举例,可让大语言模型扮演不同角色相互协作,共同开发应用或复杂程序。 AI Agent 基本框架:OpenAI 的研究主管 Lilian Weng 提出“Agent=LLM+规划+记忆+工具使用”的基础架构,其中大模型 LLM 扮演 Agent 的“大脑”。规划包括子目标分解、反思与改进,将大型任务分解为较小可管理的子目标处理复杂的任务,反思和改进指对过去行动进行自我批评和自我反思,从错误中学习并改进未来步骤,提高最终结果质量。记忆用于存储信息。 开发:LangChain 应用开发指南 大模型的知识外挂 RAG: LangChain 是专注于大模型应用开发的平台,提供一系列组件和工具构建 RAG 应用: 数据加载器:从数据源加载数据并转换为文档对象,包含 page_content 和 metadata 属性。 文本分割器:将文档对象分割成多个较小的文档对象,方便后续检索和生成。 文本嵌入器:将文本转换为嵌入,用于衡量文本相似度实现检索。 向量存储器:存储和查询嵌入,通常使用索引技术加速检索。 检索器:根据文本查询返回相关文档对象,常见实现是向量存储器检索器。 聊天模型:基于大模型生成输出消息。 使用 LangChain 构建 RAG 应用的一般流程如下:(具体流程未给出)
2025-02-28
AI大模型本地化部署的逻辑是什么?输入的数据不会外泄吗?
AI 大模型本地化部署的逻辑主要包括以下步骤: 1. 选择合适的部署方式,如本地环境部署、云计算平台部署、分布式部署、模型压缩和量化、公共云服务商部署等,要根据自身的资源、安全和性能需求来决定。 2. 准备训练所需的数据和计算资源,确保有足够的训练数据覆盖目标应用场景,并准备足够的计算资源,如 GPU 服务器或云计算资源。 3. 选择合适的预训练模型作为基础,可以使用开源的预训练模型如 BERT、GPT 等,也可以自行训练一个基础模型。 4. 针对目标任务进行模型微调训练,根据具体应用场景对预训练模型进行微调训练,并优化模型结构和训练过程以提高性能。 5. 部署和调试模型,将训练好的模型部署到生产环境,并对部署的模型进行在线调试和性能优化。 6. 注意安全性和隐私保护,大模型涉及大量数据和隐私信息,需要重视安全性和合规性。 关于输入数据是否会外泄,这取决于本地化部署的安全性措施和配置。如果采取了严格的安全措施,如数据加密、访问控制、网络隔离等,输入的数据外泄的风险可以大大降低。但如果安全措施不到位,就存在数据外泄的可能。例如,赞成把一个训练好就不动的模型部署在端侧(如手机或家庭计算中心),记录所有知识和记忆的相关数据就不会跑到云端,能更好地保障数据安全。
2025-02-28
大模型研究 报告
以下是为您提供的关于大模型研究的相关信息: 1. 1 月 25 日的 XiaoHu.AI 日报中提到: 有 26 种多模态大模型研究报告,全面分析了市面上的 26 种多模态大语言模型,涵盖模型架构、训练流程设计,每种模型具有独特设计和功能。相关链接:https://arxiv.org/abs/2401.13601 、https://x.com/xiaohuggg/status/1750400886676070495?s=20 研究了使用红外线激光攻击自动驾驶车辆,针对摄像头系统尤其是识别道路标志的部分,攻击成功率高达 100%。相关链接:https://x.com/xiaohuggg/status/1750391646121017610?s=20 ChatGPT 新增小功能,包括自动展开代码输出、批量移动对话历史记录到存档,设置路径为设置>General。相关链接:https://x.com/xiaohuggg/status/1750367771446345834?s=20 哈佛大学 CS50x 2024 课程是计算机科学和编程入门课程,面向各类学生,重点包括问题解决、计算思维、编程语言等,讲师为 David J.Malan,可通过 edX 平台注册和完成课程。相关链接:https://cs50.harvard.edu/x/2024/ 、https://x.com/xiaohuggg/status/1750331575081026039?s=20 Poe 聊天机器人推广活动,创建并分享聊天机器人,每带来一个订阅者奖励 50 美金。相关链接:https://x.com/xiaohuggg/status/1750173470946988230?s=20 Lumiere 视频生成技术是 Google Research 开发的文本到视频模型,具有创新的空间时间 UNet 架构,能一次性生成完整视频,确保连贯和逼真,支持多种视频生成和编辑功能。相关链接:https://lumierevideo.github.io 、https://x.com/xiaohuggg/status/175014 2. 《质朴发言:视觉语言理解模型的当前技术边界与未来应用想象|Z 研究第 2 期》中指出: 近期生成式 AI 领域的浪潮催化了多模态模型的探索,研究人员不断尝试使用更多模态数据的编码,以训练出能够理解和处理多种类型数据的模型。 本份研究报告集中讨论了基于 Transformer 架构的视觉语言模型,优化了从视觉输入到语言输出的转换过程。报告范围专注于视觉和语言之间的交互,不考虑单纯的视觉到视觉的计算机视觉任务。 报告包括视觉分析技术(Transformer 视觉模型优点和局限)、图像语言模型、视频语言模型、LLM 多模态 Agent、应用场景(多模态内容理解与处理、智能交互与自动化、具身智能、未来发展趋势(2024?)、视频生成模型 mapping)、未来发展方向(技术路径而言:利用预训练 LLMs 进行指令调整;应用场景而言:赋予机器理解多模态的能力)、References、附录等内容。原文链接:https://mp.weixin.qq.com/s/dYLqW8dNOcQw59UtQwXNgA
2025-02-28
实现基于个人聊天记录的数字分身的最佳实践
实现基于个人聊天记录的数字分身的最佳实践包括以下方面: 虚拟数字人的类型和驱动方式: 虚拟数字人通过各种技术创造,具有外观、行为和思想等人类特征,呈现为虚拟形象。 从驱动层面可分为中之人驱动和 AI 驱动两类。中之人驱动运用动作捕捉和面部捕捉技术实现交互,有上限且缺乏高并发和量产化能力;AI 驱动使用 AI 技术创建、驱动和生成内容,赋予感知和表达等交互能力。 虚拟数字人的应用类型: 服务型:如虚拟主播、助手、教师、客服和医生等,为物理世界提供服务。 表演型:如虚拟偶像,用于娱乐、影视等场景。 身份型:是物理世界“真人”进入虚拟世界的数字分身,在元宇宙中有广泛应用场景。 相关开源项目: 熊猫大侠基于 COW 框架的 ChatBot 最新版本支持多端部署、基础对话、语音识别、图片生成、丰富插件、Tool 工具和知识库等功能。可接入个人微信、微信公众号、企业微信应用,支持多种模型和个性化插件扩展,通过上传知识库文件自定义专属机器人,可作为数字分身、领域知识库、智能客服使用。项目地址包括 Github:https://github.com/zhayujie/chatgptonwechat ,Gitee:https://gitee.com/zhayujie/chatgptonwechat 。
2025-02-20
音效AI生成 最佳方案
以下是关于音效 AI 生成的一些信息和最佳方案: 音效是 AI 的一个具有吸引力的开放领域。目前已有学术论文探讨使用 AI 在电影中生成“现场效果音”,但在游戏中的商业产品尚属稀少。 在游戏中,为玩家角色生成脚步声音时,传统方法使用少量预先录制的声音,存在繁琐、重复和不真实的问题。更好的方式是使用实时的生成性 AI 模型来制作现场效果音,它能根据游戏参数实时生成略有不同且合适的音效。 在音乐方面,AI 生成音乐存在基于乐理规则的符号生成模型和基于音频数据的音频生成模型两种主流技术路线。开发者正在使用 AI 生成音乐来填充游戏过程与游戏 UI 中需要的各类音效、不同游戏场景中用以渲染氛围的各种音乐。像 MusicLM 等模型已支持生成多音轨作品,使用 AI 生成音乐为原型并佐以专业制作人的协调,可使其更快进入游戏制作与发行的生产线。 在实际应用中,如《新哪吒闹海》的配音一开始打算用 AI 但因情绪不够丰满而选择专业声音表演者,音效需求简单时可采用剪映中的音效资源库。同时,为您分享三个音效资源站: 1. https://www.lookae.com/sucai/sfx/ ,大部分免费且分好类的音效包可供下载。 2. https://www.epidemicsound.com/ ,专业的音效站点,Gen48 合作站。 3. https://sc.chinaz.com/yinxiao/ ,适合搜索单个音效下载的站点。
2025-02-08
用Ai进行财务分析的最佳实践
以下是关于用 AI 进行财务分析的最佳实践: 1. 更动态的预测和报告: 生成式 AI 能帮助金融服务团队改进内部流程,简化财务团队日常工作。 可从更多数据源获取数据,并自动化突出趋势、生成预测和报告的过程。 预测方面,能帮助编写公式和查询,发现模式,为预测建议输入并适应模型。 报告方面,能自动创建文本、图表等内容,并根据不同示例调整报告。 会计和税务方面,能帮助综合、总结并提出可能答案。 采购和应付账款方面,能帮助自动生成和调整合同、订单、发票及提醒。 2. 局限性与挑战: 生成式 AI 输出当前有局限性,在需要判断或精确答案的领域,常需人工审查。 面临的挑战包括使用金融数据训练 LLM,新进入者可能先使用公开金融数据微调模型,现有参与者可利用专有数据,但可能过于保守,新进入者有竞争优势。 模型输出准确性至关重要,金融问题答案需尽可能准确,初期人类常作为最终验证环节。 总之,生成式 AI 为金融服务带来巨大变革,有潜力催生多种优势,但也面临挑战,未来消费者将是最终赢家。
2025-02-08
用Ai进行数据分析的最佳实践
以下是关于用 AI 进行数据分析的最佳实践: 流程: 逻辑流程图如下:SQL 分析中,用户描述想分析的内容,后台连接 DB,附带表结构信息让 AI 输出 SQL 语句,校验是 SELECT 类型的 SQL 后执行,将结果数据传给 GPT(附带上下文),让其学习并分析数据,最后输出分析结论和建议,与结果数据一起返回给前端页面渲染图表、展示分析结论。个性化分析中,用户上传文件,前端解析后传给 GPT 分析数据,后续步骤与 SQL 分析一致。 个性化分析示例: 上传的数据均为假数据,包括游戏 A 流水数据、游戏产品数据、页面事件统计和用户行为数据等。包括单维度数据、多维度数据(折线图、柱状图)。有时 AI 会误将数据项作为维度分析,可输入提示告诉它用哪个字段作为维度,也可描述其他数据信息使分析更准确。 总结和展望: ChatGPT 在数据分析领域应用前景广泛,本文案例与技巧展示了其在提高效率、降低技能门槛和支持决策等方面的优势。但案例分析结果可能简单,接入业务时可定制多种分析模板,增加分析多样性。实际业务中处理大量数据时,除长类型字段限制,要指定允许查询或解析的字段,对结果数据进行两次校验。随着技术进步,相信其将为数据分析带来更多创新和突破。 问题与技巧: SQL 分析: 反复校验是否为 SELECT SQL 语句,不仅因 AI 不完全可控,还因不能相信用户输入,防止恶意操作。 到 AI 分析步骤拼接上下文,提供表结构信息和 SQL 语句,助 GPT 更好理解数据和字段意义,使分析更准确。 针对表结构长类型字段,不允许直接查询,最好告诉 GPT 允许查询的字段或 SQL 函数,使生成可控。 个性化分析: 用户上传数据解析后判断格式是否符合要求,超长可限制截取前面若干项。 前端解析用户上传数据后可直接用于渲染数据图表,无需后端返回。 支持用户补充输入,描述数据、字段意义或作用辅助 AI 分析。遇到多维度数据,GPT 可能误将其他字段作为维度分析,可输入特定提示帮助分析。
2025-02-08
TTS的最佳解决方案
以下是关于 TTS 的一些最佳解决方案: 在线 TTS 工具推荐: Eleven Labs:https://elevenlabs.io/ ,是一款功能强大且多功能的 AI 语音软件,能高保真地呈现人类语调和语调变化,并能根据上下文调整表达方式。 Speechify:https://speechify.com/ ,是一款人工智能驱动的文本转语音工具,可作为多种平台的应用使用,用于收听网页、文档、PDF 和有声读物。 Azure AI Speech Studio:https://speech.microsoft.com/portal ,提供了支持 100 多种语言和方言的语音转文本和文本转语音功能,还提供了自定义的语音模型。 Voicemaker:https://voicemaker.in/ ,可将文本转换为各种区域语言的语音,并允许创建自定义语音模型。 TTS 音库制作和文本前端: 录音文本收集:在一个语种的语音合成建设之初,可同步收集该语种对应的大文本。录音文本的选择一般遵循以下原则: 音素覆盖:构建基础的文本前端,确保录音文本的音素或音素组合尽可能覆盖全。 场景定制:根据通用或特定场景需求,确保相关内容有所覆盖,并与需求方紧密沟通。 文本正确性:确保录音文本拼写无误,内容正确。 照片数字人工作流及语音合成(TTS)API 出门问问 Mobvoi: 接口请求域名:https://open.mobvoi.com/api/tts/v1 。 接口请求频率限制:5 次/秒。 可以将任意文本转化为语音,应用场景广泛,提供多种方言、发音人和风格,实时合成支持 SSML。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-02-07
企业管理咨询顾问应用AI辅助工作的最佳实践
以下是企业管理咨询顾问应用 AI 辅助工作的一些最佳实践: 对于企业管理者: 1. AI 辅助决策:在小规模决策中运用 AI 分析工具,如利用其分析客户反馈或市场趋势数据,以此作为决策参考。 2. 员工培训计划:制定 AI 工具使用的培训计划,助力团队成员在日常工作中有效利用 AI。 3. 流程优化:识别公司内可能受益于 AI 自动化的重复性任务,先从一个小流程开始测试 AI 解决方案的效果。 4. AI 伦理和政策:着手制定公司的 AI 使用政策,确保 AI 的应用符合伦理标准和法律要求。 对于商业顾问: 1. 工具服务小型企业:生成式 AI 对于小型企业是一个重要的应用场景,如 Sameday 可接电话并预约,Truelark 能处理短信、电子邮件和聊天等。 2. 特定类型企业的垂直化工具:出现了为特定类型企业工作流定制的工具,如 Harvey 和 Spellbook 帮助法律团队自动化任务,Interior AI 和 Zuma 在房地产行业发挥作用。 无论您属于哪个群体,与 AI 协作是一个学习过程。应从小处着手,保持好奇心和开放态度,将 AI 视为强大的工具而非完全依赖的解决方案。同时,始终保持批判性思维,您会发现 AI 不仅能提高工作效率,还能激发创造力,开拓新的可能性。
2025-02-06
我想从实践中学习coze,应该如何开始?
以下是从实践中学习 Coze 的一些建议和步骤: 1. 利用 Cursor+Coze 工作流打造网页内容提取插件: 开发时要具备架构思维,懂得向 AI 描述需求。 获取授权令牌(Token),掌握工作流调用方法。 查看 coze 的 api 开发文档,获取工作流的开发文档、个人令牌和工作流 id。 让 Cursor 根据相关内容写调用 coze 工作流的服务,注意声明入参和中文编码。 完成后用 chrome 加载做好的插件,并优化界面。 2. 用 Claude+Coze 学习 RAG: 通过 Claude 了解细节概念,再通过 Coze 搭建 Demo,在动手实践中学习。 在学习过程中创建相关 Bot,如产品资料问答机器人、Query 改写助手学习 Bot 等。 3. 分步构建和测试 Agent 功能: 进入 Coze,点击「个人空间工作流创建工作流」,自定义工作流信息。 左侧「选择节点」模块中,根据子任务需要选择插件、大模型、代码等节点。 按照流程图在编辑面板中拖入对应的节点完成工作流框架搭建。
2025-02-28
有哪些在企业内部落地应用AI大模型工具的实践案例?不要营销文案生成、代码开发助手、智能客服问答机器人这种太常见的
以下是一些在企业内部落地应用 AI 大模型工具的实践案例: 1. 阿里云百炼: 智能体应用:能够弥补大模型的不足,如回答私有领域问题、获取实时信息、回答专业问题等。适用于有企业官网、钉钉、微信等渠道,期望为客户提供产品咨询服务,以及缺少技术人员开发大模型问答应用的场景。典型场景包括私有领域知识问答、个性化聊天机器人、智能助手等。 内部业务助手:通过企业内部规章制度、部门结构、产品介绍等文档构建知识库,并借助 RAG 智能体实现内部知识问答功能。系统支持多源异构数据,并通过复杂文档解析和视觉增强技术,提升文档理解的准确性与深度。目前该功能已灰度上线,需提供 UID 并通过白名单进行开启。 2. 达摩院: AI 模特(虚拟换装):支持虚拟换装、姿态编辑。 3. 电商零售: 推广文案写作:通过内置的多样化营销场景的文体模板,基于用户输入的创作主题以及参考素材,大模型即可为您生成对应的营销文案,为营销活动和宣传文案提供灵感和文案写作支持。 4. 泛企业: VOC 挖掘:是一个面向各类企业的 VOC 标签挖掘的工具。不论是用户的长短评论、帖子、还是用户和客服/销售的聊天记录、通话记录,都可以使用。通过选中或自定义标签,即可让大模型针对海量非结构化的 VOC 数据快速打标。相比于人工打标或规则打标准确率更高;对于业务标签变动频繁的情况,也能更敏捷、快速地影响。 5. 通义晓蜜:基于深度调优的对话大模型,为营销服类产品提供智能化升级所需的生成式摘要总结、质检、分析等能力应用。
2025-02-18
coze的deepseek实践
以下是关于 coze 的 deepseek 实践的相关信息: 一个提示词让 DeepSeek 的能力更上一层楼: 效果对比:用 Coze 做了小测试,可对比查看相关视频。 如何使用:搜索 www.deepseek.com 点击“开始对话”,将装有提示词的代码发给 Deepseek,认真阅读开场白后正式开始对话。 设计思路:将 Agent 封装成 Prompt 并储存在文件,通过提示词文件让 DeepSeek 实现同时使用联网和深度思考功能,在模型默认能力基础上优化输出质量,设计阈值系统,用 XML 进行规范设定。 完整提示词:v 1.3 特别鸣谢:李继刚的【思考的七把武器】提供思考方向,Thinking Claude 是设计灵感来源,Claude 3.5 Sonnet 是得力助手。 字节火山上线了 DeepSeek 系列模型并更改了模型服务价格: 2 月 14 日 8 点有直播,直播结束可看回放,相关学习文档可查看。 重点更新:上线 DeepSeek 系列模型,DeepSeekR1、V3 模型分别提供 50 万免费额度和 API 半价活动,即日起至 2025 年 2 月 18 日 23:59:59 所有用户均可享受价格优惠。 2024 年 7 月 18 日历史更新(归档): 《长文深度解析 Coze 的多 Agent 模式的实现机制》:艾木老师深入研究了 Coze 的多 Agent 模式机制,分析了三种节点跳转模式及应用场景和不足。 《揭秘 DeepSeek: 一个更极致的中国技术理想主义故事》:DeepSeek 以独特技术创新崭露头角,发布颠覆性价格的源模型 DeepSeek V2,创始人梁文锋是技术理想主义者。 《10 万卡集群:通往 AGI 的新门票》:分析了 10 万 GPU 集群建设的相关问题,指出数据中心设计和网络拓扑结构对大型 AI 训练集的重要性。
2025-02-16
ai实践的内容
以下是关于 AI 实践的相关内容: 社区 AI 讲师招募 招募要求: 具有丰富的企业端 AI 实践经验,涵盖以下场景之一或多个: AI 生成爆款内容,如借助 AI 分析挖掘同品类爆款,利用 AI 工具生成电商商品图、小红书图文内容、种草短视频等。 公域阵地场景,基于视频号、抖音、小红书、公众号等平台搭建企业营销推广能力,包括矩阵号和 IP 号,通过短视频、直播等方式获取 leads,涉及矩阵号工具、内容抓取分析、脚本创作、AI 剪辑、自动回复评论、无人直播工具等。 私域阵地场景,如朋友圈、小红书、社群、个人 IP 的获客转化,使用销售企微 SCRM 工具、企业智能体进行 AI 内容抓取和自动回复。 服务自动化工具,包括数据监控和预警、流程优化、自动运营等。 快速搭建数据分析看板。 跨境电商场景,如 tiktok 视频制作及投放、电商图片设计、精准营销、语言翻译、AI 独立站建设、社媒私域、批量混剪、海外达人直播、无人直播(数字人直播)等。 具备良好的表达能力,能清晰阐述技术和业务方面的沉淀。 招募流程:感兴趣的小伙伴提交个人简历(包括基本信息介绍、学历、专业、工作经验,以及 AI 企业端的案例),填写问卷,预约电话面谈,面谈通过后进行公开课试讲。 陈财猫:如何用 AI 写出比人更好的文字? AI+内容创作是现阶段的优质赛道,具有完美的产品模型匹配和产品市场匹配,且发展上限高。 AI 写作的实践成果包括营销、小说和短剧创作,开发了智能营销矩阵平台,参与喜马拉雅短故事和短剧写作课程,推出小财鼠程序版 agent。 好文字能引发人的生理共鸣与情绪,AI 因预训练数据量大能学会引发共鸣从而写出好文字。 用 AI 写出好文字的方法:选择合适的模型,评估模型的文风、语言能力、是否有过度道德说教与正面描述趋势、in context learning 能力和遵循复杂指令的能力;克服平庸,平衡“控制”与“松绑”;显式归纳想要的文本特征,通过 prompt 中的描述与词语映射到预训练数据中的特定类型文本,往 prompt 里塞例子。 对 AI 创作的看法:AI 创作的内容有灵魂,只要读者有灵魂,文本就有灵魂;有人讨厌 AI 是因其未改变多数人生活或自身是受害者,作者期望 AI 能力进一步提升以改变每个人的生活。 熊猫 Jay:用 AI+思维模型探索问题的全新解答 案例实践:利用 AI+六顶思考帽做个人 IP 定位。 推荐使用 GPT4,效果更稳定,内容质量更高。包括初始化提示词、回答每顶帽子对应的问题,最终得到答案和建议。 文心 4.0 同样包括初始化提示词、回答每顶帽子对应的问题,并得到答案和建议。 小结:该案例借助六顶思考帽提供不同思考维度,引导全面思考问题。当把思考后的信息输入给 AI 后,能总结出满意的答案和建议。开头提到人的惰性问题,借助 AI 可以更全面剖析个人决策或团队会议中的问题,找到更正确的决策方式。之后,大家可用六顶思考帽+AI 解决困扰自己的问题,无论是个人决策还是团队讨论。
2025-02-13