Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

最新的 RAG 进展和业界实践

Answer

以下是关于最新的 RAG 进展和业界实践的详细介绍:

RAG 是检索增强生成(Retrieval Augmented Generation)的简称,是当前最火热的企业级 LLM 应用方案。概括来说,它是知识检索与内容生成的结合,就像大模型的开卷考试,谁的资料更全、翻找更快更准,结果往往更好。

Lewis 等人(2021)提出了一个通用的 RAG 微调方法,使用预训练的 seq2seq 作为参数记忆,用维基百科的密集向量索引作为非参数记忆,并通过神经网络预训练的检索器访问。RAG 在 Natural Questions、WebQuestions 和 CuratedTrec 等基准测试中表现出色,用 MS-MARCO 和 Jeopardy 问题进行测试时,生成的答案更符合事实、更具体、更多样,FEVER 事实验证使用 RAG 后也得到了更好的结果,这表明 RAG 是一种可行的方案,能在知识密集型任务中增强语言模型的输出。

目前,大部分公司倾向于使用 RAG 方法进行信息检索,因为相比长文本的使用成本,使用向量数据库的成本更低。在 RAG 应用中,一些公司会使用微调的 Embedding Model 增强检索能力,也有些公司会选择使用知识图谱或者 ES 等非向量数据库的 RAG 方法。一个正常的模型使用 RAG 仍是当前主流。由于大语言模型存在信息滞后和不包含业务知识的特点,常需外挂知识库协助解决问题,此时 Embedding 模型的召回效果直接影响大模型的回答效果,所以很多场景下需要微调 Embedding 模型提高召回效果。

最近,基于检索器的方法越来越流行,常与 ChatGPT 等流行 LLM 结合使用来提高其能力和事实一致性。例如,在 LangChain 文档中可以找到一个使用检索器和 LLM 回答问题并给出知识来源的简单例子。

此外,来自马里兰大学、劳伦斯利弗莫尔国家实验室、纽约大学的研究学者提出了一个大模型微调的方法,在微调时只需要在 Embedding 层上加随机噪声即可大幅度提升微调模型的对话能力,且不会削弱模型的推理能力。用 Alpaca 微调 LLaMA-2-7B 可以在 AlpacaEval 上取得一定表现,而用加了噪声的嵌入则表现更佳,不过该工作只在较小的模型上进行微调。

Content generated by AI large model, please carefully verify (powered by aily)

References

检索增强生成 (RAG)

Lewis等人(2021)提出一个通用的RAG微调方法。这种方法使用预训练的seq2seq作为参数记忆,用维基百科的密集向量索引作为非参数记忆(使通过神经网络预训练的检索器访问)。这种方法工作原理概况如下:图片援引自:[Lewis et el.(2021)(opens in a new tab)](https://arxiv.org/pdf/2005.11401.pdf)RAG在[Natural Questions(opens in a new tab)](https://ai.google.com/research/NaturalQuestions)、[WebQuestions(opens in a new tab)](https://paperswithcode.com/dataset/webquestions)和CuratedTrec等基准测试中表现抢眼。用MS-MARCO和Jeopardy问题进行测试时,RAG生成的答案更符合事实、更具体、更多样。FEVER事实验证使用RAG后也得到了更好的结果。这说明RAG是一种可行的方案,能在知识密集型任务中增强语言模型的输出。最近,基于检索器的方法越来越流行,经常与ChatGPT等流行LLM结合使用来提高其能力和事实一致性。LangChain文档中可以找到[一个使用检索器和LLM回答问题并给出知识来源的简单例子(opens in a new tab)](https://python.langchain.com/docs/use_cases/question_answering/quickstart)。

质朴发言:大模型未来发展:RAG vs 长文本,谁更胜一筹?|Z 沙龙第 8 期

目前,大部分公司倾向于使用RAG方法进行信息检索,因为相比长文本的使用成本,使用向量数据库的成本更低。而在RAG应用过程中,一些公司会使用微调的Embedding Model,以增强RAG的检索能力;而有些公司会选择使用知识图谱或者ES等非向量数据库的RAG方法。一个正常的模型使用RAG仍然是当前的主流选择。由于大语言模型信息的滞后性以及不包含业务知识的特点,我们经常需要外挂知识库来协助大模型解决一些问题。在外挂知识库的过程中,Embedding模型的召回效果直接影响大模型的回答效果,因此,在许多场景下,我们都需要微调Embedding模型来提高召回效果。来自马里兰大学、劳伦斯利弗莫尔国家实验室、纽约大学的研究学者提出了一个大模型微调的方法;在微调时只需要简单的在Embedding层上加随机噪声即可大幅度提升微调模型的对话能力,而且也不会削弱模型的推理能力。用Alpaca微调LLaMA-2-7B可以在在AlpacaEval上取得29.79%的表现,而用加了噪声的嵌入则提高到64.69%。不过该工作只在较小的模型上进行微调。

RAG提示工程(一):基础概念

RAG是检索增强生成(Retrieval Augmented Generation)的简称,是当前最火热的企业级LLM应用方案。RAG概括起来就是知识检索+内容生成。这么说太抽象,可以理解为大模型的开卷考试,既然是开卷考试,那么谁带的书和资料内容更全,谁翻书翻的更快更准,谁开卷考试的结果就往往更好。下面来看RAG的主要组成,依次是数据提取——embedding(向量化)——创建索引——检索——自动排序(Rerank)——LLM归纳生成。当然这里少了使用环节,我们暂时先忽略。大家知道,开卷考试时,往往大家的参考资料都差不多,在有限的考试时间内如何又快又准的锁定问题在书上的相关内容更为重要。RAG做的好不好也是如此,核心就看能不能将内容检索的又快又准。如果抄错了书上(知识库)内容,往往大模型给出的答案也南辕北辙。

Others are asking
rag分几种模式
RAG 主要分为以下几种模式: 1. 基础 RAG(Naive RAG) 2. 高级 RAG(Advanced RAG) 3. 模块化 RAG(Modular RAG) 其工作流程包括: 1. 上传文档:用户上传包含知识的文档,支持 txt、pdf、docx 等格式,LangChain Chatchat 会将文档转换为 Markdown 格式。 2. 文本切割:为了便于分析和处理,将长文本切割为小块(chunk)。 3. 文本向量化:将切割的 chunk 通过 embedding 技术,转换为算法可以处理的向量,存入向量数据库。 4. 问句向量化:用户提问后,同样将用户的问句向量化。 5. 语义检索匹配:将用户的问句与向量数据库中的 chunk 匹配,匹配出与问句向量最相似的 top k 个。 6. 提交 Prompt 至 LLM:将匹配出的文本和问句,一起添加到配置好的 prompt 模板中,提交给 LLM。 7. 生成回答:LLM 生成回答,返回给用户。 在典型的 RAG Flow 模式方面,包括以下微调阶段模式和推理阶段模式。 此外,RAG 就像是一个超级智能的图书馆员,具有检索、增强和生成三个步骤。其优点包括成本效益、灵活性和可扩展性;缺点是回答准确性相对专有模型的方案不够。
2025-01-16
解释一下RAG
RAG(RetrievalAugmented Generation)即检索增强生成,是一种结合检索和生成能力的自然语言处理架构,旨在为大语言模型(LLM)提供额外的、来自外部知识源的信息。 大模型存在一些缺点,如无法记住所有知识(尤其是长尾知识)、知识容易过时且不好更新、输出难以解释和验证、容易泄露隐私训练数据、规模大导致训练和运行成本高。而 RAG 具有诸多优点: 1. 数据库对数据的存储和更新稳定,不存在模型学不会的风险。 2. 数据库的数据更新敏捷,增删改查可解释,且对原有知识无影响。 3. 数据库内容明确、结构化,加上模型的理解能力,能降低大模型输出出错的可能。 4. 知识库存储用户数据,便于管控用户隐私数据,且可控、稳定、准确。 5. 数据库维护可降低大模型的训练成本。 在实际应用中,如本地部署大模型以及搭建个人知识库时,利用大模型搭建知识库就是 RAG 技术的应用。RAG 的应用可抽象为文档加载、文本分割、存储(包括嵌入和向量数据存储)、检索、输出这 5 个过程。在产品视角下,RAG 常见应用于知识问答系统,其核心流程是根据用户提问从私有知识中检索相关内容,与提问一起提交给大模型生成回答。
2025-01-16
解释一下RAG
RAG(RetrievalAugmented Generation)即检索增强生成,是一种结合检索和生成能力的自然语言处理架构,旨在为大语言模型(LLM)提供额外的、来自外部知识源的信息。 大模型存在一些缺点,如无法记住所有知识(尤其是长尾知识)、知识容易过时且不好更新、输出难以解释和验证、容易泄露隐私训练数据、规模大导致训练和运行成本高。而 RAG 具有诸多优点: 1. 数据库对数据的存储和更新稳定,不存在模型学不会的风险。 2. 数据库的数据更新敏捷,增删改查可解释,且对原有知识无影响。 3. 数据库内容明确、结构化,加上模型的理解能力,能降低大模型输出出错的可能。 4. 知识库存储用户数据,便于管控用户隐私数据,且可控、稳定、准确。 5. 数据库维护可降低大模型的训练成本。 在实际应用中,如本地部署大模型以及搭建个人知识库时,利用大模型搭建知识库就是 RAG 技术的应用。RAG 的应用可抽象为文档加载、文本分割、存储(包括嵌入和向量数据存储)、检索、输出这 5 个过程。在产品视角下,RAG 常见应用于知识问答系统,其核心流程是根据用户提问从私有知识中检索相关内容,与提问一起提交给大模型生成回答。
2025-01-16
rag
RAG(RetrievalAugmented Generation)即检索增强生成,是一种结合检索和生成能力的自然语言处理架构。 大模型需要 RAG 进行检索优化的原因在于其存在一些缺点: 1. 无法记住所有知识,尤其是长尾知识,受限于训练数据和学习方式,对长尾知识的接受能力不高。 2. 知识容易过时且不好更新,微调效果不佳且有丢失原有知识的风险。 3. 输出难以解释和验证,存在内容黑盒、不可控及受幻觉问题干扰的情况。 4. 容易泄露隐私训练数据。 5. 规模大,训练和运行成本高。 RAG 的优点包括: 1. 数据库对数据的存储和更新稳定,不存在学不会的风险。 2. 数据更新敏捷,可解释且不影响原有知识。 3. 数据库内容明确、结构化,加上模型的理解能力,能降低大模型输出出错的可能。 4. 便于管控用户隐私数据,且可控、稳定、准确。 5. 可降低大模型的训练成本,新知识存储在数据库即可,无需频繁更新模型。 RAG 的核心流程是根据用户提问,从私有知识中检索到“包含答案的内容”,然后把“包含答案的内容”和用户提问一起放到 prompt 中,提交给大模型,让其回答充分考虑到“包含答案的内容”。其最常见应用场景是知识问答系统。RAG 由“检索器”和“生成器”两部分组成,检索器从外部知识中快速找到与问题相关的信息,生成器利用这些信息制作精确连贯的答案,适合处理需要广泛知识的任务,如问答系统,能提供详细准确的回答。
2025-01-14
RAG是什么意思
RAG 即检索增强生成(RetrievalAugmented Generation),是一种结合检索和生成能力的自然语言处理架构。 其旨在为大语言模型(LLM)提供额外的、来自外部知识源的信息。通过检索的模式,为大语言模型的生成提供帮助,使大模型生成的答案更符合要求。 大模型需要 RAG 进行检索优化,是因为大模型存在一些缺点,如: 1. 无法记住所有知识,尤其是长尾的。受限于训练数据和现有的学习方式,对长尾知识的接受能力不高。 2. 知识容易过时,且不好更新。微调模型的接受能力不高且慢,甚至有丢失原有知识的风险。 3. 输出难以解释和验证。最终输出的内容黑盒且不可控,可能受到幻觉等问题的干扰。 4. 容易泄露隐私训练数据。用用户个人信息训练模型,会让模型可以通过诱导泄露用户的隐私。 5. 规模大,训练和运行的成本都很大。 而 RAG 具有以下优点: 1. 数据库对数据的存储和更新稳定,不像模型会存在学不会的风险。 2. 数据库的数据更新敏捷,增删改查可解释,对原有的知识不会有影响。 3. 数据库的内容明确、结构化,加上模型本身的理解能力,一般而言数据库中的内容以及检索算法不出错,大模型的输出出错的可能就大大降低。 4. 知识库中存储用户数据,为用户隐私数据的管控带来很大的便利,而且可控、稳定、准确。 5. 数据库维护起来,可以降低大模型的训练成本,新知识存储在数据库即可,不用频繁更新模型。 RAG 的核心流程是根据用户提问,从私有知识中检索到“包含答案的内容”,然后把“包含答案的内容”和用户提问一起放到 prompt(提示词)中,提交给大模型,此时大模型的回答就会充分考虑到“包含答案的内容”。其最常见应用场景是知识问答系统。 LangChain 是一个用于构建高级语言模型应用程序的框架,它提供了一系列的工具和组件,使得开发人员能够更容易地使用大型语言模型(LLM)来创建各种应用程序。LangChain 和 RAG 的关系包括: 1. LangChain 作为框架,提供了实现 RAG 所必需的工具和组件,RAG 作为技术可在 LangChain 框架内得以实施和利用。 2. LangChain 允许开发者通过其模块化组件来构建 RAG 应用程序。 3. LangChain 通过提供现成的链和提示模板,简化了 RAG 应用程序的开发过程。 4. 利用 LangChain 实现 RAG 可以帮助开发者创建更高效、更准确的应用程序。 5. LangChain 通过其丰富的 API 和组件库,支持开发者构建复杂的 RAG 应用,如智能问答系统、内容推荐引擎等。
2025-01-10
RAG可以学习多大的知识库
RAG 可以让大模型从权威的、预先确定的知识来源中检索、组织相关信息,更好地控制大模型生成的文本输出,并且用户可以深入了解 LLM 如何生成最终的结果。 RAG 对大语言模型的作用就像开卷考试对学生一样,事实性知识与 LLM 的推理能力相分离,被存储在容易访问和及时更新的外部知识源中,具体分为参数化知识(模型在训练过程中学习得到,隐式地储存在神经网络的权重中)和非参数化知识(存储在外部知识源,例如向量数据库中)。 但目前没有关于 RAG 可以学习知识库大小的明确说明。
2025-01-10
ai 写作业界产品分析
以下是关于 AI 写作业界产品的分析: 在论文写作领域,AI 技术的应用发展迅速,提供了多方面的辅助,常见的工具和平台包括: 1. 文献管理和搜索: Zotero:结合 AI 技术,自动提取文献信息,便于管理和整理参考文献。 Semantic Scholar:由 AI 驱动的学术搜索引擎,提供文献推荐和引用分析。 2. 内容生成和辅助写作: Grammarly:通过 AI 技术进行文本校对、语法修正和写作风格建议,提升语言质量。 Quillbot:基于 AI 的重写和摘要工具,可精简和优化内容。 3. 研究和数据分析: Google Colab:提供基于云的 Jupyter 笔记本环境,支持 AI 和机器学习研究,方便进行数据分析和可视化。 Knitro:用于数学建模和优化,助力复杂数据分析和模型构建。 4. 论文结构和格式: LaTeX:结合自动化和模板,高效处理格式和数学公式。 Overleaf:在线 LaTeX 编辑器,有丰富模板库和协作功能,简化编写过程。 5. 研究伦理和抄袭检测: Turnitin:广泛使用的抄袭检测工具,确保论文原创性。 Crossref Similarity Check:通过与已发表作品比较,检测潜在抄袭问题。 通用写作领域的 Top30 AI 产品数据(4 月访问量及相对 3 月变化)如下: |排行|产品名|分类|4 月访问量(万 Visit)|相对 3 月变化| |||||| |17|Resume AI Scanner|通用写作|96.7|0.351| |18|Paperpal|通用写作|95.2|0.579| |19|Predis.ai|通用写作|93.6|0.112| |20|Intelligent paraphraser|通用写作|84|0.051| |21|秘塔写作猫|通用写作|75.3|0.013| |22|Sudowrite|通用写作|69.2|0.05| |23|SEO 优化精灵|通用写作|64.6|0.039| |24|Good AI|通用写作|61.2|0.475| |25|Neuroflash|通用写作|54.1|0| |26|Miniapps.ai|通用写作|53.3|0.002| |27|彩云|通用写作|51.5|0.117| |28|Magical AI|通用写作|51.4|0.034| |29|深言达意|通用写作|41.8|0.31| |30|火山写作|通用写作|41.7|0.058| 陈财猫对于如何用 AI 写出比人更好的文字有以下观点: 1. AI+内容创作是现阶段的好赛道,有完美的产品模型匹配和产品市场匹配,且天花板高。 2. 其业务包含营销和小说、短剧创作,开发了智能营销矩阵平台,参与相关写作课程,捣鼓出小财鼠程序版 agent。 3. 好文字能引起人的生理共鸣与情绪,AI 因预训练数据量大能学会引发共鸣从而写出好文字。 4. 用 AI 写出好文字的方法包括选好模型,评估模型的文风和语言能力等;克服平庸,平衡“控制”与“松绑”;显式归纳想要的文本特征,通过 prompt 中的描述与词语映射到预训练数据中的特定类型文本,往 prompt 里塞例子。 5. 认为 AI 创作的内容有灵魂,期望 AI 能力进一步提升改变每个人的生活。 使用这些 AI 写作工具时,要结合自己的写作风格和需求,选择最合适的辅助工具。同时,内容由 AI 大模型生成,请仔细甄别。
2025-01-17
AI与师范生实践能力培养
以下是关于 AI 与师范生实践能力培养的相关内容: 对于中学生学习 AI 的建议: 1. 从编程语言入手,如 Python、JavaScript 等,学习编程语法、数据结构、算法等基础知识。 2. 尝试使用 AI 工具和平台,如 ChatGPT、Midjourney 等,以及面向中学生的教育平台,如百度的“文心智能体平台”、Coze 智能体平台等。 3. 学习 AI 基础知识,包括基本概念、发展历程、主要技术(如机器学习、深度学习等),以及在教育、医疗、金融等领域的应用案例。 4. 参与 AI 相关的实践项目,如参加学校或社区组织的编程竞赛、创意设计大赛等,尝试用 AI 技术解决实际问题,培养动手能力。 5. 关注 AI 发展的前沿动态,关注权威媒体和学者,思考其对未来社会的影响。 在智慧课程培育建设方面的案例: 1. 24 小时 AI 学伴:学生随时利用 AI 学伴巩固课堂知识,强化对复杂影像的理解。 2. 跨学科知识图谱:AI 整合解剖学、放射物理等资源,提升跨学科学习效果。 3. 个性化学习支持:AI 根据学生进度提供定制化练习和反馈,强化薄弱环节。 4. 病例库与临床决策模拟:AI 通过病例库和虚拟实践,提高学生临床决策能力。 5. 解放教师生产力:AI 减轻教师重复性工作,让其专注教学设计与创新。 此外,拜登签署的 AI 行政命令中提到,为确保 AI 促进公平和公民权利,采取了一系列行动,包括为房东、联邦福利项目和联邦承包商提供明确指导,防止 AI 算法加剧歧视;通过培训、技术援助和部门协调解决算法歧视问题;在刑事司法系统中制定使用 AI 的最佳实践以确保公平等。同时,为保护消费者、患者和学生,总统也指示了相关行动。
2025-01-14
AI在师范生实践能力培养的路径
以下是关于 AI 在师范生实践能力培养的路径的相关内容: 对于师范生实践能力的培养,可参考以下路径: 1. 基础学习 了解 AI 基本概念:熟悉 AI 的术语、主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。 掌握编程语言:如 Python、JavaScript 等,这些是 AI 和机器学习的基础。学习编程语法、数据结构、算法等基础知识。 2. 学习资源与平台 在线教育平台:通过 Coursera、edX、Udacity 等平台上的课程,按照自己的节奏学习。 特定课程:特别推荐李宏毅老师的课程。 3. 深入学习与选择方向 依据兴趣选择特定模块,如自然语言处理、计算机视觉、推荐系统等。 掌握提示词技巧,上手容易且实用。 4. 实践与应用 参与实践项目:参加学校或社区组织的相关竞赛、创意设计大赛等活动,尝试利用 AI 技术解决实际问题,培养动手能力。 体验 AI 产品:与 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人互动,了解其工作原理和交互方式。 5. 关注前沿动态 关注权威媒体和学者,了解 AI 技术的最新进展和发展方向。 6. 结合教育领域 学习 AI 在教育领域的应用案例,思考如何将 AI 技术应用于教学实践中。 总之,师范生可以从多个方面入手,全面系统地学习 AI 知识和技能,并将其与教育实践相结合,提升自身的实践能力。
2025-01-14
目前的AI插件产业实践有哪些,需要收费的又有哪些
目前的 AI 插件产业实践中,以开发 AI Share Card 插件为例: 技术方案:将模板生成功能设计为固定的代码组件,让大模型专注于内容总结的功能。若用户需要其他模板,可通过增加更多模板选项或自定义模板代码功能实现。 对 AI 大模型的要求:处理纯文本总结任务,仅需 13B 或更小参数的模型,加上精调的提示词就能产生很好结果。 AI API 服务的选型要求: 较长的上下文窗口,因为内容总结类任务需要较大的上下文长度。 响应速度要快、并发支持要高,以在多人使用插件时保持良好性能表现。 免费或尽量低价,以减少模型 token 费用。例如选用的 GLM4flash(截至 202412,长达 128k 的上下文窗口,完全免费的调用价格,200 RPM 高并发支持)。 需要收费的 AI 插件因具体应用和服务提供商而异,常见的收费方式包括按使用量计费、订阅制等。但像上述提到的 GLM4flash 在特定时间内是免费的。
2024-12-28
智能客服的实践案例有哪些?
以下是一些智能客服的实践案例: 在销售方面,有“销售:话术总结优缺点”,涉及产品特点、服务优势、目标客户需求和痛点等方面。 详情: 入库时间:2023/10/30 在销售方面,还有“销售:定制销售解决方案”,涵盖企业产品和服务内容、客户需求和参数等内容。 详情: 入库时间:2023/10/30 在客服方面,有“客服:定制客服话术”,包含产品知识、使用方法等 13 个关键词库。 详情: 入库时间:2023/10/30 腾讯运营在智能客服方面的应用: ChatGPT 承担客服功能,通过告知其具体客服身份,要求其解答用户问题并进行私域流量转化。 ChatGPT 能够理解社区用户的评论和问题,并生成合适的回复,管理社区互动,模拟运营人的语言风格,与用户进行更自然的互动。 ChatGPT 可以监测舆情和热点,从多个来源抓取互联网上的热门话题、新闻和社交媒体动态,并对抓取到的文本数据进行深度分析。 其他相关案例:
2024-12-17
提示词实践
以下是一些关于提示词(Prompts)的最佳实践示例: 1. Unicode 字符映射转换器: 作者:李继刚 分类:代码 说明:将用户输入的字符串逐一映射到 Unicode 区间 U+1D400 到 U+1D420。 注意事项:请准确地将用户输入的字符串的字符映射到指定的 Unicode 区间;不提供任何解释或说明;只输出转换后的结果。 链接地址: 2. 流程图/图表设计: 作者:nimbus 分类:商业 说明:根据用户的流程描述,自动生成 Mermaid 图表代码 注意事项:生成的代码要符合 Mermaid 语法,准确表达用户需求;生成代码遵循 Mermaid 语法;流程语义表达准确;代码整洁格式规范。 链接地址: 3. 黑话转化器: 作者:echo 分类:文本 说明:使用 ChatGPT 模拟阿里黑话转换 任务步骤: 欢迎玩家输出对话。 玩家说完对话后,ChatGPT 进行阿里黑话转换,在对话中,尽量使用阿里高级词汇。 使用示例: 输入:找个小众产品抄,预期输出:找准了自己差异化赛道。 输入:做广告,预期输出:通过对势能积累的简单复用实现了价值转化。 输入:被主流给抛弃,预期输出:通过特有抓手找到擅长的垂直领域。 输入:发小卡片,预期输出:通过点线结合的对焦性打法,找到了红海行业的精细化引爆点。 链接地址:
2024-12-04
有哪些使用语言模型的最佳实践案例?
以下是一些使用语言模型的最佳实践案例: 1. 转换类应用: 大型语言模型擅长将输入转换为不同格式,如语言翻译、拼写和语法矫正、格式转换等。例如,可以输入一段不符合语法规范的文本让其修改,或输入 HTML 输出 JSON。 可以执行翻译任务,模型在多种语言的大量文本上训练,能够掌握数百种语言。 2. 基础提示词: 提示词包含传递到模型的指令、问题等信息,也可包含上下文、输入或示例等详细信息,以更好地指导模型获得更好结果。 对于 OpenAI 的聊天模型,可使用 system、user 和 assistant 三种角色构建 prompt,通常示例仅使用 user 消息作为 prompt。 提示工程探讨如何设计最佳提示词,如通过改进提示词完善句子输出。 3. 提示工程: 将复杂任务分解为更简单的子任务,如使用意图分类识别用户查询中的指令,对长对话进行总结或过滤,将长文档分段总结。 给予模型“思考”时间,如让模型在给出最终答案前先进行“思考链”推理,指导其先给出解决方案,使用“内心独白”或系列查询隐藏推理过程,询问是否遗漏信息以确保完整性。
2024-11-25
总结一下24年国产AI大模型的主要进展
2024 年国产 AI 大模型的主要进展包括: 9 月: 12 日:李继刚再现神级 Prompt,玩法持续翻新;Mistral 发布首个多模态模型 Pixtral 12B。 13 日:商汤 Vimi 相机开放微博小程序;元象开源中国最大 MoE 大模型 XVERSEMoEA36B;OpenAI 发布 o1 模型。 14 日:人工智能生成合成内容标识办法(征求意见稿);Jina AI 发布 ReaderLM 和 Jina Embeddings V3。 18 日:DeepSeek 发文庆祝登上 LMSYS 榜单国产第一,几小时后 Qwen 新模型表示不服。 19 日:云栖大会;通义万相 AI 生视频上线;快手可灵 1.5 模型新增运动笔刷能力。 20 日:腾讯元器智能体对外发布;秘塔科技产品经理 JD 走红 AI 圈;阶跃跃问接入 Step2 万亿参数 MoE 语言大模型。 21 日:大模型测试基准研究组正式成立。 23 日:钉钉 365 会员上线。 24 日:讯飞星火 API 全新升级;豆包大模型全系列发布&更新。 25 日:Vidu API 正式开放,加速企业级视频创作;OpenAI 发布高级语音功能;西湖心辰开源 WestlakeOmni。 国内大模型落地情况: 2024 年被称为国内大模型落地元年,1 至 11 月,大模型中标项目共 728 个,是 2023 年全年的 3.6 倍;中标金额 17.1 亿元,是 2023 年全年的 2.6 倍。中标项目数前五的行业分别是运营商、能源、教育、政务、金融。 厂商方面,百度以 40 个中标项目数、2.74 亿元的中标金额排名所有厂商之首,科大讯飞居第二。在金融行业,百度以 14 个中标数量、3734.4 万元中标金额排名第一;科大讯飞居第二。 在智能终端行业,中国超半数手机厂商都在使用文心大模型,包括三星、荣耀、vivo、OPPO、小米等主流手机品牌;上汽大众、吉利汽车、蔚来汽车、长安汽车等十余家车企已接入百度文心大模型。 百度表现突出,截至 11 月,其文心大模型日均调用量超过 15 亿次,千帆平台帮助客户精调了 3.3 万个模型、开发了 77 万个企业应用。今年三季度财报披露,百度智能云营收达 49 亿元,同比增长 11%。 大模型进入产业落地后,除了大模型本身能力质量要过硬外,落地应用所需要的全栈技术能力、工程化配套工具等对落地效果有直接影响。企业想要真正将大模型在自身场景落地,需要具备构建算力、数据治理、模型训练、场景落实、应用搭建、持续运营、安全合规等整套能力。大模型的竞争,正在加速成为体系化之战。
2025-01-09
国产AI大模型的最新进展
以下是国产 AI 大模型的最新进展: 通义千问的 Qwen 系列表现出色:Qwen 是国内唯一出现在 OpenAI 视野里、能参与国际竞争的国产大模型。Qwen 多次冲进相关榜单,得分不断提高,其开源模型累计下载量突破 1600 万,国内外有大量开发者基于 Qwen 开发模型和应用,尤其在企业级领域。通义大模型证明了开源开放的力量。 国内大模型落地情况:2024 年被称为国内大模型落地元年,1 至 11 月,大模型中标项目共 728 个,是 2023 年全年的 3.6 倍;中标金额 17.1 亿元,是 2023 年全年的 2.6 倍。中标项目数前五的行业分别是运营商、能源、教育、政务、金融。厂商方面,百度以 40 个中标项目数、2.74 亿元的中标金额排名所有厂商之首,科大讯飞居第二。 其他进展:智谱一年间推出了 4 代 GLM,一直是国内能力较好的模型之一。MiniMax 推出了 MoE 架构的新模型和“星野”这个目前国内较成功的 AI 陪聊 APP。月之暗面专注长 Token 能力,在记忆力和长 Token 能力上有一定优势。但硬件层上的卡脖子问题仍未缓解,国内目前仍无胜任大模型训练的芯片,在推理上虽有 Nvidia 的替代产品逐渐出现,但华为昇腾在单卡指标上距离不远,因稳定性不足和缺乏 Cuda 生态,仍需时间打磨。
2025-01-09
端到端语音技术现在进展到什么程度了
端到端语音技术目前取得了显著进展。 在语音合成方面: 语音合成将文本转换为可听的声音信息,是人机交互的重要接口,一般包括 TTS、歌唱合成等领域。 当代工业界主流语音合成系统包括文本前端和声学后端两个部分。文本前端将输入文本转换为层次化的语音学表征,声学后端基于此生成语音,主要技术路线包括单元挑选波形拼接、统计参数和端到端语音合成方法,当代主要采用端到端声学后端。 端到端声学后端一般包括声学模型和声码器两部分,也出现了直接从音素映射为波形的完全端到端语音合成系统。 在全模态智能体方面: OpenAI 发布的 GPT4o 是新模型通过端到端的神经网络,把视觉、语音和文本数据混合训练,对音频输入的平均反应时间为 300 毫秒,与人类对话的反应时间相似。 直接拿音频数据来训练的好处是模型能从数据中感悟到人类表达的情绪、语调、风格等,能听到几乎真实的人类的声音。 OpenAI 未公开 GPT4o 的技术细节,唯一线索来自内部模型炼丹师的一篇博客,项目名是 AudioLM,目标是用端到端的方式扩大语音模型的能力。
2025-01-03
AI在电商直播带货有什么新进展吗
AI 在电商直播带货领域有以下新进展: 1. “全真 AI 颜值网红”出现,可以稳定输出视频,并能够进行直播带货。 2. 数字人工具软件方面,有实时驱动和非实时驱动两类,实时驱动在直播时能改音频话术,真人可接管,标准零售价一年 4 6 万往上;非实时驱动一个月 600 元,效果差,市场价格混乱。 3. 数字人运营服务可按直播间成交额抽佣。 4. 适用于不需要强展示的商品,如品牌食品饮料,以及虚拟商品如门票、优惠券等,店播效果较好,数据基本能保持跟真人一样。不适用于促销场景。 5. 目前技术仍显稚嫩,如更真实的对口型、更低的响应延迟等方面有待提高。 6. 不会一家独大,可能 4 5 家一线效果,大多二三线效果公司。 7. 有资源、有业务的大平台下场可能会带来降维打击,例如剪映若全环节打通会绑定商家。 8. 欧莱雅、YSL、兰蔻、李宁、北面等品牌会选择使用 AI 驱动的虚拟主播进行自播,但通常只在午夜时段排期。 9. 阿里云提供的品牌智能直播间基础版售价为 99000 元/(年×路),提供多种功能。 10. 虚拟形象有 3D 卡通风格和 2D 拟真人风格,预设动作库和真实语音表现,商品展示以图片为主,直播互动流程相对固定。但虚拟主播无法与产品接触,测评结果缺乏真实性,目前更像是花瓶,负责基础性介绍和互动问答。
2024-12-07
AI在机械制图方面有什么进展吗
AI 在机械制图方面的进展相对有限。然而,在艺术创作领域,特别是 AI 绘画方面有显著的发展。从早期的机械臂机器人到当前的大语言模型,技术的进步使得 AI 绘画在创作质量和速度上取得了新的突破。 AI 绘画不仅改变了艺术作品的创作方式,还对艺术的审美观念和市场需求产生了影响。但同时也引发了一系列讨论和争议。一方面,人们对于由 AI 驱动的机器人创作的艺术品和人类创作的艺术品的接受程度大致相同,但不太愿意将机器人视为艺术家,因为 AI 在表达情感和创造性意图方面存在局限性。另一方面,艺术家对 AI 生成艺术的态度复杂,既有对创新潜力的期待,也有对版权、原创性和伦理问题的担忧。 此外,AI 绘画技术的发展带来了对文化创意领域从业者职业安全的焦虑,以及对其“侵权”嫌疑的反对之声。不过,AI 绘画也为艺术创作提供了新的可能性,能帮助艺术家探索新的创意表达方式,提高制作效率,降低制作成本,促进艺术与观众之间的互动,提供更加个性化和互动的艺术体验。 总的来说,AI 绘画对艺术界的影响是复杂且双面的,既提供了新的创作工具和可能性,也引发了关于艺术本质、创造性、版权和伦理的重要讨论。但目前在机械制图领域,相关进展尚不明显。
2024-12-07
AI方面有什么最新进展
以下是 AI 方面的一些最新进展: 1. 2024 人工智能现状报告:由剑桥大学和 AI 风险投资公司 Air Street Capital 的相关人员共同发表,围绕人工智能领域的最新进展、政治动态、安全挑战及未来预测几大方面进行说明。 2. AI 绘画:从生成艺术作品到辅助艺术创作,逐渐改变传统艺术面貌。技术进步使创作质量和速度取得突破,为艺术家提供新工具和可能性,但也引发了关于艺术本质、创造性、版权和伦理的讨论,带来对从业者职业安全的焦虑和“侵权”嫌疑的反对之声。 3. 技术历史和发展方向: 发展历程:包括早期阶段的专家系统、博弈论、机器学习初步理论;知识驱动时期的专家系统、知识表示、自动推理;统计学习时期的机器学习算法;深度学习时期的深度神经网络等。 前沿技术点:大模型(如 GPT、PaLM 等)、多模态 AI(视觉语言模型、多模态融合)、自监督学习、小样本学习、可解释 AI、机器人学、量子 AI、AI 芯片和硬件加速。
2024-12-05