Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

RAG 如何测评?

Answer

RAG(检索增强生成)的测评方法如下:

  1. 可以使用 TruLens 来实现 RAG 三角形的评估方法,具体步骤为:
    • 在 LangChain 中,创建一个 RAG 对象,使用 RAGPromptTemplate 作为提示模板,指定检索系统和知识库的参数。
    • 在 TruLens 中,创建一个 TruChain 对象,包装 RAG 对象,指定反馈函数和应用 ID。反馈函数可以使用 TruLens 提供的 f_context_relevance、f_groundness、f_answer_relevance,也可以自定义。
    • 使用 with 语句来运行 RAG 对象,并记录反馈数据。输入一个问题,得到一个回答,以及检索出的文档。
    • 查看和分析反馈数据,根据 RAG 三角形的评估指标,评价 RAG 的表现。
  2. 评估 RAG 生成的文本质量,常用的评估方法包括自动评估指标(如 BLEU、ROUGE 等)、人工评估和事实验证,以衡量生成文本的流畅性、准确性和相关性。
  3. 评估 RAG 检索的效果,包括检索的准确性、召回率和效率,其好坏直接影响生成文本的质量。
  4. 通过用户调查、用户反馈和用户交互数据来实现用户满意度评估。
  5. 对于生成多模态内容的 RAG 系统,需要通过多模态评估指标来评估不同模态之间的一致性和相关性。
  6. 对于需要实时更新的 RAG 任务,要考虑信息更新的及时性和效率进行实时性评估。
  7. 为了进行客观的评估,通常会使用基准测试集来进行实验和比较不同的 RAG 系统。这些基准测试集包含了多样化的任务和查询,以涵盖不同的应用场景。

评估方法和指标的选择取决于具体的任务和应用场景。综合使用多种评估方法可以更全面地了解 RAG 系统的性能和效果,评估结果可以指导系统的改进和优化,以满足用户的需求。

Content generated by AI large model, please carefully verify (powered by aily)

References

开发:LangChain应用开发指南-TruLens用量化对抗幻觉

RAG三角形的评估方法可以让我们从不同的角度来检验RAG的质量和效果,从而发现和改进RAG的问题。我们可以使用TruLens来实现RAG三角形的评估方法,具体步骤如下:1.在LangChain中,创建一个RAG对象,使用RAGPromptTemplate作为提示模板,指定检索系统和知识库的参数。2.在TruLens中,创建一个TruChain对象,包装RAG对象,指定反馈函数和应用ID。反馈函数可以使用TruLens提供的f_context_relevance,f_groundness,f_answer_relevance,也可以自定义。3.使用with语句来运行RAG对象,并记录反馈数据。输入一个问题,得到一个回答,以及检索出的文档。4.查看和分析反馈数据,根据RAG三角形的评估指标,评价RAG的表现。下面是一个简单的示例,展示了如何在LangChain中使用TruLens来评估一个RAG问答应用:

2024人工智能报告|一文迅速了解今年的AI界都发生了什么?

传统的RAG解决方案通常会以滑动窗口的方式,每次创建256个令牌的文本片段。这使得检索更加高效,但准确性明显降低。Anthropic通过“上下文嵌入”解决了这个问题,其中提示语指示模型生成解释文档中每个段落上下文的文本。他们发现,这种方法导致前20个检索失败率的减少为35%(5.7%→3.7%)。**但RAG的评估仍待解决,**研究人员正在探索新的方法,例如Ragnarök,它通过比较一对系统,引入了一个基于网络的人类评估竞技场。这解决了评估RAG质量的挑战,超越了传统的自动化指标;同时Researchy Questions提供了大量复杂、多方面的需要深入研究和分析才能回答的问题,这些问题是来自真实用户的查询。

开发:产品视角的大模型 RAG 应用

开发:产品视角的大模型RAG应用[heading1]一文看懂RAG:大语言模型落地应用的未来[heading2]RAG系统的评估[content]RAG(检索增强生成)系统的评估是确保其性能和效果的关键步骤。这里将介绍RAG系统的评估方法和指标,以帮助衡量其生成文本或回答的质量和相关性。以下是与RAG评估相关的一些关键概念和方法:生成质量评估:评估RAG生成的文本的质量是重要任务之一。常用的评估方法包括自动评估指标(如BLEU、ROUGE等)、人工评估和事实验证。这些方法可以帮助衡量生成文本的流畅性、准确性和相关性。检索效果评估:评估RAG检索的效果是另一个关键方面。这包括检索的准确性、召回率和效率。检索效果的好坏直接影响生成文本的质量。用户满意度评估:了解用户对RAG系统的满意度和体验也是重要的评估维度。这可以通过用户调查、用户反馈和用户交互数据来实现。多模态评估:对于生成多模态内容的RAG系统,评估方法需要考虑不同模态之间的一致性和相关性。这可以通过多模态评估指标来实现。实时性评估:对于需要实时更新的RAG任务,评估方法需要考虑信息更新的及时性和效率。基准测试集:为了进行客观的评估,通常会使用基准测试集来进行实验和比较不同的RAG系统。这些基准测试集包含了多样化的任务和查询,以涵盖不同的应用场景。评估方法和指标的选择取决于具体的任务和应用场景。综合使用多种评估方法可以更全面地了解RAG系统的性能和效果。评估结果可以指导系统的改进和优化,以满足用户的需求。

Others are asking
RAG构建本地知识库
RAG(Retrieval Augmented Generation,检索增强生成)是一种利用大模型能力搭建知识库的技术。其主要应用场景是当需要依靠不包含在大模型训练集中的数据时。 一个RAG的应用可以抽象为以下5个过程: 1. 文档加载:从多种不同来源加载文档,如PDF、SQL、代码等,LangChain提供了100多种不同的文档加载器。 2. 文本分割:文本分割器把Documents切分为指定大小的块,称为“文档块”或者“文档片”。 3. 存储:包括将切分好的文档块进行嵌入转换成向量的形式,以及将Embedding后的向量数据存储到向量数据库。 4. 检索:通过某种检索算法找到与输入问题相似的嵌入片。 5. 输出:把问题以及检索出来的嵌入片一起提交给LLM,LLM会通过问题和检索出来的提示一起来生成更加合理的答案。 简单来说,RAG就是大模型+知识库,从广泛的知识库数据中检索相关片段,然后由大模型根据这些内容生成答案。这种方式一方面可以减大模型的幻觉,提高其在特定任务上的表现,更加贴合实际应用的需求,另一方面可以明显提高搜索文档信息和生成回答的效率和体验。 LangChain是一个可以实现RAG的开源框架,它提供一些基础的组件和工具,如知识库管理、文本处理、模型加载等,允许开发人员将大语言模型(LLM)与外部数据源相结合,快速搭建自己的应用。 在实际项目中,比如此次的政府政策问答实践,由于政策的复杂性和传统智能问答产品的局限性,选择LangChainChatchat框架构建政策文档的本地知识库,实现大模型基于本地知识库内容生成回答,为用户提供政策问答和解读服务,节省查找和理解政策的时间。
2025-03-11
企业级rag系统开发框架
企业级 RAG 系统开发框架如下: 首先,通过数据预处理引擎(如 Unstructured)将企业无结构文件(如 PDF、幻灯片、文本文件)从数据孤岛(如 Google Drive 和 Notion)加载、转换为 LLM 可查询格式,并将这些文件“分块”成更小的文本块,以实现更精确的检索,然后作为向量嵌入和存储在数据库(如 Pinecone)中。 当用户提出问题时,系统会检索语义上最相关的上下文块,并将其折叠到“元提示”中,与检索到的信息一起馈送给 LLM。LLM 会从检索到的上下文中合成答复返回给用户。 在实际生产中,AI 应用程序具有更复杂的流程,包含多个检索步骤和“提示链”,不同类型的任务并行执行多个“提示链”,然后将结果综合在一起生成最终输出。 RAG 是检索增强生成(Retrieval Augmented Generation)的简称,概括起来是知识检索+内容生成,主要组成包括数据提取、embedding(向量化)、创建索引、检索、自动排序(Rerank)、LLM 归纳生成。其核心在于能否将内容检索得又快又准。 RAG 的优势在于: 大语言模型技术存在输出结果不可预测、知识有截止日期、无法满足实际业务需求等问题,而 RAG 可以让大模型从权威的、预先确定的知识来源中检索、组织相关信息,更好地控制大模型生成的文本输出,并且用户可以深入了解 LLM 如何生成最终的结果。 RAG 可以和微调结合使用,两者并不冲突。微调适用于模型需要复制特定的结构、样式或格式时,RAG 适用于模型需要回答特定的询问或解决特定的信息检索任务。但 RAG 不适合教模型来理解广泛的领域或学习新的语言、格式或样式。 同时,通用的基础大模型无法满足实际业务需求的原因包括: 知识的局限性:模型自身的知识源于训练数据,对于实时性、非公开或离线的数据无法获取。 幻觉问题:大模型基于数学概率的文字预测,存在提供虚假、过时、通用或低可信度信息的情况。 数据安全性:企业重视数据安全,不愿承担数据泄露风险将私域数据上传第三方平台训练。
2025-03-08
RAG内LLM的主要作用,简单概括
RAG(检索增强生成)中LLM(大语言模型)的主要作用包括: 1. 利用外部检索到的知识片段生成更符合要求的答案。由于LLM无法记住所有知识,尤其是长尾知识,且知识容易过时、不好更新,输出难以解释和验证,容易泄露隐私训练数据,规模大导致训练和运行成本高,通过RAG为LLM提供额外且及时更新的知识源,有助于生成更准确和有用的回答。 2. 在RAG的工作流程中,LLM接收整合后的知识片段和特定指令,利用其推理能力生成针对用户问题的回答。 3. 事实性知识与LLM的推理能力相分离,LLM专注于运用推理能力处理外部知识源提供的信息。
2025-03-08
RAG是什么,简单概括
RAG(RetrievalAugmented Generation)即检索增强生成,是一种结合检索和生成能力的自然语言处理架构,旨在为大语言模型(LLM)提供额外的、来自外部知识源的信息。 简单来说,它通过检索的模式为大语言模型的生成提供帮助,使大模型生成的答案更符合要求。 RAG 对于 LLM 来说很重要,因为 LLM 存在一些缺点,如无法记住所有知识(尤其是长尾知识)、知识容易过时且不好更新、输出难以解释和验证、容易泄露隐私训练数据、规模大导致训练和运行成本高。 而 RAG 具有一些优点,如数据库对数据的存储和更新稳定,数据更新敏捷且可解释,能降低大模型输出出错的可能,便于管控用户隐私数据,还能降低大模型的训练成本。 RAG 概括起来是知识检索+内容生成,可以理解为大模型的开卷考试,其主要组成依次是数据提取、embedding(向量化)、创建索引、检索、自动排序(Rerank)、LLM 归纳生成。其核心在于能否将内容检索得又快又准。 推荐阅读: 如何让 LLM 应用性能登峰造极:https://mp.weixin.qq.com/s/Kr16ub_FN6pTF6acse6MA 大模型主流应用 RAG 的介绍——从架构到技术细节: https://luxiangdong.com/2023/09/25/ragone/ 高级 RAG 技术:图解概览: https://baoyu.io/translations/rag/advancedragtechniquesanillustratedoverview
2025-03-08
rag
RAG(RetrievalAugmented Generation,检索增强生成)是一种结合检索和生成能力的自然语言处理架构。 通用语言模型通过微调可完成常见任务,而更复杂和知识密集型任务可基于语言模型构建系统,访问外部知识源来实现。Meta AI 引入 RAG 来完成这类任务,它把信息检索组件和文本生成模型结合,可微调且内部知识修改高效,无需重新训练整个模型。 RAG 接受输入并检索相关/支撑文档,给出来源(如维基百科),这些文档作为上下文和原始提示词组合给文本生成器得到最终输出,能适应事实随时间变化,让语言模型获取最新信息并生成可靠输出。 大语言模型(LLM)存在一些缺点,如无法记住所有知识(尤其是长尾知识)、知识容易过时且不好更新、输出难以解释和验证、容易泄露隐私训练数据、规模大导致训练和运行成本高。而 RAG 具有数据库存储和更新稳定、数据更新敏捷且不影响原有知识、降低大模型输出出错可能、便于管控用户隐私数据、降低大模型训练成本等优点。 在 RAG 系统开发中存在 12 大痛点及相应的解决方案。
2025-03-06
RAG
RAG(RetrievalAugmented Generation,检索增强生成)是一种结合检索和生成能力的自然语言处理架构。 通用语言模型通过微调可完成常见任务,而更复杂和知识密集型任务可基于语言模型构建系统,访问外部知识源来实现。Meta AI 的研究人员引入了 RAG 方法来完成这类任务,它把信息检索组件和文本生成模型结合在一起,可微调且内部知识修改高效,无需重新训练整个模型。 RAG 会接受输入并检索相关支撑文档,给出来源,这些文档作为上下文和原始提示词组合送给文本生成器得到最终输出,能适应事实随时间变化的情况,让语言模型获取最新信息并生成可靠输出。 LLM(大语言模型)存在一些缺点,如无法记住所有知识尤其是长尾知识、知识容易过时且不好更新、输出难以解释和验证、容易泄露隐私训练数据、规模大导致训练和运行成本高。而 RAG 具有诸多优点,如数据库对数据的存储和更新稳定且无学习风险、数据更新敏捷且可解释、降低大模型输出出错可能、便于管控用户隐私数据、降低大模型训练成本等。 在 RAG 系统开发中存在 12 大痛点及相应的解决方案。
2025-03-06
有没有大模型测评网站
以下是一些大模型测评网站: 玉宝搞过的 LLM 在线评估网站:https://www.llmrank.cn/ ,可看到国内各个闭源大模型的 HUMANEVAL 测评得分,并能与 QWEN2 对比。 Compass Arena:由上海人工智能实验室和魔搭社区联合推出,集齐了国内主流的 20 多款大模型,包括阿里通义千问、百度文心一言、腾讯混元、讯飞星火、字节跳动豆包、智谱 AI、百川智能、零一万物、月之暗面等,用户可在平台选择大模型的两两“对战”,实名或匿名对战皆可。测评地址:https://opencompass.org.cn/arena 。 中文大模型评测收集与调研相关网站: InfoQ + 极客帮:https://www.guotaixia.com/post/5124.html GAOKAOBench:https://github.com/OpenLMLab/GAOKAOBench ,是以中国高考题目为数据集,测评大模型语言理解能力、逻辑推理能力的测评框架。 清华安全大模型测评:http://115.182.62.166:18000 ,清华收集的一个评测集,涵盖了仇恨言论、偏见歧视言论、犯罪违法、隐私、伦理道德等八大类别,包括细粒度划分的 40 余个二级安全类别。 JioNLP 个人测评:评测数据集:https://github.com/dongrixinyu/JioNLP/wiki/LLM 评测数据集 ,考察 LLM 模型对人类用户的帮助效果、辅助能力,可否达到一个【智能助手】的水平。 EduTEP:华东师范大学计算机科学与技术学院 EduNLP 团队组建智能教育算法测评小组,开发智能教育可信评测平台(EduTEP)。EduTEP 对比多种大模型在教育领域中的综合性能,针对 K12 教育发布首个 CALMEDU 评测框架与 CALMEDU001 评测报告。 娱乐资本论:从实用角度出发,分析大模型在各种文本应用场景,如小红书带货文案、抖音直播文案、知乎问答、小说创作、公关信写作、歌词生成、淘宝商品详情页文案、广告宣传片文案、剧本创意策划等方面的综合表现。 全面的模型测评网站:https://lmsys.org/blog/20230503arena/
2025-02-15
你是一个专业的AI工具测评师,用过市场上的所有AI工具,请制作一个PPT,介绍一个如何使用AI进行办公提效,并根据你的经验,对使用过的AI工具进行分类对比和测评,对比结果以表格形式呈现,需要包括是否收费,国内是否可用,主要面向对象,优点和缺点,突出功能等
以下是为您制作的关于如何使用 AI 进行办公提效以及 AI 工具分类对比和测评的 PPT 内容: 幻灯片 1:封面 标题:AI 助力办公提效及工具测评 幻灯片 2:目录 AI 在办公中的应用场景 常用 AI 办公工具分类对比 各工具的详细测评 幻灯片 3:AI 在办公中的应用场景 辅助文档处理 自动生成会议记录 办公文件分类管理 语言学习纠错 幻灯片 4:常用 AI 办公工具分类对比(表格形式) |工具名称|是否收费|国内是否可用|主要面向对象|优点|缺点|突出功能| |||||||| |平安好医生 APP|部分功能收费|是|医疗工作者和患者|辅助医生诊断,提高准确性|可能存在误判|辅助疾病诊断| |腾讯会议|部分高级功能收费|是|企业和个人|自动生成会议记录,方便回顾|语音识别准确性有待提高|会议记录生成| |字体管家 APP|部分字体收费|是|设计和文字工作者|生成多种书法字体|字体版权问题|书法字体生成| |醒图 APP|部分功能收费|是|摄影爱好者|提供构图建议,提升照片质量|对复杂场景的建议有限|摄影构图建议| |游戏内商城推荐功能|部分游戏收费|是|游戏玩家|根据需求推荐道具|推荐的精准度因人而异|游戏道具推荐| |彩云天气分时预报|部分功能收费|是|出行人群|提供精准分时天气预报|天气变化的不确定性|分时天气预报| |医渡云病历分析系统|收费|是|医疗机构|分析病历辅助诊断|数据安全性|病历分析| |讯飞听见会议总结功能|部分功能收费|是|企业和个人|自动总结会议发言内容|对复杂语言理解有限|会议发言总结| |书法临摹软件|部分功能收费|是|书法爱好者|提供临摹指导和评价|对不同书法风格的适应性|临摹辅助| |下厨房口味调整功能|部分功能收费|是|烹饪爱好者|根据反馈调整菜谱口味|口味调整的局限性|菜谱口味调整| |英语流利说纠错功能|部分课程收费|是|语言学习者|帮助纠正错误|对口语表达的纠错有限|语言学习纠错| |豆瓣电影剧情分析工具|免费|是|电影爱好者|提供剧情深度解读|分析的主观性|剧情分析| |腾讯文档分类功能|部分高级功能收费|是|企业和个人|自动分类办公文件|分类准确性依赖数据|文件分类| |美丽修行定制方案功能|部分功能收费|是|美容护肤人群|定制个性化护肤方案|方案的普适性|护肤方案定制| 幻灯片 5:总结 强调 AI 在办公领域的重要性和潜力 鼓励根据实际需求选择合适的 AI 工具提升办公效率 以上 PPT 内容仅供参考,您可以根据具体需求进行修改和完善。
2025-02-10
模型能力测评方法有哪些,比如ragas这种
以下是一些常见的模型能力测评方法: 1. 从模型角度(generation): 回答真实性:评估模型结果的真实性,减少模型幻觉。 回答相关度:衡量结果与问题的相关性,避免南辕北辙。 2. 从检索角度(retrieval): 召回率(recall):考查相关信息在返回的检索内容中的包含程度,越全越好。 准确率(precision):评估返回的检索内容中有用信息的占比,越多越好。 RAGAS 是一个用于 RAG 评估的知名开源库,您可以通过了解和使用。 RAG 具有一定的优势和局限性: 优势: 能够解决大语言模型技术中输出结果的不可预测性、知识的局限性、幻觉问题、数据安全性等问题。 可以让大模型从权威的、预先确定的知识来源中检索、组织相关信息,更好地控制大模型生成的文本输出,并且用户可以深入了解 LLM 如何生成最终的结果。 可以和微调结合使用。 局限性: 适合打造专才,不适合打造通才,不适合为模型提供通用领域知识。 难以让模型保持稳定的风格或结构输出,降低 token 消耗等,需要使用微调技术解决。
2025-02-07
模型能力测评方法
以下是关于模型能力测评方法的相关内容: 测评机制: 测评目标:测评三家国产大模型,以同组提示词下 ChatGPT 4.0 生成的内容做对标参照,包括智谱清言(https://chatglm.cn/main/detail)、文心一言 4.0(https://yiyan.baidu.com/)、Kimi Chat(https://kimi.moonshot.cn/chat/)。 能力考量:包括复杂提示词理解和执行(结构化提示词)、推理能力(CoT 表现)、文本生成能力(写作要求执行)、提示词设计能力(让模型设计提示词)、长文本归纳总结能力(论文阅读)。 测评轮次: 第一轮:复杂提示词理解和执行,包括 Markdown+英文 title 提示词测试、Markdown+中文 title 提示词测试、中文 title+自然段落提示词测试。 第二轮:推理能力(CoT 表现),逐步推理任务,遍历 3 个不同类型任务和 4 个大模型。 第三轮:文本生成能力(写作要求执行),根据提示词生成文本任务,遍历 3 个不同类型任务和 4 个大模型。 第四轮:提示词设计能力(让模型设计提示词),按提示词要求生成提示词,逐步推理任务,遍历 3 个不同类型任务和 4 个大模型。 第五轮:长文本归纳总结能力(论文阅读),按提供的长文本(上传或在线)进行归纳总结,逐步推理任务,遍历 3 个不同类型任务和 4 个大模型。 测评过程: 用 5 组提示词分别测试模型的复杂提示词执行能力、推理能力、文本生成能力、用提示词设计提示词的能力、长文本归纳总结能力。每一轮中提示词和问题相同,观察国产三家模型的生成结果,并以 ChatGPT 4.0 生成的内容做对照参考。需要注意的是,本测评是主观需求主观视角,不具有权威性。
2025-02-07
模型测评
以下是关于模型测评的相关内容: Llama2 模型评测:为了解其中文问答能力,筛选了具有代表性的中文问题进行提问,测试了 Meta 公开的 Llama27BChat 和 Llama213BChat 两个版本,未做任何微调和训练。测试问题涵盖通用知识、语言理解等八个类别,使用特定 Prompt 进行测试,测试结果见相应文档。发现该模型对于中文问答的对齐效果一般,基于中文数据的训练和微调十分必要。 小七姐:文心一言 4.0、智谱清言、KimiChat 小样本测评:测评机制包括以同组提示词下 ChatGPT 4.0 生成的内容做对标参照,能力考量涵盖复杂提示词理解和执行、推理能力、文本生成能力、提示词设计能力、长文本归纳总结能力,测评轮次包括复杂提示词理解和执行、推理能力、文本生成能力、提示词设计能力、长文本归纳总结能力,每轮次均有不同的任务和模型测试次数。 斯坦福发布大模型排行榜 AlpacaEval:相对于人工标注,全自动化的 AlpacaEval 经济成本和时间成本低。从统计角度探讨了区分模型的评估数据,AlpacaEval 支持两种模式的模型评估方式,评测过程分为选择评估集并计算输出、计算 golden 输出、选择自动标注器并计算胜率三步。
2025-02-06
2024年度中文大模型基准测评报告
以下是关于 2024 年度中文大模型基准测评报告的相关信息: 2024 年 7 月 10 日: 《SuperCLUE:中文大模型基准测评 2024 年上半年报告》指出,2024 年上半年中文大模型技术取得显著进展,国内外模型差距缩小至 5%以内。国内开源模型如 Qwen272B 表现优异,超越众多闭源模型。端侧小模型发展迅速,落地可行性大幅提升。该报告通过多维度、多层次测评体系,全面评估了大模型的通用能力和专项能力,为行业发展提供了客观数据支持。同时也指出,尽管大模型在多领域展现潜力,但仍面临技术挑战和应用落地问题。 2024 年 11 月 8 日: SuperCLUE 团队发布的新一期《SuperCLUE:中文大模型基准测评 2024 年 10 月报告》中有四点核心发现:1)OpenAI 发布 o1 后,全球大模型竞争加剧;2)国内大模型第一梯队竞争激烈,持续迭代表现不俗;3)国内外大模型在不同任务上表现各有优势;4)端侧小模型表现惊艳。 此外,Sora:大型视觉模型的背景、技术、局限性和机遇综述【官方论文】的参考文献包括: T.Shen,R.Jin,Y.Huang,C.Liu,W.Dong,Z.Guo,X.Wu,Y.Liu,和 D.Xiong,“大型语言模型对齐:一项调查”,arXiv 预印本 arXiv:2309.15025,2023 年。 X.Liu,X.Lei,S.Wang,Y.Huang,Z.Feng,B.Wen,J.Cheng,P.Ke,Y.Xu,W.L.Tam,X.Zhang,L.Sun,H.Wang,J.Zhang,M.Huang,Y.Dong,和 J.Tang,“Alignbench:大型语言模型中文对齐的基准测试”,2023 年。 P.Christiano,J.Leike,T.B.Brown,M.Martic,S.Legg,和 D.Amodei,“基于人类偏好的深度强化学习”,2023 年。 T.Yu,Y.Yao,H.Zhang,T.He,Y.Han,G.Cui,J.Hu,Z.Liu,H.T.Zheng,M.Sun,和 T.S.Chua,“RLHFV:通过细粒度校正人类反馈实现可信赖的 MLLMs 行为对齐”,2023 年。 M.S.Jahan 和 M.Oussalah,“使用自然语言处理进行仇恨言论自动检测的系统综述。”,《神经计算》,第 126232 页,2023 年。 OpenAI,“Sora 安全。”https://openai.com/sorasafety,2024 年。
2024-12-27