Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

AI 衡量一个AI任务的指标是不是有准确率 和召回率 分别啥区别

Answer

在 AI 任务中,常见的衡量指标包括准确率和召回率。准确率(Accuracy)衡量的是模型预测正确的比例。而召回率主要用于信息检索等任务,衡量的是模型能够正确检索出相关内容的比例。

在摘要任务中,一般用 ROUGE 指标,其中 ROUGE-2 是把两个 sequence 按 2-gram 的方式做切分做频次统计,然后计算 pred 和 gt 之间的召回率。

对于不同的 AI 任务,还有其他多种指标,如在 NLP 中:

  • 信息检索任务常用 NDCG@K 指标,核心衡量最相关文档是否排序足够靠前。
  • 文本生成任务可用 Bits-per-Byte 指标。

针对二分类任务,一般用 ECE 指标(Expected Calibration Error)来度量模型输出概率 p 时,最终正确率真的为 p 的一致性。

此外,还有一些其他方面的评估指标,如不确定性(Calibration and Uncertainty)、鲁棒性(Robustness,包括 invariance 和 equivariance)、公平性(Fairness)、偏见程度(Bias and stereotypes)、有毒性(Toxicity)等。

传统的 RAG 解决方案在检索效率和准确性上存在问题,Anthropic 通过“上下文嵌入”解决了部分问题,但 RAG 的评估仍待解决,研究人员正在探索新的方法,如 Ragnarök。

在提示词设计方面,Claude 官方手册提出“链式提示”的方法理念,将复杂任务拆解为多个步骤,具有准确率高、清晰性好、可追溯性强等好处。ChatGPT 官方手册也有类似理念,同时还有相关论文如在 ICLR 2023 上发表的提出 Least-to-Most Prompting 提示词策略的论文,在文本理解和生成场景中表现优秀。

Content generated by AI large model, please carefully verify (powered by aily)

References

(2)初探LLM基座模型

从上一篇可以知道,entropy-like指标(如cross-entropy指标)常常运用在训练过程中,表征模型的收敛情况,同时也可以用于测试集的简单评估(如Perplexity指标等)。但对于丰富复杂的下游应用来说,这几个指标远远不能满足需求。如果想从第一性原理出发推导出所有指标,这并不现实。下面参考HELM论文的中内容,简单列举了NLP中的指标,大家不必深究,有个简单印象即可。正确性Accuracy。信息检索任务。NDCG@K指标,核心衡量最相关文档是否排序足够靠前的指标。摘要任务。一般用ROUGE指标,ROUGE是个指标体系,有4个大类,其中最简单的为2-gram的方式,即ROUGE-2。就是把两个sequence按2-gram的方式做切分做频次统计,然后计算pred和gt之间的召回率文本生成任务。Bits-per-Byte,类似于Perplexity指标不确定性Calibration and Uncertainty。针对二分类任务,一般用ECE指标(Expected Calibration Error)。核心是度量模型输出概率p的时候,最终正确率真的为p的一致性。鲁棒性Robustness。分为两种invariance。加入不改变语义的噪声,如果大小写变换,加入错别字typo等equivariance。利用contrast set,做语义改变,例如修改关键单词和短语把一个正面的评论改成负面的评论公平性Fairness。看模型输出是否公平,例如把性别和人种等换一下,看输出是否有变化偏见程度Bias and stereotypes。看模型有没有偏见和刻板的印象,例如看模型对亚洲人是否存在“学习好并且会谈钢琴”的偏见有毒性Toxicity。看模型输出是否有毒。

2024人工智能报告|一文迅速了解今年的AI界都发生了什么?

传统的RAG解决方案通常会以滑动窗口的方式,每次创建256个令牌的文本片段。这使得检索更加高效,但准确性明显降低。Anthropic通过“上下文嵌入”解决了这个问题,其中提示语指示模型生成解释文档中每个段落上下文的文本。他们发现,这种方法导致前20个检索失败率的减少为35%(5.7%→3.7%)。**但RAG的评估仍待解决,**研究人员正在探索新的方法,例如Ragnarök,它通过比较一对系统,引入了一个基于网络的人类评估竞技场。这解决了评估RAG质量的挑战,超越了传统的自动化指标;同时Researchy Questions提供了大量复杂、多方面的需要深入研究和分析才能回答的问题,这些问题是来自真实用户的查询。

一泽 Eze:样例驱动的渐进式引导法——利用 AI 高效设计提示词 ,生成预期内容

[Chain complex prompts for stronger performance-Anthropic](https://docs.anthropic.com/en/docs/build-with-claude/prompt-engineering/chain-prompts)Claude官方手册中,提出“链式提示”的方法理念,推荐将复杂的任务拆解为多个步骤,一步步指引AI完成子任务。好处:1.Accuracy:Each subtask gets Claude’s full attention,reducing errors.准确率:每个子任务都能得到Claude的全神贯注,减少错误。2.Clarity:Simpler subtasks mean clearer instructions and outputs.清晰性:更简单的子任务意味着更清晰的指令和输出。3.Traceability:Easily pinpoint and fix issues in your prompt chain.可追溯性:轻松定位和修复提示链中的问题。[Strategy:Split complex tasks into simpler subtasks-Open AI](https://platform.openai.com/docs/guides/prompt-engineering/strategy-split-complex-tasks-into-simpler-subtasks)ChatGPT官方手册中,也提出“将复杂的任务分解成更简单的子任务”的理念。[Least-to-Most Prompting Enables Complex Reasoning in Large Language Models](https://arxiv.org/pdf/2205.10625)如果你恰巧想要更加深入的研究,我推荐你阅读这篇已在ICLR 2023上发表的论文。它提出了Least-to-Most Prompting(LtM-最少到最多提示)提示词策略。LtM同样通过将复杂问题分解成一系列更简单的子问题,然后依次解决这些子问题,从而实现对复杂任务的推理。在文本理解和文本生成场景中,表现出了优秀的效果。

Others are asking
AI文生视频
以下是关于文字生成视频(文生视频)的相关信息: 一些提供文生视频功能的产品: Pika:擅长动画制作,支持视频编辑。 SVD:Stable Diffusion 的插件,可在图片基础上生成视频。 Runway:老牌工具,提供实时涂抹修改视频功能,但收费。 Kaiber:视频转视频 AI,能将原视频转换成各种风格。 Sora:由 OpenAI 开发,可生成长达 1 分钟以上的视频。 更多相关网站可查看:https://www.waytoagi.com/category/38 。 制作 5 秒单镜头文生视频的实操步骤(以梦 AI 为例): 进入平台:打开梦 AI 网站并登录,新用户有积分可免费体验。 输入提示词:涵盖景别、主体、环境、光线、动作、运镜等描述。 选择参数并点击生成:确认提示词无误后,选择模型、画面比例,点击「生成」按钮。 预览与下载:生成完毕后预览视频,满意则下载保存,不理想可调整提示词再试。 视频模型 Sora:OpenAI 发布的首款文生视频模型,能根据文字指令创造逼真且充满想象力的场景,可生成长达 1 分钟的一镜到底超长视频,视频中的人物和镜头具有惊人的一致性和稳定性。
2025-04-20
Ai在设备风控场景的落地
AI 在设备风控场景的落地可以从以下几个方面考虑: 法律法规方面:《促进创新的人工智能监管方法》指出,AI 的发展带来了一系列新的安全风险,如对个人、组织和关键基础设施的风险。在设备风控中,需要关注法律框架是否能充分应对 AI 带来的风险,如数据隐私、公平性等问题。 趋势研究方面:在制造业中,AI Agent 可用于生产决策、设备维护、供应链协调等。例如,在工业设备监控与预防性维护中,Agent 能通过监测传感器数据识别异常模式,提前通知检修,减少停机损失和维修成本。在生产计划、供应链管理、质量控制、协作机器人、仓储物流、产品设计、建筑工程和能源管理等方面,AI Agent 也能发挥重要作用,实现生产的无人化、决策的数据化和响应的实时化。
2025-04-20
ai视频
以下是 4 月 11 日、4 月 9 日和 4 月 14 日的 AI 视频相关资讯汇总: 4 月 11 日: Pika 上线 Pika Twists 能力,可控制修改原视频中的任何角色或物体。 Higgsfield Mix 在图生视频中,结合多种镜头运动预设与视觉特效生成视频。 FantasyTalking 是阿里技术,可制作角色口型同步视频并具有逼真的面部和全身动作。 LAM 开源技术,实现从单张图片快速生成超逼真的 3D 头像,在任何设备上快速渲染实现实时互动聊天。 Krea 演示新工具 Krea Stage,通过图片生成可自由拼装 3D 场景,再实现风格化渲染。 Veo 2 现已通过 Gemini API 向开发者开放。 Freepik 发布视频编辑器。 Pusa 视频生成模型,无缝支持各种视频生成任务(文本/图像/视频到视频)。 4 月 9 日: ACTalker 是多模态驱动的人物说话视频生成。 Viggle 升级 Mic 2.0 能力。 TestTime Training在英伟达协助研究下,可生成完整的 1 分钟视频。 4 月 14 日: 字节发布一款经济高效的视频生成基础模型 Seaweed7B。 可灵的 AI 视频模型可灵 2.0 大师版及 AI 绘图模型可图 2.0 即将上线。
2025-04-20
ai视频教学
以下是为您提供的 AI 视频教学相关内容: 1. 第一节回放 AI 编程从入门到精通: 课程安排:19、20、22 和 28 号四天进行 AI 编程教学,周五晚上穿插 AI 视频教学。 视频预告:周五晚上邀请小龙问露露拆解爆火的 AI 视频制作,视频在视频号上有大量转发和播放。 编程工具 tree:整合多种模型,可免费无限量试用,下载需科学上网,Mac 可拖到文件夹安装,推荐注册 GitHub 账号用于代码存储和发布,主界面分为工具区、AI 干活区、右侧功能区等。 网络不稳定处理:网络不稳定时尝试更换节点。 项目克隆与文件夹:每个项目通过在本地新建文件夹来区分,项目运行一轮一轮进行,可新建会话,终端可重开。 GitHub 仓库创建:仓库相当于本地项目,可新建,新建后有地址,可通过多种方式上传。 Python 环境安装:为方便安装提供了安装包,安装时要选特定选项,安装后通过命令确认。 代码生成与修改:在 tree 中输入需求生成代码,可对生成的代码提出修改要求,如添加滑动条、雪花形状、颜色等,修改后审查并接受。 2. AI 视频提示词库: 神秘风 Arcane:Prompt:a robot is walking through a destroyed city,,League of Legends style,game modelling 乐高 Lego:Prompt:a robot is walking through a destroyed city,,lego movie style,bright colours,block building style 模糊背景 Blur Background:Prompt:a robot is walking through a destroyed city,,emphasis on foreground elements,sharp focus,soft background 宫崎骏 Ghibli:Prompt:a robot is walking through a destroyed city,,Spirited Away,Howl's Moving Castle,dreamy colour palette 蒸汽朋克 Steampunk:Prompt:a robot is walking through a destroyed city,,fantasy,gear decoration,brass metal robotics,3d game 印象派 Impressionism:Prompt:a robot is walking through a destroyed city,,big movements
2025-04-20
ai写程序
以下是关于使用 AI 写程序的相关内容: 1. 对于技术纯小白: 从最基础的小任务开始,让 AI 按照最佳实践写一个 say hello 的示例程序,并解释每个文件的作用及程序运行的逻辑,以学会必备的调试技能。 若学习写 chrome 插件,可让 AI 按照最佳实践生成简单的示范项目,包含全面的典型文件和功能,并讲解每个文件的作用和程序运行的逻辑。若使用 o1mini,可在提示词最后添加生成创建脚本的要求,并请教如何运行脚本(Windows 机器则是 create.cmd)。 2. 明确项目需求: 通过与 AI 的对话逐步明确项目需求。 让 AI 帮助梳理出产品需求文档,在后续开发时每次新起聊天将文档发给 AI 并告知在做的功能点。 3. 在独立游戏开发中的经验: 单独让 AI 写小功能没问题,但对于复杂的程序框架,可把不方便配表而又需要撰写的简单、模板化、多调用 API 且牵涉小部分特殊逻辑的代码交给 AI。 以 Buff 系统为例,可让 AI 仿照代码写一些 Buff。但目前 Cursor 生成复杂代码需要复杂的前期调教,ChatGPT 相对更方便。 教 AI 时要像哄小孩,及时肯定正确的,指出错误时要克制,不断完善其经验。 4. 相关资源和平台: AI 写小游戏平台:https://poe.com/ 图片网站:https://imgur.com/ 改 bug 的网站:https://v0.dev/chat 国内小游戏发布平台:https://open.4399.cn/console/ 需要注意的是,使用 AI 写程序时,对于技术小白来说,入门容易但深入较难,若没有技术背景可能提不出问题,从而影响 AI 发挥作用。
2025-04-19
学AI上钉钉
以下是在钉钉上学 AI 的相关内容: 从 AI 助教到智慧学伴的应用探索: 登录钉钉客户端,在右上角依次选择钉钉魔法棒、AI 助理、创建 AI 助理。进入创建 AI 助理页面后,填写 AI 助理信息,设置完成即可创建成功。 AI 领导力向阳乔木:未提及具体的在钉钉上学 AI 的操作方法。 基于 COW 框架的 ChatBot 实现步骤: 创建应用: 进入,登录后点击创建应用,填写应用相关信息。 点击添加应用能力,选择“机器人”能力并添加。 配置机器人信息后点击发布,发布后点击“点击调试”,会自动创建测试群聊,可在客户端查看。点击版本管理与发布,创建新版本发布。 项目配置: 点击凭证与基础信息,获取 Client ID 和 Client Secret 两个参数。 参考项目,将相关配置加入项目根目录的 config.json 文件,并设置 channel_type:"dingtalk",注意运行前需安装依赖。 点击事件订阅,点击已完成接入,验证连接通道,会显示连接接入成功。 使用:与机器人私聊或将机器人拉入企业群中均可开启对话。
2025-04-19
如何调试智能体回答问题准确率
调试智能体回答问题准确率可以参考以下方法: 1. 从问题场景出发:明确活动为问答对话场景,考验智能体对问题的理解和准确回答能力,真实对话场景中一般以完整句子回复。 2. 具体交流技巧:与大语言模型交流时尽量具体、丰富、少歧义,多说有用的信息。 3. 测试方法:可使用弱智吧问题对 LLM 进行测试,评价提示词的生成效果。 4. 行业案例参考: 服务和业务助手:关注回答准确率、数据覆盖范围,具备丰富的文档/多媒体/数据库支持、多数据源打通、文档 Meta 信息增强、搜索过滤、大模型召回判定等功能。 个人助理:关注回答准确率、业务数据关联性、人设契合度、多模态,通过 Prompt 优化、多模态数据上传、互联网搜索、音频/视频交互等方式提升。 多模态文件交互和数据处理:关注成本、延迟、多场景适配度,可进行自定义文件解析设置、视觉解析增强、企业级数据管理。 例如在服务和业务助手方面,内部业务助手可使用企业内部规章制度等构建知识库进行内部知识问答,通过复杂文档解析视觉增强来提供更好的文档理解。在医疗助手/法律助手/智能导购等场景,构建领域内知识库,结合规则性和智能性进行相似度阈值判定和大模型智能分析,减少数据混淆和模型幻觉问题,但判定速度略慢且有额外大模型调用费用,适合高度定制化和智能化搜索服务场景。
2025-03-08
文生图如何提高字在图中的准确率
要提高文生图中字在图中的准确率,可以从以下几个方面入手: 1. 数据准备: 对于中文文字的生成,Kolors从两个方面准备数据。一是选择 50000 个最常用的汉字,机造生成了一个千万级的中文文字图文对数据集,但机造数据真实性不足。二是使用 OCR 和 MLLM 生成海报、场景文字等真实中文文字数据集,大概有百万量级。 Hugging 和英特尔发布了提高文生图模型空间一致性的方案,包括一个详细标注了空间关系的 600 万张图片的数据集,模型和数据集都会开源。 2. 模型能力: DALLE 3 和 SD3 已经有了很强的英文文字生成能力,但目前还未有模型具有中文文字的生成能力。中文文字的生成存在困难,一是中文汉字的集合大且纹理结构复杂,二是缺少中文文字的图文对数据。 作者观察到,使用机造数据结合高质量真实数据后,中文文字生成能力的真实性大大提升,而且即使是真实数据中不存在的汉字的真实性也得到了提升。 3. 训练方法: 在包含大量物体的图像上进行训练,可以显著提高图像的空间一致性。 此外,在写文生图的提示词时,通常的描述逻辑是这样的:人物及主体特征(服饰、发型发色、五官、表情、动作),场景特征(室内室外、大场景、小细节),环境光照(白天黑夜、特定时段、光、天空),画幅视角(距离、人物比例、观察视角、镜头类型),画质(高画质、高分辨率),画风(插画、二次元、写实)。通过这些详细的提示词,能更精确地控制绘图。对于新手而言,还有一些功能型辅助网站来帮我们书写提示词,比如:http://www.atoolbox.net/ 、https://ai.dawnmark.cn/ 。还可以去 C 站(https://civitai.com/)里面抄作业。但要注意图像作者使用的大模型和 LORA,不然即使参数一样,生成的图也会截然不同。
2025-01-29
如何提高RAG应用中的准确率
以下是一些提高 RAG 应用准确率的方法: 1. 基于结构化数据来 RAG: 避免数据向量化和语义搜索的问题,直接利用原始数据和 LLM 的交互,提高准确率。因为结构化数据的特征和属性明确,能用有限标签集描述,可用标准查询语言检索,不会出现信息损失或语义不匹配的情况。 减少 LLM 的幻觉可能性,LLM 只需根据用户问题提取核心信息和条件,并形成标准查询语句,无需理解整个文档语义。 提高效率,省去数据向量化和语义搜索过程,直接使用标准查询和原始数据进行回复,且结构化数据的存储和更新更易更省空间。 增加灵活性,适应不同数据源和查询需求,只要数据是结构化的,就可用此方法进行 RAG。 2. 参考行业最佳实践,如 OpenAI 的案例: 从较低的准确率开始,尝试多种方法,标记哪些被采用到生产中。 通过尝试不同大小块的信息和嵌入不同内容部分,提升准确率。 采用 Reranking 和对不同类别问题特别处理的方法进一步提升。 结合提示工程、查询扩展等方法,最终达到较高的准确率,同时强调模型精调和 RAG 结合使用的潜力。 3. 深入了解 RAG 的基础概念: RAG 由检索器和生成器组成,检索器从外部知识中快速找到与问题相关的信息,生成器利用这些信息制作精确连贯的答案,适合处理需要广泛知识的任务,如问答系统,能提供详细准确的回答。
2024-11-08
目前语音转文字的AI工具有哪些,准确率怎样
目前常见的语音转文字的 AI 工具有以下几种: 1. GVoice:中文识别率优秀,少量错误可被 ChatGPT 正常理解和纠错,衔接流畅。 2. Reccloud:免费的在线 AI 字幕生成工具,可直接上传视频进行精准识别,能翻译并生成双语字幕,声称处理了 1.2 亿+视频,识别准确率接近 100%。 3. 绘影字幕:一站式专业视频自动字幕编辑器,支持 95 种语言,准确率高达 98%,可自定义字幕样式。 4. Arctime:能对视频语音自动识别并转换为字幕,支持自动打轴,支持 Windows 和 Linux 等主流平台及 SRT 和 ASS 等字幕功能。 5. 网易见外:国内知名语音平台,支持视频智能字幕功能,转换正确率较高,支持音频转写功能。 6. Ava:为聋人和重听者提供专业和基于 AI 的字幕(转录和说话人识别)。 7. Verbit:专业的基于 AI 的转录和字幕。 8. Otter:混合团队高效协作会议所需的工具。 9. Trint:音频转录软件,从语音到文本到魔法。 10. Rev:99%准确的字幕、转录和字幕服务。 11. Voiceitt:为语音不标准的人群提供的应用程序。 12. Deepgram.com:通过 AI 语音识别实现更快速、更准确的语音应用。 13. Fireflies.ai:会议的 AI 助手。 14. SoapBox:让孩子们的声音被听见的语音技术。 15. Amberscript:使用语音识别自动将音频和视频转换为文本和字幕的 SaaS 解决方案。 16. Speaksee:实时字幕记录面对面小组会议中的发言内容。 17. Speechmatics:理解每个声音的自主语音识别技术。 18. Sonix:支持 35 多种语言的自动转录。 需要注意的是,不同工具在不同场景和语言环境下的准确率可能会有所差异,您可以根据自己的具体需求选择适合的工具。
2024-09-23
请帮我推荐优化大模型+知识库的提示词技巧,重点是解决将知识库配置给大模型做RAG后,召回率不高或者不遵循指令。
以下是关于优化大模型+知识库的提示词技巧,以解决将知识库配置给大模型做 RAG 后召回率不高或者不遵循指令的问题: 首先,了解 LLM 应用性能优化的推荐路径: 1. 从 prompt 工程开始把 LLM 应用快速跑起来。 2. 若遇到表现性能不足等问题,如结构化提示词占用上下文过长,可尝试精简提示词长度;若指令遵循度不足,则加强指令约束。 3. 若提示工程无法满足要求,分析问题,若缺失知识,先简单做知识库 RAG。 4. RAG 之后若想让模型表现更收敛更稳定,尝试微调模型。 5. 微调模型后,若模型表现变好,使用更多高级 RAG 技术,构造输入输出样本,进一步用于微调模型,构建正向迭代循环。 需要注意的是,该路径有个隐藏前提:该 LLM 应用依赖外部知识,需要 RAG。若不需要外部知识,则不需要使用 RAG,可以直接进入 prompt 工程与微调的正向迭代循环。 对于 RAG 流程中的检索有用信息部分,有以下改进策略: 1. 优化索引: 按照子部分索引:将文本块再拆分为较小的文本(例如单句),然后对这些小块进行多次索引。适用于有多个主题、有冲突信息的复杂长文本信息,确保与查询相关的上下文。 按照文本框可以回答的问题索引:让 LLM 生成与拆分的文本块相关的假设性问题,并将这些问题用于索引,适用于用户没有提出非常明确的问题,减少模糊性。 按照文本块的摘要进行索引:适用于文本框中有多余信息或者与用户查询无关细节的情况。 2. 重排 rerank:搜到相似信息后,选择策略,大部分场景下选择最相似的即可。 在从知识库中检索出内容后利用大模型进行总结时,有两点需要注意: 1. 优化 Prompt,但此处不展开,可参考相关文章。 2. 选择合适的大模型,考虑上下文长度、聪明度和生成速度。若回答场景是很长的文档,可能更关注上下文长度;大多数情况下,大模型越聪明,生成速度可能越慢。
2025-03-12
rag的召回策略
RAG(检索增强生成)的召回策略主要包括以下方面: 1. 检索是 RAG 框架的核心组件之一,其质量和效率对系统性能至关重要。 检索策略:需确定何时进行检索及如何选择要检索的信息,可根据任务和上下文调整。 检索粒度:能以不同粒度进行,选择取决于任务要求和数据结构。 检索方法:包括基于关键字、实体检索、自然语言查询和知识图检索等,各有适用情境和优势。 检索效率:在实时应用中,优化检索过程以降低延迟和资源消耗是重要任务。 外部数据源:可从多种外部数据源检索,选择合适的数据源对获取准确丰富信息很关键。 2. 随着 RAG 的发展,出现了自适应的检索(也称作主动检索),其与 LLM Agent 核心思想相似。 RAG 系统可主动判断检索时机和结束流程,输出最终结果。 根据判断依据,可分为 Promptbase 和 Tuningbase 两种方式。 Promptbase 方式通过 Prompt Engineering 让 LLM 控制流程,如 FLARE 案例。 Tuningbase 方式对 LLM 微调使其生成特殊 token 来触发检索或生成,如 SelfRAG 案例。 3. 在 RAG 系统开发中,为解决文档整合限制等问题,可采取以下措施: 调整检索策略:LlamaIndex 提供多种从基础到高级的检索策略,如基础检索、高级检索与搜索、自动检索、知识图谱检索、组合/层级检索等,以适应不同需求和场景,提高检索精确度和有效性。 微调嵌入技术:对开源嵌入模型进行微调是提高检索准确度的有效手段,LlamaIndex 提供了详细的微调指南和示例代码片段。
2025-01-23
精准率和召回率有什么区别
精准率和召回率是常见的评估指标,主要区别如下: 精准率(Precision):指返回的检索内容中有用信息的占比。也就是说,在所有被检索出来的内容中,真正有用的信息所占的比例。其计算公式为:精准率 = 真正例 / (真正例 + 假正例)。 召回率(Recall):指相关信息被正确预测出来的比例,即真正例在所有实际相关信息中的占比。其计算公式为:召回率 = 真正例 / (真正例 + 假反例)。 例如,在一个文档检索的场景中,精准率体现的是检索出的文档中有多少是真正有用的;召回率则体现的是相关的文档有多少被包含在返回的检索结果里。 总的来说,精准率关注的是检索结果的准确性,而召回率关注的是检索结果的完整性。
2025-01-23
在企业中如何衡量大家的AI能力
在企业中衡量员工的 AI 能力可以从以下几个方面入手: 1. 基础 AI 应用能力: 提示词工程:会用合适的方式提问,引导 AI 输出高质量答案。 内容评估能力:能够判断 AI 生成的内容是否靠谱,并加以优化。 熟练使用 AI 工具:能快速上手各类 AI 工具,如 DeepSeek、Cursor、Midjourney 等。 2. 高级 AI 应用能力: 任务拆解能力:知道哪些工作适合用 AI,哪些环节需要人工把控。 业务场景应用能力:能在实际工作中灵活运用 AI,提高效率。 3. 加分项: 快速学习能力:能跟上 AI 技术的快速迭代,主动学习新工具、新方法。 不同领域的考察方式有所不同: 1. 软件开发:让候选人现场用 AI 工具(如 Cursor、Windsurf)解决编程问题,观察其如何向 AI 提问、如何判断 AI 代码的正确性以及如何调整 AI 生成的代码。 2. 市场营销:让候选人用 AI 生成营销文案,并询问为什么用这个 Prompt,观察其是否能调整提示词、判断 AI 生成内容的质量。 3. 产品管理:让候选人用 AI 解析一份用户反馈,提炼产品改进建议,考察其是否能验证 AI 结论的准确性,并提出优化方案。 面试时,可以问以下 AI 相关问题快速判断候选人是否真正懂 AI: 1. “你遇到过 AI 给出明显错误答案的情况吗?你是怎么处理的?” 2. “最近有没有新出的 AI 工具或功能是你学习并实际应用的?能举个例子吗?” 3. “如果 AI 生成的内容和你的预期不符,你会怎么优化它?” 4. “你觉得 AI 目前有哪些无法解决的业务难题?遇到这些问题你会怎么做?” 此外,周鸿祎提到正在做“含 AI 量”的指标,包括公司、部门和员工层面。含 AI 量的评估不仅看硬件投入,更重要的是对 AI 的学习、讨论,现有业务的改造,产品是否用 AI 驱动,员工消耗 Token 的数量,参加 AI 培训课程、订阅 AI 账号等情况。
2025-04-09
AI 算力 衡量
AI 算力的衡量可以从以下几个方面考虑: 1. 神经网络的参数(神经元的数量和连接)规模:人工神经网络与人脑的大小仍有数量级的差距,但在某些哺乳动物面前已具备一定竞争力。 2. 单位计算的成本:我们每花一美元所能得到的计算能力一直在呈指数级增长,现在大规模基础模型所用到的计算量每 3.5 个月就会翻一番。 3. 提升算力的方案: 继续在硅基上发展,如 3D 堆叠形态等,但需要更好的散热。 材料创新,如硅基掺杂、石墨烯片等。 计算原理的创新,如量子计算,但目前距离商用还有不少理论和技术需要突破。 4. 传输速度:高速网络会进一步进化,片间链接、片上内存等技术都会有明显进展。 5. 能耗和散热问题:高温超导技术是解决能耗和散热问题的关键。 此外,对于基础模型的治理,有人认为衡量计算能力可以作为一种潜在工具。但也需要探讨其他更有效的治理方法。
2024-10-12