要训练 AI 使其更精准地回答问题和分析趋势,可以从以下几个方面入手:
检索原理:
大模型生成回答: 最终全新的上下文被传递给大语言模型,大语言模型根据提供的信息回答问题。因为这个上下文包括了检索到的信息,所以相当于同时拿到了问题和参考答案,通过大语言模型的全文理解,生成准确和连贯的答案。
批判性思维与复杂问题解决: 批判性思维指分析、评估、推理并做出明智判断的能力,在 AI 时代尤为关键。培养批判性思维需要养成质疑习惯,通过辩论、逻辑训练、阅读反面意见等方式锻炼,注重逻辑推理和定量分析能力的培养。复杂问题解决与批判性思维密切相关,指在不确定情境下分析问题、设计解决方案的能力,往往需要综合运用多种思维技能,通过参与实际复杂项目、案例研究来提高经验,可利用 AI 作为资料提供者或头脑风暴助手,但关键在于人类自己的分析和决策过程。
纯强化学习: DeepSeek R1 引入纯强化学习,不依赖大量人类标注数据,而是让 AI 通过自我探索和试错来学习。在“冷启动”阶段,通过少量人工精选的思维链数据进行初步引导,建立符合人类阅读习惯的推理表达范式,随后主要依靠强化学习,在奖励系统的反馈下(包括准确率奖励和格式奖励),自主探索推理策略,不断提升回答的准确性,实现自我进化。纯强化学习有可能解锁新的人工智能水平,DeepSeek R1 更注重学习推理的底层策略,培养通用推理能力,实现跨领域的知识迁移运用和推理解答。
1.信息筛选与确认:2.首先,系统会对检索器提供的信息进行评估,筛选出最相关和最可信的内容。这通常涉及到对信息的来源、时效性和相关性进行验证。3.消除冗余:4.在多个文档或数据源中,可能会有重复的信息。系统需要识别和去除这些冗余内容,以防在生成回答时出现重复或相互矛盾的信息。5.关系映射:6.系统将分析不同信息片段之间的逻辑和事实关系,如因果、对比、顺序等。这有助于构建一个结构化的知识框架,使得信息在语义上更加连贯。7.上下文构建:8.将筛选和结构化的信息组织成一个连贯的上下文环境。这通常包括对信息进行排序、归类和整合,使其形成一个统一的叙述或解答框架。9.语义融合:10.在必要时,系统可能会进行语义融合,即合并意义相近但表达不同的信息片段,以减少语义上的重复并增强信息的表达力。11.预备生成阶段:12.最后,整合好的上下文信息被编码成适合生成器处理的格式,如将文本转化为适合输入到生成模型的向量形式。④、大模型生成回答1、生成器:最终全新的上下文被一起传递给大语言模型。随后,大语言模型(LLM)根据提供的信息来回答问题。因为这个上下文包括了检索到的信息,因此大语言模型相当于同时拿到了问题和参考答案,通过LLM的全文理解,最后生成一个准确和连贯的答案。
批判性思维(Critical Thinking)指的是分析、评估、推理并做出明智判断的能力。这在AI泛滥的信息时代显得尤为关键。正如澎湃新闻所言:“拥有批判性思维的人,能够深入分析问题,提炼出新颖见解,以及权衡不同解决方案优劣。批判性思维可以帮助我们判断人工智能技术的判断是否合理。”AI提供了海量信息,但孰真孰假、孰优孰劣,还得靠人类理性去辨析。培养批判性思维,需要我们养成质疑的习惯,见到观点先问凭什么、有没有证据支撑?教育上,可以通过辩论、逻辑训练、阅读反面意见等方式来锻炼这种思维。也要注重逻辑推理和定量分析能力的培养,比如学习基础的统计学、逻辑学知识,懂得如何从数据和论证结构上挑漏洞。复杂问题解决(Complex Problem Solving)与批判性思维密切相关,指在不确定情境下分析问题、设计解决方案的能力。这往往需要综合运用多种思维技能:比如先用批判性思维拆解问题,找出关键瓶颈,再发挥创造力想出方案,最后用逻辑和数据验证方案可行性。AI在这里能帮忙提供信息和模拟,但是提出问题和综合决策的过程仍需要人来主导。我们可以通过参与实际复杂项目、案例研究来提高解决复杂问题的经验。一个行之有效的方法是刻意接触一些开放性问题(没有标准答案的难题),练习从不同角度制定方案。例如社会问题、商业策略、科研难题等都可以作为练习素材。在这个过程中,不妨使用AI作为资料提供者或头脑风暴助手,但决不要让AI直接给出最后答案——因为关键在于我们自己的分析和决策过程。如果能坚持这么做,就能避免“大脑变懒”,反而利用AI不断锻炼出更强的分析推理能力。正如世界经济论坛的报告也指出,到2025年最重要的技能里分析性思考和创造性思维仍排名前列,这说明即便AI再强,这些人类高阶思维能力依然无可替代且需求上升。
而DeepSeek R1则引入了纯强化学习(RL),不依赖大量的人类标注数据,而是让AI通过自我探索和试错来学习:DeepSeek R1在“冷启动”阶段,仅通过少量(数千条)人工精选的思维链数据进行初步引导,建立起符合人类阅读习惯的推理表达范式。随后,便主要依靠强化学习,在奖励系统的反馈下(只对结果准确率与回答格式进行奖励),自主探索推理策略,不断提升回答的准确性,实现自我进化。准确率奖励:用于评估AI提供的最终答案是否正确,以此为AI提供答案准确度的反馈。格式奖励:强制结构化输出,让模型把思考过程置于<think></think>标签之间,以便人类观察模型的推理过程。正如Alpha Zero只训练了三天,就以100比0的战绩完胜Alpha Go Lee(战胜李世石的版本)。Alpha Go(老):监督学习+强化学习。学习人类棋谱,也更接近人类职业棋手的风格,继承了人类的局限。Alpha Zero(新):完全摒弃人类数据的纯强化学习。从零开始自我博弈,不受限于人类经验,具有创造性的下棋风格。大模型AI在纯强化学习(RL)下同样也展现出了超出人类研究员想象的成长潜力:“我们只需要简单的为其提供正确的激励措施,它就会自主开发高级的问题解决策略,RL有可能解锁新的人工智能水平。”*只不过Alpha Zero的强化学习更加专精棋类。而DeepSeek R1在训练中,更注重学习推理的底层策略,培养通用推理能力,使其能够实现跨领域的知识迁移运用和推理解答。