大模型推理 preview 通常指的是一种新的大模型功能或特性。以 OpenAI 的 o1-preview 为例:
学会的太多了......而且这个思维链也是足够复杂的!我大概的看了一下,这里有CoT嵌套、反思、有多项示例、似乎还有混合了决策树的逻辑在里边....对于这部分,碍于篇幅,我会单独开一篇内容和大家单独讨论。不过,想去尝鲜学习的朋友直接跳转传送门:https://openai.com/index/learning-to-reason-with-llms/好了,让我们继续。我们都知道,模型是一个黑盒,这不是字面上的,而是真切的、现实的。在大模型诞生初期,它让我们既兴奋又害怕,而害怕的其中原因就来自于它对结果生产的不确定性。专业一点我们叫它”幻觉“。而让模型展现思维链路的最主要价值就是:能够让我们观察到模型的完整推理过程,从而更好、更稳健的推理出最终结果。不管从哪个方面来说,这都是目前最可行且最有效的对齐策略。而OpenAI这次同样也抓住了机会,将模型安全性拉上了一个新的台阶,请看下图整体来看,o1-preview在各种安全测试项目中都优于4o模型,尤其是在越狱测试中大幅度领先。如果你做过越狱攻击就会知道,一般的越狱指令一般都是给模型一个大的前提假设(比如让其认为自己身处的不是现实世界),然后再通过一系列在“虚幻世界”的模拟假设来达到攻破其安全防御的目的。但显然,有更高级的CoT加入,模型的逻辑思维变得更强,对这种“金蝉脱壳”的技术更加有辨别能力。所以它能够更好抵御越狱攻击也是理所应当的事情。不过,硬币总有两面。首先,这种CoT技术目前并不十分成熟,出于安全的考虑,在实际使用中,OpenAI隐藏了模型的思考过程,他们也在新Page中阐明了这个观点:“不希望用户看到错误的或不完整的思考链路,但努力在答复中复现一些关键过程,以提高用户的体验”。
大语言模型基础的能力有四个方面:语言理解和生成、世界知识、工具调用以及逻辑推理能力(包括数学、Coding、推理等理科能力),o1给大模型带来了自我反思与错误修正能力,如果你分析过OpenAI官网给出的Hidden COT例子的话,会发现它确实能意识到之前犯错了,并能自动进行修正。这种自我错误识别与修正对于LLM能做长链思考及解决复杂任务非常重要,而这个能力在教学场景下就会显得尤为珍贵,正是因为在o1上看到了LLM具备了慢思考和自我纠正的能力才能使得AI和用户成为“学伴”的可能性不再是天方夜谭。同时在LLM不擅长的知识更新和数学计算层面,结合LLM调用外部搜索引擎和python计算器的能力,可以给专注于逻辑推理的强思考能力型大模型释放出更强的解决问题的能力,而这一点正是我们当下的AI赋能教育场景中特别期盼的能力点。尽管目前o1在解决复杂数学推理问题的过程中不像openAI官方宣传的给人感觉特别神奇,逻辑推理的过程也非常的神秘,只有一条条的summary似的概要。但是从AlphaGo从最开始的蹒跚学步到最后战胜所有人类选手的时间线来预测,采用Monte Carlo Tree Search(蒙特卡罗树搜索)+Reinforcement Learning,(RL强化学习)的方法,确实是可以让大模型快速找到通向正确答案的路径。比如下面这道测试o1推理能力的试题:海龟汤问题。一名男人发现自己少贴了一张邮票,随后便去世了。请问发生了什么事?海龟汤是一种推理游戏,出题人给出简短、模糊的故事背景,由玩家自己主动提问。出题人只会回答“是”和“不是”,然后玩家根据出题人的回答,结合自己的推导,给出故事的真相。我们给了o1-preview五次提问的机会,然后让o1-preview尝试推理真相。每一次提问,o1-preview都考虑了十几秒,层
其次,今天凌晨第一批吃螃蟹的用户已经体验过了,从各群、各微、各推的反馈来看,复杂问题的思考过程长达30s,而相对简单的问题则要5-10s之间。就连OpenAI给出的模型速度示例中,o1-preview的速度也是偏慢的。最后,让人有点郁闷的是,新模型(o1-preview/mini)的使用条数太少了,而且冷却时间相当长,按照少数AI先锋(@陈财猫)的测试,o1-preview的冷却时间长达7天。这一周几十条的用量也顶多算是打打牙祭...最后,我想分享一些个人的思考和感悟。随着这两年来对模型发展的观察,我看到了一个明显的趋势:仅仅依靠生成式应用的场景是相当有限的。尤其是toB领域,我们遇到的更多是对准确性要求极高的场景,甚至需要100%准确的情况,比如安全领域和金融领域,这些都是差之毫厘谬之千里的业务。而大模型的局限性也是常常在于此(幻觉)。但推理模型的准确率不断攀升、甚至达到完全可信的地步确实是一件非常惊喜又恐怖的事情。之前让模型干创意的活儿,现在又能干精确的活儿,这属于全场景覆盖!这意味着AI技术可以渗透到更多行业、更多高精尖业务中去!同时,我回想起老师曾经对我说过的一句话:"不管现在的大模型处理速度多慢,操作多么繁琐,只要能保证最终结果的正确性,它就拥有无限的可能性。"我觉得老师的话不无道理,不要看现在新模型的推理速度慢,但这些都可以通过增配新硬件去解决,只要钱到位,这都不是问题。况且,这也可能是慢思考系统的一种呢?你说对吧!再者,在今年上半年,甚至是上个月,很多人还在担忧大模型的前景。但OpenAI推出的新模型无疑给这个行业注入了一剂强心剂,为整个领域带来了新的活力和希望。这是令人赞叹和振奋的。