详解OpenAI刚憋出来的大招：它具有真实的通用推理才能

09-13 1029阅读 0评论

大模型范畴的技术开展，今日起再次“从1开端”了。

大言语模型还能向上打破，OpenAI再次证明了自己的实力。

北京时刻9月13日午夜，OpenAI正式揭露一系列全新AI大模型，旨在专门处理难题。这是一个严重打破，新模型能够完成杂乱推理，一个通用模型处理比此前的科学、代码和数学模型能做到的更难的问题。

OpenAI称，今日在ChatGPT和大模型API中新发布的是该系列中的第一款模型，而且还仅仅预览版——o1-preview。除了o1，OpenAI还展现了现在正在开发的下次更新的评价。

o1模型一举发明了许多历史纪录。

首要，o1便是此前OpenAI从山姆·奥特曼到科学家们一向在“高调宣扬”的草莓大模型。它具有真实的通用推理才干。在一系列高难基准测验中展现出了超强实力，比较GPT-4o有巨大前进，让大模型的上限从“无法看”直接上升到优异水平，不专门练习直接数学奥赛金牌，乃至能在博士等级的科学问答环节上逾越人类专家。

奥特曼标明，尽管o1的体现依然存在缺点，不过你在第一次运用它的时分依然会感到震慑。

其次，o1给大模型规划扩展vs功能的曲线带来了一次上翘。它在大模型范畴重现了当年AlphaGo强化学习的成功——给越多算力，就输出越多智能，一向到逾越人类水平。

也便是从办法上，o1大模型初次证明了言语模型能够进行真实的强化学习。

开发出首个AI软件工程师Devin的Cognition AI标明，曩昔几周一向与OpenAI密切合作，运用Devin评价o1的推理才干。成果发现，与GPT-4o比较，o1系列模型关于处理代码的智能体体系来说是一个严重前进。

最终在实践中，o1上线之后，现在ChatGPT能够在答复问题前先细心考虑，而不是当即信口开河答案。就像人类大脑的体系1和体系2，ChatGPT现已从仅运用体系1（快速、主动、直观、易犯错）进化到了可运用体系2思想（缓慢、深思熟虑、有意识、牢靠）。这让它能够处理曾经无法处理的问题。

从今日ChatGPT的用户体会来看，这是向前跨进一小步。在简略的Prompt下，用户或许不会注意到太大的差异，但假如问一些扎手的数学或许代码问题，差异就开端显着了。更重要的是，未来开展的路途现已开端闪现。

总而言之，今晚OpenAI丢出的这个重磅炸弹，现已让整个AI社区震慑，纷纷标明tql、睡不着觉，深夜现已开端抓住学习。接下来，就让咱们看下OpenAI o1大模型的技术细节。

OpenAI o1作业原理

在技术博客《Learning to Reason with LLMs》中，OpenAI对o1系列言语模型做了具体的技术介绍。

OpenAI o1是经过强化学习练习来履行杂乱推理使命的新式言语模型。特色便是，o1在答复之前会考虑——它能够在呼运用户之前发生一个很长的内部思想链。

也便是该模型在作出反应之前，需求像人类相同，花更多时刻考虑问题。经过练习，它们学会完善自己的思想进程，测验不同的战略，并认识到自己的过错。

在OpenAI的测验中，该系列后续更新的模型在物理、化学和生物学这些具有应战性的基准使命上的体现与博士生相似。OpenAI还发现它在数学和编码方面体现出色。

在世界数学奥林匹克（IMO）资格考试中，GPT-4o仅正确答复了13%的问题，而o1模型正确答复了83%的问题。

模型的编码才干也在比赛中得到了评价，在Codeforces比赛中排名89%。

OpenAI标明，作为前期模型，它还不具备ChatGPT的许多实用功能，例如阅读网页获取信息以及上传文件和图片。

但关于杂乱的推理使命来说，这是一个严重前进，代表了人工智能才干的新水平。鉴于此，OpenAI将计数器重置为1，并将该系列模型命名为OpenAI o1。

要点在于，OpenAI的大规划强化学习算法，教会模型怎么在数据高度有用的练习进程中运用其思想链进行高效考虑。换言之，相似于强化学习的Scaling Law。

OpenAI发现，跟着更多的强化学习（练习时核算）和更多的考虑时刻（测验时核算），o1的功能持续前进。而且扩展这种办法的约束与大模型预练习的约束有很大不同，OpenAI也还在持续研讨。

评价

为了杰出相关于GPT-4o的推理功能改善，OpenAI在一系列不同的人类考试和机器学习基准测验中测验了o1模型。试验成果标明，在绝大多数推理使命中，o1的体现显着优于GPT-4o。

o1在具有应战性的推理基准上比GPT-4o有了很大的改善。

o1在广泛的基准测验上比GPT-4o有所改善，包括54/57 MMLU子类别，图示出了7个以供阐明。

在许多推理密集型基准测验中，o1的体现可与人类专家相媲美。最近的前沿模型在MATH和GSM8K上体现得十分好，以至于这些基准测验在区别模型方面不再有用。因而，OpenAI在AIME上评价了数学成果，这是一项旨在测验美国最聪明高中数学学生的考试。

‍在一个官方演示中，o1-preview答复了一个十分困难的推理问题：当公主的年纪是王子的两倍时，公主的年纪与王子相同大，而公主的年纪是他们现在年纪总和的一半。王子和公主的年纪是多少？供给这个问题的所有解。

在2024年AIME考试中，GPT-4o均匀只处理了12%(1.8/15)的问题，而o1在每个问题只要一个样本的状况下均匀为74%(11.1/15)，在64个样本之间达到共同的状况下为83%(12.5/15)，在运用学习的评分函数对1000个样本从头排序时为93%(13.9/15)。13.9分能够跻身全美前500名，而且高于美国数学奥林匹克比赛分数线。

OpenAI还在GPQA Diamond基准上评价了o1，这是一个困难的智力基准，用于测验化学、物理和生物学方面的专业常识。为了将模型与人类进行比较，OpenAI聘请了具有博士学位的专家来答复GPQA Diamond基准问题。

试验成果标明：o1逾越了人类专家的体现，成为第一个在该基准测验中做到这一点的模型。

这些成果并不意味着o1在所有方面都比博士更有才干——仅仅该模型更拿手处理一些博士应该处理的问题。在其他几个ML基准测验中，o1完成了新的SOTA。

启用视觉感知才干后，o1在MMMU基准上得分为78.2%，成为第一个与人类专家适当的模型。o1还在57个MMLU子类别中的54个上优于GPT-4o。

思想链（CoT）

与人类在答复难题之前会长时刻考虑相似，o1在测验处理问题时会运用思想链。经过强化学习，o1学会锻炼其思想链并改善其运用的战略。o1学会了辨认和纠正过错，并能够将扎手的进程分解为更简略的进程。o1还学会了在当前办法不起作用时测验不同的办法。这个进程极大地前进了模型的推理才干。

编程才干

依据o1进行了初始化并进一步练习了其编程技术后，OpenAI练习得到了一个十分强壮的编程模型（o1-ioi）。该模型在2024年世界信息学奥林匹克比赛（IOI）赛题上得到了213分，达到了排名前49%的水平。而且该模型参加比赛的条件与2024 IOI的人类参赛者相同：需求在10个小时内答复6个高难度算法问题，而且每个问题仅能提交50次答案。

针对每个问题，这个经过专门练习的o1模型会采样许多候选答案，然后依据一个测验时选取战略提交其间50个答案。选取规范包括在IOI公共测验事例、模型生成的测验事例以及一个学习得到的评分函数上的功能。

研讨标明，这个战略是有用的。因为假如直接随机提交一个答案，则均匀得分仅有156。这阐明在该比赛条件下，这个战略至少值60分。

OpenAI发现，假如放宽提交约束条件，则模型功能更是能大幅前进。假如每个问题答应提交1万次答案，即便不运用上述测验时选取战略，该模型也能得到362.14分——能够得金牌了。

最终，OpenAI模拟了Codeforces主办的比赛性编程比赛，以展现该模型的编码技术。选用的评价与比赛规矩十分挨近，答应提交10份代码。GPT-4o的Elo评分为808，在人类比赛对手中处于前11%的水平。该模型远远超越了GPT-4o和o1——它的Elo评分为1807，体现优于93%的比赛对手。

在编程比赛前进一步微调使得o1才干又增，并在2024年世界信息学奥林匹克比赛（IOI）规矩下排名前49%。

下面这个官方示例直观地展现了o1-preview的编程才干：一段提示词就让其写出了一个完好可运转的游戏。

人类偏好评价

除了考试和学术基准之外，OpenAI还在更多范畴的具有应战性的开放式提示上评价了人类对o1-preview和GPT-4o的偏好。

在这次评价中，人类练习者对o1-preview和GPT-4o的提示进行匿名答复，并投票选出他们更喜爱的答复。在数据分析、编程和数学等推理才干较强的类别中，o1-preview的受欢迎程度远远高于GPT-4o。但是，o1-preview在某些自然言语使命上并不受欢迎，这标明它并不适宜所有用例。

在需求更强壮推理才干的范畴，人们更喜爱o1-preview。

安全

思想链（CoT）推理为安全和对齐供给了新的思路。OpenAI发现，将模型行为战略整合到推理模型的思想链中，能够高效、稳健地教训人类价值观和准则。经过向模型教训自己的安全规矩以及怎么在上下文中推理它们，OpenAI发现推理才干直接有利于模型稳健性的依据：o1-preview在要害越狱评价和用于评价模型安全回绝鸿沟的最严厉内部基准上取得了明显的改善。

OpenAI以为，运用思想链能够为安全和对齐带来严重前进，因为1）它能够以明晰的方法调查模型思想，而且2）关于安全规矩的模型推理关于散布外场景更具稳健性。

为了对自己的改善进行压力测验，OpenAI在布置之前依据自己的安全预备结构进行了一系列安全测验和红队测验。成果发现，思想链推理有助于在整个评价进程中前进才干。特别值得注意的是，OpenAI调查到了风趣的奖赏黑客进犯实例。

安全预备结构链接：https://openai.com/safety/

躲藏思想链

OpenAI以为躲藏思想链为监控模型供给了共同的时机。假定它是忠诚且明晰的，躲藏思想链使得能够“读懂”模型的思想并了解其思想进程。例如，人们将来或许希望监控思想链以寻觅控制用户的痕迹。

但要做到这一点，模型有必要能够自由地以未改动的方式表达其思想，因而不能在思想链方面练习进行任何方针合规性或用户偏好性练习。OpenAI也不想让用户直接看到不共同的思想链。

因而，在权衡用户体会、比赛优势和寻求思想链监控的选项等多种要素后，OpenAI决议不向用户展现原始的思想链。OpenAI供认这个决议有欠好的当地，因而尽力经过教训模型在答案中重现思想链中的任何有用主意来部分补偿。一起，关于o1模型系列，OpenAI展现了模型生成的思想链摘要。

能够说，o1明显前进了AI推理的最新水平。OpenAI方案在不断迭代的进程中发布此模型的改善版别，并希望这些新的推理才干将前进将模型与人类价值观和准则相结合的才干。OpenAI信任o1及其后续产品将在科学、编程、数学和相关范畴为AI解锁更多新用例。

OpenAI o1-mini

o1是一个系列模型。这次OpenAI还一起发布了一个mini版OpenAI o1-mini。该公司在博客中给出了preview和mini版的不同界说：“为了给开发者供给更高效的处理方案，咱们也发布了OpenAI o1-mini，这是一个特别拿手编程的更快、更廉价的推理模型。”全体来看，o1-mini的本钱比o1-preview低80%。

因为o1等大型言语模型是在许多文本数据集上预练习，尽管具有广泛世界常识，但关于实践运用来说，或许本钱昂扬且速度慢。

比较之下，o1-mini是一个较小的模型，在预练习期间针对STEM推理进行了优化。在运用与o1相同的高核算强化学习(RL)pipeline进行练习后，o1-mini在许多有用的推理使命上完成了相媲美的功能，一起本钱功率明显前进。

比如在需求智能和推理的基准测验中，与o1-preview和o1比较，o1-mini体现杰出。但它在需求非STEM现实常识的使命上体现较差。

数学才干：在高中AIME数学比赛中，o1-mini(70.0%)与o1(74.4%)平起平坐，但价格却廉价许多，而且优于o1-preview(44.6%)。o1-mini的得分（约11/15个问题）大约坐落美国前500名高中生之列。

编码才干：在Codeforces比赛网站上，o1-mini的Elo得分为1650，与o1(1673)平起平坐，而且高于o1-preview(1258)。此外，o1-mini在HumanEval编码基准和高中网络安全夺旗应战(CTF)中也体现出色。

STEM：在一些需求推理的学术基准上，例如GPQA（科学）和MATH-500，o1-mini的体现优于GPT-4o。o1-mini在MMLU等使命上的体现则不如GPT-4o，而且因为缺少广泛的世界常识而在GPQA基准上落后于o1-preview。

人类偏好评价：OpenAI让人类评分员在各个范畴具有应战性的开放式提示上比较o1-mini和GPT-4o。与o1-preview相似，在推理密集型范畴，o1-mini比GPT-4o更受欢迎；但在以言语为中心的范畴，o1-mini并不比GPT-4o更受欢迎。

在速度层面，OpenAI比较了GPT-4o、o1-mini和o1-preview对一个单词推理问题的答复。成果显现，GPT-4o答复不正确，而o1-mini和o1-preview均答复正确，而且o1-mini得出答案的速度快了大约3-5倍。

怎么运用OpenAI o1？

ChatGPT Plus和Team（个人付费版与团队版）用户立刻就能够在该公司的谈天机器人产品ChatGPT中开端运用o1模型了。你能够手动选取运用o1-preview或o1-mini。不过，用户的运用量有限。

现在，每位用户每周仅能给o1-preview发送30条音讯，给o1-mini发送50条音讯。

是的，很少！不过OpenAI标明正在尽力前进用户的可运用次数，并让ChatGPT能主动针对给定提示词挑选运用适宜的模型。