刚刚,openai 为期 12 天的发布迎来尾声。如外界所料,新的推理系列模型 ——o3 和 o3-mini 成为这次发布的收官之作。
o3 是 o1 系列模型的继任者。这类模型的特点是让模型在回答问题之前花更多时间思考(推理),从而提高回答的准确率。不过,OpenAI 在命名上跳过了 o2。据 The Information 报道,这么做是为了避免版权问题,因为英国有家电信公司名叫 O2,可能引起混淆。Sam Altman 在今天下午的|直播|中证实了这一点。
事实上,从昨天开始,OpenAI 就已经开始预热这个模型。而且已经有开发者在网上找到了 OpenAI 网站上对 o3_min_safety_test 的引用。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

也有人早早就想看看 o3 究竟有何真本事,能否匹敌谷歌昨天发布的 Gemini 2.0 Flash Thinking。

Tunee AI
新一代AI音乐智能体
1104
查看详情

现在,和传言的一样,o3 和 o3-mini 来了!遗憾的是,o3 系列模型并不会直接公开发布,而是会先进行安全测试。Sam Altman 也指出今天不是发布(launch),只是宣布(announce)。
Sam Altman 提到,他们计划在一月底左右推出 o3-mini,并在不久后推出完整的 o3 模型。o3:突破 ARC-AGI 基准,博士级问题求解能力首先,在 12 只圣诞青蛙聚集的圆桌前,ARC Prize Fundation 总裁 Greg Kamradt 参与了对 o3 模型的介绍。ARC Prize Fundation 是一个非营利组织,旨在「通过基准测试来成为实现 AGI 之路的北极星」。该组织的首个基准 ARC-AGI 已经提出了 5 年时间,但一直未被攻克。直到现在,Kamradt 宣布 o3 已经在该基准上达到了优良水平,成为首个突破 ARC-AGI
基准的 AI 模型。据介绍,o3 系列模型在 ARC-AGI 基准上的最低性能可达到 75.7%,而如果让其使用更多计算资源思考更长时间,o3 更是可以达到 87.5% 的水平。在 ARC-AGI 基准中,AI 需要根据配对的「输入 - 输出」示例寻找规律,然后再基于一个输入预测输出,下图展示了一些例子。参加过毕业季招聘或公务员考试的人或许对此类图形推理问题并不陌生。Greg Kamradt 也顺势宣布开源了一个任务数据集:https://github.com/arcprizeorg/model_baseline
ARC-AGI 发起者、Keras 之父 François Chollet 在测试报告中写道,「(o3 系列模型)在高效率模式下取得的 75.7% 的分数符合 ARC-AGI-Pub 的预算规则(成本 报告中还写道,尽管每项任务的成本很高(o3 在低计算量模式下每个任务需要 17-20 美元,高计算量模式下每个任务数千美元),但这些数字不仅仅是将暴力计算应用于基准测试的结果。OpenAI 的新 o3 模型代表了人工智能适应新任务的能力的重大飞跃。这不仅仅是渐进式的改进,而是真正的突破,标志着与 LLM 之前的局限性相比,人工智能能力发生了质的转变。o3 能够适应以前从未遇到过的任务,可以说在 ARC-AGI 领域接近人类水平的表现。不过,报告也指出,ARC-AGI 并不是对 AGI 的严峻考验,通过 ARC-AGI 并不等于实现 AGI。「事实上,我认为 o3 还不是 AGI。o3 在一些非常简单的任务上仍然失败,这表明其与人类智能存在根本差异。」François Chollet 表示。 OpenAI o3 消耗数千美元,生成数百万个 token 也没能解决的问题。ARC Prize Fundation 总裁 Greg Kamradt 表示,明年还会与 OpenAI 一起开发下一代基准。不过,从早期数据点来看,即将推出的 ARC-AGI-2 基准测试仍将对 o3 构成重大挑战,即使在高计算量下,其得分也可能会降低到 30% 以下(而聪明人在不经过任何培训的情况下仍然能够得分超过 95%)。在报告中,François Chollet 还分析了为什么 o3 的分数可以提升那么多。他写道,「LLM 就像一个向量程序的存储库。当被提示时,它们会检索你的提示词映射到的程序,并在当前的输入上『执行』它。LLM 是一种通过被动接触人类生成的内容来存储和操作化数百万有用小程序的方法。」「只要有足够的合适训练数据,这种『记忆、检索、应用』的模式就能在任意任务上达到任意水平的技能,但它无法适应新情况或即时学习新技能(也就是说,这里并没有涉及到 fluid intelligence)。这一点在 LLM 在 ARC-AGI 上的表现中得到了体现,ARC-AGI 是专门设计用来衡量对新事物适应能力的基准测试 ——GPT-3 得分为 0,GPT-4 得分接近 0,GPT-4o 达到了 5%。将这些模型扩展到可能的极限,并没有使 ARC-AGI 的得分接近几年前基本的暴力枚举就能达到的水平(高达 50%)。」「要适应新事物,你需要两样东西。首先,你需要知识 —— 一套可复用的函数或程序库。LLM 在这方面拥有的资源绰绰有余。其次,你需要在面对新任务时,能够将这些函数重新组合成一个全新的程序 —— 一个能够模拟当前任务的程序。这就是程序合成。LLM 长期以来缺乏这一特性。而 o 系列模型解决了这个问题。」「关于 o3 模型的具体工作原理,目前我们只能进行一些推测。o3 模型的核心机制似乎是在 token 空间内进行自然语言程序搜索和执行 —— 在测试时,模型会在可能的思维链空间中搜索,这些思维链描述了解决任务所需的步骤,这种方式可能与 AlphaZero 风格的蒙特卡洛树搜索(Monte-Carlo tree search)颇有相似之处。在 o3 的情况下,搜索可能由某种评估模型引导进行。值得注意的是,DeepMind 的 Demis Hassabis 在 2025 年 6 月的一次采访中暗示,DeepMind 一直在研究这一概念 —— 这项工作已经酝酿了很长时间。」详细分析参见:https://arcprize.org/blog/oai-o3-pub-breakthrough除了解决 ARC-AGI 这样的「IQ」 问题,o3 的编码能力也比之前的 o1 系列明显更胜一筹。在 SWE-bench Verified 基准上,o3 的准确率约为 71.7%,比 o1 模型高出 20% 以上。在 Competition Code 中,o3 获得了难以置信 2727 Elo 得分,而 o1 仅为 1891。此外,o3 在竞赛数学(Competition Math )上的准确率达到 96.7%,在 GPQA Diamond (该基准衡量模型在博士级科学问题上的表现)上的准确率达到 87.7%,比之前的 o1 表现(78%)高出近 10%。总结来看,o3 在这两项基准测试上都达到了最佳表现。o3 在 OpenAI 研究人员认为最严格的基准之一(EpochAI Frontier Math)上的表现如下表所示。该数据集由新颖的、未发表的以及非常难、极其难的问题组成。OpenAI 高级研究副总裁 Mark Chen 特别强调了,即使是专业数学家也需要几个小时甚至几天才能解决里面的问题之一。而今天,所有产品在这个基准上的准确率都低于 2%,o3 的准确率可以超过 25%。o3 mini 是一个更经济高效的 o3 版本,专注在提升推理速度、降低推理成本的同时兼顾模型性能。 介绍 o3-mini 的是参与训练的 OpenAI 研究者 Hongyu Ren与 o1 相比,o3-mini 在 Codeforces 上的性能具有显著的成本效益,这使其成为一个非常适合用来编程的模型。在数学问题上,o3-mini (low) 实现了与 gpt-4o 相当的低延迟。o3-mini 上所有的 API 特性以及相应的能力表现如下: Hongyu Ren 现场演示了几个示例。首先,针对 o3-mini (high),任务是使用 Python 语言编写一个本地服务器,其有一个简易的用户 UI,同时可以将用户给出的文本消息通过 API 传输给 o3-mini 的 medium 选项,然后获取得到的代码,将其保存到桌面的一个临时文件中,然后在一个新的 Python 终端中执行该文件。接着,Hongyu Ren 直接将其复制到了一个 server.py 文件中,然后直接运行了它。之后,他尝试了使用这个服务器:print openai 并随机给出一个数,简单任务,当然很成功。接下来他们上了点难度:在相当困难的 GPQA Diamond 数据集(这是一个博士水平的科学问题基准)上,生成一个代码来评估 o3-mini 的 low 模式,需要下载 https://openaipublic.blob.core.windows.net/simple-evals/gpga_diamond.csv最后,使用前面编写的 UI 界面,o3-mini 用了一定时间完成了这个任务,最终得到 low 模式下的 o3-mini 在 GPQA Diamond 数据集上的准确度为 61.62%。也就是说,他们成功让模型编写了一个测试该模型自身的脚本。Mark Chen 打趣地表示明年要让 AI 演示一下自我提升,但这个说法似乎不够 PR,让 Sam Altman 赶忙说了一句:「Maybe not.」另外,他们也给出了在 GPQA Diamond 数据集上的更多测试结果。可以看到,o3-mini (low) 的结果与上面演示示例得到的结果基本一致,而 o3 满血版更是可以得到 87.7 的高准确度分数。Mark Chen 表示,OpenAI 已经做了大量内部安全测试,而现在他们正在推进外部安全测试。从即日起,想要参与的测试者可以申请测试 o3-mini,至于 o3,就连测试员也还得继续等待。早期访问申请现已在 OpenAI 网站上开放,并将于 2025 年 1 月 10 日关闭。申请地址:https://openai.com/index/early-access-for-safety-testing/申请者必须填写一份在线表格,表格中会要求他们提供各种不同的信息,包括之前发表的论文链接及其在 Github 上的代码库,并选择他们希望测试的模型(o3 或 o3-mini)以及计划使用它们做什么。选定的研究人员将被授予访问 o3 和 o3-mini 的权限,以探索它们的能力并为安全评估做出贡献,不过 OpenAI 的表格提示称,o3 将在几周内无法使用。OpenAI 表示他们将滚动审核申请,并立即开始选拔申请人。最后,Mark Chen 也简单介绍了他们的一种新的安全评估方法:deliberative alignment,即审议式对齐。这是一种直接教授模型安全规范的新范式,并可训练模型在回答之前明确回忆规范并准确地执行推理。他们使用了这种方法来对齐 OpenAI 的 o 系列模型 ,并实现了对 OpenAI 安全政策的高度精确遵守,并且这个过程无需人工编写的思路或答案。
- 论文标题:Deliberative Alignment: Reasoning Enables Safer Language Models
- 论文地址:https://assets.ctfassets.net/kftzwdyauwt9/4pNYAZteAQXWtloDdANQ7L/978a6fd0a2ee268b2cb59637bd074cca/OpenAI_Deliberative-Alignment-Reasoning-Enables-Safer_Language-Models_122025.pdf
所以,总结起来,12 天发布的最后一天,OpenAI 真正发布出来的东西只有一篇论文,更多是兑现期票。另外,我们还是不知道 o3 是否能解答最难的高考数学题,但至少从 OpenAI 的描述来看,答案应该是乐观的。对于 OpenAI 的这最后一天发布和 o3 模型,你有什么看法?以上就是刚刚,OpenAI放出最后大惊喜o3,高计算模式每任务花费数千美元的详细内容,更多请关注其它相关文章!
# openai
# 将其
# 并在
# 模式下
# 在这
# 就能
# 这一
# 是一个
# 的是
# 数千
# ai
# qq
# access
# 谷歌
# windows
# git
# python
# o3-mini
# 产业
# gemini
# seo基础询问5火星
# 模板网站建设游戏app
# 淘宝上网站建设是什么
# 提升小红书seo排名
# 咸宁外包网站优化哪家好
# 厦门官网seo优化
# 数字营销推广白酒方案
# 海外酒店营销推广方案
# 推广网站士云速捷靠谱
# 镇江网站建设空间
# 达到了
相关栏目:
【
行业新闻62819 】
【
科技资讯67470 】
相关推荐:
揭秘AI数字人语录:抖音AI小和尚、老者语录能赚钱吗?
AI成政客博弈工具,美国大选真假难辨,律师们的生意来了
亚马逊确认今年不举办re:MARS人工智能大会
谷歌借AI打破十年排序算法封印,每天被执行数万亿次,网友却说是最不切实际的研究?
码刻 | 48小时Hackathon,源码见证新生代AI创新的发生
标小智LOGO推出AI公司起名生成器“Name.GPT”
7/8上海 | 2025世界人工智能大会分论坛:科技与人文-共筑无障碍智能社会
对Hugging Face开源模型精准投毒!LLM切脑后变身PoisonGPT,用虚假事实洗脑60亿人
甲骨文与Cohere合作为企业提供生成式人工智能服务
关于开展“与AI共创未来”——2025年全国青少年人工智能创新实践活动的通知
AMD称下半年AI显卡供应充足,不需要像NVIDIA那样加价抢购
美军AI无人机“误杀”操作员,人工智能要在军事领域毁灭人类?
商汤科技:元萝卜 AI 下棋机器人新品发布会 6 月 14 日举行
AI浪潮席卷,时空壶为何能成为AI翻译时代的破局者
2025VR&AR显示技术峰会视频解析: 歌尔光学展示最新一代VR/AR光学模组
绿联发布笑脸屏幕显示充电状态的30W/65W Q湃机器人充电器
国家发改委组织工业机器人产业高质量发展现场会
游族AI创新院揭牌成立 推进AI赋能游戏业务
人形机器人打开精密齿轮市场全新空间!受益上市公司梳理
禁止艺术家使用 AI 创作《龙与地下城》游戏插图的决定已在 D&D Beyond 生效
探索AI前沿理念 2025全球人工智能技术大会在杭州开幕
NVIDIA垄断AI市场90%份额:AMD性能追上80% 软件太不能打
一次购买全年省心,入手科沃斯这几台机器人,省下时间就是金钱
国内阅读行业首款对话式AI应用“阅爱聊”封闭内测
厂商陆续公布AI进展 完美世界游戏展示复合应用AI in GamePlay
成功孵化首个大型模型解决方案的重庆人工智能创新中心
布局智能物联新时代,中国移动“5G+物联网”亮相2025 MWC
今年,全球客服中心支出将增长 16.2%,迎接对话式 AI 的浪潮,根据 Gartner 报告
阿里云AI绘画创作大模型通义万相发布 已开启定向邀测
微软更新服务协议,以防止通过AI服务进行逆向工程和数据抓取
智能手机应用中的人工智能的重要性
2025 WAIC|美团无人机发布第四代新机型
技术如何使人变得懒惰?
华为即将推出HarmonyOS 4,再度领先行业的AI技术
加速电网转型升级推进新型电力系统建设
李开复官宣新公司「零一万物」,进军 AI 2.0
AI进军债券交易,BondGPT来了!
消息称苹果 iPhone 15 系列健康应用将深度融合 AI 技术
高质量数据推动AI场景化应用快速发展及落地
AI绘画,还需要懂数学?
「社交达人」GPT-4!解读表情、揣测心理全都会
华为余承东表示:鸿蒙可能拥有强大的人工智能大模型能力
360°/180°双模式,佳能公布可折叠小体积的VR全景相机
马斯克反讽人工智能AI炒作:“机器学习”本质就是统计
微软面向AI初学者推出免费网络课程
配 3D 机器人头像,谷歌展示全新安卓 LOGO
“痴迷”元宇宙,魔珐科技想做什么?
昌吉市利用无人机实现全天候河道动态巡检
以计算机视觉技术为基础的库存管理如何改革零售行业
世界人工智能大会(WAIC 2025)点燃魔都,博尔捷数字科技携前沿技术产品亮相