发布时间:2025-11-20
点击次数: openai 今日发布了全新升级的 gpt-5.1-codex-max,定位为专为应对复杂、长期且多阶段软件工程挑战而设计的下一代代码大模型。该模型不仅能够编写和补全代码,还能在长达数十万字的上下文中持续推动大型项目进展。

本次最核心的技术突破在于引入了一种名为 compaction 的上下文压缩机制:模型在执行任务过程中会自动整理记忆,提炼并保留关键信息,从而实现在“超长上下文”环境下的稳定运行,避免因上下文过载导致的状态丢失或性能下降。
GPT-5.1-Codex-Max 经历了海量真实开发场景的训练,涵盖前端开发、错误调试、数学逻辑推理、PR 文案撰写以及代码审查等多个环节。在多项工程化测试中,其表现无论是效率还是准确性均显著超越前代模型,同时大幅降低了令牌消耗。
| 评估项目 | 指标/表现 | 说明 |
|---|---|---|
| **SWE-bench Verified (n = 500)** | 73.7% → 77.9% | 在大规模软件工程基准测试中,从上一代 GPT‑5.1‑Codex 到 Max 版本实现明显跃升。 |
| **SWE-Lancer IC SWE** | 66.3% → 79.9% | 针对独立开发者任务集的表现大幅提升,展现更强自主开发能力。 |
| **Terminal-Bench 2.0** | 52.8% → 58.1% | 在命令行与终端操作类任务中也取得可观进步。 |
| **上下文长度及 “长期任务”能力** | 支持跨多个上下文窗口协同工作,可持续运行数小时乃至超过 24 小时不中断。 | 体现其对长周期、项目级任务的强大支撑能力。 |
| **令牌效率(token efficiency)** | 在中等推理强度模式下,相比上代减少约 **30% 的思考令牌使用量**,同时输出质量更高。 | 有效降低调用成本,提升整体响应效率。 |
| **安全 / 不安全内容评估 (Production Benchmarks)** | 例如 “illicit” 类别得分由 0.860 提升至 0.920;“sexual/minors” 从 0.901 升至 0.970。 | 显示在内容安全控制方面有所增强,但仍存在边界限制。 |
| **网络安全 (Cybersecurity) 能力** | 在多种模拟攻击测试中: – 网络渗透模拟平均成功率达 37% – 漏洞挖掘与利用达 41% – 规避检测(Evasion)达到 43% | 虽为当前最强水平,但官方强调尚未达到“高能力”标准。 |
| **生物/化学领域 (Bio & Chem) 能力** | 面对长篇幅生物风险相关提问,模型拒绝回应率达到 100%。 | 表明该领域被列为“高风险”,OpenAI 已实施严格封控策略。 |
OpenAI 强调,随着模型能力的增强,相应的安全责任也随之上升,尤其是在网络安全、生物与化学等敏感领域,必须配套更严密的防护机制。尽管其在网络攻防*中展现出一定潜力,但距离真正“高威胁能力”仍有差距。
Lateral App
整理归类论文
85
查看详情
目前,GPT-5.1-Codex-Max 已成为 Codex 系列产品的默认核心引擎,并正逐步向开发者群
体和企业用户开放接入。
源码地址:点击下载
以上就是OpenAI 发布 GPT-5.1-Codex-Max,专为复杂软件工程任务打造的详细内容,更多请关注其它相关文章!
# 前代
# seo在线推广广告
# 哈尔滨官网seo优化
# 抖音关键词排名北京公司
# 万柏林区网站建设资费
# 蚌埠品牌网站推广
# deo与seo是什么
# 清河区网站推广公司
# seo中的s
# 湖南seo软件代理公司
# 鱼台seo推广效果如何
# 测试中
# 米高
# 园区
# 前端
# 两大
# 多个
# 柬埔寨
# 令牌
# 专为
# 软件工程
# 大模型
# gpt-5
# gpt
# openai
# ai
# 前端开发
# 网络安全
相关栏目:
【
行业新闻62819 】
【
科技资讯67470 】
相关推荐:
常见的五个人工智能误解
人工智能驱动艺术,打开达利的超现实想象
“电碳”技术提升碳排放监测精度
ChatGPT设计出的第一个机器人来了!【附人工智能行业预测】
三星加速AR眼镜进程,预计明年上半年亮相
Meta Connect 2025已确定时间为9月27-28,主题涵盖Quest 3与AI技术
人工智能在服务优化方面优缺点有哪些
参考封面|人工智能“淘金热”
AI智能室内效果图设计软件效果,确实惊到我了!
OpenAI 静默关闭 AI 文本检测工具,准确率仅为 26%
人工智能正在弥合认知和表达之间的鸿沟
华为AI大模型将融入HarmonyOS 4
AI教父Bengio:我感到迷失,对AI担忧已成「精神内耗」!
腾讯TRS之元学习与跨域推荐的工业实战
选对AI智能写作软件,让创作游刃有余!
马斯克称人类是半机器人,记忆外包给了电脑
特斯拉门店可能启动机器人卖车?也许不是你想的那样
人工智能领域,突破难题:国产大模型“无源之水”问题得到解决。
不到2S创作AI图像!Snap发布图像生成器SnapFusion
谷歌推出RT-2视觉语言动作模型,使机器人能够掌握垃圾丢弃技能
马斯克回应“人工智能让一切变得更好”:我们已经是半机器人了
苹果2万5的AR遭遇砍单95%:不及预期
AI连线 | 专访风平智能CEO林洪祥:让AI数字人拥有漂亮的外表和有趣的灵魂,安全问题是重要考量
华为即将推出HarmonyOS 4,再度领先行业的AI技术
企业软件行业更将被AI全面重构!Moka李国兴:未来优秀组织和个人将一定是善于使用AI生产力的
五个出色的人工智能应用实例
苹果在韩举办首届中小企业智能制造论坛,加速推动工业4.0发展
“世界上最像人的机器人”接入 Stable Diffusion ,现场完成作画
实测 AI 建筑设计软件的自动生成效果图能力
两型无人机完成交付!国家级机动观测业务正式启动
国宝级文物“铜兽驮跪坐人顶尊铜像”完成模拟拼接,腾讯AI立功
AIGC浪潮下,联想集团再加码计算与人工智能
当一切设备都受到人工智能的控制
硅谷人工智能研究院创始人皮埃罗·斯加鲁菲:Transformer模型演讲
首部国内AI辅助动画片《魔游纪:人工智能辅助篇》预告发布
中科院自研新一代 AI 大模型“紫东太初 2.0”问世
小岛秀夫不反对使用AI 但认为人类应该凌驾于AI
微软bing聊天推出AI购物工具 可进行比价并查看历史最低价
讯飞星火大模型实现升级 助力通用人工智能人才培养
AI会帮我们把活干完吗?
套娃不可取:研究人员证实用AI生成的结果训练AI将导致模型退化
探展WAIC |万向区块链杜宇:不存在单一技术的iPhone时刻,Web3.0核心将基于AI+区块链+物联网
元宇宙技术带你穿梭“大运河”,江苏书展上的数字阅读馆吸睛小读者
马克龙密会AI专家,法国加入全球人工智能竞赛
美图公司:Wink国内首发AI画面拓展功能
山东机器人编程:Scratch编程基础,认识舞台!~济南机器人编程
英特尔张宇:边缘计算在整个AI生态系统中扮演重要角色
鹅厂机器狗抢起真狗「饭碗」!会撒欢儿做游戏,遛人也贼6
iPhone两秒出图,目前已知的最快移动端Stable Diffusion模型来了
从数据中心到发电站:人工智能对能源使用的影响