OpenAI 发布 GPT-5.1-Codex-Max，专为复杂软件工程任务打造

发布时间：2025-11-20

点击次数：

openai 今日发布了全新升级的 gpt-5.1-codex-max，定位为专为应对复杂、长期且多阶段软件工程挑战而设计的下一代代码大模型。该模型不仅能够编写和补全代码，还能在长达数十万字的上下文中持续推动大型项目进展。

OpenAI 发布 GPT-5.1-Codex-Max，专为复杂软件工程任务打造

本次最核心的技术突破在于引入了一种名为 compaction 的上下文压缩机制：模型在执行任务过程中会自动整理记忆，提炼并保留关键信息，从而实现在“超长上下文”环境下的稳定运行，避免因上下文过载导致的状态丢失或性能下降。

GPT-5.1-Codex-Max 经历了海量真实开发场景的训练，涵盖前端开发、错误调试、数学逻辑推理、PR 文案撰写以及代码审查等多个环节。在多项工程化测试中，其表现无论是效率还是准确性均显著超越前代模型，同时大幅降低了令牌消耗。

评估项目	指标／表现	说明
SWE-bench Verified (n = 500)	73.7% → 77.9%	在大规模软件工程基准测试中，从上一代 GPT‑5.1‑Codex 到 Max 版本实现明显跃升。
SWE-Lancer IC SWE	66.3% → 79.9%	针对独立开发者任务集的表现大幅提升，展现更强自主开发能力。
Terminal-Bench 2.0	52.8% → 58.1%	在命令行与终端操作类任务中也取得可观进步。
上下文长度及 “长期任务”能力	支持跨多个上下文窗口协同工作，可持续运行数小时乃至超过 24 小时不中断。	体现其对长周期、项目级任务的强大支撑能力。
令牌效率（token efficiency）	在中等推理强度模式下，相比上代减少约 30% 的思考令牌使用量，同时输出质量更高。	有效降低调用成本，提升整体响应效率。
安全 / 不安全内容评估 (Production Benchmarks)	例如 “illicit” 类别得分由 0.860 提升至 0.920；“sexual/minors” 从 0.901 升至 0.970。	显示在内容安全控制方面有所增强，但仍存在边界限制。
网络安全 (Cybersecurity) 能力	在多种模拟攻击测试中： – 网络渗透模拟平均成功率达 37% – 漏洞挖掘与利用达 41% – 规避检测（Evasion）达到 43%	虽为当前最强水平，但官方强调尚未达到“高能力”标准。
生物／化学领域 (Bio & Chem) 能力	面对长篇幅生物风险相关提问，模型拒绝回应率达到 100%。	表明该领域被列为“高风险”，OpenAI 已实施严格封控策略。

OpenAI 强调，随着模型能力的增强，相应的安全责任也随之上升，尤其是在网络安全、生物与化学等敏感领域，必须配套更严密的防护机制。尽管其在网络攻防*中展现出一定潜力，但距离真正“高威胁能力”仍有差距。

Lateral App

整理归类论文

85 查看详情 Lateral App

目前，GPT-5.1-Codex-Max 已成为 Codex 系列产品的默认核心引擎，并正逐步向开发者群体和企业用户开放接入。

源码地址：点击下载

以上就是OpenAI 发布 GPT-5.1-Codex-Max，专为复杂软件工程任务打造的详细内容，更多请关注其它相关文章！

# 前代 # seo在线推广广告 # 哈尔滨官网seo优化 # 抖音关键词排名北京公司 # 万柏林区网站建设资费 # 蚌埠品牌网站推广 # deo与seo是什么 # 清河区网站推广公司 # seo中的s # 湖南seo软件代理公司 # 鱼台seo推广效果如何 # 测试中 # 米高 # 园区 # 前端 # 两大 # 多个 # 柬埔寨 # 令牌 # 专为 # 软件工程 # 大模型 # gpt-5 # gpt # openai # ai # 前端开发 # 网络安全

相关栏目：【行业新闻62819 】【科技资讯67470 】

上一篇：李彦宏人民日报撰文：内化 AI 能力，加快形成新质生产力

返回列表

下一篇：AMD官宣：FSR Redstone重磅升级12月10日发布