400 128 6709

行业新闻

OpenAI 发布 GPT-5.1-Codex-Max,专为复杂软件工程任务打造

发布时间:2025-11-20点击次数:

openai 今日发布了全新升级的 gpt-5.1-codex-max,定位为专为应对复杂、长期且多阶段软件工程挑战而设计的下一代代码大模型。该模型不仅能够编写和补全代码,还能在长达数十万字的上下文中持续推动大型项目进展。

OpenAI 发布 GPT-5.1-Codex-Max,专为复杂软件工程任务打造

本次最核心的技术突破在于引入了一种名为 compaction 的上下文压缩机制:模型在执行任务过程中会自动整理记忆,提炼并保留关键信息,从而实现在“超长上下文”环境下的稳定运行,避免因上下文过载导致的状态丢失或性能下降。

GPT-5.1-Codex-Max 经历了海量真实开发场景的训练,涵盖前端开发、错误调试、数学逻辑推理、PR 文案撰写以及代码审查等多个环节。在多项工程化测试中,其表现无论是效率还是准确性均显著超越前代模型,同时大幅降低了令牌消耗。

评估项目 指标/表现 说明
**SWE-bench Verified (n = 500)** 73.7% → 77.9% 在大规模软件工程基准测试中,从上一代 GPT‑5.1‑Codex 到 Max 版本实现明显跃升。
**SWE-Lancer IC SWE** 66.3% → 79.9% 针对独立开发者任务集的表现大幅提升,展现更强自主开发能力。
**Terminal-Bench 2.0** 52.8% → 58.1% 在命令行与终端操作类任务中也取得可观进步。
**上下文长度及 “长期任务”能力** 支持跨多个上下文窗口协同工作,可持续运行数小时乃至超过 24 小时不中断。 体现其对长周期、项目级任务的强大支撑能力。
**令牌效率(token efficiency)** 在中等推理强度模式下,相比上代减少约 **30% 的思考令牌使用量**,同时输出质量更高。 有效降低调用成本,提升整体响应效率。
**安全 / 不安全内容评估 (Production Benchmarks)** 例如 “illicit” 类别得分由 0.860 提升至 0.920;“sexual/minors” 从 0.901 升至 0.970。 显示在内容安全控制方面有所增强,但仍存在边界限制。
**网络安全 (Cybersecurity) 能力** 在多种模拟攻击测试中: – 网络渗透模拟平均成功率达 37% – 漏洞挖掘与利用达 41% – 规避检测(Evasion)达到 43% 虽为当前最强水平,但官方强调尚未达到“高能力”标准。
**生物/化学领域 (Bio & Chem) 能力** 面对长篇幅生物风险相关提问,模型拒绝回应率达到 100%。 表明该领域被列为“高风险”,OpenAI 已实施严格封控策略。

OpenAI 强调,随着模型能力的增强,相应的安全责任也随之上升,尤其是在网络安全、生物与化学等敏感领域,必须配套更严密的防护机制。尽管其在网络攻防*中展现出一定潜力,但距离真正“高威胁能力”仍有差距。

Lateral App Lateral App

整理归类论文

Lateral App 85 查看详情 Lateral App

目前,GPT-5.1-Codex-Max 已成为 Codex 系列产品的默认核心引擎,并正逐步向开发者群体和企业用户开放接入。

源码地址:点击下载

以上就是OpenAI 发布 GPT-5.1-Codex-Max,专为复杂软件工程任务打造的详细内容,更多请关注其它相关文章!


# 前代  # seo在线推广广告  # 哈尔滨官网seo优化  # 抖音关键词排名北京公司  # 万柏林区网站建设资费  # 蚌埠品牌网站推广  # deo与seo是什么  # 清河区网站推广公司  # seo中的s  # 湖南seo软件代理公司  # 鱼台seo推广效果如何  # 测试中  # 米高  # 园区  # 前端  # 两大  # 多个  # 柬埔寨  # 令牌  # 专为  # 软件工程  # 大模型  # gpt-5  # gpt  # openai  # ai  # 前端开发  # 网络安全 


相关栏目: 【 行业新闻62819 】 【 科技资讯67470


相关推荐: 常见的五个人工智能误解  人工智能驱动艺术,打开达利的超现实想象  “电碳”技术提升碳排放监测精度  ChatGPT设计出的第一个机器人来了!【附人工智能行业预测】  三星加速AR眼镜进程,预计明年上半年亮相  Meta Connect 2025已确定时间为9月27-28,主题涵盖Quest 3与AI技术  人工智能在服务优化方面优缺点有哪些  参考封面|人工智能“淘金热”  AI智能室内效果图设计软件效果,确实惊到我了!  OpenAI 静默关闭 AI 文本检测工具,准确率仅为 26%  人工智能正在弥合认知和表达之间的鸿沟  华为AI大模型将融入HarmonyOS 4  AI教父Bengio:我感到迷失,对AI担忧已成「精神内耗」!  腾讯TRS之元学习与跨域推荐的工业实战  选对AI智能写作软件,让创作游刃有余!  马斯克称人类是半机器人,记忆外包给了电脑  特斯拉门店可能启动机器人卖车?也许不是你想的那样  人工智能领域,突破难题:国产大模型“无源之水”问题得到解决。  不到2S创作AI图像!Snap发布图像生成器SnapFusion  谷歌推出RT-2视觉语言动作模型,使机器人能够掌握垃圾丢弃技能  马斯克回应“人工智能让一切变得更好”:我们已经是半机器人了  苹果2万5的AR遭遇砍单95%:不及预期  AI连线 | 专访风平智能CEO林洪祥:让AI数字人拥有漂亮的外表和有趣的灵魂,安全问题是重要考量  华为即将推出HarmonyOS 4,再度领先行业的AI技术  企业软件行业更将被AI全面重构!Moka李国兴:未来优秀组织和个人将一定是善于使用AI生产力的  五个出色的人工智能应用实例  苹果在韩举办首届中小企业智能制造论坛,加速推动工业4.0发展  “世界上最像人的机器人”接入 Stable Diffusion ,现场完成作画  实测 AI 建筑设计软件的自动生成效果图能力  两型无人机完成交付!国家级机动观测业务正式启动  国宝级文物“铜兽驮跪坐人顶尊铜像”完成模拟拼接,腾讯AI立功  AIGC浪潮下,联想集团再加码计算与人工智能  当一切设备都受到人工智能的控制  硅谷人工智能研究院创始人皮埃罗·斯加鲁菲:Transformer模型演讲  首部国内AI辅助动画片《魔游纪:人工智能辅助篇》预告发布  中科院自研新一代 AI 大模型“紫东太初 2.0”问世  小岛秀夫不反对使用AI 但认为人类应该凌驾于AI  微软bing聊天推出AI购物工具 可进行比价并查看历史最低价  讯飞星火大模型实现升级 助力通用人工智能人才培养  AI会帮我们把活干完吗?  套娃不可取:研究人员证实用AI生成的结果训练AI将导致模型退化  探展WAIC |万向区块链杜宇:不存在单一技术的iPhone时刻,Web3.0核心将基于AI+区块链+物联网  元宇宙技术带你穿梭“大运河”,江苏书展上的数字阅读馆吸睛小读者  马克龙密会AI专家,法国加入全球人工智能竞赛  美图公司:Wink国内首发AI画面拓展功能  山东机器人编程:Scratch编程基础,认识舞台!~济南机器人编程  英特尔张宇:边缘计算在整个AI生态系统中扮演重要角色  鹅厂机器狗抢起真狗「饭碗」!会撒欢儿做游戏,遛人也贼6  iPhone两秒出图,目前已知的最快移动端Stable Diffusion模型来了  从数据中心到发电站:人工智能对能源使用的影响 

400 128 6709
E-mail

contact@tlftec.cn

扫一扫,添加微信

©  云南淘乐房科技有限公司 版权所有  滇ICP备2025071560号  

云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司