400 128 6709

行业新闻

仅靠逻辑题,AI数学竞赛能力飙升!微软、九坤投资:7B小模型也能逼近o3-mini

发布时间:2025-02-25点击次数:

仅靠逻辑益智题,竟能让AI数学竞赛水平大幅提升?DeepSeek R1的秘密武器

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

继中国大模型在技术领域取得突破后,国内团队再次带来惊喜!这项研究揭秘了DeepSeek R1模型背后的秘密:通过少量合成数据和强化学习,一个7B参数的小模型在逻辑推理测试中超越了OpenAI的o1模型,甚至逼近o3-mini-high的水平。更令人瞩目的是,在从未见过的美国数学奥林匹克(AIME)测试中,其推理能力提升了惊人的125%!

研究成果:

  • 论文标题: Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning
  • 论文链接: https://www.php.cn/link/971c6340495b40cce8b7ef650650a599
  • Github链接: https://www.php.cn/link/fb1f13df81c7bee04d8a083204858880

该研究由微软亚洲研究院和九坤投资等机构的研究人员共同完成,是首个对类似R1强化学习模型训练过程进行全面深入分析的研究。 值得强调的是,该团队不仅完整开源了全部代码,还公开了详细的参数设置、训练数据和经验总结。

研究目标:

研究团队试图解答以下关键问题:

  1. GRPO是否是强化学习的最佳算法?如何进行参数调整以实现稳定训练?循序渐进的课程学习是否仍然有效?
  2. 基于基础模型进行强化学习与完全冷启动训练有何区别?哪种方式更优?
  3. 模型输出长度的线性增长规律是否与推理能力的提升直接相关?
  4. 模型频繁使用“verify”、“check”等反思性词汇是否意味着推理能力增强?哪些词语能够可靠地反映推理能力的提升?
  5. 强化学习是否真正掌握了抽象推理能力,还是仅仅依赖于模式记忆?与传统的监督微调相比,强化学习的优势在哪里?
  6. 模型在推理过程中混用中英文是否对性能提升有帮助,甚至可能是有害的?

图片

研究方法:

数据选择: 为了更好地分析推理模型机制,研究人员选择使用程序生成的逻辑谜题作为训练数据,例如经典的“骑士与骗子”问题。这种方法的优势在于:

  • 数据是全新的,可以有效测试模型的泛化能力。
  • 通过调整参数,可以控制谜题的难度。
  • 每个谜题都有明确的答案,减少了奖励作弊的风险。
  • 消除了自然语言任务中的模糊性,方便区分真正的推理能力和简单的模式记忆。

图片

MedPeer科研绘图 MedPeer科研绘图

生物医学领域的专业绘图解决方案,告别复杂绘图,专注科研创新

MedPeer科研绘图 166 查看详情 MedPeer科研绘图

奖励机制: 研究人员设计了一个基于规则的奖励系统,几乎杜绝了作弊行为,主要包括格式奖励和答案奖励两种。

实验结果:

经过大量的对比实验,研究团队最终选择REINFORCE++算法,并对其进行了改进。 在经过约3600步训练后,7B参数的模型在逻辑推理测试中超越了OpenAI o1模型两倍,性能逼近o3-mini-high。

图片

有趣的发现:

  • “思考”词语与推理能力: 研究发现,“verify”、“check”等词语的出现与推理性能提升相关,但并非所有与思考相关的词语都能带来性能提升。“recheck”的出现反而会降低性能。
  • 语言混用: 中英文混用会降低模型性能。
  • “顿悟时刻”的缺失: 模型性能的提升是逐步进行的,并非突然出现“顿悟时刻”。
  • 强化学习与监督微调的对比: 强化学习的泛化能力更强,对数据的依赖性更低。
  • 输出长度与性能: 输出长度的增长并不一定代表推理能力的提升。

图片图片图片图片

更多细节,请参考论文原文。 这项研究为大模型的推理能力提升提供了新的思路,也为未来AI发展提供了宝贵的经验。

以上就是仅靠逻辑题,AI数学竞赛能力飙升!微软、九坤投资:7B小模型也能逼近o3-mini的详细内容,更多请关注其它相关文章!


# 也能  # 矩阵seo源码下载  # 黄山seo整站优化电话  # 洪梅关键词搜索排名  # 微信营销宣传推广  # 金坛谷歌seo  # 许昌网站优化收费情况  # 南昌建设网站站  # 本地的沈阳网站建设  # 辽宁推广全域营销价位低  # 西安网站推广威昕hfqjwl下拉  # 数学竞赛  # 腾讯  # 工程  # 仅靠  # 还能  # 首次  # 奥迪  # 首个  # 的是  # 微软  # deepseek  # 区别  # ai  # git 


相关栏目: 【 行业新闻62819 】 【 科技资讯67470


相关推荐: 美图秀秀发布七款 AI 工具:修图一样修视频、打造电影级上镜脸  DeepMind推惊世排序算法,C++库忙更新!  华为将于 7 月发布面向 AI 大模型的新款存储产品  人工智能正在弥合认知和表达之间的鸿沟  创作音乐/音频的Meta开源AI工具AudioCraft,让用户通过文本提示实现  自己动手使用AI技术实现数字内容生产  智能公司为何纷纷投身机器人领域?  CharacterAI - 也许会成为会话人工智能的未来  第四范式“式说”大模型入选《2025年通用人工智能创新应用案例集》  五个出色的人工智能应用实例  美图公司:Wink国内首发AI画面拓展功能  参议院司法听证会:AI 不易管控,有可能被恶意分子利用来研发生化武器  2025 年开发者必须知道的六个 AI 工具  以分布式网络串联闲置GPU,这家创企称可将AI模型训练成本降低90%  马斯克“揭秘”人工智能真面目  中国移动主导创立元宇宙产业联盟,包括科大讯飞、芒果TV等在内,共24家成员  “直击”AI新世界,智能机器人再次“火出圈”了  苹果推出全新沉浸式 AR 体验应用“Deep Field”  为AI而服务设计:构建以人为本的AI创新方法  百川智能发布Baichuan-13B AI模型,号称“130亿参数开源可商用”  美图秀秀发布7款AI产品:支持用户创作、商业创作  扎克·施奈德新片《月球叛军》曝剧照 机器人首度现身  下一个前沿:量子机器学习和人工智能的未来  【搞事】时隔4年 谷歌更新安卓logo 机器人头更饱满了  清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳  苹果头显降临,AI虚拟人的救星还是流星?  能抓取玻璃碎片、水下透明物,清华提出通用型透明物体抓取框架,成功率极高  智能机器人与话剧的完美结合:宇树四足机器人B1助力《骆驼祥子》重现经典  谷歌推出 SAIF 框架,倡导安全环境下探索和发展人工智能  百度文心一言App上架苹果商店,人工智能创作引发热议  生活垃圾智能分类机器人社区展“才能”,征求居民意见  如何用AI重塑你的工作流(一)  国宝级文物“铜兽驮跪坐人顶尊铜像”完成模拟拼接,腾讯AI立功  马斯克WAIC2025演讲全文:AI将对人类文明产生深远影响  华为即将推出HarmonyOS 4,再度领先行业的AI技术  人才智能平台转型中的人工智能的关键角色  AI框架生态峰会本周开幕 华为昇腾“朋友圈”再聚首 全球首个全模态大模型将登场  当一切设备都受到人工智能的控制  优傲机器人的人机协作技术 助力中小企发展  击败LLaMA?史上超强「猎鹰」排行存疑,符尧7行代码亲测,LeCun转赞  无人机自主巡检为高海拔输电线路运维添“新彩”  在这里见未来!杭州未来科技城全球AI盛会邀您共探最前沿  创新科学家成功研发FAST激光靶标维护机器人  云深处与昇腾CANN携手合作:开设ROS四足机器狗开发训练营  报道称亚马逊正在测试AI生成产品评价摘要  清华&中国气象局大模型登Nature:解决世界级难题,「鬼天气」预报时效首次达3小时  云米Smart 2E AI立式空调开启预售:新三级能效,到手价3899元  从数据中心到发电站:人工智能对能源使用的影响  人工智能时代 数字文明对话向“尼”走来  Meta将VR头显最低年龄限制从13岁降至10岁 

400 128 6709
E-mail

contact@tlftec.cn

扫一扫,添加微信

©  云南淘乐房科技有限公司 版权所有  滇ICP备2025071560号  

云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司