400 128 6709

行业新闻

“Vibe Coding” 概念提出者 Andrej Karpathy 谈强化学习

发布时间:2025-08-28点击次数:

在预训练阶段,核心资源是互联网文本。你需要海量、多样且高质量的网页内容,让模型从中汲取语言规律和知识。

进入监督微调(SFT)阶段后,重点转向了对话数据。这时,人们会雇佣标注人员为各种问题撰写高质量回答,形式类似于 Stack Overflow 或 Quora 上的内容,但更贴合大语言模型(LLM)的实际应用需求。

我认为这两个阶段仍将持续存在,但在当前的强化学习浪潮中,真正的关键已转向“环境”(environments)。与前两个阶段不同,环境允许大语言模型进行实际交互——执行动作、观察反馈、调整策略。这使得模型有机会突破简单的“行为克隆”或“统计模仿”,迈向更深层次的认知学习。这些环境既可用于训练,也可用于评估。然而,挑战依然在于:我们需要大量、多样化且高质量的环境,作为 LLM 实践的“练习题库”。

这让我联想到 OpenAI 早年推出的 Gym 项目——一个旨在标准化和集中提供各类环境的平台。只不过那时大语言模型尚未兴起,所以 Gym 中的任务多为传统的控制类问题,如倒立摆(cartpole)、ATARI 游戏等。而如今,PrimeIntellect 所推出的“环境中心”(environments hub),以及其 GitHub 上的 verifiers 仓库,正在构建一个面向现代 LLM 的升级版 Gym 框架。这是一个极具前瞻性和实用价值的尝试。今年早些时候,我也曾公开建议有人来推动这样的项目。

一个令人兴奋的特点是:一旦基础框架搭建完成,各个领域内的研究者和开发者便可以并行地构建各自的专业环境,形成生态化发展。

最后一点个人看法——从长远来看,我非常看好“环境驱动的学习”以及“具身智能体式交互”(agentic interactions)的发展潜力。但我对“强化学习”(reinforcement learning, RL)本身持保留态度(看跌)。

小云雀 小云雀

剪映出品的AI视频和图片创作助手

小云雀 1949 查看详情 小云雀

我认为奖励函数(reward functions)存在根本性缺陷。而且我坚信,人类在解决复杂认知任务时,并不主要依赖强化学习机制(也许在某些运动控制或习惯养成场景中有用,但在高级思维活动中并非主导)。人类使用的是更高效、更强大的学习方式,而这些机制目前尚未被充分发现或实现规模化。

不过,已经出现了一些有希望的初步探索,比如“系统提示学习”(system prompt learning)——即把模型的更新过程从修改权重转移到优化提示或上下文结构上,之后再选择性地将学到的知识“蒸馏”回模型权重中。这一过程,某种程度上类似于睡眠对人类大脑的巩固作用。

“Vibe Coding” 概念提出者 Andrej Karpathy 谈强化学习

原文:https://www.php.cn/link/4e69622f5a820f3d466927b558ba83ac

以上就是“Vibe Coding” 概念提出者 Andrej Karpathy 谈强化学习的详细内容,更多请关注其它相关文章!


# ai  # openai  # git  # 湖州网站seo优化方案  # 河北推广营销哪家好  # 平遥抖音seo运营招聘  # 关键词快速排名怎么做的  # 新民品牌网站建设要求  # 巢湖网站优化推广价格  # 个人网站建设与网页设计  # 网络seo优化产品介绍  # 实名实网认证对seo  # 常德网站优化联系电话  # 我对  # 成长之路  # 互联网  # 这一  # 的是  # 开源  # 类似于  # 我认为  # 但在  # 高质量  # overflow 


相关栏目: 【 行业新闻62819 】 【 科技资讯67470


相关推荐: AI+音乐如何“生成”动听旋律?一起揭秘世界人工智能大会开场曲  以分布式网络串联闲置GPU,这家创企称可将AI模型训练成本降低90%  中美陷入囚徒困境,人工智能变得不可控?可参考核不扩散条约规范  你大脑中的画面,现在可以高清还原了  OpenAI CEO 山姆・阿尔特曼呼吁 AI 领域中美应当合作  “具身智能”引爆机器人产业,看绝影Lite3/X20四足机器人有何特别之处?  传Meta 2025年推出首款AR眼镜,采用军用级别材料,计划生产1000台  IBM与NASA联手开源地理空间AI基础模型,促进气候科学领域进步  美图秀秀“AI 扩图”功能上线,可根据图像生成更大画幅  GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型  日本学校探索引入 AI 和无人机:提高安保效率,节省劳动力  马斯克讽刺人工智能炒作:什么“机器学习”,其实就是统计  “五年内人类程序员将消失”预言引争议,AI真的那么强大了吗?  DreamAvatar数字人在哪里下载  V社悄悄封禁使用AI生成美术素材的游戏  煤电“三改联动”需多措联动  天翼云在国际AI顶会大模型挑战赛中获得冠军  Win11 的画图应用将包含 Windows Copilot 的 AI 工具整合  WPS AI 官网上线:可申请体验官资格,支持 Windows、安卓端下载  AI 程序 Text With Jesus 在海外迅速受到关注:与耶稣和撒旦进行对话  网易云音乐内测上线“私人DJ” 打造AI推荐音乐助手  苹果机器学习关键人物 Ali Farhadi 离职,回归 AI2 担任 CEO  张勇对话多位诺奖得主 人工智能将无处不在  调查:过半数艺术家认为 AI 作图无法帮助他们的工作  数据科学,解码智能未来——Altair首次提出“Frictionless AI”概念  走进首家“元宇宙”未来工厂,卡奥斯探知工业之旅出发!  山东机器人编程:Scratch编程基础,认识舞台!~济南机器人编程  AI拉动PCB发展|行业发现  严打“黑飞”,无人机检测反制设备护航大运会净空安全  美图秀秀发布七款 AI 工具:修图一样修视频、打造电影级上镜脸  谷歌旗下 DeepMind 开发出 RoboCat AI 模型,能控制多种机器人执行一系列任务  AI框架生态峰会本周开幕 华为昇腾“朋友圈”再聚首 全球首个全模态大模型将登场  鸿蒙生态带来了哪些新的流量可能性,包括AI、服务分发和原生智能等方面?  上影节直击 | AI技术降低了短片拍摄门槛?金爵奖评委不赞同  首家承认ChatGPT影响其收入的公司Chegg选择拥抱AI ,裁减4%员工  推动企业数字化转型升级!“松江智造”摘世界人工智能大会重磅奖项  大模型训练成本降低近一半!新加坡国立大学最新优化器已投入使用  微软向美国政府提供GPT的大模型,安全性如何保证?  抢占新赛道 加快机器人产业集聚发展  研究表明 GPT-4 模型具备自我纠错能力,有望推动 AI 代码进一步商业化  北京市元宇宙产业创新中心筹建工作正式启动  猿编程参加人工智能高峰论坛,推动人工智能教育解决方案在千所学校推行  人工智能快速发展 打开就业新空间  Bing 聊天机器人现支持在桌面端用语音提问  AI无法对传统文化符号进行解构和创新  【首发】首款“消化内镜手术机器人”进入临床尾声,ROBO医疗获数千万元A轮融资  黄仁勋:5年前,我们对AI抱有巨大期望  奥比中光子公司和斯坦德机器人深度合作,共同推进新一代激光雷达的研发  AI浪潮席卷,时空壶为何能成为AI翻译时代的破局者  有远见!华为四年前注册商标Vision Pro:苹果AR国内要改名 

400 128 6709
E-mail

contact@tlftec.cn

扫一扫,添加微信

©  云南淘乐房科技有限公司 版权所有  滇ICP备2025071560号  

云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司