“Vibe Coding” 概念提出者 Andrej Karpathy 谈强化学习

发布时间：2025-08-28

点击次数：

在预训练阶段，核心资源是互联网文本。你需要海量、多样且高质量的网页内容，让模型从中汲取语言规律和知识。

进入监督微调（SFT）阶段后，重点转向了对话数据。这时，人们会雇佣标注人员为各种问题撰写高质量回答，形式类似于 Stack Overflow 或 Quora 上的内容，但更贴合大语言模型（LLM）的实际应用需求。

我认为这两个阶段仍将持续存在，但在当前的强化学习浪潮中，真正的关键已转向“环境”（environments）。与前两个阶段不同，环境允许大语言模型进行实际交互——执行动作、观察反馈、调整策略。这使得模型有机会突破简单的“行为克隆”或“统计模仿”，迈向更深层次的认知学习。这些环境既可用于训练，也可用于评估。然而，挑战依然在于：我们需要大量、多样化且高质量的环境，作为 LLM 实践的“练习题库”。

这让我联想到 OpenAI 早年推出的 Gym 项目——一个旨在标准化和集中提供各类环境的平台。只不过那时大语言模型尚未兴起，所以 Gym 中的任务多为传统的控制类问题，如倒立摆（cartpole）、ATARI 游戏等。而如今，PrimeIntellect 所推出的“环境中心”（environments hub），以及其 GitHub 上的 verifiers 仓库，正在构建一个面向现代 LLM 的升级版 Gym 框架。这是一个极具前瞻性和实用价值的尝试。今年早些时候，我也曾公开建议有人来推动这样的项目。

一个令人兴奋的特点是：一旦基础框架搭建完成，各个领域内的研究者和开发者便可以并行地构建各自的专业环境，形成生态化发展。

最后一点个人看法——从长远来看，我非常看好“环境驱动的学习”以及“具身智能体式交互”（agentic interactions）的发展潜力。但我对“强化学习”（reinforcement learning, RL）本身持保留态度（看跌）。