Open-o3 Video— 北大联合字节开源的视频推理模型

发布时间：2025-11-07

点击次数：

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
Open-o3 Video是什么

open-o3 video 是由北京大学与字节跳动联合研发的一款开源视频推理模型，致力于通过引入显式的时空线索（如关键时间点和目标边界框）来提升视频理解的精度。该模型依托精心构建的 stgr 数据集，并采用“监督微调+强化学习”两阶段训练策略，在 v-star 基准测试中取得了领先表现。其非代理架构设计有效支持复杂时空关系建模，在多项视频推理任务中展现出卓越性能。整个训练流程包含冷启动初始化和强化学习优化两个阶段，使模型具备更强的泛化能力与场景适应性。

Clips AI

自动将长视频或音频内容转换为社交媒体短片

255 查看详情 Clips AI

Open-o3 Video的主要功能

时空联合推理：能够融合关键时间戳和空间边界框等显式信息，实现对视频内容的时间序列与空间结构的精准推理，显著提升分析准确性。
高质量数据支持与训练机制：基于自主构建的 STGR 数据集，结合 SFT 与 RL 的双阶段训练方法，先进行监督学习打基础，再通过强化学习精调，确保在 V-STAR 等评测中表现优异。
非代理架构优势：摒弃传统代理模型结构，直接处理原始视觉输入，减少中间环节的信息损耗，提高推理效率与时空一致性。
开放生态与可拓展性：完全开源，便于研究者复现、改进和集成到不同应用中，推动视频理解领域的技术进步，具备良好的扩展潜力。

Open-o3 Video的技术原理

显式时空证据注入：将关键帧时间戳和物体位置框作为可解释的推理依据，嵌入模型决策过程，增强预测结果的透明度与可信度。
分阶段优化训练：第一阶段使用带标注的推理链数据进行监督微调（SFT），建立初步推理能力；第二阶段引入强化学习（RL），通过准确性、时序对齐、空间精确性等多维度奖励函数进一步提升性能。
专用数据集构建：设计并发布了 STGR-CoT-30k 和 STGR-RL-36k 两个高质量数据集，涵盖丰富的时空标注与思维链记录，填补了现有数据缺乏统一时空监督的空白。
端到端非代理架构：采用端到端的非代理框架，避免使用中间代理模块带来的延迟与误差累积，实现更高效、更准确的视频语义解析。