发布时间:2025-02-26
点击次数: 2025年,视频生成技术,特别是基于扩散模型的视频生成,持续发展创新,涌现出众多令人惊艳的文生视频和图生视频模型。然而,长视频生成一直是该领域的一大难题。麻省理工学院(mit)团队近期发表的论文《history-guided video diffusion》提出了一种名为diffusion forcing transformer (dfot) 的全新算法,无需改变现有模型架构,即可实现视频生成长度提升近50倍,达到近千帧。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜


论文地址:https://www.php.cn/link/70cd9109e88def5e20c6887a8d9af139 项目主页:https://www.php.cn/link/9d0bbb435db57b64859584c8e160a485
生成的视频长度惊人,需截短并降低帧率才能展示。先睹为快:

现有视频扩散模型广泛采用无分类器引导(CFG)来提升采样质量,但通常仅利用首帧信息,忽略了后续帧的重要性。MIT团队的研究表明:历史信息是提升视频生成质量的关键!

该论文通过混合长短历史模型的预测结果,提出了一系列“历史引导”算法,显著提升了视频扩散模型的质量、生成长度、鲁棒性和可组合性。

在X平台上,论文共同一作陈博远分享的研究成果获得了极高的关注度。


谷歌研究科学家George Kopanas高度评价了这项工作,认为其成果令人印象深刻。

核心方法:
MedPeer科研绘图
生物医学领域的专业绘图解决方案,告别复杂绘图,专注科研创新
166
查看详情
论文首先训练了一个能够根据不同历史信息进行去噪预测的视频模型,包括不同长度的历史、历史的不同子集以及特定频率域的历史。 然而,现有模型架构缺乏这种灵活性。 DFoT算法巧妙地将Diffusion Forcing中的噪声掩码概念引入视频生成架构,通过控制噪声掩码来实现对任意子序列的预测,无需修改模型架构。

DFoT训练完成后,可以灵活地进行采样。例如,通过控制噪声掩码,可以选择使用前几帧作为条件,或进行无条件生成,或使用特定长度的历史作为条件。

基于此,论文提出了一系列“历史引导”算法,进一步提升了模型性能。
实验结果:
DFoT在Kinetics 600数据集上超越了所有同架构的视频扩散算法,甚至与谷歌的闭源大模型结果不相上下。 在RealEstate10K数据集上,DFoT实现了单图生成近千帧的突破性成果。



总结:
DFoT算法及其提出的“历史引导”策略显著提升了视频扩散模型的性能。该研究提供了完整的开源实现和Huggingface在线体验,方便研究者进一步探索。 Huggingface地址:https://www.php.cn/link/af8772553fadf9c4d0e4b49aec689da3
以上就是千帧长视频时代到来!MIT全新扩散算法让任意模型突破时长极限的详细内容,更多请关注其它相关文章!
# 视频生成
# 谷歌
# 变现
# 工程
# 孝感网站建设与优化
# seo网站优化上排名推广教程
# 新媒体网络营销推广项目
# 在哪儿能找网站建设信息
# 入侵网站建设美丽图片
# 数字营销推广计划名称
# 服饰网站建设美丽文案
# 芜湖网站优化服务如何做
# 推广网站优化方案
# 优化网站视觉的方法
# 麻省理工学院
# 首个
# 多项
# 掩码
# 腾讯
# 还能
# 首次
# 时长
# 奥迪
# 提出了
# 2025
# 2025年
相关栏目:
【
行业新闻62819 】
【
科技资讯67470 】
相关推荐:
引领AI变革,九章云极DataCanvas公司重磅发布AIFS+DataPilot
五个IntelliJ IDEA插件,高效编写代码
独家视角:首次展示有人与无人协同打击的7000米高空察打一体无人机
争鸣:OpenAI奥特曼、Hinton、杨立昆的AI观点到底有何不同?
小红书陷入麻烦!被指控未经许可使用用户图片进行AI训练
掌阅科技对话式AI应用“阅爱聊”开启内测
360°/180°双模式,佳能公布可折叠小体积的VR全景相机
边喷火边跳踢踏舞,机器狗最新技能爆火全网!网友直呼真·热狗
Databricks推出人工智能模型共享机制,可令开发者与公司“双赢”
朱民:普通人炒股炒不过机器人是很正常的 AI已经能理解市场情绪
北京市通用人工智能产业创新伙伴计划名单公布,京东科技入选“算力伙伴”
随时随地,追踪每个像素,连遮挡都不怕的「追踪一切」视频算法来了
零AI含量!纯随机数学无限生成逼真3D世界火了,普林斯顿华人一作
击败LLaMA?史上超强「猎鹰」排行存疑,符尧7行代码亲测,LeCun转赞
阿里达摩院向公众免费开放100项AI专利许可
Moka发布AI原生HR SaaS产品“Moka Eva”,布局AGI时代
MetaGPT AI 模型开源:可模拟软件公司开发过程,生成高质量代码
字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA
曝光HarmonyOS 4的重要新能力:全面升级AI大模型,小艺实现全面进化
人工智能颠覆软件测试四大方式
探索AI前沿理念 2025全球人工智能技术大会在杭州开幕
亲身体验鸿蒙4:AI大模型带来的便利,告别单纯的旁观者状态
剧透!蜜小豆@2025世界人工智能大会多个亮点曝光
华为4G5G通信物联网收费标准公布,多年研发成果,十年花费近万亿
抛媚眼给瞎子看?微软、谷歌的AI广告被广告主抵制
微软在 Build 大会上宣布的新 Microsoft Store AI Hub 现已开始推出
对话无界AI创始人长铗:AI的创业机会在应用层丨创新者Innovator
“世界人工智能之都”的新烦恼:AI热潮无法拉动大量就业
微软Bing聊天机器人电脑端即将支持语音提问
GPT-4不能在麻省理工学院获得计算机科学学位
中国移动主导创立元宇宙产业联盟,包括科大讯飞、芒果TV等在内,共24家成员
RoboNeo操作教程
《流浪地球2》里机器人公司的创始人:未来10年,机器人的崛起!
面向AI大模型,腾讯云首次完整披露自研星脉高性能计算网络
人工智能在项目管理中的作用
微软最新推出的NaturalSpeech2语音合成模型:提供更准确的语音重构,避免棒读效果
爱设计PPT发布第二代AI一键生成PPT产品:智能、个性化、自动化
猿辅导发布最新SaaS业务进展公告:Motiff UI设计工具推出三项新的AI功能
首家承认ChatGPT影响其收入的公司Chegg选择拥抱AI ,裁减4%员工
Bing 聊天机器人现支持在桌面端用语音提问
借力AI!PCB全球巨头,有爆发潜质吗?
参议院司法听证会:AI 不易管控,有可能被恶意分子利用来研发生化武器
【趋势周报】全球人工智能产业发展趋势:OpenAI向美国专利局提交“GPT-5”商标申请
人工智能在重症监护室的未来
2025WRC世界机器人大赛锦标赛(烟台)收官!斯坦星球勇夺VEX赛项冠亚军!
小岛秀夫不反对使用AI 但认为人类应该凌驾于AI
AIGC浪潮下,联想集团再加码计算与人工智能
2025世界人工智能大会(上海)开幕式纪要
有 ARM 和 X86 两个版本,香橙派游戏掌机细节曝光
能抓取玻璃碎片、水下透明物,清华提出通用型透明物体抓取框架,成功率极高