发布时间:2024-01-11
点击次数: 扩散模型在图像生成方面取得了显著成功,但将其应用于视频超分辨率仍存在挑战。视频超分辨率要求输出保真度和时间一致性,而扩散模型的固有随机性使这变得复杂。因此,有效地将扩散模型应用于视频超分辨率仍是一个具有挑战性的任务。
来自南洋理工大学 S-Lab 的研究团队提出了一种名为Upscale-A-Video的文本指导潜在扩散框架,用于视频超分。该框架通过两个关键机制确保时间一致性。首先,在局部范围内,它将时间层集成到U-Net和VAE-Decoder中,以保持短序列的一致性。其次,在全局范围内,该框架引入了流指导循环潜在传播模块,无需训练即可在整个序列中传播和融合潜在,从而增强整体视频的稳定性。这种框架的提出为视频超分提供了一种新的解决方案,具有较好的时间一致性和整体稳定性。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文地址:https://arxiv.org/abs/2312.06640
通过扩散范式,Upscale-A-Video 获得了很大的灵活性。它允许使用文本 prompt 来指导纹理的创建,并且可以调节噪声水平,以在恢复和生成之间平衡保真度和质量。这一特性使得该技术在保持原始内容意义不变的同时,能够微调细节,从而实现更精确的结果。
实验结果表明,Upscale-A-Video在合成和现实世界基准上的表现超过了现有方法,呈现出令人印象深刻的视觉真实感和时间一致性。
我们先来看几个具体例子,例如,借助 Upscale-A-Video,「花果山名场面」有了高清画质版:

相比于 StableSR,Upscale-A-Video 让视频中的松鼠毛发纹理清晰可见:

方法简介
一些研究通过引入时间一致性策略来优化图像扩散模型以适应视频任务。这些策略包括以下两种方法:首先,通过时间层微调视频模型,如3D卷积和时间注意力,来提升视频处理性能。其次,使用零样本机制,例如跨帧注意力和流指导注意力,来在预训练模型中进行调整,以提高视频任务的表现。这些方法的引入使得图像扩散模型能够更好地处理视频任务,从而提升视频处理的效果。
尽管这些解决方案显著提高了视频稳定性,但仍然存在两个主要问题:
当前在 U-Net 特征或潜在空间中运行的方法难以保持低级一致性,纹理闪烁等问题仍然存在。
现有的时间层和注意力机制只能对短的局部输入序列施加约束,限制了它们确保较长视频中全局时间一致性的能力。
TTSMaker
TTSMaker是一个免费的文本转语音工具,提供语音生成服务,支持多种语言。
2275
查看详情
为了解决这些问题,Upscale-A-Video 采用局部-全局策略来维持视频重建中的时间一致性,重点关注细粒度纹理和整体一致性。在局部视频剪辑上,该研究探索使用视频数据上的附加时间层来微调预训练图像 ×4 超分模型。
具体来说,在潜在扩散框架内,该研究首先使用集成的 3D 卷积和时间注意力层对 U-Net 进行微调,然后使用视频条件输入和 3D 卷积来调整 VAE 解码器。前者显著实现了局部序列的结构稳定性,后者进一步提高了低级一致性,减少了纹理闪烁。在全局范围内,该研究引入了一种新颖的、免训练的流指导循环潜在传播模块,在推理过程中双向进行逐帧传播和潜在融合,促进长视频的整体稳定性。
Upscale-A-Video 模型
可以利用文本 prompt 作为可选条件来指导模型产生更真实、更高质量的细节,如图 1 所示。

Upscale-A-Video 将视频划分为多个片段,并使用具有时间层的 U-Net 对其进行处理,以实现片段内的一致性。在用户指定的全局细化扩散期间,使用循环潜在传播模块来增强片段间的一致性。最后,经过微调的 VAE 解码器可减少闪烁伪影,实现低级一致性。


实验结果
Upscale-A-Video 在现有基准上实现了SOTA性能,展现出卓越的视觉真实感和时间一致性。
定量评估。如表 1 所示,Upscale-A-Video在所有四个合成数据集中实现了最高的 PSNR,表明其具有出色的重建能力。

定性评估。该研究分别在图 4 和图 5 中展示了合成和真实世界视频的视觉结果。Upscale-A-Video 在伪影去除和细节生成方面都显著优于现有的 CNN 和基于扩散的方法。


以上就是「花果山名场面」有了高清画质版,NTU提出视频超分框架Upscale-A-Video的详细内容,更多请关注其它相关文章!
# upscale
# 花果山
# 中国科学院
# 工程
# 关于炒酸奶营销推广方案
# 自助网站建设知识点
# 虚拟资源库网站建设
# 武汉seo地址在哪里
# 临沂汽配行业网站建设
# 河源展示型网站建设
# 网站建设客户源
# 仪陇网络推广营销方案
# 隆尧网站建设值得推荐
# 适应式网站好优化
# 建中
# 新能源
# 所示
# 应用于
# 到你
# 实现了
# 太多
# 丰田
相关栏目:
【
行业新闻62819 】
【
科技资讯67470 】
相关推荐:
AI与5G的强强联合:唤醒数字时代的无尽潜能
一公司推出喷火机器狗,可喷出 9 米长火焰
加速电网转型升级推进新型电力系统建设
对话式论文阅读工具PaperMate上线,综述细节AI告诉你
Hugging Face发布了基于NASA卫星数据构建的AI地理空间基础模型
ChatGPT 可以设计机器人吗?
靠游戏更靠AI 英伟达成唯一首季度两位数增长的公司
人工智能和你聊天 成本有多高
NTU、上海AI Lab整理300+论文:基于Transformer的视觉分割最新综述出炉
马斯克的幽默“现实”:AR眼镜与20美元“增强现实”哪个真实?
走进首家“元宇宙”未来工厂,卡奥斯探知工业之旅出发!
首届亚太网络法实务大会召开 九位大咖探讨元宇宙与人工智能发展
Transformer六周年:当年连NeurIPS Oral都没拿到,8位作者已创办数家AI独角兽
论文插图也能自动生成了,用到了扩散模型,还被ICLR接收
世界人工智能大会上,科大讯飞宣布与华为联手
AI新视野,增长新势能,伙伴云受邀出席笔记侠创业讲真话AI峰会
再也不怕「视频会议」尬住了!谷歌CHI顶会发布新神器Visual Captions:让图片做你的字幕助手
谷歌借AI打破十年排序算法封印,每天被执行数万亿次,网友却说是最不切实际的研究?
Moka发布AI原生HR SaaS产品“Moka Eva”,布局AGI时代
一家 380 亿美元的数据巨头,要掀起企业「AI 化」革命
微软必应聊天现已在Chrome和Safari浏览器上可用,但仍有许多限制存在
利用AI探索抗体“钥匙”、加速药物研发——访百图生科团队
AI在教育中的角色:AI如何改变我们的学习方式
国内首款大尺寸仿鸵双足机器人“大圣”亮相,穿戴红色战袍
MetaGPT开源框架爆红 GitHub,达到1.1万星,模拟软件开发流程
朱民:普通人炒股炒不过机器人是很正常的 AI已经能理解市场情绪
Meta发布"类人"AI图像创建模型,能解决多出手指等Bug
湖北科技职业学院举行工业机器人及智能制造技术专精特新产业学院建设启动仪式
13万个注释神经元,5300万个突触,普林斯顿大学等发布首个完整「成年果蝇」大脑连接组
V社悄悄封禁使用AI生成美术素材的游戏
清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳
马斯克:将来机器人比人类多!特斯拉机器人亮相人工智能大会
谷歌新安卓机器人logo曝光:头更大了
国产医疗企业的人工智能
万兴播爆桌面端上线,支持AI数字人搜索、视频编辑等功能
上海发布大模型政策 打造AI“模”都
边喷火边跳踢踏舞,机器狗最新技能爆火全网!网友直呼真·热狗
跑不动的元宇宙,虚拟世界比现实更冷酷
比尔盖茨:AI确实存在风险,但可控
智能手机应用中的人工智能的重要性
网友自制 AI 版《流浪地球 3》预告片,登上 CCTV6
酒店业将如何受益于人工智能的改变?
AYANEO 安卓掌机 Pocket AIR 配置公布:天玑 1200 + 5.5 英寸屏
ChatGPT会成为你家新的语音助手吗?
猿辅导发布最新SaaS业务进展公告:Motiff UI设计工具推出三项新的AI功能
“智能体动作生成技术”现身WAIC:游戏AI技术为机器人科创注入新动力
物联网“僵尸网络DDos攻击”增长惊人,威胁全球电信网络
GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型
无人机在电力巡检中的应用:全面解析高效巡检流程
零AI含量!纯随机数学无限生成逼真3D世界火了,普林斯顿华人一作