400 128 6709

行业新闻

ICCV 2025 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了

发布时间:2023-09-27点击次数:

人体动作生成任务旨在生成逼真的人体动作序列,以满足娱乐、虚拟现实、机器人技术等领域的需求。传统的生成方法包括 3d 角色创建、关键帧动画和动作捕捉等步骤,其存在诸多限制,如耗时较长,需要专业技术知识,涉及昂贵的系统和软件,不同软硬件系统之间可能存在兼容性问题等。随着深度学习的发展,人们开始尝试使用生成模型来实现人体动作序列的自动生成,例如通过输入文本描述,要求模型生成与文本要求相匹配的动作序列。随着扩散模型被引入这个领域,生成动作与给定文本的一致性不断提高。

然而,尽管生成动作的自然程度已经有所提升,但与使用需求仍存在较大差距。为了进一步提升人体动作生成算法的能力,本文在MotionDiffuse [1]的基础上提出了ReMoDiffuse算法(图1)。通过利用检索策略,找到高相关性的参考样本,并提供细粒度的参考特征,从而生成更高质量的动作序列

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了

  • 论文链接:https://arxiv.org/pdf/2304.01116.pdf

  • GitHub链接:https://github.com/mingyuan-zhang/ReMoDiffuse

  • 项目主页:https://mingyuan-zhang.github.io/projects/ReMoDiffuse.html

通过巧妙地将扩散模型和创新的检索策略融合,ReMoDiffuse 为文本指导的人体动作生成注入了新的生命力。经过精心构思的模型结构,ReMoDiffuse 不仅能够创造出丰富多样、真实度高的动作序列,还能有效地满足各种长度和多粒度的动作需求。实验证明,ReMoDiffuse 在动作生成领域的多个关键指标上表现出色,显著地超越了现有算法。

ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了图 1. ReMoDiffuse 概览

方法介绍

ReMoDiffuse的主要流程分为两个阶段:检索和扩散。在检索阶段,ReMoDiffuse利用混合检索技术,根据用户输入文本和预期的动作序列长度,从外部的多模态数据库中检索出信息丰富的样本,为动作生成提供有力的指导。在扩散阶段,ReMoDiffuse利用检索阶段获取的信息,通过高效的模型结构生成与用户输入语义一致的运动序列

为了确保高效的检索,ReMoDiffuse 为检索阶段精心设计了以下数据流(图 2):

共有三种数据参与检索过程,分别是用户输入文本、预期动作序列长度,以及一个外部的、包含多个 对的多模态数据库。在检索最相关的样本时,ReMoDiffuse 利用公式ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了计算出每个数据库中的样本与用户输入的相似度。这里的第一项是利用预训练的 CLIP [2] 模型的文本编码器对用户输入文本和数据库实体的文本计算余弦相似度,第二项计算预期动作序列长度和数据库实体的动作序列长度之间的相对差异作为运动学相似度。计算相似度分数后,ReMoDiffuse 选择相似度排名前 k 的样本作为检索到的样本,并提取出文本特征ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了,和动作特征ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了。这两者和从用户输入的文本中提取的特征ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了 一同作为输入给扩散阶段的信号,指导动作生成。

ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了图 2:ReMoDiffuse 的检索阶段

扩散过程(图3.c)由正向过程和逆向过程两个部分组成。在正向过程中,ReMoDiffuse会逐步将高斯噪声添加到原始动作数据中,并最终将其转化为随机噪声。逆向过程则专注于去除噪声并生成逼真的动作样本。从一个随机高斯噪声开始,ReMoDiffuse在逆向过程的每一步都使用语义调制模块(SMT)(图3.a)来估测真实分布,并根据条件信号逐步去除噪声。这里的SMT中的SMA模块将会将所有的条件信息融入到生成的序列特征中,是本文提出的核心模块

ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了图 3:ReMoDiffuse 的扩散阶段

对于 SMA 层(图 3.b),我们使用了高效的注意力机制(Efficient Attention)[3] 来加速注意力模块的计算,并创造了一个更强调全局信息的全局特征图。该特征图为动作序列提供了更综合的语义线索,从而提升了模型的性能。SMA 层的核心目标是通过聚合条件信息来优化动作序列ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了的生成。在这个框架下:

1.Q 向量具体地代表了我们期望基于条件信息生成的预期动作序列图片

2.K 向量作为一种索引机制综合考虑了多个要素,包括当前动作序列特征图片、用户输入的语义特征图片,以及从检索样本中获取的特征图片图片。其中,图片表示从检索样本中获取的动作序列特征,图片表示从检索样本中获取的文本描述特征。这种综合性的构建方式保证了 K 向量在索引过程中的有效性。

Narration Box Narration Box

Narration Box是一种语音生成服务,用户可以创建画外音、旁白、有声读物、音频页面、播客等

Narration Box 68 查看详情 Narration Box

3.V 向量提供了生成动作所需的实际特征。与 K 向量类似,V 向量综合考虑了检索样本、用户输入和当前动作序列。由于检索样本的文本描述特征与生成的动作之间没有直接关联,因此在计算 V 向量时,我们选择不使用这一特征,以避免不必要的信息干扰

结合 Efficient Attention 的全局注意力模板机制,SMA 层利用来自检索样本的辅助信息、用户文本的语义信息以及待去噪序列的特征信息,建立起一系列综合性的全局模板,使得所有条件信息能够被待生成序列充分吸收。

为了实现内容的重写,需要将原文转换成中文。以下是重写后的内容: 研究设计和实验结果

我们对ReMoDiffuse进行了HumanML3D [4]和KIT-ML [5]两个数据集的评估。实验结果(表1、2)从文本一致性和动作质量两个角度展示了我们提出的ReMoDiffuse框架的强大性能和优势

ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了表 1. 不同方法在 HumanML3D 测试集上的表现

ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了表 2. 不同方法在 KIT-ML 测试集上的表现

以下是展示 ReMoDiffuse 强大性能的一些示例(图 4)。与之前的方法相比,例如,在给定文本“一个人在圆圈里跳跃”时,只有 ReMoDiffuse 能够准确捕捉到“跳跃”动作和“圆圈”路径。这表明 ReMoDiffuse 能够有效地捕捉文本细节,并将内容与给定的运动持续时间对齐

ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了图 4. ReMoDiffuse 生成的动作序列与其他方法生成的动作序列的比较

我们对 Guo 等人的方法 [4]、MotionDiffuse [1]、MDM [6] 以及 ReMoDiffuse 所生成的相应动作序列进行了可视化展示,并以问卷形式收集测试参与者的意见。结果的分布情况如图 5 所示。从结果中可以清晰地看出,在大多数情况下,参与测试者认为我们的方法 —— 即 ReMoDiffuse 所生成的动作序列在四个算法中最贴合所给的文本描述,也最自然流畅。

ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了图 5:用户调研的结果分布

引用

明源张、蔡忠刚、潘亮、洪方舟、郭欣颖、杨磊和刘子伟。Motiondiffuse: 基于扩散模型的文本驱动人体动作生成。arXiv预印本 arXiv:2208.15001, 2025年

[2] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. arXiv preprint arXiv:2103.00020, 2025.

[3] Zhuoran Shen, Mingyuan Zhang, Haiyu Zhao, Shuai Yi, and Hongsheng Li. Efficient attention: Attention with linear complexities. In Proceedings of the IEEE/CVF winter conference on applications of computer vision, pages 3531–3539, 2025.

[4] Chuan Guo, Shihao Zou, Xinxin Zuo, Sen Wang, Wei Ji, Xingyu Li, and Li Cheng. Generating diverse and natural 3d human motions from text. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5152–5161, 2025.

需要重写的内容是:[5] Matthias Plappert, Christian Mandery和Tamim Asfour。《运动语言数据集》。大数据,4(4):236-252,2016年

[6] Guy Tevet, Sigal Raab, Brian Gordon, Yonatan Shafir, Daniel Cohen-Or, and Amit H Bermano. Human motion diffusion model. In The Eleventh International Conference on Learning Representations, 2025.

以上就是ICCV 2025 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了的详细内容,更多请关注其它相关文章!


# 高斯  # 汕头专注企业网站建设  # 金城江网站建设  # 昆明网站安全优化  # 营销推广基本步骤图片  # 泰州网站优化代理的价格  # 代理商网站建设  # 青岛seo品牌推广  # 日语报名网站建设需要  # 关键词排名7到10个  # 黄江网站建设推广优化  # 入门  # 过程中  # 卖得  # 进行了  # 开源  # 有效地  # 腾讯  # 重写  # 多个  # 来了  # type 


相关栏目: 【 行业新闻62819 】 【 科技资讯67470


相关推荐: 彭博社:苹果Vision Pro曾测试VR手柄追踪方案  鉴智机器人发布基于地平线征程5的标准视觉感知产品  Meta推出VR订阅服务Quest +:每月免费玩两款游戏,7.99美元/月  “世界人工智能之都”的新烦恼:AI热潮无法拉动大量就业  小米首次曝光 64 亿参数的 MiLM-6B AI 大模型,或将应用于小爱同学  “聚智启新,‘蓉’力同行” 成都市人工智能产业融通对接会成功举办  元宇宙迈入2.0时代,它和生成式人工智能有何关联吗?  【趋势周报】全球人工智能产业发展趋势:OpenAI向美国专利局提交“GPT-5”商标申请  世界水下机器人大赛:9国青年携手逐梦深蓝  人工智能助力精准学习,猿辅导小猿学练机满足学生个性化学习需求  鹅厂机器狗抢起真狗「饭碗」!会撒欢儿做游戏,遛人也贼6  IBM将模拟计算用于人工智能,重塑AI计算  亚太地区 70% 的企业高管正探索生成式 AI 应用或已经进行投资  陈根:ChatGPT和人类合作开发机器人  深剖Apple Vision Pro中暗藏的“AI”  爱设计PPT发布第二代AI一键生成PPT产品:智能、个性化、自动化  了解 AGI:智能的未来?  腾讯TRS之元学习与跨域推荐的工业实战  高质量数据推动AI场景化应用快速发展及落地  社区里,孩子们体验“机器人竞技”  再也不怕「视频会议」尬住了!谷歌CHI顶会发布新神器Visual Captions:让图片做你的字幕助手  AI技术加速迭代:周鸿祎视角下的大模型战略  可按用户语气自动回复消息,Zoom 推出基于生成式 AI 的新功能  【|直播|预告】人工智能高峰论坛将于7月2日13:30准时开播!  2025世界人工智能大会(上海)开幕式纪要  Meta发布"类人"AI图像创建模型,能解决多出手指等Bug  出门问问亮相2025世界人工智能大会,展示AI CoPilot解决方案  人工智能“Aria”现身 Opera浏览器100版本更新:新功能“标签岛”  尼康尼克尔 Z 180-600mm f/5.6-6.3 VR 镜头发布,12499 元  2025年的网络分区:人工智能和自动化如何改变事物  人工智能框架生态峰会即将召开,聚焦AI大模型技术与科学智能探索!  找对了风口想不火都难,乐天派机器人,安卓机器人的最终形态?  IBM 与 NASA 携手开源地理空间 AI 模型,促进气候科学研究进步  WHEE使用教程  以计算机视觉技术为基础的库存管理如何改革零售行业  人工智能在项目管理中的作用  梦想实现!硬核科幻大片VR智能头盔即将问世  MIT开发“PhotoGuard”技术保护图像免遭恶意AI编辑  苹果AR头显商标与华为撞车,在中国或改名  首届亚太网络法实务大会召开 九位大咖探讨元宇宙与人工智能发展  AI 冥想应用 Ogimi.ai 推出,可为用户提供教练级个性化指导  马克龙密会AI专家,法国加入全球人工智能竞赛  放弃自动驾驶,也是一种和解  小艺主导智慧交互升级,借助AI大模型增强能力  马斯克发推讽刺人工智能:机器学习的本质就是统计  编程版GPT狂飙30星,AutoGPT危险了!  13条咒语挖掘GPT-4最大潜力,Github万星AI导师火了,网友:隔行再也不隔山了  日媒关注中国推进鸟类识别 AI 普及,除监测保护外还可预防传染性疾病  借力AI!PCB全球巨头,有爆发潜质吗?  扎克伯格吐槽苹果Vision Pro:社交落后Meta太多,无法建设元宇宙 

400 128 6709
E-mail

contact@tlftec.cn

扫一扫,添加微信

©  云南淘乐房科技有限公司 版权所有  滇ICP备2025071560号  

云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司