发布时间:2023-06-28
点击次数: 在 AIGC 的神奇世界里,我们可以在图像上通过「拖曳」的方式,改变并合成自己想要的图像。比如让一头狮子转头并张嘴:

实现这一效果的研究出自华人一作领衔的「Drag Your GAN」论文,于上个月放出并已被 SIGGRAPH 2025 会议接收。
一个多月过去了,该研究团队于近日放出了官方代码。短短三天时间,Star 量便已突破了 23k,足可见其火爆程度。
图片
github 地址:https://github.com/xingangpan/draggan
无独有偶,今日又一项类似的研究 —— DragDiffusion 进入了人们的视线。此前的 DragGAN 实现了基于点的交互式图像编辑,并取得像素级精度的编辑效果。但是也有不足,DragGAN 是基于生成对抗网络(GAN),通用性会受到预训练 GAN 模型容量的限制。
在新研究中,新加坡国立大学和字节跳动的几位研究者将这类编辑框架扩展到了扩散模型,提出了 DragDiffusion。他们利用大规模预训练扩散模型,极大提升了基于点的交互式编辑在现实世界场景中的适用性。
虽然现在大多数基于扩散的图像编辑方法都适用于文本嵌入,但 DragDiffusion 优化了扩散潜在表示,实现了精确的空间控制。
图片
研究者表示,扩散模型以迭代方式生成图像,而「一步」优化扩散潜在表示足以生成连贯结果,使 DragDiffusion 高效完成了高质量编辑。
他们在各种具有挑战性的场景(如多对象、不同对象类别)下进行了广泛实验,验证了 DragDiffusion 的可塑性和通用性。相关代码也将很快放出、
下面我们看看 DragDiffusion 效果如何。
首先,我们想让下图中的小猫咪的头再抬高一点,用户只需将红色的点拖拽至蓝色的点就可以了:

接下来,我们想让山峰变得再高一点,也没有问题,拖拽红色关键点就可以了:
图片
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
还想让雕塑的头像转个头,拖拽一下就能办到:
图片
让岸边的花,开的范围更广一点:
ChatGPT Writer
免费 Chrome 扩展程序,使用 ChatGPT AI 生成电子邮件和消息。
106
查看详情

本文提出的 DRAGDIFFUSION 旨在优化特定的扩散潜变量,以实现可交互的、基于点的图像编辑。
为了实现这一目标,该研究首先在扩散模型的基础上微调 LoRA,以重建用户输入图像。这样做可以保证输入、输出图像的风格保持一致。
接下来,研究者对输入图像采用 DDIM inversion(这是一种探索扩散模型的逆变换和潜在空间操作的方法),以获得特定步骤的扩散潜变量。
在编辑过程中,研究者反复运用动作监督和点跟踪,以优化先前获得的第 t 步扩散潜变量,从而将处理点的内容「拖拽(drag)」到目标位置。编辑过程还应用了正则化项,以确保图像的未掩码区域保持不变。
最后,通过 DDIM 对优化后的第 t 步潜变量进行去噪,得到编辑后的结果。总体概览图如下所示:
图片
给定一张输入图像,DRAGDIFFUSION 将关键点(红色)的内容「拖拽」到相应的目标点(蓝色)。例如在图(1)中,将小狗的头转过来,图(7)将老虎的嘴巴合上等等。
图片
下面是更多示例演示。如图(4)将山峰变高,图(7)将笔头变大等等。
图片

以上就是DragGAN开源三天Star量23k,这又来一个DragDiffusion的详细内容,更多请关注其它相关文章!
# 开源
# 图片
# 石材网站推广
# seo社区ai
# 台湾直播公会推广网站
# 沧州网站推广哪家实惠好
# 四川芜湖网站优化
# 上海网站建设欢迎洽谈
# 枣庄专业的网站建设服务
# 电商网站系统优化
# 十堰网络推广网站优化
# 营销推广历史
# 环比
# 合上
# 上半年
# 就可以
# 营收
# 中国
# 想让
# 拖拽
# 这又
相关栏目:
【
行业新闻62819 】
【
科技资讯67470 】
相关推荐:
科技数码圈的新物种 乐天派桌面机器人 AI +安卓+机器人 首发价1799元
VR健身应用《FitXR》将取消Quest 1端会员服务
鹅厂机器狗抢起真狗「饭碗」!会撒欢儿做游戏,遛人也贼6
数据科学,解码智能未来——Altair首次提出“Frictionless AI”概念
GPT-4不能在麻省理工学院获得计算机科学学位
洞穴探险神器?可自主导航的单旋翼自旋无人机,效率更高!
高质量数据推动AI场景化应用快速发展及落地
人形机器人打开精密齿轮市场全新空间!受益上市公司梳理
AI会帮我们把活干完吗?
找对了风口想不火都难,乐天派机器人,安卓机器人的最终形态?
亚马逊确认今年不举办re:MARS人工智能大会
360发布AI数字人广场,可同孙悟空、爱因斯坦等古今中外角色对话
原小米 9 号员工李明打造全球首款 AI 安卓桌面机器人
陈根教授:离人形机器人时代还有10年吗?
杀入生成式AI的亚马逊云科技,能否再次生成未来?
酒店业将如何受益于人工智能的改变?
售价14.99万起!小米汽车部分信息疑遭AI曝光,内部人士回应:网传图片明显经过处理,不可轻信
AI+音乐如何“生成”动听旋律?一起揭秘世界人工智能大会开场曲
70年前他本想逃避考试,却影响了整个互联网
BLIP-2、InstructBLIP稳居前三!十二大模型,十六份榜单,全面测评「多模态大语言模型」
【趋势周报】全球元宇宙产业发展趋势:ChatGPT的出现,将元宇宙实现至少提前了10年
软银、淡马锡、沙特阿美突击入股,“协作机器人第一股”节卡股份:强敌环伺,持续失血是常态
Meta发布"类人"AI图像创建模型,能解决多出手指等Bug
让AI助手带您轻松愉快地享受写作之旅
硅谷人工智能研究院创始人皮埃罗·斯加鲁菲:Transformer模型演讲
无人机巡检方案是什么,该如何选择适合的巡检方案
吉林首例!机器人辅助下搭桥手术成功实施
清华朱军团队新作:使用4位整数训练Transformer,比FP16快2.2倍,提速35.1%,加速AGI到来!
人工智能时代 数字文明对话向“尼”走来
MiracleVision视觉大模型
消息称 Meta Quest 将推 VR 游戏订阅:每月 7.99 美元,任选两款
【搞事】时隔4年 谷歌更新安卓logo 机器人头更饱满了
人工智能在服务优化方面优缺点有哪些
首部国内AI辅助动画片《魔游纪:人工智能辅助篇》预告发布
Meta发布音频AI模型,仅需2秒片段模拟真人语音
6月14日《星空下的对话》 张朝阳陆川将畅聊人生、电影、心理学与AI
“聚智启新,‘蓉’力同行” 成都市人工智能产业融通对接会成功举办
谷歌新安卓机器人logo曝光:头更大了
Adobe旗下Illustrator引入生成式AI工具Firefly
选对AI智能写作软件,让创作游刃有余!
拓普龙7188ML:轻便壁挂式工控机箱,为人工智能应用场景提供有力保障
利好来了,AI再起一波?
微软在 Build 大会上宣布的新 Microsoft Store AI Hub 现已开始推出
AI遇上大运丨热身拉伸、娱乐K歌……AI智能健身镜将亮相成都大运会
猿辅导推出Motiff,整合三大AI功能,助力UI设计生产力革新
人工智能产业竞跑“未来赛道” 创新发展放大“赋能”效应
为了避免人工智能可能带来的灾难,我们要向核安全学习
Valve Index VR 头显销量下滑,上市四年的长青树渐失光彩
亚马逊CEO:人工智能将成为公司未来战略的重中之重
微软在德国举办MR研讨会,向女性分享元宇宙潜力