400 128 6709

行业新闻

快手、北大多模态大模型:图像即外语,媲美DALLE-3的突破

发布时间:2024-01-30点击次数:

动态视觉分词统一图文表示,快手与北大合作提出基座模型 l*it 刷榜多模态理解与生成任务。

当前的大型语言模型如GPT、LLaMA等在自然语言处理领域取得了显著进展,它们能够理解和生成复杂的文本内容。然而,我们是否考虑过将这种强大的理解和生成能力迁移到多模态数据上呢?这将使我们能够轻松理解海量的图像和视频,并创作出图文并茂的内容。为了实现这一愿景,快手和北大最近合作开发了一种新型的多模态大模型,名为LaVIT。LaVIT正在逐步将这一想法变为现实,让我们期待它的进一步发展。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

ICLR 2024|把图像视为外语,快手、北大多模态大模型媲美DALLE-3

  • 论文标题:Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization

  • 论文地址:https://arxiv.org/abs/2309.04669

  • 代码模型地址:https://github.com/jy0205/LaVIT

模型总览

LaVIT 是一个新型的通用多模态基础模型,类似于语言模型,它能够理解和生成视觉内容。LaVIT 的训练范式借鉴了大型语言模型的成功经验,采用自回归的方式来预测下一个图像或文本 token。在完成训练后,LaVIT 可以充当一个多模态通用接口,无需进一步微调即可执行多模态理解和生成任务。例如,LaVIT 具备以下能力:

LaVIT 是一种先进的图像生成模型,可以根据文本提示生成高质量、多种纵横比和高美感的图像。与最先进的图像生成模型(如 Parti、SDXL 和 DALLE-3)相比,LaVIT 的图像生成能力不逊色。它能够有效地实现高质量文本到图像的生成,为用户提供更多选择和更好的视觉体验。

ICLR 2024|把图像视为外语,快手、北大多模态大模型媲美DALLE-3

根据多模态提示进行图像生成:由于在 LaVIT 中,图像和文本都被统一表示为离散化的 token,因此其可以接受多种模态组合(例如文本、图像 + 文本、图像 + 图像)作为提示,生成相应的图像,而无需进行任何微调。

ICLR 2024|把图像视为外语,快手、北大多模态大模型媲美DALLE-3

理解图像内容并回答问题:在给定输入图像的情况下,LaVIT 能够阅读图像内容并理解其语义。例如,模型可以为输入的图像提供 caption 并回答相应的问题。

ICLR 2024|把图像视为外语,快手、北大多模态大模型媲美DALLE-3

方法概览

LaVIT 的模型结构如下图所示,其整个优化过程包括两个阶段:

ICLR 2024|把图像视为外语,快手、北大多模态大模型媲美DALLE-3

图:LaVIT 模型的整体架构

阶段 1: 动态视觉分词器

为了能够像自然语言一样理解和生成视觉内容,LaVIT 引入了一个设计良好的视觉分词器,用于将视觉内容(连续信号)转换为像文本一样的 token 序列,就像 LLM 能够理解的外语一样。作者认为,为了实现统一视觉和语言的建模,该视觉分词器 (Tokenizer) 应该具有以下两个特性:

  1. 离散化:视觉 token 应该被表示为像文本一样的离散化形式。这样对于两种模态采用统一的表示形式,有利于 LaVIT 在一个统一的自回归生成式训练框架下,使用相同的分类损失进行多模态建模优化。

  2. 动态:与文本 token 不同的是,图像 patch 之间有着显著的相互依赖性,这使得从其他图像 patch 中推断另一个 patch 相对简单。因此,这种依赖性会降低原本 LLM 的 next-token prediction 优化目标的有效性。LaVIT 提出通过使用 token merging 来降低视觉 patch 之间的冗余性,其根据不同图像语义复杂度的不同,编码出动态的视觉 token 数量。这样对于复杂程度不同的图像,采用动态的 token 编码也进一步提高了预训练的效率,避免了冗余的 token 计算。

下图是 LaVIT 所提出的视觉分词器结构:

ICLR 2024|把图像视为外语,快手、北大多模态大模型媲美DALLE-3

图:(a) 动态视觉 token 生成器 (b) token 合并器

该动态视觉分词器包括 token 选择器和 token 合并器。如图所示, token 选择器用来选择最具信息的图像区块,而 token 合并器则将那些 uninformative 的视觉块的信息压缩到保留下的 token 上,实现对冗余 token 的 merging。整个动态视觉分词器则通过最大限度地重构输入图像的语义进行训练。

Token 选择器

Token 选择器接收 N 个图像区块级的特征作为输入,其目标是评估每个图像区块的重要性并选择信息量最高的区块,以充分代表整个图像的语义。为实现这一目标,采用轻量级模块,由多个 MLP 层组成,用于预测分布 π。通过从分布 π 中采样,生成一个二进制决策 mask,用于指示是否保留相应的图像区块。

Machine Translation Machine Translation

聚合多个来源的AI翻译

Machine Translation 49 查看详情 Machine Translation

Token 合并器

Token 合并器据生成的决策掩码,将 N 个图像区块划分为保留 X_r 和舍弃 X_d 两组。与直接丢弃 X_d 不同,token 合并器可以最大限度地保留输入图像的详细语义。token 合并器由 L 个堆叠的块组成,每个块包括因果自注意力层、交叉注意力层和前馈层。因果自注意力层中, X_r 中的每个 token 只关注其前面的 token,以确保与 LLM 中的文本 token 形式一致。与双向自注意相比,这种策略表现更好。交叉注意力层将保留的 token X_r 作为 query,并根据它们在语义上的相似性合并 X_d 中的 token。

阶段 2: 统一的生成式预训练

经过视觉分词器处理后的视觉 token 与文本 token 相连接形成多模态序列作为训练时的输入。为了区分两种模态,作者在图像 token 序列的开头和结尾插入了特殊 token :[IMG] 和 [/IMG],用于表示视觉内容的开始和结束。为了能够生成文本和图像,LaVIT 采用两种图文连接形式:[image, text] 和 [text; image]。

对于这些多模态输入序列,LaVIT 采用统一的、自回归方式来直接最大化每个多模态序列的似然性进行预训练。这样在表示空间和训练方式上的完全统一,有助于 LLM 更好地学习多模态交互和对齐。在预训练完成后,LaVIT 具有感知图像的能力,可以像处理文本一样理解和生成图像。

实验

零样本多模态理解

LaVIT 在图像字幕生成(NoCaps、Flickr30k)和视觉问答(VQAv2、OKVQA、GQA、VizWiz)等零样本多模态理解任务上取得了领先的性能。

ICLR 2024|把图像视为外语,快手、北大多模态大模型媲美DALLE-3

表 1 零样本的多模态理解任务评估

零样本多模态生成

在这个实验中,由于所提出的视觉 tokenizer 能够将图像表示为离散化 token,LaVIT 具有通过自回归生成类似文本的视觉 token 来合成图像的能力。作者对模型进行了零样本文本条件下的图像合成性能的定量评估,比较结果如表 2 所示。

ICLR 2024|把图像视为外语,快手、北大多模态大模型媲美DALLE-3

表 2 不同模型的零样本文本到图像生成性能

从表中可以看出,LaVIT 的表现优于所有其他多模态语言模型。与 Emu 相比,LaVIT 在更小的 LLM 模型上取得了进一步改进,展现了出色的视觉 - 语言对齐能力。此外,LaVIT 在使用更少的训练数据的情况下,实现了与最先进的文本到图像专家 Parti 可比的性能。

多模态提示图像生成

LaVIT 能够在无需进行任何微调的情况下,无缝地接受多种模态组合作为提示,生成相应的图像,而无需进行任何微调。LaVIT 生成的图像能够准确反映给定多模态提示的风格和语义。而且它可以通过输入的多模态提示修改原始输入图像。在没有额外微调的下游数据的情况下,传统的图像生成模型如 Stable Diffusion 无法达到这种能力。

ICLR 2024|把图像视为外语,快手、北大多模态大模型媲美DALLE-3

多模态图像生成结果的示例

定性分析

如下图所示,LaVIT 的动态分词器可以根据图像内容动态选择最具信息量的图像块,学习到的代码本可以产生具有高层语义的视觉编码。

ICLR 2024|把图像视为外语,快手、北大多模态大模型媲美DALLE-3

动态视觉分词器(左)和学习到的 codebook(右)的可视化

总结

LaVIT 的出现为多模态任务的处理又提供了一种创新范式,通过使用动态视觉分词器将视觉和语言表示为统一的离散 token 表示,继承了 LLM 成功的自回归生成学习范式。通过在统一生成目标下进行优化,LaVIT 可以将图像视为一种外语,像文本一样理解和生成它们。这一方法的成功为未来多模态研究的发展方向提供了新的启示,利用 LLM 强大的推理能力,实现更智能、更全面的多模态理解和生成打开新的可能性。

以上就是快手、北大多模态大模型:图像即外语,媲美DALLE-3的突破的详细内容,更多请关注其它相关文章!


# lavit  # seo描述写法案例  # 东营抖音seo运营公司  # 中东境外推广营销  # 专业网站关键词优化报价  # 苹果家庭推广不良网站  # 女装行业广告推广营销  # 自然语言  # 丰田  # 本田  # 情况下  # 所示  # 两种  # 选择器  # 这一  # 北大  # 多模  # type  # stable diffusion  # llama  # 产业  # 抖音搜索关键词视频排名  # 密云网站建设优化  # 网络营销推广的规则  # 均安网站优化排名推广 


相关栏目: 【 行业新闻62819 】 【 科技资讯67470


相关推荐: GPT-4最全攻略来袭!OpenAI官方发布,六个月攒下来的使用经验都在里面了  常见的五个人工智能误解  微软为 AI 初学者推出免费网课:为期 12 周,共 24 节课  挤爆服务器,北大法律大模型ChatLaw火了:直接告诉你张三怎么判  海南科技职业大学第25届中国机器人及人工智能大赛海南赛区荣获一等奖等114项  物联网和人工智能的协同作用:释放预测性维护的潜力  朝鲜出现国产大型察打一体无人机,实力世界第二,太意外了  有远见!华为四年前注册商标Vision Pro:苹果AR国内要改名  马斯克嘲讽人工智能:机器学习本质就是统计学  联想举办2025创新开放日,展出260余项算力及AI产品技术  海南省公安机关警用无人机培训班结业并举行警航比武演练  人工智能时代 数字文明对话向“尼”走来  《自然》杂志拒绝刊登人工智能生成的图片和视频  Moka AI产品后观察:HR SaaS迈进AGI时代  航拍无人机怎么选?大疆无人机盘点推荐  找对了风口想不火都难,乐天派机器人,安卓机器人的最终形态?  标贝科技亮相国际顶会ICASSP2025 加速布局海外AI数据市场  Valve Index VR 头显销量下滑,上市四年的长青树渐失光彩  IBM 与 NASA 携手开源地理空间 AI 模型,促进气候科学研究进步  “具身智能”引爆机器人产业,看绝影Lite3/X20四足机器人有何特别之处?  看似低调,实则稳健:字节在AI路上会遇到什么?  “踩油门,也要会踩刹车” 互联网企业高管谈人工智能发展  马斯克的幽默“现实”:AR眼镜与20美元“增强现实”哪个真实?  1.6亿美元收购Singularity AI,昆仑万维布局通用人工智能  人工智能助力精准学习,猿辅导小猿学练机满足学生个性化学习需求  云深处科技绝影 Lite3 与 X20 四足机器人亮相  李开复官宣新公司「零一万物」,进军 AI 2.0  爱设计 AI 一键生成 PPT 工具上线:输入标题即可生成 PPT  郭帆谈ChatGPT:电影行业需要创新,否则人工智能将让电影变得平庸  Hugging Face发布了基于NASA卫星数据构建的AI地理空间基础模型  超级智能到底是什么?  曝光HarmonyOS 4的重要新能力:全面升级AI大模型,小艺实现全面进化  美图第二届影像节发布七款AI影像创作工具  OpenAI宣布在伦敦设立海外分部,要招揽“世界级人才”  2025 世界人工智能大会闭幕,32 个重大产业签约总额达 288 亿元  智能机器人正在彻底改变客户服务  一公司推出喷火机器狗,可喷出 9 米长火焰  RoboNeo操作教程  世界水下机器人大赛:9国青年携手逐梦深蓝  “无人驾驶船”将首次亮相世界人工智能大会,下半年或开进上海迪士尼  13 个提高生产力的 AI 工具  AMD称下半年AI显卡供应充足,不需要像NVIDIA那样加价抢购  管提需求,大模型解决问题:图表处理神器SheetCopilot上线  12页线性代数笔记登GitHub热榜,还获得了Gilbert Strang大神亲笔题词  新闻传闻:迪士尼可能采用人工智能来控制电影制作成本  AI+音乐如何“生成”动听旋律?一起揭秘世界人工智能大会开场曲  Spotify计划推出AI驱动的音乐播放器功能  Meta 发布 Voicebox AI 模型:可生成音频信息,用于 NPC 对话等  直击上影节 | 光线传媒董事长王长田谈新技术:未来VR放映效果可能媲美影院  AI智能室内效果图设计软件效果,确实惊到我了! 

400 128 6709
E-mail

contact@tlftec.cn

扫一扫,添加微信

©  云南淘乐房科技有限公司 版权所有  滇ICP备2025071560号  

云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司