400 128 6709

行业新闻

图像化语言:快手、北大多模态大模型与DALLE-3不相上下

发布时间:2024-01-30点击次数:

当前的大型语言模型如 GPT、LLaMA 等在自然语言处理领域取得了显著进展,能够理解和生成复杂的文本内容。然而,我们是否可以将这种强大的理解和生成能力扩展到多模态数据上呢?这个想法正在逐步变为现实。 最新的多模态大模型 LaVIT 是由快手和北大合作开发的。它通过结合图像和视频数据,使得模型能够轻松理解海量的多媒体内容,并且能够辅助创作图文并茂的内容。 LaVIT 的出现对于多媒体内容的理解和创作具有重要意义。它不仅可以识别图像和视频中的对象、场景和情感,还可以生成与之相关的自然语言描述。这样一来,我们可以更好地利用多模态数据,并且创作出更加生动有趣的图文内容。 LaVIT 的研发是对大型语言模型在多模态领域的一次重要尝试。它有望为多媒体内容的处理和创作带来更多的可能性,并且推动自然语言处理和计算机视觉领域的进一步发展。

把图像视为外语,快手、北大多模态大模型媲美DALLE-3


  • 论文标题:Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization
  • 论文地址:https://arxiv.org/abs/2309.04669
  • 代码模型地址:https://github.com/jy0205/LaVIT

模型总览

LaVIT是一种新型的通用多模态基础模型,它可以像语言模型一样理解和生成视觉内容。它采用了与大型语言模型相似的训练方法,使用自回归方式来预测下一个图像或文本标记。训练完成后,LaVIT可以作为一个通用的多模态接口,无需进一步微调即可执行多模态理解和生成任务。例如,LaVIT可以实现以下功能:

LaVIT是一个强大的文本到图像生成模型,它能够根据给定的文本提示生成高质量、多种纵横比和高美感的图像。与最先进的图像生成模型(如Parti、SDXL和DALLE-3)相比,LaVIT具有相媲美的图像生成能力。它的独特之处在于能够生成多样化的图像,并且保持高质量和高美感。无论是纵向还是横向,LaVIT都能够生成令人满意的图像作品。通过结合先进的技术和高质量的训练数据,LaVIT为用户提供了一个出色的文本到图

把图像视为外语,快手、北大多模态大模型媲美DALLE-3

在LaVIT中,图像和文本被表示为离散化的token。因此,它可以利用多模态提示进行图像生成,包括文本、图像+文本和图像+图像的组合。这种多模态生成不需要进行任何微调,系统可以根据提示生成相应的图像。

把图像视为外语,快手、北大多模态大模型媲美DALLE-3

LaVIT是一种图像理解模型,可以读取图像并理解其语义。它能够为输入的图像生成相关的描述,并回答相关的问题。

把图像视为外语,快手、北大多模态大模型媲美DALLE-3

方法概览

LaVIT 的模型结构如下图所示,其整个优化过程包括两个阶段:

把图像视为外语,快手、北大多模态大模型媲美DALLE-3

图:LaVIT 模型的整体架构

阶段 1: 动态视觉分词器

为了能够像自然语言一样理解和生成视觉内容,LaVIT 引入了一个设计良好的视觉分词器,用于将视觉内容(连续信号)转换为像文本一样的 token 序列,就像 LLM 能够理解的外语一样。作者认为,为了实现统一视觉和语言的建模,该视觉分词器 (Tokenizer) 应该具有以下两个特性:

  1. 离散化:视觉 token 应该被表示为像文本一样的离散化形式。这样对于两种模态采用统一的表示形式,有利于 LaVIT 在一个统一的自回归生成式训练框架下,使用相同的分类损失进行多模态建模优化。
  2. 动态:与文本 token 不同的是,图像 patch 之间有着显著的相互依赖性,这使得从其他图像 patch 中推断另一个 patch 相对简单。因此,这种依赖性会降低原本 LLM 的 next-token prediction 优化目标的有效性。LaVIT 提出通过使用 token merging 来降低视觉 patch 之间的冗余性,其根据不同图像语义复杂度的不同,编码出动态的视觉 token 数量。这样对于复杂程度不同的图像,采用动态的 token 编码也进一步提高了预训练的效率,避免了冗余的 token 计算。

下图是 LaVIT 所提出的视觉分词器结构:

把图像视为外语,快手、北大多模态大模型媲美DALLE-3

图:(a) 动态视觉 token 生成器 (b) token 合并器

该动态视觉分词器包括 token 选择器和 token 合并器。如图所示, token 选择器用来选择最具信息的图像区块,而 token 合并器则将那些 uninformative 的视觉块的信息压缩到保留下的 token 上,实现对冗余 token 的 merging。整个动态视觉分词器则通过最大限度地重构输入图像的语义进行训练。

Token 选择器

Token 选择器接收 N 个图像区块级的特征作为输入,其目标是评估每个图像区块的重要性并选择信息量最高的区块,以充分代表整个图像的语义。为实现这一目标,采用轻量级模块,由多个 MLP 层组成,用于预测分布 π。通过从分布 π 中采样,生成一个二进制决策 mask,用于指示是否保留相应的图像区块。

Token 合并器

Token 合并器据生成的决策掩码,将 N 个图像区块划分为保留 X_r 和舍弃 X_d 两组。与直接丢弃 X_d 不同,token 合并器可以最大限度地保留输入图像的详细语义。token 合并器由 L 个堆叠的块组成,每个块包括因果自注意力层、交叉注意力层和前馈层。因果自注意力层中, X_r 中的每个 token 只关注其前面的 token,以确保与 LLM 中的文本 token 形式一致。与双向自注意相比,这种策略表现更好。交叉注意力层将保留的 token X_r 作为 query,并根据它们在语义上的相似性合并 X_d 中的 token。

阶段 2: 统一的生成式预训练

经过视觉分词器处理后的视觉 token 与文本 token 相连接形成多模态序列作为训练时的输入。为了区分两种模态,作者在图像 token 序列的开头和结尾插入了特殊 token :[IMG] 和 [/IMG],用于表示视觉内容的开始和结束。为了能够生成文本和图像,LaVIT 采用两种图文连接形式:[image, text] 和 [text; image]。

对于这些多模态输入序列,LaVIT 采用统一的、自回归方式来直接最大化每个多模态序列的似然性进行预训练。这样在表示空间和训练方式上的完全统一,有助于 LLM 更好地学习多模态交互和对齐。在预训练完成后,LaVIT 具有感知图像的能力,可以像处理文本一样理解和生成图像。

实验

零样本多模态理解

LaVIT 在图像字幕生成(NoCaps、Flickr30k)和视觉问答(VQAv2、OKVQA、GQA、VizWiz)等零样本多模态理解任务上取得了领先的性能。

把图像视为外语,快手、北大多模态大模型媲美DALLE-3

表 1 零样本的多模态理解任务评估

零样本多模态生成

在这个实验中,由于所提出的视觉 tokenizer 能够将图像表示为离散化 token,LaVIT 具有通过自回归生成类似文本的视觉 token 来合成图像的能力。作者对模型进行了零样本文本条件下的图像合成性能的定量评估,比较结果如表 2 所示。

把图像视为外语,快手、北大多模态大模型媲美DALLE-3

表 2 不同模型的零样本文本到图像生成性能

从表中可以看出,LaVIT 的表现优于所有其他多模态语言模型。与 Emu 相比,LaVIT 在更小的 LLM 模型上取得了进一步改进,展现了出色的视觉 - 语言对齐能力。此外,LaVIT 在使用更少的训练数据的情况下,实现了与最先进的文本到图像专家 Parti 可比的性能。

多模态提示图像生成

LaVIT 能够在无需进行任何微调的情况下,无缝地接受多种模态组合作为提示,生成相应的图像,而无需进行任何微调。LaVIT 生成的图像能够准确反映给定多模态提示的风格和语义。而且它可以通过输入的多模态提示修改原始输入图像。在没有额外微调的下游数据的情况下,传统的图像生成模型如 Stable Diffusion 无法达到这种能力。

把图像视为外语,快手、北大多模态大模型媲美DALLE-3

多模态图像生成结果的示例

定性分析

如下图所示,LaVIT 的动态分词器可以根据图像内容动态选择最具信息量的图像块,学习到的代码本可以产生具有高层语义的视觉编码。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

把图像视为外语,快手、北大多模态大模型媲美dalle-3

Machine Translation Machine Translation

聚合多个来源的AI翻译

Machine Translation 49 查看详情 Machine Translation

动态视觉分词器(左)和学习到的 codebook(右)的可视化

总结

LaVIT 的出现为多模态任务的处理又提供了一种创新范式,通过使用动态视觉分词器将视觉和语言表示为统一的离散 token 表示,继承了 LLM 成功的自回归生成学习范式。通过在统一生成目标下进行优化,LaVIT 可以将图像视为一种外语,像文本一样理解和生成它们。这一方法的成功为未来多模态研究的发展方向提供了新的启示,利用 LLM 强大的推理能力,实现更智能、更全面的多模态理解和生成打开新的可能性。

以上就是图像化语言:快手、北大多模态大模型与DALLE-3不相上下的详细内容,更多请关注其它相关文章!


# 本田  # 单位内网建设网站  # 神华集团网站建设美丽  # 酒店网站建设比较好  # 池州整站seo优化公司  # 精准营销推广服务筛选  # seo论文参考文献2020  # 靖江seo外包热线  # 京东美妆营销推广部  # 郑州seo搜索  # 网站优化分析表格  # 是一种  # 数据  # 高质量  # 所示  # 它可以  # 两种  # 选择器  # 自然语言  # 北大  # 多模  # stable diffusion  # llama  # ai 


相关栏目: 【 行业新闻62819 】 【 科技资讯67470


相关推荐: IBM将模拟计算用于人工智能,重塑AI计算  梦想实现!硬核科幻大片VR智能头盔即将问世  科普:什么是AI大模型  人工智能即将进入Windows:企业准备好安全策略设置了吗?  中国移动主导创立元宇宙产业联盟,包括科大讯飞、芒果TV等在内,共24家成员  微软向美国政府提供GPT大模型,如何保证安全性?  AI工具助力公司实施每周4.5天工作制,带来巨大效益  人工智能产业竞跑“未来赛道” 创新发展放大“赋能”效应  WAIC 2025|云深处科技绝影Lite3与X20四足机器人亮相  如何用Transformer BEV克服自动驾驶的极端情况?  AI证件照生成器:实际测试中AI软件展现了绝无仅有的强大效能  OpenAI大神Karpathy最新分享:为什么OpenAI内部对AI Agents最感兴趣  国内阅读行业首款对话式AI应用“阅爱聊”封闭内测  AI立法迫在眉睫,如何看对行业影响?  猿辅导推出Motiff,整合三大AI功能,助力UI设计生产力革新  Adobe旗下Illustrator引入生成式AI工具Firefly  企业软件行业更将被AI全面重构!Moka李国兴:未来优秀组织和个人将一定是善于使用AI生产力的  智能机器人与话剧的完美结合:宇树四足机器人B1助力《骆驼祥子》重现经典  OpenAI 向所有付费 API 用户开放 GPT-4  统信深度deepin成立 AI SIG 社区,共同提升 Linux 下 AI 体验  如何成功实施人工智能?  深剖Apple Vision Pro中暗藏的“AI”  新华全媒+|AI:当心,我可能欺骗了你!  北京市元宇宙产业创新中心筹建工作正式启动  全场景智能车:智能无处不在|芯驰亮相世界人工智能大会  小米创始人雷军将揭示小米AI在年度演讲中的最新进展  人工智能赋能广西自然资源领域监测监管  基于信息论的校准技术,CML让多模态机器学习更可靠  联想戴炜:以全栈AI加速CT与IT融合,共建高质量算力网络  XREAL发布新款硬件XREAL Beam投屏盒子:可悬停AR空间屏  抖音在Android平台获得VR|直播|软件著作权  美图设计室2.0什么时候上线  当一切设备都受到人工智能的控制  微软在 Build 大会上宣布的新 Microsoft Store AI Hub 现已开始推出  CharacterAI - 也许会成为会话人工智能的未来  构建AI绘画网站的方法:使用API接口和调用步骤  美图秀秀发布7款AI产品:支持用户创作、商业创作  大厂出品!这个AI网站太顶了,所有功能免费用  Hugging Face发布了基于NASA卫星数据构建的AI地理空间基础模型  华为将于 7 月发布面向 AI 大模型的新款存储产品  争鸣:OpenAI奥特曼、Hinton、杨立昆的AI观点到底有何不同?  人工智能助力林草行业高质量发展  AI无法对传统文化符号进行解构和创新  特斯拉 Optimus 人形机器人入驻北美门店,帮助提升汽车销量  十个AI算法常用库J*a版  即时 AI再次升级 30秒生成自带动效的网页 生成速度提升100%  “聚智启新,‘蓉’力同行” 成都市人工智能产业融通对接会成功举办  鸿蒙4即将支持大规模AI模型  社区里,孩子们体验“机器人竞技”  普渡机器人与变形金刚品牌合作,特别活动爆火,商品售罄! 

400 128 6709
E-mail

contact@tlftec.cn

扫一扫,添加微信

©  云南淘乐房科技有限公司 版权所有  滇ICP备2025071560号  

云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司