400 128 6709

行业新闻

谷歌AudioPaLM实现「文本+音频」双模态解决,说听两用大模型

发布时间:2023-06-30点击次数:

大型语言模型以其强大的性能及通用性,带动了一批多模态的大模型开发,如音频、视频等。

语言模型的底层架构大多是基于Transformer,且以解码器为主,所以无需过多调整模型架构即可适应其他序列模态。

最近,谷歌发布了一个统一的语音-文本模型AudioPaLM,将文本和音频的token合并为一个多模态联合词汇表,再结合不同任务描述标记,可以实现在任意语音和文本的混合任务上训练decoder-only模型,包括语音识别(ASR)、文本到语音合成、自动语音翻译(AST)和语音到语音翻译(S2ST)等,将传统上由异质模型解决的任务统一到一个架构和训练流程中。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

一个模型解决两种模态,谷歌AudioPaLM一统「文本+音频」:能说还能听的大模型图片

论文链接:https://arxiv.org/pdf/2306.12925.pdf

示例链接:https://google-research.github.io/seanet/audiopalm/examples/

此外,由于AudioPaLM的底层架构是一个大型的Transformer模型,可以用对文本进行预训练的大型语言模型的权重来初始化,可以从PaLM等模型的语言学知识中受益。

从实现效果来看,AudioPaLM在AST和S2ST基准上取得了最先进的结果,并且在ASR基准上的性能也和其他模型不相上下。

通过利用AudioLM的音频提示,AudioPaLM模型能够对新的说话人语音迁移来执行S2ST,在语音质量和语音保存方面超过了现有的方法。

AudioPaLM模型也具有zero-shot的能力,可以对训练中未见过的语音输入/目标语言组合执行AST任务。

AudioPaLM

研究人员使用一个decoder-only Transformer模型对文本和语音的token进行建模,其中文本和音频在输入到模型之间已经进行分词,所以输入只是一个整数序列,在输出端再进行反分词(detokenized)操作返回给用户。

一个模型解决两种模态,谷歌AudioPaLM一统「文本+音频」:能说还能听的大模型图片

音频embedding及分词

将音频的原始波形转换为token的过程中,包括从现有的语音表征模型中抽取为嵌入(embedding),并将嵌入离散为一组有限的音频token

之前的工作中从w2v-BERT模型中提取嵌入,并通过k-means将其量化,而这篇论文中,研究人员试验了三种方案:

w2v-BERT:使用在多语言数据上训练的w2v-BERT模型,而非纯英语;并且在进行k-means聚类之前没有进行归一化处理,否则会导致在多语言环境中性能下降。然后以25Hz的速率生成token,词表大小为1024

USM-v1:使用性能更强的、20亿参数的通用语音模型(USM)编码器执行类似的操作,并从中间层提取嵌入;

USM-v2:用辅助ASR损失来训练,并进一步微调以支持多语言。

修改text-only解码器

在Transfomrer解码器结构中,除了输入和最后的softmax输出层外,都不涉及到建模token的数量,并且在PaLM架构中,输入和输出矩阵的权重变量时共享的,即互为转置。

所以只需要将嵌入矩阵的大小从(t × m)扩展到(t+a)×m即可把一个纯文本模型变成一个既能模拟文本又能模拟音频的模型,其中t是文本词表的大小,a是音频词表的大小,m是嵌入维度。

为了利用预训练的文本模型,研究人员通过在嵌入矩阵中添加新的行来改变现有模型的checkpoint。

具体的实现为,前t个token对应于SentencePiece文本标记,后面a个token代表音频标记,虽然文本嵌入式复用的预训练权重,但音频嵌入是全新初始化的,必须进行训练。

实验结果显示,与从头重新训练相比,基于文本预训练模型对语音和文本的多模态任务性能提升非常有利。

音频token解码为原生音频

为了从音频token中合成音频波形,研究人员试验了两种不同的方法:

1. 类似AudioLM模型的自回归解码

2. 类似SoundStorm模型的非自回归解码

这两种方法都需要先生成SoundStream token,再用卷积解码器将其转换为音频波形。

研究人员在Multilingual LibriSpeech上进行训练,语音条件为3秒长的语音样本,同时表示为音频token 和SoundStream token

通过提供部分原始输入语音作为语音条件,模型能够在将说话人的语音翻译成不同语言时保留原始说话人的语音,当原始音频短于3秒时,通过重复播放来填充空白时间。

训练任务

使用到的训练数据集均为speech-text数据:

1. 音频Audio:源语言的语音(speech)

2. 转录Transcript:音频数据中语音的转录

3. 翻译音频Translated Audio:音频中语音的口语翻译

4. 翻译转录Translated Transcript:音频中语音的书面翻译

组件任务包括:

1. ASR(自动语音识别):转录音频以获得转录文本

2. AST(自动语音翻译):翻译音频以获得翻译后的转录文本

3. S2ST(语音到语音翻译):翻译音频以获得翻译后的音频

4. TTS(文本到语音):读出转录的内容,以获得音频。

5. MT(文本到文本的机器翻译):翻译转录以获得翻译后的转录文本

一个数据集可能会用于多个任务,所以研究人员选择向模型发出信号,告诉模型应该对给定的输入执行哪项任务,具体方法为:在输入前加上一个标签,指定任务和输入语言的英文名称,输出语言也可以选择。

例如,想要模型对法语语料进行ASR时,分词后的音频输入前面要加上标签[ASR French];要在英语中执行TTS任务,文本前面需要加上[TTS English];要执行从英语到法语的S2ST任务,分词后的英语音频会在前面加上[S2ST English French]

训练混合

研究人员使用SeqIO库对训练数据进行混合,对较大的数据集进行权重降低。

一个模型解决两种模态,谷歌AudioPaLM一统「文本+音频」:能说还能听的大模型图片

实验部分

一个模型解决两种模态,谷歌AudioPaLM一统「文本+音频」:能说还能听的大模型图片

AudioPaLM在AST和S2ST任务上超过了其他基线模型,在ASR上性能虽然不是最优,但效果也非常好。

除了评估语音内容的翻译质量外,研究人员还评估了AudioPaLM生成的语言是否质量足够高,并且在翻译成不同语言时能否保留说话人的声音。

客观指标

使用类似于无参考MOS估计器,给定一个音频样本,在1到5的范围内提供一个感知音频质量估计。

为了测量跨语言的语音迁移质量,研究人员使用的现成的说话人验证模型,并计算源(用SoundStream编码/解码)和翻译语音的嵌入之间的余弦相似度;还衡量了从源音频到目标音频的声学特性(录音条件、背景噪音)。

主观评估

研究人员进行了两项独立研究来评估生成的语音质量和语音相似度,两项研究中都使用相同的样本集合。

由于语料的质量参差不齐,有些含有响亮的重叠语音(例如,背景中播放的电视节目或歌曲)或极强的噪音(例如,衣服与麦克风摩擦),类似的失真效果使得人类评分员的工作变得复杂,因此研究人员决定通过只选择MOS估计值至少为3.0的输入进行预过滤。

评分以5级量表提供,从1(质量差或完全不同的声音)到5(质量好,相同的声音)。

一个模型解决两种模态,谷歌AudioPaLM一统「文本+音频」:能说还能听的大模型图片

从结果中可以观察到AudioPaLM在客观和主观测量中,在音频质量和语音相似度方面都明显优于基线Translatotron 2系统,并且AudioPaLM比CVSS-T中的真实合成录音具有更高的质量和更好的语音相似度,在大多数指标上有比较大提升。

研究人员还对比了高资源组和低资源组(法语、德语、西班牙语和加泰罗尼亚语与其他语言)的系统,发现这些组之间的指标没有明显差异。

以上就是谷歌AudioPaLM实现「文本+音频」双模态解决,说听两用大模型的详细内容,更多请关注其它相关文章!


# 谷歌  # “微信推广网站”  # 微商城网站怎么做推广  # 将其  # 多语言  # 丰田  # 中国科学院  # 模态  # 英语  # 法语  # 还能  # 两种  # 转录  # peech  # udio  # 模型  # 陕西网站推广便宜  # java的性能优化网站  # 华蓥律师网站推广  # seo推广免费方法  # 沈阳seo基础入门  # 北苑网站建设  # 宜兴市手机网站建设  # 石城seo关键词优化 


相关栏目: 【 行业新闻62819 】 【 科技资讯67470


相关推荐: 沐曦首款AI推理GPU亮相:INT8算力达160TOPS!  【趋势周报】全球元宇宙产业发展趋势:ChatGPT的出现,将元宇宙实现至少提前了10年  吴恩达、Hinton最新对话!AI不是随机鹦鹉,共识胜过一切,LeCun双手赞成  特斯拉 Optimus 人形机器人入驻北美门店,帮助提升汽车销量  探展WAIC |万向区块链杜宇:不存在单一技术的iPhone时刻,Web3.0核心将基于AI+区块链+物联网  微软在德国举办MR研讨会,向女性分享元宇宙潜力  阿里云全面支持Llama2训练部署,助力企业快速构建自有大型模型  人工智能如何与智能家居集成  奥比中光子公司和斯坦德机器人深度合作,共同推进新一代激光雷达的研发  微软Xbox称VR和AR还需要时间 先玩大的  梦想实现!硬核科幻大片VR智能头盔即将问世  专家解读国家网信办深度合成服务算法备案信息公告:不等于百度、阿里、腾讯等生成式AI产品获批  亚马逊CEO:人工智能将成为公司未来战略的重中之重  物联网和人工智能的协同作用:释放预测性维护的潜力  0代码微调大模型火了,只需5步,成本低至150块  硅谷人工智能研究院创始人皮埃罗·斯加鲁菲:Transformer模型演讲  AI技术改变*,新骗局来袭,*成功率接近100%  昇腾AI & 讯飞星火:深度联手,共话国产大模型“大未来”  智能化解决方案:保障数据安全阻击泄露和丢失  13条咒语挖掘GPT-4最大潜力,Github万星AI导师火了,网友:隔行再也不隔山了  字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA  禁止艺术家使用 AI 创作《龙与地下城》游戏插图的决定已在 D&D Beyond 生效  闪电快讯|京东推出言犀AI大模型 面向零售、医疗、物流等产业场景  成功孵化首个大型模型解决方案的重庆人工智能创新中心  人工智能创作的“婴儿版超级英雄”,你觉得哪个最可爱  谷歌推出新 AI 工具 Imagen Editor,一句话对图片二次创作  XREAL Beam 投屏盒子正式发布:支持“可悬停 AR 空间屏”  参议院司法听证会:AI 不易管控,有可能被恶意分子利用来研发生化武器  重塑未来生活的五项技术趋势  2025WRC世界机器人大赛锦标赛(烟台)收官!斯坦星球勇夺VEX赛项冠亚军!  马斯克反讽人工智能AI炒作:“机器学习”本质就是统计  首部国内AI辅助动画片《魔游纪:人工智能辅助篇》预告发布  联通发布鸿湖图文AI大模型1.0,可实现以文生图  第四范式「式说」大模型入选《2025年通用人工智能创新应用案例集》  社区里,孩子们体验“机器人竞技”  飒智智能机器人核心技术与应用论坛暨一体化控制器发布会成功举办  650亿参数,8块GPU就能全参数微调:邱锡鹏团队把大模型门槛打下来了  北京市元宇宙产业创新中心筹建工作正式启动  人工智能大胆预测:银河系至少有2万个地球,36种外星文明  深企派遣无人机救援队赴京津冀开展防汛救灾任务  小红书陷入麻烦!被指控未经许可使用用户图片进行AI训练  30+大模型齐聚,大模型成世界人工智能大会“顶流”  生成式AI对云运维的3大挑战  自研4D激光雷达L1 + GPT大语言模型 宇树Unitree Go2四足机器人有啥黑科技?  全新小艺搭载AI大模型,有效提升学生和职场人士的工作效率  人工智能:解决劳动力短缺的关键策略  「社交达人」GPT-4!解读表情、揣测心理全都会  一图速览 | 十大脑机接口关键技术发布  普林斯顿大学推出 Infinigen AI 模型,生成真实自然环境 3D 场景  “智能体动作生成技术”现身WAIC:游戏AI技术为机器人科创注入新动力 

400 128 6709
E-mail

contact@tlftec.cn

扫一扫,添加微信

©  云南淘乐房科技有限公司 版权所有  滇ICP备2025071560号  

云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司