400 128 6709

行业新闻

阿里巨型模型再次开源!图像理解与物体识别功能一应俱全,基于通用问题集7B训练,商业应用可行

发布时间:2023-09-03点击次数:

阿里巴巴开源了一个新的大模型,非常令人兴奋~

继通义千问-7B(Qwen-7B)之后,阿里云又推出了大规模视觉语言模型Qwen-VL,并且一上线就直接开源。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

阿里巨型模型再次开源!图像理解与物体识别功能一应俱全,基于通用问题集7B训练,商业应用可行

Qwen-VL是一种基于通义千问-7B的多模态大模型,具体而言,它支持图像、文本和检测框等多种输入,并且不仅仅可以输出文本,还可以输出检测框

举个例子,我们输入一张阿尼亚的图片,通过问答的形式,Qwen-VL-Chat能够总结图片内容,并且能够准确地定位到图片中的阿尼亚

阿里巨型模型再次开源!图像理解与物体识别功能一应俱全,基于通用问题集7B训练,商业应用可行

在测试任务中,Qwen-VL展现出了“六边形战士”的实力,在四大类多模态任务的标准英文测评中(Zero-shot Caption/VQA/DocVQA/Grounding)上,都取得了最先进的成果

阿里巨型模型再次开源!图像理解与物体识别功能一应俱全,基于通用问题集7B训练,商业应用可行

一经开源消息传出,立刻引起了广泛关注

阿里巨型模型再次开源!图像理解与物体识别功能一应俱全,基于通用问题集7B训练,商业应用可行

阿里巨型模型再次开源!图像理解与物体识别功能一应俱全,基于通用问题集7B训练,商业应用可行

让我们一起来看看具体的表现如何吧!

首个支持中文开放域定位的通用模型

首先,让我们来整体看一下Qwen-VL系列模型的特点:

  • 多语言对话:支持多语言对话,端到端支持图片里中英双语的长文本识别;
  • 多图交错对话:支持多图输入和比较,指定图片问答,多图文学创作等;
  • 首个支持中文开放域定位的通用模型:通过中文开放域语言表达进行检测框标注,也就是能在画面中精准地找到目标物体;
  • 细粒度识别和理解:相比于目前其它开源LVLM(大规模视觉语言模型)使用的224分辨率,Qwen-VL是首个开源的448分辨率LVLM模型。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注。

在不改变原意的情况下,需要重写的内容是:Qwen-VL可以在知识问答、图像问答、文档问答、细粒度视觉定位等场景中使用

例如,有一个外国朋友不懂中文去医院看病,对着导览图感到困惑,不知道如何前往相应的科室,可以直接将图和问题交给Qwen-VL,让它根据图片信息充当翻译

阿里巨型模型再次开源!图像理解与物体识别功能一应俱全,基于通用问题集7B训练,商业应用可行

再次进行多图输入和比较的测试

阿里巨型模型再次开源!图像理解与物体识别功能一应俱全,基于通用问题集7B训练,商业应用可行

尽管没有认出阿尼亚,但情绪判断确实相当准确(手动狗头)

在视觉定位能力方面,即使图片非常复杂且人物众多,Qwen-VL仍然可以根据要求准确地找出*和蜘蛛侠

网易人工智能 网易人工智能

网易数帆多媒体智能生产力平台

网易人工智能 233 查看详情 网易人工智能

阿里巨型模型再次开源!图像理解与物体识别功能一应俱全,基于通用问题集7B训练,商业应用可行

Qwen-VL在技术细节上以Qwen-7B为基座语言模型,并通过引入视觉编码器ViT和位置感知的视觉语言适配器,使得模型能够支持视觉信号输入

阿里巨型模型再次开源!图像理解与物体识别功能一应俱全,基于通用问题集7B训练,商业应用可行

具体的训练过程分为三步:

  • 预训练:只优化视觉编码器和视觉语言适配器,冻结语言模型。使用大规模图像-文本配对数据,输入图像分辨率为224x224。
  • 多任务预训练:引入更高分辨率(448x448)的多任务视觉语言数据,如VQA、文本VQA、指称理解等,进行多任务联合预训练。
  • 监督微调:冻结视觉编码器,优化语言模型和适配器。使用对话交互数据进行提示调优,得到最终的带交互能力的Qwen-VL-Chat模型。

在Qwen-VL的标准英文测评中,研究人员对四大类多模态任务(Zero-shot Caption/VQA/DocVQA/Grounding)进行了测试

阿里巨型模型再次开源!图像理解与物体识别功能一应俱全,基于通用问题集7B训练,商业应用可行

根据结果显示,Qwen-VL在与同等尺寸的开源LVLM进行比较时取得了最佳效果

另外,研究人员构建了一套基于GPT-4打分机制的测试集TouchStone

阿里巨型模型再次开源!图像理解与物体识别功能一应俱全,基于通用问题集7B训练,商业应用可行

阿里巨型模型再次开源!图像理解与物体识别功能一应俱全,基于通用问题集7B训练,商业应用可行

Qwen-VL-Chat在这项对比测试中取得了最先进技术水平(SOTA)

如果你对Qwen-VL感兴趣,你可以在魔搭社区和huggingface上找到demo来直接试玩。链接在文末提供

Qwen-VL支持研究人员和开发者进行二次开发,并且允许商业使用。但需要注意的是,如果要进行商业使用,需要先填写问卷申请

项目链接:https://modelscope.cn/models/qwen/Qwen-VL/summary
https://modelscope.cn/models/qwen/Qwen-VL-Chat/summary
https://huggingface.co/Qwen/Qwen-VL
https://huggingface.co/Qwen/Qwen-VL-Chat
https://github.com/QwenLM/Qwen-VL

请点击以下链接查看论文:https://arxiv.org/abs/2308.12966

以上就是阿里巨型模型再次开源!图像理解与物体识别功能一应俱全,基于通用问题集7B训练,商业应用可行的详细内容,更多请关注其它相关文章!


# 更高  # 网站推广软件贵吗  # 推广整合营销虏23金手指效果牛X  # 连衣裙营销推广策划  # seo网站的优化方式  # 南山SEO网络推广  # 奶茶品牌推广营销方案  # 在线seo优化包括什么  # 义齿推广营销策略分析  # 郴州网站搜索引擎推广公司  # 莱芜自适应网站优化公司  # 多模  # 模型  # 英文  # 丰田  # 尼亚  # 首个  # 中国科学院  # 多图  # 网易  # qwen  # 通义千问  # 开源 


相关栏目: 【 行业新闻62819 】 【 科技资讯67470


相关推荐: AI工具助力公司实施每周4.5天工作制,带来巨大效益  马斯克称人类是半机器人,记忆外包给了电脑  重塑未来生活的五项技术趋势  WPS AI 官网上线:可申请体验官资格,支持 Windows、安卓端下载  大厂出品!这个AI网站太顶了,所有功能免费用  华为发布两款AI存储新品  研究预测HPC支持的人工智能增长迅速  人工智能颠覆软件测试四大方式  热点 | 人工智能黄金时代开启  AI与5G的强强联合:唤醒数字时代的无尽潜能  机器人 展才能  上新7款产品,美图继续“蹭”AI  湖北科技职业学院举行工业机器人及智能制造技术专精特新产业学院建设启动仪式  NVIDIA垄断AI市场90%份额:AMD性能追上80% 软件太不能打  微软为 AI 初学者推出免费网课:为期 12 周,共 24 节课  甲骨文与Cohere合作为企业提供生成式人工智能服务  苹果AI战略与微软谷歌大相径庭,到底是领先还是落后?  人工智能驱动艺术,打开达利的超现实想象  OpenAI CEO 山姆・阿尔特曼呼吁 AI 领域中美应当合作  美图开拍使用教程  “思享荟”沙龙热议AIGC与元宇宙 复旦大学赵星畅谈深度数字化  美妆行业在AI时代蓬勃发展  独家视角:首次展示有人与无人协同打击的7000米高空察打一体无人机  华为将于 7 月发布面向 AI 大模型的新款存储产品  谷歌 Gmail“帮我写电子邮件”AI 功能开始向安卓和苹果设备推广  清华&中国气象局大模型登Nature:解决世界级难题,「鬼天气」预报时效首次达3小时  当一个网站的内容被 AI 完全接管  Valve 将拒绝采用 AI 生成未知版权内容的游戏上架 Steam  软通动力多项AI创新产品及应用亮相2025世界人工智能大会  两小时就能超过人类!DeepMind最新AI速通26款雅达利游戏  13万个注释神经元,5300万个突触,普林斯顿大学等发布首个完整「成年果蝇」大脑连接组  郭帆:AI发展日新月异,或是弯道超车好莱坞的最好机会  元宇宙迈入2.0时代,它和生成式人工智能有何关联吗?  “技术+实践+生态”三箭齐发,京东方抢占物联网高地  马斯克反讽人工智能AI炒作:“机器学习”本质就是统计  微幼科技晨检机器人:幼儿园健康保障的新伙伴  成功孵化首个大型模型解决方案的重庆人工智能创新中心  拓普龙7188ML:轻便壁挂式工控机箱,为人工智能应用场景提供有力保障  亚马逊确认今年不会举办 re:MARS 机器人和人工智能大会  找对了风口想不火都难,乐天派机器人,安卓机器人的最终形态?  人工智能大胆预测:银河系至少有2万个地球,36种外星文明  科技数码圈的新物种 乐天派桌面机器人 AI +安卓+机器人 首发价1799元  下一个前沿:量子机器学习和人工智能的未来  无人机协助盐城交通执法的协同训练  阿里大文娱CTO郑勇:生成式AI将引发内容行业巨变,*制作机会挑战并存  基于信息论的校准技术,CML让多模态机器学习更可靠  爱设计 AI 一键生成 PPT 工具上线:输入标题即可生成 PPT  研究表明 GPT-4 模型具备自我纠错能力,有望推动 AI 代码进一步商业化  贫穷让我预训练  应对算力挑战,亚马逊云科技发力AI基础设施建设 

400 128 6709
E-mail

contact@tlftec.cn

扫一扫,添加微信

©  云南淘乐房科技有限公司 版权所有  滇ICP备2025071560号  

云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司