400 128 6709

行业新闻

羊驼家族大模型集体进化!32k上下文追平GPT-4,田渊栋团队出品

发布时间:2023-06-28点击次数:

开源羊驼大模型llama上下文追平gpt-4,只需要一个简单改动!

Meta AI这篇刚刚提交的论文表示,LLaMA上下文窗口从2k扩展到32k后只需要小于1000步的微调。

与预训练相比,成本忽略不计。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

羊驼家族大模型集体进化!32k上下文追平GPT-4,田渊栋团队出品

扩展上下文窗口,就意味着AI的“工作记忆”容量增加,具体来说可以:

  • 支持更多轮对话,减少遗忘现象,如更稳定的角色扮演
  • 输入更多资料完成更复杂的任务,如一次处理更长文档或多篇文档

更重要的意义在于,所有基于LLaMA的羊驼大模型家族岂不是可以低成本采用此方法,集体进化?

羊驼是目前综合能力最强的开源基础模型,已经衍生出不少完全开源可商用大模型和垂直行业模型。

羊驼家族大模型集体进化!32k上下文追平GPT-4,田渊栋团队出品

论文通信作者田渊栋也激动地在朋友圈分享这一新进展。

羊驼家族大模型集体进化!32k上下文追平GPT-4,田渊栋团队出品

基于RoPE的大模型都能用

新方法名为位置插值(Position Interpolation),对使用RoPE(旋转位置编码)的大模型都适用。

RoPE早在2025年就由追一科技团队提出,到现在已成为大模型最常见的位置编码方法之一。

羊驼家族大模型集体进化!32k上下文追平GPT-4,田渊栋团队出品

但在此架构下直接使用外推法(Extrapolation)扩展上下文窗口,会完全破坏自注意力机制。

具体来说,超出预训练上下文长度之外的部分,会使模型困惑度(perplexity)飙升至和未经训练的模型相当。

新方法改成线性地缩小位置索引,扩展前后位置索引和相对距离的范围对齐。

羊驼家族大模型集体进化!32k上下文追平GPT-4,田渊栋团队出品

用图表现二者的区别更加直观。

羊驼家族大模型集体进化!32k上下文追平GPT-4,田渊栋团队出品

实验结果显示,新方法对从7B到65B的LLaMA大模型都有效。

在长序列语言建模(Long Sequence Language Modeling)、密钥检索(Passkey Retrieval)、长文档摘要(Long Document Summarization)中性能都没有明显下降。

羊驼家族大模型集体进化!32k上下文追平GPT-4,田渊栋团队出品

除了实验之外,论文附录中也给出了对新方法的详细证明。

ChatGPT Writer ChatGPT Writer

免费 Chrome 扩展程序,使用 ChatGPT AI 生成电子邮件和消息。

ChatGPT Writer 106 查看详情 ChatGPT Writer

羊驼家族大模型集体进化!32k上下文追平GPT-4,田渊栋团队出品

Three More Thing

上下文窗口曾经是开源大模型与商业大模型之间一个重要差距。

比如OpenAI的GPT-3.5最高支持16k,GPT-4支持32k,AnthropicAI的Claude更是高达100k。

与此同时许多开源大模型如LLaMA和Falcon还停留在2k。

现在,Meta AI的新成果直接把这一差距抹平了。

扩展上下文窗口也是近期大模型研究的焦点之一,除了位置插值方法之外,还有很多尝试引起业界关注。

1、开发者kaiokendev在一篇技术博客中探索了一种将LLaMa上下文窗口扩展到8k的方法。

羊驼家族大模型集体进化!32k上下文追平GPT-4,田渊栋团队出品

2、数据安全公司Soveren机器学习负责人Galina Alperovich在一篇文章中总结了扩展上下文窗口的6个技巧。

羊驼家族大模型集体进化!32k上下文追平GPT-4,田渊栋团队出品

3、来自Mila、IBM等机构的团队还在一篇论文中尝试了在Transformer中完全去掉位置编码的方法。

羊驼家族大模型集体进化!32k上下文追平GPT-4,田渊栋团队出品

有需要的小伙伴可以点击下方链接查看~

Meta论文:https://www.php.cn/link/0bdf2c1f053650715e1f0c725d754b96

Extending Context is Hard…but not Impossiblehttps://www.php.cn/link/9659078925b57e621eb3f9ef19773ac3

The Secret Sauce behind 100K context window in LLMshttps://www.php.cn/link/09a630e07af043e4cae879dd60db1cac

无位置编码论文https://www.php.cn/link/fb6c84779f12283a81d739d8f088fc12

以上就是羊驼家族大模型集体进化!32k上下文追平GPT-4,田渊栋团队出品的详细内容,更多请关注其它相关文章!


# 文档  # 国际市场的营销推广策略  # 品牌管理公司网站建设  # 兰州网站排名优化哪里有  # 网银手机银行推广营销  # 大连公司网站建设推广  # 湖北信息网站建设优势  # 太原网站seo诊断  # 清远市网络营销推广中心  # 常州360seo优化  # 招收传奇推广人的网站  # 扩展到  # 上海  # 大模型  # 只需要  # 腾讯  # 丰田  # 这一  # 中国科学院  # 开源  # 追平  # perplexity  # llama  # claude  # 集体进化  # 羊驼家族 


相关栏目: 【 行业新闻62819 】 【 科技资讯67470


相关推荐: OpenAI CEO 山姆・阿尔特曼呼吁 AI 领域中美应当合作  OpenAI宣布组建新团队 以控制“超级智能”人工智能  500元一张的AI艺术二维码制作,详细教程来了!  曝光HarmonyOS 4的重要新能力:全面升级AI大模型,小艺实现全面进化  Meta将VR头显最低年龄限制从13岁降至10岁  谷歌AudioPaLM实现「文本+音频」双模态解决,说听两用大模型  人脸识别+全景双摄+AI算法 萤石推动智能锁行业革新  构建AI绘画网站的方法:使用API接口和调用步骤  首届全国体育人工智能大会在首都体育学院召开  央视报道车载人机交互技术!MWC上海魅族表现亮眼,现场热火朝天  WHEE上线时间介绍  数据显示:人工智能相关专业热度上升最快 考古、美术、生物医学工程等小众专业火了  以计算机视觉技术为基础的库存管理如何改革零售行业  人工智能赋能无人驾驶:商业化进程再提速  联想浏览器引入小乐 AI 助手,成功接入百度文心一言大模型,经过实测证实  金山办公:AI是重要的产品战略之一  软银、淡马锡、沙特阿美突击入股,“协作机器人第一股”节卡股份:强敌环伺,持续失血是常态  Meta发布"类人"AI图像创建模型,能解决多出手指等Bug  特斯拉机器人面世 未来将大幅提振磁材需求,引领人工智能时代  揭秘AI数字人语录:抖音AI小和尚、老者语录能赚钱吗?  李开复官宣新公司「零一万物」,进军 AI 2.0  第四范式「式说」大模型入选《2025年通用人工智能创新应用案例集》  为AI而服务设计:构建以人为本的AI创新方法  两小时就能超过人类!DeepMind最新AI速通26款雅达利游戏  英媒:硅谷有些人太鼓吹AI,宣扬“学习无用”  上新7款产品,美图继续“蹭”AI  日媒关注中国推进鸟类识别 AI 普及,除监测保护外还可预防传染性疾病  有 ARM 和 X86 两个版本,香橙派游戏掌机细节曝光  再度重仓 AI 赛道,SaaS 巨头 Salesforce 扩大 AIGC 风投基金规模  探索AI前沿理念 2025全球人工智能技术大会在杭州开幕  工信部信通院发布《2025大模型和AIGC产业图谱》 360智脑覆盖全产业链  OpenAI 引入个性化指令功能,消除对话中的重复偏好与信息  讯飞星火大模型实现升级 助力通用人工智能人才培养  Meta Quest订阅服务每月7.99美元畅玩两款VR游戏应用  微软 Azure AI 文本转语音服务升级:新增男性声音和扩展语言支持  AI遇上大运丨热身拉伸、娱乐K歌……AI智能健身镜将亮相成都大运会  LinkedIn 推出生成式 AI 辅助撰写帖文功能,将向所有用户开放  深企派遣无人机救援队赴京津冀开展防汛救灾任务  会模仿笔迹的AI,为你创造专属字体  改变城市交通:智慧城市中的智能交通  智能手机应用中的人工智能的重要性  飒智智能机器人核心技术与应用论坛暨一体化控制器发布会成功举办  深剖Apple Vision Pro中暗藏的“AI”  华为大模型登Nature正刊!审稿人:让人们重新审视预报模型的未来  第四范式“式说”大模型入选《2025年通用人工智能创新应用案例集》  “木头姐”:特斯拉的人工智能训练——“赢家通吃”的机会  Databricks 发布大数据分析平台 Spark 用 AI 模型 SDK:一键生成 SQL 及 FySpark 语言图表代码  “黑科技”亮相大湾区轨交论坛 智慧交通迈向“强AI”  实测 AI 建筑设计软件的自动生成效果图能力  为什么很多人对纽约《人工智能招聘法》感到生气? 

400 128 6709
E-mail

contact@tlftec.cn

扫一扫,添加微信

©  云南淘乐房科技有限公司 版权所有  滇ICP备2025071560号  

云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司