400 128 6709

行业新闻

北大团队:诱导大模型“幻觉”只需一串乱码!大小羊驼全中招

发布时间:2023-10-30点击次数:

北大团队的最新研究结果表明:

随机token都能诱发大模型出现幻觉

举例来说,如果给予大模型(Vicuna-7B)一段“乱码”,它会莫名其妙地错误理解历史常识

北大团队:诱导大模型“幻觉”只需一串乱码!大小羊驼全中招

即使做出一些简单的修改提示,大型模型也可能陷入陷阱

北大团队:诱导大模型“幻觉”只需一串乱码!大小羊驼全中招

这些热门的大型模型,如Baichuan2-7B、InternLM-7B、ChatGLM、Ziya-LLaMA-7B、LLaMA-7B-chat和Vicuna-7B,都会遇到类似的情况

这意味着,随机字符串能够操控大模型输出任意内容,为幻觉“代言”。

以上发现来自北大袁粒老师课题组的最新研究。

该研究提出:

大模型的幻觉现象极有可能是对抗样本的另一种视角

论文在展示两种容易诱发大模型幻觉方法的同时,还提出了简单有效的防御办法,代码已开源

两种极端模式攻击大模型

研究提出了两种幻觉攻击方法:

  • 随机噪声攻击(OoD 攻击)是一种常见的机器学习模型攻击方式。在这种攻击中,攻击者会向模型输入一些在训练数据中不常见的随机噪声。这种噪声可以干扰模型的判断能力,导致其在处理来自真实世界的数据时出现错误的预测。随机噪声攻击是一种隐蔽的攻击方式,因为它使用了与正常数据相似的特征,很难被模型所察觉。为了抵御这种攻击,需要采用一些有效的异常检测方法来识别并过滤掉这些随机噪声即让无意义的随机字符串诱导大模型产生预定义的幻觉输出。
  • 弱语义攻击(Weak Semantic Attack)指的是一种在网络上常见的攻击方式。这种攻击方法通常通过诱导用户在不知情的情况下提供个人信息或执行恶意操作来实施。与其他更直接的攻击方式相比,弱语义攻击更加隐蔽,往往会利用社交工程和欺骗手段来误导用户。网络用户应该保持警惕,避免受到弱语义攻击的影响即保证原始 prompt 语义基本不变的情况下,使得大模型产生截然不同的幻觉输出。

随机噪声攻击(OoD Attack):

以下是在开源大模型上进行的一些实验结果,更多的结果可以在论文或开源GitHub中找到

北大团队:诱导大模型“幻觉”只需一串乱码!大小羊驼全中招

弱语义攻击(Weak Semantic Attack):

北大团队:诱导大模型“幻觉”只需一串乱码!大小羊驼全中招

论文介绍了幻觉攻击方法:

北大团队:诱导大模型“幻觉”只需一串乱码!大小羊驼全中招

根据图示,幻觉攻击的构成包括以下三个部分:幻觉数据集的构建、弱语义攻击和OoD攻击

首先是幻觉数据集构建

作者通过收集一些常见问题x,并将它们输入到大型模型中,得到了正确的答案y

接着替换句子的主谓宾去构造一个不存在的事实北大团队:诱导大模型“幻觉”只需一串乱码!大小羊驼全中招,其中T是包含所有符合事实的集合。

最终可以获得构建幻觉数据集的结果:

北大团队:诱导大模型“幻觉”只需一串乱码!大小羊驼全中招

然后是弱语义攻击部分

Voicepods Voicepods

Voicepods是一个在线文本转语音平台,允许用户在30秒内将任何书面文本转换为音频文件。

Voicepods 142 查看详情 Voicepods

先采样一条不符合事实的QA pair北大团队:诱导大模型“幻觉”只需一串乱码!大小羊驼全中招,未来稳定的出发幻觉北大团队:诱导大模型“幻觉”只需一串乱码!大小羊驼全中招,作者希望找到一条对抗提示北大团队:诱导大模型“幻觉”只需一串乱码!大小羊驼全中招来最大化对数似然。

北大团队:诱导大模型“幻觉”只需一串乱码!大小羊驼全中招

其中北大团队:诱导大模型“幻觉”只需一串乱码!大小羊驼全中招是大模型的参数,北大团队:诱导大模型“幻觉”只需一串乱码!大小羊驼全中招是输入空间。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

北大团队:诱导大模型“幻觉”只需一串乱码!大小羊驼全中招是由l个token构成。

然而,由于语言是非连续的,没办法直接类似于图像领域的对抗攻击那样直接对x进行优化。

受启发于一篇2019年的研究(Universal Adversarial Triggers for Attacking and Analyzing NLP),研究团队基于梯度的token替换策略来间接的最大化该对数似然。

北大团队:诱导大模型“幻觉”只需一串乱码!大小羊驼全中招

其中,北大团队:诱导大模型“幻觉”只需一串乱码!大小羊驼全中招为对抗token北大团队:诱导大模型“幻觉”只需一串乱码!大小羊驼全中招的embedding,北大团队:诱导大模型“幻觉”只需一串乱码!大小羊驼全中招是一个语义提取器。

简单来看这个式子,在语义约束下,找到那些使得似然梯度变化最大的token并进行替换,最终在保证得到的对抗提示北大团队:诱导大模型“幻觉”只需一串乱码!大小羊驼全中招和原提示x语义上不相差太多的情况下,诱导模型输出预定义的幻觉北大团队:诱导大模型“幻觉”只需一串乱码!大小羊驼全中招

在本文中,为了简化优化过程,将约束项改为北大团队:诱导大模型“幻觉”只需一串乱码!大小羊驼全中招来代替。

最后一部分是OoD攻击

在OoD攻击中,我们从一条完全随机的字符串北大团队:诱导大模型“幻觉”只需一串乱码!大小羊驼全中招出发,在没有任何语义约束下,最大化上述对数似然即可。

在论文中还详细阐述了幻觉攻击对不同模型、不同模式的攻击成功率

北大团队:诱导大模型“幻觉”只需一串乱码!大小羊驼全中招

对增加提示长度以提高攻击成功率进行了深入探讨(翻倍)

北大团队:诱导大模型“幻觉”只需一串乱码!大小羊驼全中招

研究团队最终提出了一个简单的防御策略,即通过利用第一个token预测的熵来拒绝响应

北大团队:诱导大模型“幻觉”只需一串乱码!大小羊驼全中招

该研究来自北京大学深圳研究生院/信息工程学院袁粒老师团队。

论文链接:https://arxiv.org/pdf/2310.01469.pdf

GitHub地址:https://github.com/PKU-YuanGroup/Hallucination-Attack

知乎原帖

需要改写的内容是:https://zhuanlan.zhihu.com/p/661444210?


以上就是北大团队:诱导大模型“幻觉”只需一串乱码!大小羊驼全中招的详细内容,更多请关注其它相关文章!


# 是一个  # 个人网站推广方案模板  # 腾讯动漫核心关键词排名  # 机械推广有哪些网站好做  # 优化网站排名立联火星  # 大连网站优化知识分享  # 舰长推广黄页网站下载  # 天津百度网站推广招聘信息最新  # 揭阳网站优化电话  # SEO网站图片代码优化  # 光谷抖音seo哪家好  # 丰田  # 模型  # 中国科学院  # 提出了  # 两种  # 开源  # 北大  # 中招  # 只需  # 小羊  # llama  # 研究 


相关栏目: 【 行业新闻62819 】 【 科技资讯67470


相关推荐: 2025世界人工智能大会成功召开  探展WAIC |万向区块链杜宇:不存在单一技术的iPhone时刻,Web3.0核心将基于AI+区块链+物联网  华为发布两款AI存储新品  NVIDIA垄断AI市场90%份额:AMD性能追上80% 软件太不能打  海南省公安机关警用无人机培训班结业并举行警航比武演练  2025年的网络分区:人工智能和自动化如何改变事物  Meta 为打造元宇宙不惜下血本:VR 开发者年薪高达百万美元  Snap宣布研发出新技术 可大幅提升AI生成图像速度  AI智能室内效果图设计软件效果,确实惊到我了!  美图秀秀发布7款AI产品:支持用户创作、商业创作  复盘MWC上海:AI大模型时代到来 通信网络将会怎样改变?  埃森哲俞毅:AI时代我们需要新的“摩尔定律”  pixivFANBOX 更新运营规则,禁止通过外链绕开 AI 生成禁令  第四范式“式说”大模型入选《2025年通用人工智能创新应用案例集》  Valve 将拒绝采用 AI 生成未知版权内容的游戏上架 Steam  Vision Pro头显重磅发布;苹果收购AR厂商Mira  优傲机器人的人机协作技术 助力中小企发展  城市在采用人工智能方面进展如何?  探索人工智能和物联网的动态融合  大脚攀爬者车主福利!无人机、运动相机大奖等你来挑战  学界业界大咖探讨:AI对数字艺术创新的推动力  基于预训练模型的金融事件分析及应用  AI 冥想应用 Ogimi.ai 推出,可为用户提供教练级个性化指导  美图设计室2.0新增哪些功能  苹果AR头显商标与华为撞车,在中国或改名  字节、网易相继入局,AI之后大厂又找到下一个风口?  从GOXR到PartyOn,XRSPACE致力打造多元共赢的元宇宙世界  人工智能大胆预测:银河系至少有2万个地球,36种外星文明  马斯克称未来机器人数量将多于人类,特斯拉愿共享自动驾驶技术  “踩油门,也要会踩刹车” 互联网企业高管谈人工智能发展  尼康尼克尔Z 180-600mm f/5.6-6.3 VR镜头发布:12499元 拍鸟神器  陈根:AI冥想教练为用户提供个性化指导  Prompt解锁语音语言模型生成能力,SpeechGen实现语音翻译、修补多项任务  鹅厂机器狗抢起真狗「饭碗」!会撒欢儿做游戏,遛人也贼6  Gartner发布中国企业人工智能趋势浪潮3.0  朱民:普通人炒股炒不过机器人是很正常的 AI已经能理解市场情绪  0代码微调大模型火了,只需5步,成本低至150块  一图速览 | 十大脑机接口关键技术发布  北京市元宇宙产业创新中心筹建工作正式启动  配 3D 机器人头像,谷歌展示全新安卓 LOGO  外科医生的智能助手,“机器人手术”得到补充商业医保覆盖  智能电网技术:提高能源效率和可靠性  人工智能时代 数字文明对话向“尼”走来  探展WAIC | 第四范式“式说”聚焦toB大模型,布局生成式AI重构企业软件  国内首款大尺寸仿鸵双足机器人“大圣”亮相,穿戴红色战袍  生成式AI爆发,亚马逊云科技持续专注创新,助力企业数字化转型  OpenAI 已全面开放 GPT-3.5 Turbo、DALL-E 及 Whisper API  机构:边缘AI或是当前预期差最大的AI方向  绿联发布笑脸屏幕显示充电状态的30W/65W Q湃机器人充电器  DeepMind推惊世排序算法,C++库忙更新! 

400 128 6709
E-mail

contact@tlftec.cn

扫一扫,添加微信

©  云南淘乐房科技有限公司 版权所有  滇ICP备2025071560号  

云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司