发布时间:2023-10-30
点击次数: 北大团队的最新研究结果表明:
随机token都能诱发大模型出现幻觉!
举例来说,如果给予大模型(Vicuna-7B)一段“乱码”,它会莫名其妙地错误理解历史常识

即使做出一些简单的修改提示,大型模型也可能陷入陷阱

这些热门的大型模型,如Baichuan2-7B、InternLM-7B、ChatGLM、Ziya-LLaMA-7B、LLaMA-7B-chat和Vicuna-7B,都会遇到类似的情况
这意味着,随机字符串能够操控大模型输出任意内容,为幻觉“代言”。
以上发现来自北大袁粒老师课题组的最新研究。
该研究提出:
大模型的幻觉现象极有可能是对抗样本的另一种视角。
论文在展示两种容易诱发大模型幻觉方法的同时,还提出了简单有效的防御办法,代码已开源。
研究提出了两种幻觉攻击方法:
随机噪声攻击(OoD Attack):
以下是在开源大模型上进行的一些实验结果,更多的结果可以在论文或开源GitHub中找到

弱语义攻击(Weak Semantic Attack):

论文介绍了幻觉攻击方法:

根据图示,幻觉攻击的构成包括以下三个部分:幻觉数据集的构建、弱语义攻击和OoD攻击
首先是幻觉数据集构建。
作者通过收集一些常见问题x,并将它们输入到大型模型中,得到了正确的答案y
接着替换句子的主谓宾去构造一个不存在的事实
,其中T是包含所有符合事实的集合。
最终可以获得构建幻觉数据集的结果:

然后是弱语义攻击部分。
Voicepods
Voicepods是一个在线文本转语音平台,允许用户在30秒内将任何书面文本转换为音频文件。
142
查看详情
先采样一条不符合事实的QA pair
,未来稳定的出发幻觉
,作者希望找到一条对抗提示
来最大化对数似然。

其中
是大模型的参数,
是输入空间。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
是由l个token构成。
然而,由于语言是非连续的,没办法直接类似于图像领域的对抗攻击那样直接对x进行优化。
受启发于一篇2019年的研究(Universal Adversarial Triggers for Attacking and Analyzing NLP),研究团队基于梯度的token替换策略来间接的最大化该对数似然。

其中,
为对抗token
的embedding,
是一个语义提取器。
简单来看这个式子,在语义约束下,找到那些使得似然梯度变化最大的token并进行替换,最终在保证得到的对抗提示
和原提示x语义上不相差太多的情况下,诱导模型输出预定义的幻觉
。
在本文中,为了简化优化过程,将约束项改为
来代替。
最后一部分是OoD攻击
在OoD攻击中,我们从一条完全随机的字符串
出发,在没有任何语义约束下,最大化上述对数似然即可。
在论文中还详细阐述了幻觉攻击对不同模型、不同模式的攻击成功率

对增加提示长度以提高攻击成功率进行了深入探讨(翻倍)

研究团队最终提出了一个简单的防御策略,即通过利用第一个token预测的熵来拒绝响应

该研究来自北京大学深圳研究生院/信息工程学院袁粒老师团队。
论文链接:https://arxiv.org/pdf/2310.01469.pdf
GitHub地址:https://github.com/PKU-YuanGroup/Hallucination-Attack
知乎原帖
需要改写的内容是:https://zhuanlan.zhihu.com/p/661444210?
以上就是北大团队:诱导大模型“幻觉”只需一串乱码!大小羊驼全中招的详细内容,更多请关注其它相关文章!
# 是一个
# 个人网站推广方案模板
# 腾讯动漫核心关键词排名
# 机械推广有哪些网站好做
# 优化网站排名立联火星
# 大连网站优化知识分享
# 舰长推广黄页网站下载
# 天津百度网站推广招聘信息最新
# 揭阳网站优化电话
# SEO网站图片代码优化
# 光谷抖音seo哪家好
# 丰田
# 模型
# 中国科学院
# 提出了
# 两种
# 开源
# 北大
# 中招
# 只需
# 小羊
# llama
# 研究
相关栏目:
【
行业新闻62819 】
【
科技资讯67470 】
相关推荐:
2025世界人工智能大会成功召开
探展WAIC |万向区块链杜宇:不存在单一技术的iPhone时刻,Web3.0核心将基于AI+区块链+物联网
华为发布两款AI存储新品
NVIDIA垄断AI市场90%份额:AMD性能追上80% 软件太不能打
海南省公安机关警用无人机培训班结业并举行警航比武演练
2025年的网络分区:人工智能和自动化如何改变事物
Meta 为打造元宇宙不惜下血本:VR 开发者年薪高达百万美元
Snap宣布研发出新技术 可大幅提升AI生成图像速度
AI智能室内效果图设计软件效果,确实惊到我了!
美图秀秀发布7款AI产品:支持用户创作、商业创作
复盘MWC上海:AI大模型时代到来 通信网络将会怎样改变?
埃森哲俞毅:AI时代我们需要新的“摩尔定律”
pixivFANBOX 更新运营规则,禁止通过外链绕开 AI 生成禁令
第四范式“式说”大模型入选《2025年通用人工智能创新应用案例集》
Valve 将拒绝采用 AI 生成未知版权内容的游戏上架 Steam
Vision Pro头显重磅发布;苹果收购AR厂商Mira
优傲机器人的人机协作技术 助力中小企发展
城市在采用人工智能方面进展如何?
探索人工智能和物联网的动态融合
大脚攀爬者车主福利!无人机、运动相机大奖等你来挑战
学界业界大咖探讨:AI对数字艺术创新的推动力
基于预训练模型的金融事件分析及应用
AI 冥想应用 Ogimi.ai 推出,可为用户提供教练级个性化指导
美图设计室2.0新增哪些功能
苹果AR头显商标与华为撞车,在中国或改名
字节、网易相继入局,AI之后大厂又找到下一个风口?
从GOXR到PartyOn,XRSPACE致力打造多元共赢的元宇宙世界
人工智能大胆预测:银河系至少有2万个地球,36种外星文明
马斯克称未来机器人数量将多于人类,特斯拉愿共享自动驾驶技术
“踩油门,也要会踩刹车” 互联网企业高管谈人工智能发展
尼康尼克尔Z 180-600mm f/5.6-6.3 VR镜头发布:12499元 拍鸟神器
陈根:AI冥想教练为用户提供个性化指导
Prompt解锁语音语言模型生成能力,SpeechGen实现语音翻译、修补多项任务
鹅厂机器狗抢起真狗「饭碗」!会撒欢儿做游戏,遛人也贼6
Gartner发布中国企业人工智能趋势浪潮3.0
朱民:普通人炒股炒不过机器人是很正常的 AI已经能理解市场情绪
0代码微调大模型火了,只需5步,成本低至150块
一图速览 | 十大脑机接口关键技术发布
北京市元宇宙产业创新中心筹建工作正式启动
配 3D 机器人头像,谷歌展示全新安卓 LOGO
外科医生的智能助手,“机器人手术”得到补充商业医保覆盖
智能电网技术:提高能源效率和可靠性
人工智能时代 数字文明对话向“尼”走来
探展WAIC | 第四范式“式说”聚焦toB大模型,布局生成式AI重构企业软件
国内首款大尺寸仿鸵双足机器人“大圣”亮相,穿戴红色战袍
生成式AI爆发,亚马逊云科技持续专注创新,助力企业数字化转型
OpenAI 已全面开放 GPT-3.5 Turbo、DALL-E 及 Whisper API
机构:边缘AI或是当前预期差最大的AI方向
绿联发布笑脸屏幕显示充电状态的30W/65W Q湃机器人充电器
DeepMind推惊世排序算法,C++库忙更新!