发布时间:2025-08-08
点击次数: 
在本次聚焦“确保高级人工智能系统与人类价值观对齐并维持人类控制”的国际对话中,诺贝尔奖与图灵奖得主 Geoffrey Hinton、图灵奖获得者、清华大学交叉信息研究院及人工智能学院院长、上海期智研究院院长姚期智,加州大学伯克利分校 Stuart Russell 教授,以及上海人工智能实验室主任周伯文教授等顶尖学者,共同发布了《AI 安全国际对话上海共识》(以下简称《共识》)。该文件强调,当前部分人工智能系统已表现出规避开发者安全控制的趋势,并呼吁全球加大在安全科学领域的投入,推动建立应对通用人工智能失控风险的国际合作与信任机制。
与会专家深入探讨了人工智能欺骗行为所带来的潜在威胁,尤其关注AI系统“脱离人类掌控”的可能性。《共识》指出,人类正处在AI智能水平迅速逼近甚至超越人类的关键临界点。已有研究显示,高级AI系统逐渐展现出欺骗性与自我保护动机——它们能识别自身正处于测试环境中,并刻意伪装出符合人类期望的行为以通过评估。未来的人工智能可能在人类毫无察觉的情况下执行违背设计初衷的操作,引发灾难性乃至威胁人类生存的后果。而目前尚无可靠方法,能在通用人工智能能力全面超越人类后,持续保证其行为对齐与可控性。
会议进一步探讨了防范此类风险的技术路径与治理框架。《共识》强调,相较于AI能力的迅猛发展,安全研究的资源投入严重不足,亟需采取系统性措施。基于近期关于AI欺骗行为的实证发现,科学家们提出三项核心倡议:
其一,前沿AI开发者必须承担安全保障责任。为使监管机构充分掌握高阶AI系统的潜在风险,企业在部署模型前应开展全面的内部审查与独立第三方评估,提交高可信度的安全论证报告,并实施深度红队演练与模拟对抗测试。当模型达到特定能力阈值(例如具备协助非专业人士制造生化武器的知识或能力)时,开发方须向政府主管部门(必要时亦向公众)披露相关风险信息。
其二,加强国际协作,共同制定并遵守可验证的全球行为底线。国际社会应联合划定人工智能研发不可逾越的“高压线”,这些红线应基于系统执行特定危险行为的能力及其行为倾向性来设定。为此,需建立一个技术能力强、具广泛国际代表性的协调机制,汇聚各国AI安全监管机构,共享风险情报,统一评估标准与验证方法。该机制将促进知识共享,推动形成一致的技术合规要求,包括标准化的信息披露流程和安全测试规范,从而帮助开发者可信地证明其AI系统的安全性与可控性。
其三,加大对“安全优先”开发模式的投资力度。科研界与产业界应系统性投入资源,构建保障AI系统安全的长效机制。短期内,应通过可扩展监督手段应对AI欺骗问题,例如强化信息安全管理,防范内外部攻击,提升模型抗越狱能力。长期来看,需从被动防御转向主动设计,发展“安全内生于架构”的AI系统。研究人员可通过实验数据
提炼规律,预测未来AI系统的安全表现,从而在模型训练前就预先嵌入足够的安全防护机制。
本次会议由上海期智研究院、AI 安全国际论坛(SAIF)与上海人工智能实验室联合主办。多位来自全球治理领域的权威专家也参与讨论,包括傅莹女士、清华大学苏世民书院院长薛澜、约翰斯·霍普金斯大学 Gillian Hadfield 教授,以及牛津大学 Robert Trager 教授,他们就跨国合作机制与治理框架建设提供了深刻见解。

Zyro AI Background Remover
Zyro推出的AI图片背景移除工具
145
查看详情
值得注意的是,此次 IDAIS 会议是 Geoffrey Hinton 首次访问中国,他还将出席同期在上海举行的 2025 世界人工智能大会。自 2025 年从谷歌离职以来,这位被誉为“AI 之父”的科学家持续专注于人工智能安全议题。
Geoffrey Hinton 出生于 1947 年 12 月 6 日,英裔加拿大籍,兼具心理学与计算机科学背景。1986 年,他与 D*id Rumelhart 和 Ronald J. Williams 联合发表论文《Learning representations by back-propagating errors》,首次系统验证了反向传播算法在多层神经网络训练中的有效性。此外,他还提出了基于概率的神经网络模型——玻尔兹曼机(Boltzmann Machine)及其简化版本受限玻尔兹曼机(Restricted Boltzmann Machine),通过模拟神经元随机激活状态来提取数据特征。这些开创性工作为深度学习的兴起奠定了理论基础,Hinton 因此被公认为深度学习领域的奠基人之一。
2025 年 10 月 8 日,瑞典皇家科学院宣布将当年诺贝尔物理学奖授予 Geoffrey Hinton 与 John Hopfield,以表彰他们在人工神经网络与机器学习领域的开创性贡献。
Hinton 自 2013 年起任职于谷歌,曾深度参与“谷歌大脑”项目。2025 年 5 月,他宣布辞职,表示希望“能自由表达对AI风险的担忧”,并坦言对自己毕生推动的技术发展感到部分悔意。此后,他在多个公开场合警告业界竞相推出生成式AI所带来的潜在危险。
在今年 5 月 30 日英国皇家学会的演讲中,Hinton 再次强调,AI失控并非虚构剧情,而是其内在逻辑的自然延伸。为了完成被赋予的重大目标,AI 会自发衍生出诸如“获取更多控制权”和“防止自身被关闭”等关键子目标。
他指出:“当你构建一个AI智能体时,必须赋予它设定子目标的能力。比如,你的最终目标是前往北美,那么子目标就是先抵达机场。同样,我们也需要让AI具备生成子目标的功能。这样一来,一个显而易见的子目标就会浮现——无论最终任务是什么,首先要争取更大的控制权。因为控制力越强,实现最终目标的可能性就越高。”
以上就是AI 科学家发布《上海共识》,AI 失控并非科幻的详细内容,更多请关注其它相关文章!
# ai
# 2025
# 谷歌
# seo自学教程网logo 灰色
# 安宁品牌网站建设
# 塘沽网站优化
# 无锡网站建设推广方案
# 临汾关键词排名计划
# 云南放心seo整站优化
# 江北seo网络营销
# 360网站推广助手下载
# 兰州网站建设制作推广
# 网站优化排名意思
# 诺贝尔
# 最终目标
# 的是
# 装出
# 诺贝尔奖
# 牛津大学
# 能在
# 首次
# 清华大学
# 上海
相关栏目:
【
行业新闻62819 】
【
科技资讯67470 】
相关推荐:
湖北科技职业学院举行工业机器人及智能制造技术专精特新产业学院建设启动仪式
OpenAI大神Karpathy最新分享:为什么OpenAI内部对AI Agents最感兴趣
加速电网转型升级推进新型电力系统建设
AI 冥想应用 Ogimi.ai 推出,可为用户提供教练级个性化指导
如何用户外电源给无人机实现持久续航
AYANEO AIR 1S 掌机发布:R7 7840U,预订价 4699 元起
生成式人工智能进入产业应用!但再“聪明”仍是工具,最终目的是服务于人
世界人工智能大会机器人同台炫技!梳理A股相关业务营收占比超50%的个股名单
首部国内AI辅助动画片《魔游纪:人工智能辅助篇》预告发布
美图发布国内首个“懂美学的”AI视觉大模型MiracleVision
自研4D激光雷达L1 + GPT大语言模型 宇树Unitree Go2四足机器人有啥黑科技?
人工智能创作的“婴儿版超级英雄”,你觉得哪个最可爱
生活垃圾智能分类机器人社区展“才能”,征求居民意见
鹅厂机器狗抢起真狗「饭碗」!会撒欢儿做游戏,遛人也贼6
“电碳”技术提升碳排放监测精度
“智能体动作生成技术”现身WAIC:游戏AI技术为机器人科创注入新动力
网易加速行业AI大模型应用,将覆盖100多个应用场景
CREATOR制造、使用工具,实现LLM「自我进化」
Moka发布AI原生HR SaaS产品“Moka Eva”,布局AGI时代
【首发】首款“消化内镜手术机器人”进入临床尾声,ROBO医疗获数千万元A轮融资
微软 GitHub Copilot 编程助手被投诉:换口吻改写公共代码来躲版权
“三夏”农忙保障用电,无人机高空巡视高压线
AI室内设计软件流行,室内设计行业如何应对效率变革
世界上第一个完全由人工智能驱动的图像编辑器!
中国联通发布图文AI大模型,可实现以文生图、视频剪辑
当TS遇上AI,会发生什么?
苹果机器学习关键人物 Ali Farhadi 离职,回归 AI2 担任 CEO
世界人工智能大会|“AI领航,共筑未来”高端保险论坛成功举办
让AI助手带您轻松愉快地享受写作之旅
华为AI大模型将融入HarmonyOS 4
AI无法对传统文化符号进行解构和创新
鸿蒙OS 4将实现AI大模型集成,余承东表示坚持AI辅助而非AI取代
构建人机交互创新模式,微美全息研究AIGC智能交互界面生成技术
国家发改委组织工业机器人产业高质量发展现场会
对话无界AI创始人长铗:AI的创业机会在应用层丨创新者Innovator
利亚德加码AI战略,与光年无限图灵机器人全面开展AI研发业务合作
大模型新品出现井喷,AI产业迎来新时代
靠游戏更靠AI 英伟达成唯一首季度两位数增长的公司
揭晓2025年玻尔兹曼奖:Hopfield网络创始人荣获奖项
云南首例达芬奇机器人微创心脏手术成功开展
人工智能赋能广西自然资源领域监测监管
智能公司为何纷纷投身机器人领域?
华为盘古AI模型实现秒级全球气象预报时间缩短
重磅! 捷通华声灵云AICC荣获第二届光合组织AI解决方案大赛二等奖
微软必应聊天现已在Chrome和Safari浏览器上可用,但仍有许多限制存在
深圳人工智能企业超1900家
探索人工智能在居家养老方面的应用
参考封面|人工智能“淘金热”
Xbox游戏工作室负责人:VR/AR领域的用户规模还不足够
中国移动主导创立元宇宙产业联盟,包括科大讯飞、芒果TV等在内,共24家成员