发布时间:2025-10-02
点击次数: 今天这篇文章,我们来聊一个最近几年很火的概念 —— 存算一体。
“存算一体”?存算一体,英文叫 Compute In Memory,简称 CIM。顾名思义,就是将存储和计算放在一起。
大家都知道,存储和计算,是我们处理数据的两种基本方式。自从计算机诞生以来,我们采用的主流计算架构,是著名的冯・诺伊曼架构。在这个架构中,存储和计算是两个相对独立的模块。存储负责数据的存取,而计算则负责运算。

我们可以把存储理解为配菜,计算理解为炒菜。两者配合到位,才能完成菜品的制作(完成计算任务)。
理论上来说,想要出菜的速度更快,一方面,要加快炒菜的速度(通过提升芯片的算力,例如采用更先进的工艺制程),另一方面,也要加快配菜的速度。
这个速度,简单来说,就是存储设备与计算芯片(CPU、GPU 等)之间的数据传输能力。如果配菜太慢,炒菜师傅就要等待,从而影响整体效率。
以前小枣君给大家介绍存储的时候曾经说过,计算机的存储,是典型的分级策略 —— 越靠近处理器(计算单元)的存储设备,速度越快,容量越小。有缓存(1 级 / 2 级 / 3 级)、内存、磁盘(固态 / 机械)、外部存储器(本地磁阵、云存储)这样的不同类型存储设备(单元)。

这是由存储设备的成本决定的。速度越快的存储设备,成本越高。全部都用最快的存储,是不现实的,价格太高昂,所以才有了逐级存储机制。
冯・诺依曼架构,我们用了几十年,因为数据存储和计算是明显分开的,所以也叫做存算分离。
进入互联网时代后,由于数据量呈现爆炸式增长,对数据计算效率的要求越来越高。这种传统的架构开始暴露出能力上的缺陷。
尤其是最近这些年,AI 的崛起,让数据计算强度又跃升了好几个层级。计算芯片在疯狂提速,而存储传输速率的提升跟不上,由此产生了著名的两堵墙 ——“存储墙”和“功耗墙”。
所谓“存储墙”,是指存储设备和处理器之间的数据传输速度,远远跟不上处理器的计算速度。就像炒菜师傅手艺再好,配菜师傅跟不上节奏,也只能干着急。

业内曾提出,AI 运算需要的存算通道速率是 1PB/s。SRAM 的 10-100TB/s、DRAM 的 40GB-1TB/s,都远达不到要求。
而“功耗墙”则是指,在数据传输过程中,能耗巨大,导致整体系统的能效比不理想。这就像是为了快速配菜,不得不请很多帮手,结果人工成本大大增加。
例如,在 7nm 工艺下,数据搬运的功耗占比甚至达到了惊人的 63.7%,远远大于数据计算的功耗。
大家应该都听说过 HBM 技术。
HBM(High Bandwidth Memory,高带宽内存),就是一种尝试解决“存储墙”和“功耗墙”问题的新型存储技术。像英伟达这样的芯片厂商,采用 3D 封装等先进工艺,将存储单元和计算单元封装在一起,通过缩短两者之间的距离,提高数据传输速度,同时降低能耗。

HBM 在一定程度上缓解了问题,但并没有从根本上改变存算分离的现状。于是,业界提出了一个新的解决思路,那就是 —— 存算一体。
既然存储和计算分离会导致带宽瓶颈,那么,把存储和计算直接结合在一起,让数据在存储的过程中就能进行计算,或者在计算的过程中就能直接访问存储,从而减少数据的搬运次数,不就行了吗?
这样一来,既可以提高整体计算效率,也可以降低功耗,彻底解决“两堵墙”的问题。
实际上,我们的大脑,就是典型的存算一体结构。神经元既负责存储信息(记忆),也负责处理信息(思考)。这种结构,使得大脑能够以极高的效率处理复杂的任务,而且能耗极低。
存算一体的研究,其实很早就已经开始了。
早在 1969 年,斯坦福研究所的 Kautz 等人,率先提出了存算一体计算机的概念。但是,受限于当时的技术和工艺,概念仅仅停留在理论研究阶段,并未得到实际应用。
后来,为了实现存算一体,科学家们进行了大量的研究和尝试,但仍然进展缓慢。
进入 21 世纪后,芯片与半导体技术日趋成熟,存算一体化实现的曙光亦逐渐显现。科学家们发现,某些特殊的材料或器件,能够在存储数据的同时,在存储单元内部执行简单的逻辑运算。这将大大减少数据的搬运次数和功耗。
2010 年,惠普实验室的 Williams 教授团队提出并验证利用忆阻器实现简单布尔逻辑功能(联合、相交、相减等)。
2016 年,美国加州大学圣塔芭芭拉分校(UCSB)的谢源教授团队,提出使用阻变存储器(RRAM)构建存算一体架构的深度学习神经网络(PRIME)。相较于传统冯・诺伊曼架构方案,PRIME 可以实现功耗降低约 20 倍、速度提升约 50 倍。
2017 年,在微处理器顶级年会(Micro 2017)上,包括英伟达、英特尔、微软、三星、苏黎世联邦理工学院与加州大学圣塔芭芭拉分校等都推出了他们的存算一体系统原型,掀起了学术界和产业界的一股“存算一体”热潮。
最近这几年,随着 AI 浪潮的到来,海量的大模型训练和推理计算需求爆发,引发了算力产业的新一轮增长。存算一体,更是进入了一个高速发展的快车道。
除了传统芯片巨头在加紧研究之外,也有很多创业企业“扎堆”入场。国内有苹芯科技、后摩智能、知存科技、亿铸科技、智芯科、千芯科技、九天睿芯等。国外有 Mythic、Syntiant 等公司。
2025 年 9 月,清华大学团队宣布研发出全球首颗全系统集成的、支持高效片上学习的忆阻器存算一体芯片,再次将“存算一体”推上热搜。
如今,存算一体已经成为业界最热门的研究方向,正在加速从理论研究走向产业落地。
接下来,我们看看存算一体的具体技术分类。
目前,业界根据存储和计算的距离远近,将存算一体分为三类,分别是近存计算、存内处理和存内计算。
●近存计算(Processing Near Memory,PNM)
近存计算,通过芯片封装和板卡组装等方式,将存储单元和计算单元集成,增加访存带宽、减少数据搬移,提升整体计算效率。
前面提到的 HBM 共封装,就是近存计算。
近存计算又分为存储上移和计算下移。HBM 那个,属于存储上移。计算下移是采用板卡集成技术,将数据处理能力卸载到存储器,典型方案是 CSD 可计算存储。
近存计算严格来说仍然是属于存算分离架构。这个路线比较容易实现,现在已经广泛应用于 AI、大数据、边缘计算、物联网等场景。
● 存内处理(Processing In Memory,PlM)
存内处理,是在芯片制造的过程中,将“存”与“算”集成在同一个晶粒(Die)中,使存储器本身具备了一定的算力。
存内处理本质上仍是存算分离。相比于近存计算,“存”与“算”距离更近。
目前,业内的存内处理方案大多在内存(DRAM)芯片中加“算力”,比较典型的产品形态为 HBM-PIM(三星)和 PIM-DIMM。这类方案适合应用于语音识别、数据库索引搜索、基因匹配等场景。
● 存内计算(Computing in Memory,ClM)
存内计算,这是真正的存算一体了(也属于业界所说的狭义的存算一体)。
在芯片设计的过程中,不再区分存储单元和计算单元,直接消除“存”“算”界限,真正实现存算彻底融合。
逍遥内容管理系统(Carefree CMS)1.3.0
系统简介逍遥内容管理系统(CarefreeCMS)是一款功能强大、易于使用的内容管理平台,采用前后端分离架构,支持静态页面生成,适用于个人博客、企业网站、新闻媒体等各类内容发布场景。核心特性1、模板套装系统 - 支持多套模板自由切换,快速定制网站风格2、静态页面生成 - 一键生成纯静态HTML页面,访问速度快,SEO友好3、文章管理 - 支持富文本编辑、草稿保存、文章属性标记、自动提取SEO4、全
1
查看详情

这个方案的主要服务场景就是 AI 计算。
AI 深度学习算法中包含了大量的矩阵乘法运算,其本质是乘累加(Multiply Accumulate, MAC)运算。
存算一体技术可以将这些运算直接映射到存储结构中,在存储单元的核心电路上做修改,从而在读取的同时进行数据输入和计算处理,在存储阵列中完成卷积运算。这带来了极高的能效比和极低的延迟。

以前小枣君给大家介绍半导体存储的时候说过,存储器分为易失性存储器和非易失性存储器。
存内计算的电路,也可以基于这两种存储器。
易失性,就是内存那种,掉电了数据就没了,例如 SRAM、DRAM。
非易失性,掉电时数据不会丢失,如传统的闪存 NOR Flash 和 NAND Flash,以及一些新型存储器:阻变存储器 RRAM(ReRAM)、磁性存储器 MRAM、铁变存储器 FRAM(FeRAM)、相变存储器 PCRAM(PCM)等。
SRAM、DRAM、Flash 等都是成熟的技术,基于电荷的移动完成数据存储。
DRAM 成本低,容量大,但是可用的 eDRAM IP 核工艺节点不先进,读取延迟(Latency)也大,且需要定期刷新数据。Flash 则属于非易失性存储器件,具有低成本优势,一般适合小算力场景。SRAM 在速度方面具有极大优势,有几乎最高的能效比,容量密度略小,在精度增强后可以保证较高精度,一般适用于云计算等大算力场景。
目前,针对新型存储器的研究非常热门。例如 RRAM、MRAM 等,基于电阻大小的变化完成数据存储功能。

新型存储器中,忆阻器(RRAM)的研究热度最高。
RRAM 使用电阻调制来实现数据存储,读出电流信号而非传统的电荷信号,可以获得较好的线性电阻特性。但目前 RRAM 工艺良率爬坡还在进行中,而且依然需要面对非易失存储器固有的可靠性问题。

需要说明的是,存内计算主要包含模拟和数字两种实现方式。
模拟存内计算能效高,但误差较大,实现低功耗低位宽的整数乘加计算,适用于低精度、低功耗计算场景,例如端侧可穿戴设备等。模拟存内计算通常使用 FLASH、RRAM、PRAM 等非易失性介质作为存储器件,存储密度大,并行度高,但是对环境噪声和温度非常敏感。
数字存内计算误差低,但单位面积功耗较大,适用于高精度、功耗不敏感的计算场景,例如云端 AI 场景。数字存算一体主要以 SRAM 和 RRAM 作为存储器件,具有高性能、高精度的优势,且具备很好的抗噪声能力和可靠性,
前面已经说过,存算一体天然适合 AI 相关的计算场景。
自然语言处理、信息检索、图神经网络、智能决策、具身智能等人工智能应用,对算力效率以及系统能耗有极高的要求。传统的“存算分离”难以应对,存算一体则非常适合。
除了 AI 之外,就是 AIoT 智能物联网产品。碎片化的 AIoT 市场对先进工艺芯片的需求并不强烈,反而更关注芯片的成本、功耗、开发难度。
存算一体芯片在这些方面都有优势,非常适合采用。
在一些大算力场景,例如云端 AI 计算,也是存算一体的用武之地。
目前的 AI 计算,基本上都是 GPU 为主。GPU 在算力和能效上都无法同时与专用加速芯片(ASIC)竞争。在云计算算力市场,GPU 的单一架构也已经不能适应不同 AI 计算场景的算法离散化特点。例如在图像、推荐、NLP 领域,都有各自的主流算法架构。
新型的存算一体芯片,具有能效优势,也适合固定场景的计算任务,应用潜力巨大。
此外,存算一体芯片还有一些其他延伸应用,比如感存算一体、类脑计算等。这些也是非常具有潜力的市场领域。
存算一体的技术前景非常广阔,但是我们也必须认识到,这项技术的实现和普及还面临着诸多挑战。
首先,是来自技术上的挑战。
存算一体采用新型存储技术,对半导体工艺有更高的要求。在芯片架构、电路设计和材料选择等方面,都仍有待进一步研究和创新。
其次,是来自生态上的挑战。
存算一体技术作为一个新兴领域,其生态系统尚未完全建立。
例如,在芯片设计阶段,由于存算一体芯片区别于常规的芯片设计方案,所以目前市面上没有成熟的专用 EDA 工具辅助设计和*验证。芯片流片之后,也没有成熟的工具协助测试。在芯片落地应用阶段,没有专用的软件与之匹配。
为此,需要产业界协作,进一步提高设计工具链的成熟度,实现自动化 EDA 工具与跨平台编译器的支持,加强代工厂标准 IP 库的建设与优化多场景下的制造成本,以便提高产业链的整体协同能力。
最后,是来自市场上的挑战。
虽然存算一体技术具有广阔的市场前景,但目前市场上仍存在诸多不确定因素。存算一体芯片的架构场景通用性及规模扩展能力较差。传统存算分离架构仍占据主导地位,存算一体技术需要与传统架构进行竞争。
存内计算仅适合原本就对存储需求较大的场景,而对于本身存储需求并不高的场景,为了引入内存计算而加上一块大内存反倒会增加成本适得其反。
用户对性价比非常关注,需要考虑用户的需求和场景是否能够接受存算一体。存算一体,也要在 AI 的发展过程中寻找自己的落地场景。
总之,挑战还是很多的。但是,随着技术的不断进步以及业界的不懈努力,相信这些问题都会得到逐步解决。
根据 QYResearch 调研团队报告《全球存算一体技术市场报告 2025-2029》显示,预计 2029 年全球存算一体技术市场规模将达到 306.3 亿美元,未来几年年复合增长率 CAGR 为 154.7%。
这是一个非常具有潜力的市场。未来几年,存算一体领域还会有更多的技术创新出现,涌现出更多优秀的企业。让我们拭目以待!
参考文献:
1、《存算一体:内核架构创新,打破算力能效极限》,势乘资本和光锥智能;
2、《存算一体白皮书(2025 年)》,中国移动研究院;
3、《ChatGPT:存算一体,算力的下一极》,华西证券;
4、《消除冯・诺依曼计算架构瓶颈,存算一体未来几何?》,松禾资本。
本文来自微信公众号:鲜枣课堂(ID:xzclasscom),作者:小枣君
以上就是一文看懂“存算一体”的详细内容,更多请关注其它相关文章!
# 微信公众号
# 存算一体
# 三星
# mac
# 工具
# 云计算
# 大数据
# 人工智能
# 微信
# 处理器
# 计算机
# 鄂尔多斯网络营销推广中心
# 外贸seo自动增加外链
# 济南网站推广家q271-171-5957
# 陈小刀seo
# 韶关网站优化价格
# 济南湖南网站优化推广
# 常见seo作弊方式
# 潍坊国内网站推广
# 快速收录权限seo黑帽
# 转转营销推广服务在哪
# 数据存储
# 都是
# 说过
# 内容管理系统
# 适用于
# 存储设备
# 过程中
# 能效
# 看懂
# 一文
# gpt
# chatgpt
# ai
相关栏目:
【
行业新闻62819 】
【
科技资讯67470 】
相关推荐:
全场景智能车:智能无处不在|芯驰亮相世界人工智能大会
游族AI创新院揭牌成立 推进AI赋能游戏业务
AI赋能艺术 超现实达利奇幻之旅在沪开启
国内AI大模型“安卓时刻”到来!阿里云通义千问免费、开源、可商用
第 66 届格莱美奖规定,AI 作品将无法获得评奖资格
Prompt解锁语音语言模型生成能力,SpeechGen实现语音翻译、修补多项任务
探展WAIC | 第四范式“式说”聚焦toB大模型,布局生成式AI重构企业软件
华为云天筹AI求解器荣获世界人工智能大会最高奖
如何对员工进行再培训以充分利用供应链管理中的人工智能创新
周鸿祎:360智脑开放API接口 AI大模型将赋能百行千业
当科幻走进现实 脑机接口新技术能为生活带来哪些惊喜?
Vision Pro头显重磅发布;苹果收购AR厂商Mira
西班牙小鲜肉*视频在网上疯传,本人发文澄清:是AI换脸的假视频!
Spotify计划推出AI驱动的音乐播放器功能
推动综合能源服务高质量发展
猿编程参加人工智能高峰论坛,推动人工智能教育解决方案在千所学校推行
业内领先 四川大学华西第四医院甲状腺乳腺外科成功进入手术机器人时代
Snap宣布研发出新技术 可大幅提升AI生成图像速度
航拍无人机怎么选?大疆无人机盘点推荐
苹果2万5的AR遭遇砍单95%:不及预期
深剖Apple Vision Pro中暗藏的“AI”
五项人工智能尚未能够实现的任务
人工智能即将进入Windows:企业准备好安全策略设置了吗?
美图公司:Wink国内首发AI画面拓展功能
2025智源大会AI安全话题备受关注,《人机对齐》新书首发
超级智能到底是什么?
人工智能和你聊天 成本有多高
浪潮KaiwuDB:“快人一步” - 打造更懂物联网的数据库
破解零碳产业园建设规范和成果评价难题
挤爆服务器,北大法律大模型ChatLaw火了:直接告诉你张三怎么判
陈根教授:离人形机器人时代还有10年吗?
小岛秀夫不反对使用AI 但认为人类应该凌驾于AI
宇宙探索下一阶段,机器代替人类,AI会在太空探索中取代人类吗?
联想浏览器引入小乐 AI 助手,成功接入百度文心一言大模型,经过实测证实
社区里,孩子们体验“机器人竞技”
烟台大学学生首次在全国大学生无人机航拍竞赛中获奖
央视报道!星纪魅族集团车载人机交互技术成世界移动通信大会焦点
当一个网站的内容被 AI 完全接管
无需标注数据,「3D理解」进入多模态预训练时代!ULIP系列全面开源,刷新SOTA
马斯克预测:特斯拉全自动驾驶将在今年实现 对AI深度变化感到担忧
三个全球首创,青岛西海岸新区“海元宇宙”亮相世界人工智能大会
OPPO三方联合发布AI可持续发展白皮书,坚持发展健康AI生态
“风乌”气象大模型科学家团队:用AI预报极端天气未来不是梦!
特斯拉人形机器人将于 7 月亮相上海 2025 世界人工智能大会
北京市元宇宙产业创新中心筹建工作正式启动
中国移动副总经理高同庆:打造人工智能时代的智能服务运营新范式
昇腾AI & 讯飞星火:深度联手,共话国产大模型“大未来”
寻求能源转型最优解
食品分销跨国企业Sysco CIDO:我们的增长秘诀是以IT为中心
网易加速行业AI大模型应用,将覆盖100多个应用场景