Token经济时代,AI推理跑不快的瓶颈是“存力”?
摘要:
在Token经济时代,人工智能(AI)推理速度成为关键,存储能力成为了制约AI推理速度的重要因素之一,随着数据量的增长,存储需求也在不断增加,存储瓶颈限制了AI推理的效率,解决存储... 在Token经济时代,人工智能(AI)推理速度成为关键,存储能力成为了制约AI推理速度的重要因素之一,随着数据量的增长,存储需求也在不断增加,存储瓶颈限制了AI推理的效率,解决存储能力的问题对于提高AI推理速度至关重要。
大模型产业正在经历一场并不喧闹却足够深刻的结构性转向。过去两年,整个行业在造模型和堆GPU上不断加码,英伟达几乎成为所有基础设施讨论的起点和终点。
然而,当模型开始真正走向规模化推理、走向企业级落地、走向多模态和长上下文的新阶段之后,人们才逐渐意识到,决定 AI 体验、成本和性能的关键,不再只是更大的 GPU 集群,隐藏在算力体系背后、曾长期被视为后台工程的“存力”,浮出水面。
民生证券最新研报指出,受益于AI需求的强劲拉动,2025年第四季度存储价格有望持续看涨。这一积极预测,源于AI应用对存储提出更高要求,以及服务器端对高阶DRAM和HBM的需求增长,挤占了消费级DRAM的产能。
在日前由中国信息通信研究院组织的“先进存力 AI 推理工作研讨会”上,行业嘉宾达成共识,推理时代的性能瓶颈、成本压力和体验优化,正在从算力侧转移到存储侧,先进存力不再是配角,而是推动 AI 真正落地的主动力量之一。
推理,正在改变 AI 产业的优先级
如果说过去两年是“参数规模”的军备竞赛,那么 2025 年开始的阶段则更接近“推理效率”的商业竞争。Token调用量爆发式增长,推理成本持续攀升,在AI推理的性能指标中,都是以“Token数”为量纲。
AI加速落地,意味着“Token经济”的时代。模型训练可以只发生在几个大型企业的超级节点中,但模型推理则遍布千行百业、无数产品端,决定着实际用户体验、服务成本和业务可持续性。
推理负载的根本变化集中在三个方面:
- 第一,长上下文和复杂任务让 KVCache 从模型的“临时记忆”变成影响性能的核心资产,其容量随输入长度呈指数级增长;
- 第二,多模态从文本扩展到图像、音频、视频和时序数据,原本简单的顺序读写I/O模式已无法满足实时推理的复杂需求;
- 第三,训推一体化趋势加速,模型在持续迭代和增量更新,推理系统需要在高负载下保持一致性、低延迟和稳定性。
这些变化共同导致一个现实——GPU 不是算不动,而是经常在“等数据”。当 HBM 无法容纳不断膨胀的 KVCache,当多模态输入让 I/O 链路变得拥堵,当存储延迟上下波动影响推理任务调度,GPU 的利用率下降并不因为算力不足,而是数据供给不上来。
于是,推理系统出现了越来越明显的存力瓶颈,算力资源在无谓地空转,直接推高了推理成本。数据显示,在推理侧每提升 20% 的算力利用率,就能带来 15%—18% 的整体成本下降,这一数字相比多少张GPU卡的投入,显然更具性价比。
算力不再稀缺,真正稀缺的是“把 GPU 喂饱”的能力
传统的信息基础设施中,存储的角色通常偏向“被动”。它存放数据、提供容量、保证安全与持久化。然而在大模型推理场景中,存储开始承担起一部分“助推计算”的职责:如何更快地将数据送到模型手中,如何让 KVCache 不阻塞推理,如何在不同模态间实现高效的数据编织,如何在训推混合负载下保持稳定性能,这些都决定了最终的推理吞吐和延迟。
行业的通常做法是通过分层缓存 + 动态调度提升 KVCache 管理效率,将系统划分为本地极速层、共享扩展层与冷备层,以异构介质对应不同场景的数据特性,并根据访问频率与时延诉求自动决策数据存放位置,从而在容量扩展、热点响应和成本控制三方面取得平衡。
中国移动云能力中心项目总师周宇表示,为提升数据流转效率,移动云正在推进基于 CXL 的新型高速互联,通过将 CPU 内存、GPU 显存及云主机内的闪存统一池化,使系统能够按需分配存储与内存资源,突破传统架构的物理边界。配合数据编织技术,多模态数据可在跨域环境下进行高效流转,以实现“一次写入、多模访问”的统一体验。
华为数据存储产品线战略与业务发展部总裁王旭东提到,IT基础设施能力面临三大挑战:“管不好” 的数据、“喂不饱” 的算力、“降不下”的成本。推理数据来源多样难以形成高质量、可持续供应的数据集,存储系统的带宽和IOPS(每秒读写次数)不足,导致GPU等昂贵算力资源长时间空闲。
推理时代的存储不再是以容量为中心,而是以“数据流动”为中心,因此必须围绕数据采集、治理、缓存、流转构建一套新的体系。
他表示,传统存储架构难以兼顾高吞吐、低时延及异构数据融合的需求,造成业务发展瓶颈,阻碍AI应用落地。华为针对AI推理研发的UCM推理记忆数据管理技术在行业落地中的核心作用,通过“集中高质数据、提速AI训练、优化推理效能”三个角度,打造AI推理加速解决方案。
华为在与运营商的合作中已经验证:对万卡集群进行全栈存力优化后,训练可以连续运行 22 天不间断,算效提升超过 50%,推理吞吐也同时得到显著改善。
北京硅基流动科技有限公司解决方案总监唐安波从框架层切入推理效率,硅基流动构建的AI infra工具链,聚焦提升算力利用率。核心推理框架适配100多款开源大模型,并通过公有云服务平台为广大开发者和企业提供优质的大模型服务。
解决方案上,结合UCM技术卸载KVCache释放显存、提升性能,还通过智能网关优化调度、弹性扩缩容应对长上下文等痛点,基于存储的KVCache方案可大幅提升系统吞吐。
下一代 AI 底座:存力的新共识
当人们讨论大模型的能力时,总习惯于关注参数规模、推理速度、token上限,但真正决定这些能力能否商业化的,是底层的“数据流动能力”。训练靠GPU,推理靠体系,而体系的核心越来越不是算多少、算多快,而是“如何让算力不被浪费”。
先进存力之所以成为行业焦点,不是因为存储厂商突然活跃,也不是存储颗粒涨价,而是整个 AI 推理体系遇到了结构性瓶颈。只有让数据能够在多模态、多级缓存、池化架构中更加高效、可靠地流动,大模型的能力才能真正转化为体验、业务与价值。
未来三年,至少有四个方向会成为产业共识。其一,GPU 不再是最稀缺的资源,真正的稀缺是“喂饱 GPU 的能力”。当 GPU 性能增长遇到边际收益下降,而推理负载持续增长时,如何提高 GPU 利用率比继续堆卡更具价值。存力池化、CXL 布局、多级缓存体系和 KVCache 外存化将成为必要能力。
其二,多模态带来的数据爆炸会让存储从“存放数据”走向“管理数据”。它将成为 AI 系统的主动组件,而不是被动容器。数据如何分类、如何治理、如何调度、如何快速靠近算力,将直接定义推理体验。
其三,训推一体化使存储系统的“实时性”从可选变为必选。在过去,训练对业务实时性影响不大,但未来增量训练和在线推理合流,一次 IO 放大可能直接导致前台延迟波动。存储不再只是后端,而成为业务链路的一部分。
其四,CXL 架构将重塑未来 AI 基础设施的内存与存储边界。CXL 不是某个厂商的技术,而是一种新架构语言,它让内存不再绑定 CPU,也让显存不再成为孤岛,构造出一种算力存力一体化的可能。
未来的 AI 竞争,不会只停留在模型比拼上,而是深入到底座重构之中。(本文作者 | 张帅,编辑 | 盖虹达)
更多对全球市场、跨国公司和中国经济的深度分析与独家洞察,欢迎访问 Barron's巴伦中文网官方网站
