知鱼
Surviving is nothing to be ashamed of. It's something to be proud of.

AI智能体的记忆革命:HBM、PNM与分层内存架构解析

trylab 发布于 2025-10-3 05:59    38 次阅读

问题意识

Heterogeneous Memory Opportunity
with Agentic AI and Memory Centric Computing

Jinin So,Senior Direct System Architect
Head of Memory Architecture Group
Samsung Memory Division

Jinin So 生平履历

Jinin So 是三星半导体(Samsung Semiconductor)的高级总监和系统架构师,专注于内存技术和系统架构领域 [^1]。

现任职位

  • 职位:高级总监兼系统架构师(Senior Director & System Architect)
  • 所属部门:三星内存事业部(Samsung Memory Division)
  • 领导职责:内存架构组负责人(Head of Memory Architecture Group)

专业专长

Jinin So 在先进内存系统领域具有深厚的技术专长,主要研究方向包括 [^2]:

  • 内存解聚技术(memory disaggregation)
  • 近内存处理(near-memory processing)
  • 内存扩展技术(memory expansion technologies)
  • 内存资源的扩展和池化管理
  • 计算与存储的高效桥接

技术贡献

他在人工智能和数据中心计算应用方面做出了重要贡献,特别是在 [^3]:

  • HBM2-PIM(高带宽内存与内存内处理)技术研发
  • 支持AI工作负载的内存扩展器开发
  • AI加速器和个性化推荐系统的内存管理优化

行业影响力

Jinin So 积极参与行业会议和技术论坛,在未来的内存和存储技术领域展现领导力 [^1]。他经常发表关于近内存处理和AI应用内存管理的研究成果 [^3]。

虽然搜索结果中没有提供详细的个人教育背景和早期职业生涯信息,但可以确认 Jinin So 是三星半导体在内存架构创新方面的关键技术领导者,致力于推动支持AI和数据密集型计算的下一代内存架构发展。

Sources

[^1]: Samsung Joins Memcon 2023
[^2]: Future Memory Storage Program
[^3]: Google Scholar Profile

背景介绍(298字)

随着智能体AI(Agentic AI)的快速发展,传统的计算架构正面临前所未有的挑战。您是否曾思考过,为什么即使是最先进的GPU也难以流畅运行超长上下文的大语言模型?问题的核心在于AI的记忆系统——它不再仅仅是存储数据,而是需要模拟人类的多层次记忆功能。

本文基于三星内存架构专家Jinin So的前沿研究,深入探讨了AI智能体的三大记忆系统:程序性记忆(模型权重)、语义记忆(外部知识库)和工作记忆(运行时缓存)。每种记忆都对硬件提出了独特而苛刻的要求——从TB级的容量需求到TB/s级的带宽挑战。

当前AI基础设施正遭遇"内存墙"困境:HBM带宽充足但容量有限,MRDIMM/CMM-D容量巨大但带宽不足。这种矛盾在长上下文推理场景下尤为突出,KV缓存的爆炸式增长让传统架构捉襟见肘。近内存处理(PNM)技术能否成为破局关键?让我们一同探索下一代内存技术的演进路径。

读者收获要点

技术架构师将获得:

  • 深入理解AI智能体三大记忆系统的技术实现原理与硬件需求映射关系
  • 掌握HBM、MRDIMM、CMM-D等前沿内存技术的性能特征和适用场景
  • 学习构建分层内存架构的最佳实践,优化LLM推理服务的成本效益

工程实践者将掌握:

  • KV缓存管理的核心技术挑战和PNM解决方案的实际应用价值
  • RAG系统中语义记忆与程序性记忆的协同优化策略
  • 针对不同工作负载选择最优内存技术组合的决策框架

开放性问题

  1. 技术路线选择:在HBM持续演进与PNM新兴技术之间,您认为哪种路径更有可能成为解决AI内存瓶颈的主流方案?为什么?

  2. 架构权衡:面对容量与带宽的永恒矛盾,在工程实践中应该如何平衡本地内存与扩展内存的使用策略?是否存在通用的优化准则?

  3. 生态影响:CXL标准的普及将如何重塑数据中心的内存架构?这种变革对AI应用开发和部署会产生哪些深远影响?


👉 划线高亮 观点批注


Main

|916x510

|916x510

核心概念: 图片首先提出了一个核心概念:“Blending working and long-term memory powers adaptive intelligence”(融合工作记忆和长期记忆,驱动自适应智能)。它将AI的记忆系统分为两大类:

  • 工作记忆 (Working Memory): AI用于处理当前任务或进行推理时,临时存储和处理信息的空间。

  • 长期记忆 (Long-term Memory):

    • 程序性记忆 (Procedural Memory): 隐性知识,存储在LLM的权重中。代表了AI“如何做”的技能和知识。

    • 语义记忆 (Semantic Memory): 关于世界和其自身的知识。代表了AI“知道什么”。

    • 情景记忆 (Episodic Memory): 存储来自早期决策的经验,例如训练的输入输出对、历史事件流、游戏轨迹等。代表了AI的“经历”。

===

PPT的核心观点是,构建一个强大的智能体AI(Agentic AI)对内存和存储系统提出了前所未有的、多层次的巨大需求

  1. AI记忆系统是分层的: 智能体AI的记忆系统被划分为工作记忆(处理当前任务)和长期记忆(知识、技能、经验),这两种记忆需要不同的技术和存储介质来承载。

  2. 需求是多维度的,且均达到TB级以上:

    • 程序性记忆 (模型本身): 随着LLM模型参数量的增长,其自身大小已达到 TB 级别。

    • 语义记忆 (外部知识库): 存储外部知识的向量数据库,其容量需求可达 数十TB

    • 工作记忆 (运行时缓存): 在高并发推理时,仅KV缓存一项就能消耗 上百TB 的内存。

  3. 架构复杂性: 整个系统不是单一的内存池,而是一个复杂的架构,融合了LLM(如Gemini)、外部数据库(如Milvus)和高速缓存机制,并通过检索、学习等方式进行交互,这对数据流动的带宽和延迟提出了极高要求。

PPT通过架构图和量化数据,清晰地揭示了Agentic AI对存储和内存系统的挑战:容量巨大、类型多样、架构复杂,预示着未来的AI基础设施必须具备能够同时满足这三种不同记忆需求的高性能、大容量、分层式的存储解决方案


  • 核心定义:

    • 第一句就点明了程序性记忆的本质:“Memory that remember 'How' to do something, rather than 'What' is it”(一种记得“如何做”某事的记忆,而不是“是什么”的记忆)。

    • 紧接着解释道:“LLM weights act as procedural memory, implicitly capturing how to perform countless tasks”(大语言模型的权重扮演了程序性记忆的角色,它隐式地捕获了如何执行无数任务的方法)。

  • 作用阐述:

    • 基于存储在权重中的程序性知识,LLM能够自动决定并执行“如何”处理任何给定的输入。

    • 特别指出了硬件层面的实现:“GPU cores leverage HBM's high bandwidth to rapidly receive and process the computational data needed for attention and FFN operations”(GPU核心利用HBM的高带宽来快速接收和处理注意力机制及前馈网络运算所需的计算数据

可以说:HBM 是 程序性记忆的最佳载体,因此需要满足GPU计算/LLM工作 过程中对数据高带宽的处理诉求,且这一部分记忆的容量是极其昂贵且相对有限。

===

PPT的核心观点是,LLM的权重就是其程序性记忆,它编码了模型执行任务的“方法论”,而这种记忆的有效运作高度依赖于GPU和HBM等高性能硬件

  1. 定义了程序性记忆: 在AI领域,程序性记忆不是传统数据库里的事实,而是LLM模型参数中蕴含的、用于解决问题的隐式知识和计算流程。

  2. 揭示了实现机制: 通过拆解Transformer模型的核心部件——Attention机制和FFN网络,具体展示了LLM“如何”一步步处理输入并生成输出,将抽象的“程序性记忆”概念具象化。

  3. 强调了硬件依赖性: 明确指出程序性记忆(LLM权重)物理上存储在GPU的HBM中。并通过计算流程图强调,HBM的高带宽是保证GPU能够快速读取模型参数和中间计算结果(如KV Cache),从而高效执行这些复杂“程序”的关键。没有高带宽内存,GPU的强大算力将无法得到充分发挥。


PPT的核心观点是,Transformer架构的兴起导致AI模型的程序性记忆(即模型权重)容量需求呈指数级增长,其速度远远超过了单个GPU上高带宽内存(HBM)的增长速度,从而形成了一道“内存墙”

  1. 需求与供给的失衡: AI模型(特别是LLM)对内存容量的需求增长是指数级的,而硬件(单个GPU)的内存容量供给增长是相对线性和缓慢的。

  2. “内存墙”问题凸显: 这个日益扩大的差距意味着单个GPU已经远不足以容纳一个完整的大型语言模型。例如,一个需要350GB内存的GPT-3模型无法直接加载到只有80GB HBM的A100 GPU中。

  3. 解决方案的必然性: 为了解决“内存墙”问题,唯一的办法就是使用多个GPU协同工作。其首要目的就是将所有GPU的HBM容量汇集起来,形成一个足够大的内存池来“装下”整个模型。这解释了为什么现代LLM推理和训练集群通常由数十甚至数百个GPU组成,这不仅是为了算力,更是为了内存容量。

与 Transformer 架构相比,CNN 架构的特点是什么?为什么 Transformer 能成为深度学习的新宠?

CNN 架构的核心特点 (与 Transformer 对比)

卷积神经网络(CNN)的设计灵感来源于生物的视觉皮层,它为处理网格状数据(如图像)引入了非常有效的归纳偏置 (Inductive Bias)。归纳偏置可以理解为模型在学习之前做出的一些“先验假设”。CNN的成功很大程度上归功于它的两个核心假设:

  1. 局部性 (Locality): 假设相邻的区域存在关联。一个像素和它周围的像素关系更密切,而和很远的像素关系较弱。这是通过卷积核 (Kernel) 实现的,卷积核只在输入数据的一个小邻域(感受野)内进行计算。

  2. 平移不变性 (Translation Invariance): 假设一个物体出现在图像的任何位置,它仍然是同一个物体。这是通过权重共享 (Weight Sharing) 实现的,即用同一个卷积核去滑过整张图片,以及通过池化 (Pooling) 操作来实现。

基于以上特点,我们可以将 CNN 和 Transformer 进行一个清晰的对比:

特性 卷积神经网络 (CNN) Transformer
核心思想 局部关联和空间层级 通过小范围的卷积核逐层提取从低级(边缘、纹理)到高级(物体部件、整体)的特征。 全局依赖和上下文感知 使用自注意力机制(Self-Attention)直接计算输入序列中任意两个位置之间的相互依赖关系。
数据处理方式 卷积运算 在局部感受野内滑动卷积核进行加权求和。天然地处理空间局部信息。 自注意力机制 为序列中的每个元素(Token)计算一个加权平均值,权重来自于该元素与其他所有元素的相似度。
归纳偏置 强偏置 内置了强大的“局部性”和“平移不变性”假设,使其在图像任务上非常高效,学习速度快。 弱偏置 除了序列元素的顺序(通过位置编码注入)外,几乎没有对数据结构做任何假设。它必须从数据中学习所有关系。
计算复杂度 对输入尺寸呈线性关系 O(N),其中N是像素点总数。处理高分辨率图像非常高效。 对序列长度呈平方关系 O(L²),其中L是序列长度。当序列很长时(如将高分率图像像素展平),计算量会爆炸式增长。
适用领域 天然适用于网格状数据,如图像、视频、光谱图等,在计算机视觉领域长期占据主导地位。 最初为序列数据(自然语言)设计,但其通用性使其可以被改造用于视觉(ViT)、语音、蛋白质折叠等多种领域。

为什么 Transformer 能成为深度学习的新宠?

Transformer之所以能超越CNN和RNN(循环神经网络),成为当前AI领域(尤其是大模型时代)的主宰,主要有以下几个革命性优势:

  1. 完美解决了长距离依赖问题 这是Transformer最核心的优势。

    • CNN的局限: 由于卷积核的感受野有限,一个CNN层只能捕获局部信息。要想捕获全局信息,必须堆叠非常多的层,让感受野逐渐扩大,这使得信息在层层传递中容易丢失或失真。

    • RNN的局限: RNN按顺序处理数据,理论上可以记忆长序列信息,但存在梯度消失/爆炸问题,导致其很难真正记住几百个时间步之前的信息。

    • Transformer的突破: 自注意力机制允许序列中的任意一个词元(Token)直接与序列中所有其他词元进行交互和信息加权。这两个词元无论在序列中相隔多远,其信息交互的路径长度都是1。这从根本上解决了长距离依赖的难题,使得模型能够理解更复杂的全局上下文。

  2. 强大的并行计算能力,为大数据时代而生 训练大模型需要巨大的计算资源,而并行计算能力是关键。

    • RNN的瓶颈: RNN的计算是串行的,必须计算完上一个时间步(t−1)的结果,才能计算当前时间步(t),这严重限制了其在现代GPU上的训练速度。

    • Transformer的优势: Transformer的自注意力计算没有这种串行依赖。对于一层内的所有词元,其注意力得分可以完全并行计算,这完美契合了GPU的架构,极大地提升了训练效率,使得训练拥有数千亿甚至万亿参数的超大规模模型成为可能。

  3. 惊人的模型可扩展性 (Scaling Law) 研究发现,Transformer架构具有非常好的“缩放法则”(Scaling Law)。这意味着,当你增加模型参数量、增加训练数据量、投入更多计算资源时,模型的性能会可预测地持续提升。这种“大力出奇迹”的特性,给了研究机构和企业巨大的信心去投入资源构建史无前例的超大模型(如GPT系列),因为他们知道投入很大概率会换来性能的回报。

  4. 架构的通用性和灵活性 由于Transformer的归纳偏置很弱,它不对数据做过多假设,这反而使它成为一种极其通用的“积木”。通过将不同类型的数据“Token化”(例如,将图像切分成小块 Patch),就可以将同一个Transformer架构应用到自然语言、计算机视觉、语音识别、生物信息等多个领域,并取得顶尖效果。这种“一个架构统一多个领域”的潜力是CNN等专用架构无法比拟的。


PPT的核心观点是,对于LLM推理,尤其是要满足实时交互的低延迟要求,内存带宽是与内存容量同等重要、甚至更为关键的性能瓶颈

  1. LLM推理分为两个阶段,瓶颈不同:

    • 处理用户输入的Prefill阶段是计算密集型的,瓶颈在GPU的算力。

    • 逐字生成回答的Decoding阶段是带宽密集型的,瓶颈在于从HBM中读取模型权重的速度。对于聊天等实时应用,用户感受到的延迟主要由Decoding阶段决定。

  2. Decoding阶段是延迟关键,且受限于带宽: 屋顶线模型清晰地证明,在生成回复的每一步,GPU的强大算力都无法完全发挥,因为它在“等待”数据从内存中送达。因此,提升内存带宽是降低Decoding阶段延迟的最直接手段。

  3. KV缓存的读写加剧了带宽压力: 除了模型权重,不断增长的KV缓存(属于工作记忆)也需要在每个token生成步骤中被高速读写。图表中标注的“10毫秒内加载40GB”具体说明了这种需求已经达到了4 TB/s级别,只有HBM这样的技术才能满足。

PPT有力地论证了高带宽内存(HBM)是现代LLM推理加速器的“生命线”。没有HBM提供的超高带宽,即使GPU拥有再强的算力,也无法快速地将庞大的程序性记忆(模型权重)和工作记忆(KV缓存)喂给计算单元,从而无法满足实时应用苛刻的SLA延迟要求。

这两张图对于理解现阶段的LLM工程应用有帮助:
- 左图,直观诠释了 PD 分离为什么成为现阶段LLM生产应用的最佳实践,因其workload的资源禀赋有显著差异,做好分离优化能进一步提升工程效率,另一方面来看,GPU硬件的计算能力和HBM带宽不可能无限制地增长,对模型参数量的工程优化,以平衡计算、高带宽两者的解耦损失,可能是端侧大模型应用关键。
- 右图,模型上下文是时延敏感型参数,尽管上下文长度能一定程度增强模型的专用性,但盲目追求上下文长度,将带来硬件瓶颈,具体场景优化模型上下文长度能避免对硬件性能的过度追求。


PPT的核心观点是,HBM是唯一能够满足现代及未来AI大模型(程序性记忆)极端带宽需求的内存技术解决方案,其发展速度和性能水平已经与传统内存拉开了决定性的差距

  1. 明确技术选型: PPT明确指出,为了解决前几页所提出的“带宽墙”问题,行业的技术选择已经聚焦于HBM。

  2. 展示性能优势: 通过与GDDR/LPDDR的直接对比,图表极具说服力地展示了HBM在带宽上的绝对领先地位。这种领先优势并非微不足道,而是存在一个数量级的差异。

  3. 描绘未来蓝图: 图表不仅说明了现状,更重要的是描绘了HBM技术的未来发展路线图。从HBM3E的~1.2 TB/s到HBM4E的~3 TB/s,这个清晰的、指数级增长的蓝图,向业界传递了一个明确的信号:内存技术正在努力跟上AI算力的发展步伐,为下一代更强大的AI模型铺平道路。

  4. 强化核心问题: 整张PPT是对前面所有问题的一个总结性回答。既然程序性记忆(LLM权重)的访问是带宽密集型的,那么解决方案就必须是一种拥有超高带宽的内存技术,而HBM正是为此而生的。

有同学可能会比较好奇:HBM 带宽何以能超越同时期 GDDR/DDR/LPDDR 数十倍,这样从其片上集成方式和通信原理入手,建议阅读:HBM,先进封装和能效的集大成者


PPT的核心观点是,语义记忆作为一种外部、可扩展的知识库,是构建精准、可靠的智能体AI(Agentic AI)的关键组成部分

  1. 定义与实现: 语义记忆是AI关于世界事实的知识,其标准技术实现是向量数据库。它将海量的、多模态的非结构化数据(文本、图片等)转化为可供机器检索的向量。

  2. 核心作用: 它的主要作用是提升LLM回答的准确性。通过引入外部知识源,可以有效减少大模型的“幻觉”现象,确保回答基于事实,并且知识可以被轻松地更新和扩展,而不必重新训练整个大模型。

  3. 关键技术 - RAG: 实现语义记忆价值的核心技术是检索增强生成(RAG)。PPT的工作流清晰地展示了RAG的“先检索,后生成”模式:智能体不再仅仅依赖其内部知识(程序性记忆)来“创作”答案,而是首先从外部知识库中“查找”相关依据,然后再基于这些依据来组织和生成回答。

  4. 架构解耦: 这种架构实现了推理能力(LLM Agent)与知识存储(VectorDBs)的解耦。LLM负责理解、推理和生成,而向量数据库负责存储和管理海量的、动态的知识,这使得整个系统更加灵活、强大和可信。

Samsung 曾在FMS23 上提出 Memory-Semantic SSD 的概念产品,当时topic 主旨指向存内计算,通过在SSD内集成DRAM缓存来加速应用层的语义搜索和算子下推,和此处强调的向量数据库是有差别的,后者在AI场景的应用更为成熟。


PPT的核心观点是,实现大规模语义记忆(向量数据库)在硬件上提出了以CPU为中心、需求“TB级容量”和“高带宽”主机内存的独特挑战

  1. 提出“GPU+CPU”异构架构: RAG系统的最佳实践是将任务解耦:使用昂贵且专业的GPU资源处理LLM推理(程序性记忆),同时利用相对成本较低且拥有海量内存扩展性的CPU服务器来处理向量搜索(语义记忆)。

  2. 量化了“TB级”容量需求: 通过图表数据明确指出,一个商业规模(10亿条目,1k维度)的向量数据库索引,其内存占用会轻松超过 2TB。这意味着普通的服务器内存配置已无法满足需求,必须采用高密度大容量内存方案。

  3. 揭示了带宽与容量的强关联性: 强调了容量和带宽的“水涨船高”关系。当索引库大小增长几十倍时,为了保证检索效率(SLA),内存带宽也需要相应提升数倍。仅仅拥有大容量是不够的,还必须保证足够快的存取速度,否则语义记忆的检索会成为整个RAG流程的瓶颈。


MRDIMM作为下一代服务器内存技术,旨在同时解决语义记忆场景面临的“超大容量”和“高带宽”两大核心痛点

  1. 直击痛点: 此前分析指出,大规模向量数据库需要TB级的内存容量和随之增长的数百GB/s的带宽。MRDIMM技术精准地回应了这两个需求,是为下一代AI和数据密集型应用量身定制的内存解决方案。

  2. 提供数量级的提升: MRDIMM带来的不是渐进式改良,而是数量级的飞跃

    • 容量上: 单条 512GB 的内存将极大地提升服务器的内存密度,使得在单个CPU服务器内容纳数TB的向量索引变得更加容易和经济。

    • 性能上: 带宽翻倍(从6.4Gbps提升到12.8Gbps)将有效缓解因索引规模扩大而带来的性能瓶颈,确保检索效率。

      MRDIMM 是如何实现内存带宽翻倍的,可参考阅读:DRAM 带宽升级,拿什么拯救你?

  3. 技术路线分化: 这张PPT与之前介绍HBM的幻灯片共同描绘了一幅清晰的AI内存技术蓝图:

    • 程序性记忆 (GPU侧): 依赖于与计算核心紧密耦合、提供超高带宽的 HBM

    • 语义记忆 (CPU侧): 依赖于可大规模扩展、兼具海量容量和高带宽的 MRDIMM


CMM-D,作为一种基于CXL协议的内存扩展模块,为语义记忆提供了区别于传统DIMM的、一种全新的“可扩展”解决方案

  1. 全新的内存扩展范式:

    • 与前一张PPT的MRDIMM(在CPU原生内存通道上提升性能和密度)不同,CMM-D通过PCIe接口来扩展内存。这打破了服务器主板上固定DIMM插槽数量的限制,使得内存容量的横向扩展(Scale-out)成为可能。
  2. 实现海量内存池:

    • 单模块高达1TB的容量,意味着服务器可以轻松地将内存扩展到数十TB,为存储和处理超大规模的向量数据库(万亿级别)提供了硬件基础。
  3. 未来的内存池化与共享:

    • CXL 3.x技术将允许构建跨服务器机柜的内存资源池。这意味着内存可以从单个服务器中解耦出来,按需分配给不同的计算任务。这对于提高资源利用率、降低数据中心TCO(总拥有成本)具有革命性的意义。
  4. 性能与定位(权衡):

    • 从带宽数据(36-72 GB/s)可以看出,CXL内存的带宽低于CPU直连的多通道DDR5/MRDIMM内存(数百GB/s),且延迟也更高。

    • 因此,CMM-D并非要取代CPU的本地内存(Local Memory),而是作为一种内存扩展层(Expansion Tier)存在。

最终结论: 未来的AI服务器内存架构很可能是一个分层系统

  • 第0层 (Hot Tier): GPU内的HBM,用于程序性记忆。

  • 第1层 (Warm Tier): CPU直连的DDR5/MRDIMM,用于操作系统和最核心、最热的向量索引数据。

  • 第2层 (Cold Tier): 通过CXL连接的CMM-D,构成海量的内存池,用于存储完整的、超大规模的向量数据库。


为语义记忆构建一个“MRDIMM + CMM-D”的分层内存架构,是实现性能与容量最大化的最佳策略

  1. 协同效应而非替代关系: MRDIMM和CMM-D并非相互竞争的技术,而是互补的协同关系。它们共同构成了一个功能完备的内存子系统,能够同时满足RAG应用对“高带宽”和“大容量”的苛刻要求。

  2. 量化的性能阶梯: 图表提供了一个清晰的升级路径和量化的收益预期:

    • 第一步 (升级本地内存): 将服务器的本地内存从RDIMM升级到MRDIMM,这是提升核心性能的第一步,能带来约 60% 的QPS增益。

    • 第二步 (扩展内存容量): 在此基础上,通过CMM-D模块进一步扩展内存,不仅能将系统总容量提升到新的量级(如从2TB到3TB),还能带来额外的性能红利(约16%)。

  3. 未来架构的蓝图: 这张幻灯片最终描绘了未来AI服务器(特别是用于RAG和向量数据库的服务器)的理想内存架构:

    • 使用MRDIMM作为与CPU紧密耦合的 “热”数据层,利用其高带宽处理最高频、对延迟最敏感的查询负载。

    • 使用CMM-D作为可大规模扩展的 “温”数据层,利用其灵活性和高密度来承载TB乃至数十TB级别的完整向量索引。


AI的“工作记忆”在技术上体现为LLM的“上下文窗口”,它是AI进行复杂、多步推理和决策的工作台与基础

  1. 定义与实现: 工作记忆不是一个独立的数据库,而是LLM处理当前任务时的一个动态、临时的信息集合。它的物理载体就是上下文窗口,其底层数据结构就是KV缓存

  2. 功能: 它的核心功能是整合所有相关信息以支持连贯思考。通过将系统指令、历史对话、用户问题、外部知识(来自语义记忆)和模型的中间思路全部“尽收眼底”,LLM才能进行全面、有深度的推理,而不是孤立地看问题。

  3. 动态与扩展性: 工作记忆是动态增长的。随着对话的进行和任务的深入,信息不断被加入上下文窗口。PPT明确指出了一个关键的挑战:任务越复杂,需要维持的工作记忆(上下文窗口)就越长,这对系统的内存容量和处理能力(特别是KV缓存的管理)提出了巨大的要求,这也与本系列PPT第一张图中“KV-Cache at Working Memory”的数据图表遥相呼-应。

===

上下文窗口的构成: 这个长条从左到右填充了不同类型的信息(Tokens),代表了模型在进行当前推理时所需要看到的所有内容:

  • System Prompt (系统提示): 对AI角色的初始设定和指令。

  • Prev. Conversation (先前对话): 历史对话记录。

  • User Inputs (用户输入): 用户当前轮次提出的问题或指令。

  • Thinking Tokens (思考过程): 模型内部的思考步骤,例如“思维链 (Chain-of-Thought)”的中间过程。

  • Retrieved info (from semantic mem.) (从语义记忆检索的信息): 从外部知识库(如向量数据库)中检索到的事实依据。

  • Thinking tokens (思考过程): 更多的内部推理步骤。

  • Output tokens (输出内容): 模型正在生成或已经生成的回答。


在处理大批量、长上下文的生产级推理负载时,工作记忆的实现核心——KV缓存,是导致内存容量瓶颈的关键因素,必须采用内存分层技术来解决

  1. KV缓存是内存消耗的“大头”: 与固定大小的模型权重不同,KV缓存的大小与工作负载(批处理大小 x 上下文长度)成正比,在重负载下会急剧膨胀,成为最主要的内存消耗项。

  2. 触发“工作记忆墙”: KV缓存很容易就会耗尽昂贵且有限的GPU HBM内存。图表用一个非常实际的例子(8卡H100服务器)证明,即使是顶级的硬件配置,也无法在HBM内完全容纳大批量推理所需的KV缓存,这就是“工作记忆墙”。

  3. 内存分层是必然选择: 解决“工作记忆墙”的有效方案,就是将GPU HBM视为一级高速缓存,将更大容量的CPU主机内存(DDR DRAM)视为二级内存。当HBM不足时,将超出部分的KV缓存动态地“驱逐”或“交换”到主机内存。这种分层内存管理 (Memory Tiering) 策略,是实现大吞吐量、高效LLM推理服务的关键系统级技术。

===

  • KV缓存大小的计算公式: PPT给出了一个公式 KV cache : 2*[num_layers]*[head_dim]*[num_heads]*[batch_size]*[context_length]。这个公式清晰地表明,KV缓存的大小由模型固有参数(层数、头维度、头数量)和两个关键的可变负载参数——批处理大小 (batch_size)上下文长度 (context_length)——线性决定。

  • 解决方案: 超出GPU内存容量的KV缓存,应该被“驱逐”(evicted)到主机内存(Host Memory, 即DDR DRAM)中,而不是直接丢弃,这样才能保证推理的效率。这提出了一种内存分层的解决方案。


现代AI大模型对工作记忆(KVCache)的需求已经超出了当前主流内存技术的极限,形成了一个两难的“架构困境”

  1. 需求的根源: 上下文窗口的指数级增长是推动工作记忆需求(容量和带宽)急剧膨胀的根本原因。

  2. 架构的困境: 当前的内存技术方案存在根本性的矛盾:

    • HBM: 带宽足够,但容量太小(容量鸿沟)。

    • MRDIMM / CMM-D: 容量足够,但连接到GPU的通路带宽太窄(带宽鸿沟)。

  3. 量化的挑战: PPT用数据清晰地展示了这个困境的严重性。无论是容量(需要6.4TB vs 只有1.1TB HBM)还是带宽(需要~12TB/s vs 只有1TB/s互联),都存在一个数量级的巨大差距。

  4. 最终指向: 为了支撑下一代拥有超长上下文的大模型,业界迫切需要一种全新的内存解决方案或内存架构。这个未来的方案必须能够打破现有技术的桎梏,同时提供TB级的容量和TB/s级的带宽,并使其能被GPU等计算单元高效访问。

注:上述结论仅从物理时延角度评估 LLM 推理对内存带宽和容量的理论需求,实际工程实践中结合PD分离、Flash Attention 等机制能有效缓解 KVCache的容量和带宽问题。


PPT的核心观点是,PNM/PIM技术通过将计算移近数据,从根本上解决了工作记忆面临的“带宽鸿沟”问题,是解锁未来超长上下文大模型性能的关键

  1. 范式转变: PNM的核心思想是从传统的 “移动数据到计算单元” 转变为 “移动计算到数据所在地”。它没有试图去拓宽那条“狭窄”的CXL/PCIe通路,而是从源头上减少了需要通过这条通路的数据量。

  2. 智能数据筛选: PNM并非一个通用的处理器,而是一个专用的“过滤器”和“预处理器”。它在内存端执行轻量级的计算(如Top-K选择),智能地识别出对于当前推理步骤哪些KV缓存是最重要的。

可以将PNM/PIM 理解为 向量数据库核心算法(HNSW/ANN) 的硬件实现,或者说是实现KV缓存的语义检索,和DPU解耦系统中的网络通信相似,PNM/PIM 的最终目的是解耦推理系统对KVCache 的检索依赖,从概念到工程实现,应该还有很长一段路要走。

  1. 数量级的优化: 这种智能筛选带来了数量级的效果。需要跨越“带宽鸿沟”的数据量从TB级别骤降至KB级别,使得原本的带宽瓶颈被完全规避。

PPT的核心观点是,PNM不仅是一个技术上可行的方案,更是一个在实际应用中具有极高扩展性和经济效益的解决方案,尤其适用于长上下文的智能体AI推理

  1. 证明了可扩展性 (Scalability): 测试数据清晰地表明,通过为单个GPU配备更多的PNM模块,可以近似线性地提升整个系统的推理吞吐量。这打破了单GPU因内存带宽和容量限制而无法有效处理更大负载的瓶颈。

  2. 突出了经济效益 (Cost-Effectiveness): “Tokens/$”效率图是本张幻灯片最有说服力的部分。它证明了PNM是一种高性价比的“加速器”。对于需要横向扩展推理能力的用户来说,购买更多的PNM模块是比购买更多的GPU更经济的选择。

  3. 明确了应用场景: PNM方案特别适用于像LLaMA 70B这样的大模型在128K长上下文场景下的推理。在这种场景下,KV缓存管理是最大的瓶颈,而PNM恰好能精准地解决这个问题。

更多关于 PNM/PIM 的原型设计与技术细节,可参考阅读 Samsung 在 HotChip 2023 上的技术报道


总结性的幻灯片,清晰地勾勒出了整个演示文稿的 “问题-挑战-方案-生态” 的完整逻辑链条。

  1. 时代背景 (The Driver): 智能体AI(Agentic AI) 的兴起,对传统的内存架构提出了颠覆性的要求,一个分层、大容量、高带宽的内存系统成为刚需。

  2. 核心瓶颈 (The Problem): 在所有挑战中,工作记忆(KV缓存)的有效管理是最大的瓶颈。在长上下文、大吞吐量的需求下,海量KV缓存的移动成为了性能的“阿喀琉斯之踵”,导致了“容量鸿沟”和“带宽鸿沟”。

  3. 终极方案 (The Solution): 解决方案是构建一个全新的内存范式。通过大容量、可扩展的CXL内存来承载海量数据,再利用近内存处理(PNM/PIM)技术在数据源头进行智能筛选和预处理,从而将需要移动的数据量降至最低

  4. 未来路径 (The Path Forward): 这条技术路线并非空中楼阁,而是由行业领导者(三星)与开放标准社区(OCP)共同推动的、代表未来的重要方向。



== END ==