知鱼
Surviving is nothing to be ashamed of. It's something to be proud of.

RAG管道优化:大容量 SSD与CXL内存技术

trylab 发布于 2025-10-12 09:51    64 次阅读

问题意识

RAG pipeline optimization leveraging HC SSD and CXL memory

Adam Manzanares, Hui Qi, Arun George – GOST, NAND AE
Samsung Semiconductor

背景介绍

随着AI 和 ML 技术的快速发展,RAG(检索增强生成)已成为增强大型语言模型能力的关键技术。然而,随着数据量的爆炸式增长,RAG系统面临着严峻的存储性能瓶颈和内存资源浪费问题。您是否曾遇到过这样的困境:向量数据库在持续写入时性能急剧下降?内存资源在数据处理峰值后长期闲置?

本文将深入探讨如何通过大容量SSD和CXL内存技术来解决这些挑战。通过分析RAG管道的完整存储需求架构,探讨FDP(灵活数据放置)技术如何优化SSD性能,以及CXL内存池化技术如何实现资源的动态分配,从而显著提升RAG系统的整体性能和成本效益。

阅读收获

  • 掌握RAG管道的完整存储需求架构,理解模型生命周期存储与运行时存储的具体构成。
  • 深入了解FDP技术原理,学习如何通过智能数据放置减少写放大效应,优化存储性能。
  • 理解CXL内存网络技术,学习如何实现内存资源的精确实时调配,提升资源利用率。
  • 学习软硬件协同优化策略,了解如何通过HC SSD和CXL内存技术降低RAG系统总拥有成本。

开放性问题

  1. FDP技术的实际部署挑战:在现有的RAG系统中集成FDP技术会遇到哪些兼容性和性能调优问题?
  2. CXL内存池化的性能监控要求:实现内存资源的动态伸缩对系统性能监控提出了怎样的实时性要求?这会带来哪些额外的性能损耗?
  3. 内存解耦的经济性分析:CMM-D方案在不同容量配置下的$/GB成本变化规律是什么?为什么图示中不同容量的单位成本保持在同一量级?


👉 划线高亮 观点批注


Main

|911x365

人工智能(AI)和机器学习(ML)作为一股强大的变革力量,正在从三个关键维度深刻地影响着世界:

  1. 经济投入巨大: 市场正在向AI基础设施投入巨额资金。

  2. 数据需求爆炸: AI的发展,特别是大型语言模型(LLM),正驱动着数据集规模的空前增长。

  3. 商业价值显现: 生成式AI已经不再是概念,它在IT、数据分析、内容创作等多个领域展现出明确的投资回报率(ROI),证明了其商业可行性。


RAG(检索增强生成)技术的工作原理

RAG是一种将信息检索(Retrieval)文本生成(Generation) 相结合的技术框架,其目的是让大型语言模型(LLM)能够利用外部知识库来回答问题,从而解决LLM知识陈旧、容易产生幻觉等问题。

其核心思想可以概括为两个步骤:

  1. “先查后答”:当面对一个问题时,系统不直接让LLM作答,而是先去一个专门的知识库(向量数据库)中检索(Retrieve)最相关的信息。

  2. “带着答案去作答”:将检索到的相关信息和原始问题一起打包,作为更丰富的上下文(Context)提供给LLM,引导它生成(Generate)一个更准确、更具事实依据的答案。


一个完整的RAG解决方案所产生的存储需求是多方面的,不仅限于RAG流程本身,还包括其依赖的底层模型的全生命周期。

这张幻灯片将RAG的存储需求分解为两大类:

  1. 模型生命周期存储: 包括训练LLM所需的海量原始数据和在训练过程中产生的大量模型检查点。这部分是RAG系统的基础,通常是存储需求的“大头”。

  2. RAG管道运行时存储: 包括用于检索的知识库(原始文档和向量数据库)以及系统运行时产生的交互数据(用户查询和模型答案)。

对于RAG本身来讲,存储海量外脑数据的嵌入式检索信息,需要高性能持久化存储解决方案(NVMe-SSD)


通过采用“Faiss + RocksDB + FDP SSD”这一软硬件协同优化的技术栈,可以显著解决RAG管道中向量数据库的存储性能瓶颈。

  1. 问题: 传统基于SSD的向量数据库(如Faiss on RocksDB)在数据量持续写入、硬盘容量占用率升高时,会面临严重的写放大(WAF)问题,导致性能下降和SSD寿命缩短。

  2. 解决方案: 引入FDP(灵活数据放置)技术,并将其与上层存储引擎(RocksDB)进行深度整合。FDP允许软件更精细地控制数据在SSD内部的物理布局,从而减少了SSD内部不必要的数据迁移。

  3. 效果验证: 实验数据明确证明,与未使用FDP的方案相比,FDP方案可以将大容量下的WAF降低近一半,极大地优化了存储效率和耐久性。这对于需要处理海量向量数据并进行频繁更新的RAG应用场景至关重要。

​1. FADU:FDP多命名空间实验:提升SSD性能

  • ​主要内容​​:介绍了FDP(灵活数据放置)技术如何通过智能数据放置优化SSD性能,特别是在多租户和混合工作负载环境中。FDP支持多命名空间隔离,减少“噪声邻居”效应,优化垃圾回收,简化管理,并提高性能和耐用性。

​2. Samsung:FDP +CacheLib 改善写放大与时延

  • ​主要内容​​:探讨了在CacheLib中集成FDP技术的研究方法和结果。FDP通过用户自定义数据放置策略,显著提升系统性能,降低写放大因子(WAF),并具有良好的可扩展性和灵活性。

​3. KIOXIA:灵活数据放置(FDP)- 存储架构师必知的技术

  • ​主要内容​​:深入探讨了FDP技术如何通过数据分组和灵活放置减少写放大效应,优化存储性能。文章还提供了FDP的配置与调优建议,以及使用中的注意事项。

RAG系统的内存需求不是恒定的,而是呈现出显著的阶段性、动态性和突发性特征,这给传统的固定内存分配方式带来了挑战。

  1. 需求剖析: RAG的生命周期可分为两个内存需求差异巨大的阶段:

    • 数据处理阶段: 会产生可预见的、巨大的内存需求峰值

    • 在线服务阶段: 内存需求是动态变化的,取决于实时应用负载。

  2. 架构性解决方案: 为了应对这种挑战,PPT提出了一种基于CXL技术的内存池化(Memory Pooling)和资源解耦的先进架构。通过mem_orchestrator和共享CXL内存设备(MHSLD),系统可以根据每个主机(数据处理、向量数据库)在不同阶段的实际需求,动态地、按需分配和回收内存资源。

  3. 目标: 这种架构的目标是实现资源的极致弹性,避免为满足短暂的内存峰值而造成服务器资源的长期闲置和浪费,从而显著提升整个RAG系统的资源利用率和成本效益。


通过CXL内存网络(Memory Fabric)技术,可以实现对RAG管道中各个组件内存资源的精确实时调配,从而极大地提升资源利用率。

通过两个真实的性能图表 “证明” 了上一张PPT中架构的有效性:

  1. 按需分配: 无论是面对数据处理任务的一次性、大幅度的内存峰值,还是向量数据库服务持续、小幅波动的内存需求,CXL内存池化方案都能够精确、自动地按需分配和回收内存。

  2. 避免资源浪费: 传统架构下,服务器必须按照峰值需求来配置物理内存,导致在大部分时间里资源闲置。而CXL内存网络方案则完美解决了这个问题,确保内存资源在需要时才被分配,用完后立即归还到共享池中,供其他任务使用。

之前只了解CXL3.0 可实现 Mem Pooling,此处介绍的mem动态伸缩,还是头一回听说,这对系统性能监控实时性要求很高,可能会造成额外的性能损耗。


RAG管道降低总拥有成本(TCO)存在两大有效途径:存储硬件的整合与内存资源的解耦。

  1. 物理层面的降本 (硬件整合): 通过采用单盘容量更大的SSD,可以急剧减少所需的服务器和机柜数量,直接节省数据中心的空间、电力和冷却成本。这是一个简单而直接的“少即是多”的策略。

  2. 资源层面的降本 (内存解耦): 通过引入CXL等内存互联技术,将内存从服务器中“解放”出来,形成一个可共享的、动态分配的资源池。这能将昂贵的内存成本降低约40%,并允许用更少的服务器支撑更大的内存需求,从而实现服务器整合,进一步削减硬件、软件许可和运维成本,同时保持高性能。

这张片子存在2个盲点,指出如下:

  • 左侧大容量SSD的节点、机柜数量估算,缺少一个总容量前提,按表格 单节点容量 ✖️ 节点数 ,大致得出存储裸容量为100PB
  • 右侧CMM-D 内存解耦扩容,RDIMM+CMM-D,在不同内容容量下的 $/GB,应该是不一样的,逻辑上推演CMM-D容量越大,TCO应该更低,而图示都是一个量级;至于单位成本的QPS指标,应该是低于基线RDIMM方案,否则采用CMM方案,单位性能的成本,反而是增加了。



== END ==