知鱼

Surviving is nothing to be ashamed of. It's something to be proud of.

RAG管道优化：大容量 SSD与CXL内存技术

trylab 发布于 2025-10-12 09:51 64 次阅读

问题意识

RAG pipeline optimization leveraging HC SSD and CXL memory

Adam Manzanares, Hui Qi, Arun George – GOST, NAND AE
Samsung Semiconductor

背景介绍

随着AI 和 ML 技术的快速发展，RAG（检索增强生成）已成为增强大型语言模型能力的关键技术。然而，随着数据量的爆炸式增长，RAG系统面临着严峻的存储性能瓶颈和内存资源浪费问题。您是否曾遇到过这样的困境：向量数据库在持续写入时性能急剧下降？内存资源在数据处理峰值后长期闲置？

本文将深入探讨如何通过大容量SSD和CXL内存技术来解决这些挑战。通过分析RAG管道的完整存储需求架构，探讨FDP（灵活数据放置）技术如何优化SSD性能，以及CXL内存池化技术如何实现资源的动态分配，从而显著提升RAG系统的整体性能和成本效益。

阅读收获

掌握RAG管道的完整存储需求架构，理解模型生命周期存储与运行时存储的具体构成。
深入了解FDP技术原理，学习如何通过智能数据放置减少写放大效应，优化存储性能。
理解CXL内存网络技术，学习如何实现内存资源的精确实时调配，提升资源利用率。
学习软硬件协同优化策略，了解如何通过HC SSD和CXL内存技术降低RAG系统总拥有成本。

开放性问题

FDP技术的实际部署挑战：在现有的RAG系统中集成FDP技术会遇到哪些兼容性和性能调优问题？
CXL内存池化的性能监控要求：实现内存资源的动态伸缩对系统性能监控提出了怎样的实时性要求？这会带来哪些额外的性能损耗？
内存解耦的经济性分析：CMM-D方案在不同容量配置下的$/GB成本变化规律是什么？为什么图示中不同容量的单位成本保持在同一量级？

👉 划线高亮观点批注

Main

|911x365

人工智能（AI）和机器学习（ML）作为一股强大的变革力量，正在从三个关键维度深刻地影响着世界：

经济投入巨大： 市场正在向AI基础设施投入巨额资金。
数据需求爆炸： AI的发展，特别是大型语言模型（LLM），正驱动着数据集规模的空前增长。
商业价值显现： 生成式AI已经不再是概念，它在IT、数据分析、内容创作等多个领域展现出明确的投资回报率（ROI），证明了其商业可行性。

RAG（检索增强生成）技术的工作原理。

RAG是一种将信息检索（Retrieval） 和文本生成（Generation） 相结合的技术框架，其目的是让大型语言模型（LLM）能够利用外部知识库来回答问题，从而解决LLM知识陈旧、容易产生幻觉等问题。

其核心思想可以概括为两个步骤：

“先查后答”：当面对一个问题时，系统不直接让LLM作答，而是先去一个专门的知识库（向量数据库）中检索（Retrieve）最相关的信息。
“带着答案去作答”：将检索到的相关信息和原始问题一起打包，作为更丰富的上下文（Context）提供给LLM，引导它生成（Generate）一个更准确、更具事实依据的答案。

一个完整的RAG解决方案所产生的存储需求是多方面的，不仅限于RAG流程本身，还包括其依赖的底层模型的全生命周期。

这张幻灯片将RAG的存储需求分解为两大类：

模型生命周期存储： 包括训练LLM所需的海量原始数据和在训练过程中产生的大量模型检查点。这部分是RAG系统的基础，通常是存储需求的“大头”。
RAG管道运行时存储： 包括用于检索的知识库（原始文档和向量数据库）以及系统运行时产生的交互数据（用户查询和模型答案）。

对于RAG本身来讲，存储海量外脑数据的嵌入式检索信息，需要高性能持久化存储解决方案（NVMe-SSD）。

通过采用“Faiss + RocksDB + FDP SSD”这一软硬件协同优化的技术栈，可以显著解决RAG管道中向量数据库的存储性能瓶颈。

问题: 传统基于SSD的向量数据库（如Faiss on RocksDB）在数据量持续写入、硬盘容量占用率升高时，会面临严重的写放大（WAF）问题，导致性能下降和SSD寿命缩短。
解决方案: 引入FDP（灵活数据放置）技术，并将其与上层存储引擎（RocksDB）进行深度整合。FDP允许软件更精细地控制数据在SSD内部的物理布局，从而减少了SSD内部不必要的数据迁移。
效果验证: 实验数据明确证明，与未使用FDP的方案相比，FDP方案可以将大容量下的WAF降低近一半，极大地优化了存储效率和耐久性。这对于需要处理海量向量数据并进行频繁更新的RAG应用场景至关重要。

1. FADU：FDP多命名空间实验：提升SSD性能

主要内容：介绍了FDP（灵活数据放置）技术如何通过智能数据放置优化SSD性能，特别是在多租户和混合工作负载环境中。FDP支持多命名空间隔离，减少“噪声邻居”效应，优化垃圾回收，简化管理，并提高性能和耐用性。

2. Samsung：FDP +CacheLib 改善写放大与时延

主要内容：探讨了在CacheLib中集成FDP技术的研究方法和结果。FDP通过用户自定义数据放置策略，显著提升系统性能，降低写放大因子（WAF），并具有良好的可扩展性和灵活性。

3. KIOXIA：灵活数据放置（FDP）- 存储架构师必知的技术

主要内容：深入探讨了FDP技术如何通过数据分组和灵活放置减少写放大效应，优化存储性能。文章还提供了FDP的配置与调优建议，以及使用中的注意事项。

RAG系统的内存需求不是恒定的，而是呈现出显著的阶段性、动态性和突发性特征，这给传统的固定内存分配方式带来了挑战。

需求剖析: RAG的生命周期可分为两个内存需求差异巨大的阶段：
- 数据处理阶段: 会产生可预见的、巨大的内存需求峰值。
- 在线服务阶段: 内存需求是动态变化的，取决于实时应用负载。
架构性解决方案: 为了应对这种挑战，PPT提出了一种基于CXL技术的内存池化（Memory Pooling）和资源解耦的先进架构。通过mem_orchestrator和共享CXL内存设备（MHSLD），系统可以根据每个主机（数据处理、向量数据库）在不同阶段的实际需求，动态地、按需分配和回收内存资源。
目标: 这种架构的目标是实现资源的极致弹性，避免为满足短暂的内存峰值而造成服务器资源的长期闲置和浪费，从而显著提升整个RAG系统的资源利用率和成本效益。

通过CXL内存网络（Memory Fabric）技术，可以实现对RAG管道中各个组件内存资源的精确实时调配，从而极大地提升资源利用率。

通过两个真实的性能图表 “证明” 了上一张PPT中架构的有效性：

按需分配: 无论是面对数据处理任务的一次性、大幅度的内存峰值，还是向量数据库服务持续、小幅波动的内存需求，CXL内存池化方案都能够精确、自动地按需分配和回收内存。
避免资源浪费: 传统架构下，服务器必须按照峰值需求来配置物理内存，导致在大部分时间里资源闲置。而CXL内存网络方案则完美解决了这个问题，确保内存资源在需要时才被分配，用完后立即归还到共享池中，供其他任务使用。

之前只了解CXL3.0 可实现 Mem Pooling，此处介绍的mem动态伸缩，还是头一回听说，这对系统性能监控实时性要求很高，可能会造成额外的性能损耗。

RAG管道降低总拥有成本（TCO）存在两大有效途径：存储硬件的整合与内存资源的解耦。

物理层面的降本 (硬件整合): 通过采用单盘容量更大的SSD，可以急剧减少所需的服务器和机柜数量，直接节省数据中心的空间、电力和冷却成本。这是一个简单而直接的“少即是多”的策略。
资源层面的降本 (内存解耦): 通过引入CXL等内存互联技术，将内存从服务器中“解放”出来，形成一个可共享的、动态分配的资源池。这能将昂贵的内存成本降低约40%，并允许用更少的服务器支撑更大的内存需求，从而实现服务器整合，进一步削减硬件、软件许可和运维成本，同时保持高性能。

这张片子存在2个盲点，指出如下：

左侧大容量SSD的节点、机柜数量估算，缺少一个总容量前提，按表格 单节点容量 ✖️ 节点数 ，大致得出存储裸容量为100PB

右侧CMM-D 内存解耦扩容，RDIMM+CMM-D，在不同内容容量下的 $/GB，应该是不一样的，逻辑上推演CMM-D容量越大，TCO应该更低，而图示都是一个量级；至于单位成本的QPS指标，应该是低于基线RDIMM方案，否则采用CMM方案，单位性能的成本，反而是增加了。

== END ==

AI泡沫与云战局：NeoClouds能否颠覆AWS三巨头？

所有文章

UHI互连技术：重塑数据中心存储架构

知鱼

Web Development

Web Development

French

English

Spanish

html

CSS

Js

PHP

Wordpress