DeepSeek联合顶尖高校发布新论文，DualPath架构破解LLM推理性能瓶颈-3C数码-发现者网

研究团队通过实证分析发现，在典型编程任务场景中，智能体平均需要完成157轮交互，上下文长度累计达32.7K个语言单元，但每轮新增内容仅429个单元。这种"长上下文、短增量"的特性，使得键值缓存（KV-Cache）的加载效率成为决定系统性能的关键因素。实验数据显示，现有架构中存储带宽利用率存在严重失衡——预填充引擎的带宽资源长期处于满负荷状态，而解码引擎的带宽资源却有90%以上处于闲置状态。

硬件发展趋势进一步加剧了这种矛盾。以英伟达GPU架构演进为例，从Ampere到Blackwell架构，计算性能提升了14.4倍，但存储带宽和显存容量的增长幅度不足3倍。这种计算与存储能力发展的非对称性，导致传统预填充-解码分离架构的吞吐量提升遭遇天花板。

该架构的实现面临三大技术挑战：首先是数据传输粒度控制，研究团队设计了分层块传输机制，将缓存数据切割为不同粒度的传输单元，使网络开销降低60%；其次是流量隔离技术，通过引入中心化网络控制器和InfiniBand虚拟通道，确保关键计算任务不受数据加载影响；最后是动态调度算法，系统实时监测GPU负载、网络状态和任务特征，自动调整预填充与解码模块的资源分配比例。

性能评估显示，在包含6600亿参数的DeepSeek-V3.2模型测试中，新架构在离线批处理场景下实现1.87倍吞吐量提升，在线服务场景的智能体处理能力提升近2倍。更值得关注的是其扩展性表现：在由1152块GPU组成的集群测试中，系统从8节点扩展到144节点时，性能提升幅度达到理论值的92%，且延迟波动控制在5%以内。在44个预填充引擎+88个解码引擎的配置下，系统吞吐量较基线系统提升22倍。