发现者网
产业经济 科技业界 3C数码 文化传媒 移动智能 家电行业 AI大模型 汽车出行 热点资讯

DeepSeek联合顶尖高校发布新论文,DualPath架构破解LLM推理性能瓶颈

2026-02-28来源:互联网编辑:瑞雪

研究团队通过实证分析发现,在典型编程任务场景中,智能体平均需要完成157轮交互,上下文长度累计达32.7K个语言单元,但每轮新增内容仅429个单元。这种"长上下文、短增量"的特性,使得键值缓存(KV-Cache)的加载效率成为决定系统性能的关键因素。实验数据显示,现有架构中存储带宽利用率存在严重失衡——预填充引擎的带宽资源长期处于满负荷状态,而解码引擎的带宽资源却有90%以上处于闲置状态。

硬件发展趋势进一步加剧了这种矛盾。以英伟达GPU架构演进为例,从Ampere到Blackwell架构,计算性能提升了14.4倍,但存储带宽和显存容量的增长幅度不足3倍。这种计算与存储能力发展的非对称性,导致传统预填充-解码分离架构的吞吐量提升遭遇天花板。

该架构的实现面临三大技术挑战:首先是数据传输粒度控制,研究团队设计了分层块传输机制,将缓存数据切割为不同粒度的传输单元,使网络开销降低60%;其次是流量隔离技术,通过引入中心化网络控制器和InfiniBand虚拟通道,确保关键计算任务不受数据加载影响;最后是动态调度算法,系统实时监测GPU负载、网络状态和任务特征,自动调整预填充与解码模块的资源分配比例。

性能评估显示,在包含6600亿参数的DeepSeek-V3.2模型测试中,新架构在离线批处理场景下实现1.87倍吞吐量提升,在线服务场景的智能体处理能力提升近2倍。更值得关注的是其扩展性表现:在由1152块GPU组成的集群测试中,系统从8节点扩展到144节点时,性能提升幅度达到理论值的92%,且延迟波动控制在5%以内。在44个预填充引擎+88个解码引擎的配置下,系统吞吐量较基线系统提升22倍。

Agent时代来临:中国开源模型凭成本优势与技术创新强势崛起
MiniMax披露的数据是,他们在数十万个真实Agent脚手架和环境上做了大规模强化学习,上下文长度拉到200K。 Agent化让Token需求暴涨,中国模型凭着相对成本优势吃到了增量,涨价本质上是供需再平衡…

2026-02-27

春节新景:县城老人借AI视频带娃社交,解锁创作新技能
从我妈用奥特曼哄孙子,到大姨的家庭群社交,这些案例没有任何一个发生在一线城市,没有任何一个使用者能解释“大模型”的原理,但他们共同构成了AI视频最真实的用户画像。 AI视频可能正在经历同样的“预期修正”,它…

2026-02-27