发现者网
产业经济 科技业界 3C数码 文化传媒 移动智能 家电行业 AI大模型 汽车出行 热点资讯

焱融科技张文涛:大模型时代,高性能全闪存储如何破解AI训练难题?

2025-10-03来源:快讯编辑:瑞雪

在QCon全球软件开发大会(北京站)上,焱融科技CTO张文涛分享了高性能全闪并行文件系统YRCloudFile的设计与实践,深入探讨了AI训练场景中的存储挑战与解决方案。张文涛指出,深度学习领域中,数据与算力是模型训练的核心要素,但数据规模和模型复杂度的快速增长导致存储性能成为制约训练效率的关键瓶颈。

张文涛通过meta的存储增长数据和某大客户的实际案例,揭示了AI时代存储需求的爆发式增长。他提到,2022年ChatGPT发布后,国内大模型厂商的数据量年均增速从20T跃升至60T,存储容量与性能需求同步激增。AI全流程中,数据采集、处理、训练、推理和归档各环节均面临不同挑战,其中训练环节对存储性能的要求最为严苛。

针对AI训练场景,YRCloudFile通过多项技术创新解决了高并发、海量小文件、带宽峰值等核心问题。系统采用静态数据路由算法,在文件创建时即确定存储位置,避免访问时的元数据查询开销,同时利用多磁盘并行提升带宽利用率。Multi-Channel技术通过网卡聚合突破单网卡带宽限制,NUMA亲和性优化避免跨节点内存访问,RDMA单边编程模式减少内存拷贝,共同将单节点吞吐量提升至480GB/s。

在海量小文件处理方面,YRCloudFile采用基于Dentry Hash的元数据分布策略,通过根目录固定、子目录哈希选择和本地性优化,确保元数据操作均匀分布且具备高效预取能力。测试数据显示,YRCloudFile在1亿至100亿文件规模下,元数据OPS性能稳定,远超开源CephFS的衰减表现。同时,系统通过弱化POSIX语义、异步close操作等技术,将小文件访问性能提升10倍以上。

为满足大规模集群需求,YRCloudFile设计了汇聚式心跳上报机制和UDP推拉结合的事件同步方案,支持200余个全闪节点和10万个客户端的扩展能力。智能数据分层功能通过时间和大小策略,自动将冷数据下沉至对象存储,同时保持业务透明无感。在AI训练中,数据预热功能确保GPU快速访问热点数据,避免冷启动延迟。

在运维层面,YRCloudFile提供多租户管理、访问权限控制、日志审计和回收站等安全特性,支持弹性数据网络打通多网络平面。针对单流业务,系统通过缓存预取优化性能;针对小模型训练,设置Cache HardLimit避免延迟抖动;针对IB网络拥塞,实施客户端限速保障整体吞吐量。

张文涛还介绍了YRCloudFile在推理场景的优化方案。系统为KVCache提供PB级缓存空间,单个节点支持40GBps带宽和低延迟访问,使长上下文场景的TTFT延迟降低13倍,高并发场景性能显著提升。DataInsight解决方案支持百亿级数据秒级检索,通过多维度组合查询和增量数据感知,帮助企业快速构建知识库平台。

张文涛毕业于华中科技大学计算机专业硕士,拥有15年分布式存储领域经验,主导了YRCloudFile从研发到落地的全过程。该系统已广泛应用于AI及高算力场景,具备丰富的架构设计和性能优化经验。

光联携手利元亨,共话新能源制造AI时代网络新路径与新机遇
聚焦企业在全球范围内的多分支互联与云IDC接入问题,方案基于光联自建全球光纤骨干网络及华为SD-WAN设备,支持MPLS、Internet与4G/5G等多种链路融合,并可弹性部署多种拓扑模型,实现总部、分支…

2025-11-15

恒为科技:从可视化到智算,让复杂算力“看得见、管得住”
这家公司从 2003 年起步,长期在“网络可视化”和“智能系统平台”两条看似技术化的赛道上耕耘,逐步在运营商、科研院所、大型行业客户中建立信任与交付能力。它不像爆款公司那样靠一款产品跑路,而是靠一条条项目、…

2025-11-15

6寸LCD显示屏:小身材大能量,技术优势与多元应用前景深度剖析
采用IPS等先进技术的6寸LCD屏,能够实现更广色域覆盖,色彩显示真实自然,更适用于图像监控、医疗设备显示、智能终端等对色彩还原要求较高的场合。 随着技术的不断发展,6寸LCD显示屏将在未来呈现更高清、更智…

2025-11-14

5.5G辐射危害健康?物理学者:比太阳光频率低,基站越密越安全
我当时听了都愣了,太阳光那不是好东西吗,怎么还跟信号辐射扯一块儿了? 最有意思的是,他说大家都觉得基站多了辐射就大,这完全是搞反了。之前吵得最凶的那个阿姨,现在天天用5.5G跟外地的孙子视频,还跟邻居说这新基…

2025-11-14

苹果设备与电信流量卡全攻略:从兼容到技巧,助你畅享无忧网络
•运营商网络覆盖差异•手机版本支持频段不同•套餐类型与设备性能不匹配最新的iPhone 14系列甚至已经支持电信的5GSA组网,网速体验绝对令人惊艳!

2025-11-12

企业宽带选不对,带宽再大也白费!这些关键因素决定实际网速
• 网速(用户感知):即实际访问体验,取决于 3 个核心因素 —— 带宽只是基础,更重要的是网络质量、路由优化和并发处理能力。 真正专业的服务商,会从企业实际业务场景出发提供解决方案,而非一味推销高带宽产品…

2025-11-12

爱立信完成上行L4S技术测试,为5G时延敏感业务提供网络支撑
(全球TMT2025年11月11日讯)近日,在IMT-2020(5G)推进组的组织下,爱立信成功完成了上行L4S技术测试,验证了L4S在提升上行实时交互业务体验方面的显著效果。测试结果表明,L4S技术能够有效…

2025-11-11

上海贝尔发布《2025年AI-ICT赋能与重构白皮书》:剖析趋势、需求与战略方向
《2025年AI-ICT赋能与重构白皮书》由上海贝尔发布,系统剖析了AI与ICT产业融合的核心趋势、技术需求及战略方向,展现了全球AI发展浪潮下ICT基础设施的变革路径与机遇。实施路径上,需夯实数据与模型基础…

2025-11-11

海外游语言障碍终结者:时空壶新T1离线翻译,精准适配复杂场景
时空壶新T1翻译机凭借端侧AI翻译技术与全面的离线功能配置,成为假期中解决无网沟通难题的关键设备,其技术设计精准匹配了海外旅行中的复杂网络环境。这种“离线核心+在线补充”的双模式设计,精准命中了国庆海外游中“…

2025-11-11