发现者网
产业经济 科技业界 3C数码 文化传媒 移动智能 家电行业 产业互联网 AI大模型 汽车出行

焱融科技张文涛:大模型时代,高性能全闪存储如何破解AI训练难题?

2025-10-03来源:快讯编辑:瑞雪

在QCon全球软件开发大会(北京站)上,焱融科技CTO张文涛分享了高性能全闪并行文件系统YRCloudFile的设计与实践,深入探讨了AI训练场景中的存储挑战与解决方案。张文涛指出,深度学习领域中,数据与算力是模型训练的核心要素,但数据规模和模型复杂度的快速增长导致存储性能成为制约训练效率的关键瓶颈。

张文涛通过meta的存储增长数据和某大客户的实际案例,揭示了AI时代存储需求的爆发式增长。他提到,2022年ChatGPT发布后,国内大模型厂商的数据量年均增速从20T跃升至60T,存储容量与性能需求同步激增。AI全流程中,数据采集、处理、训练、推理和归档各环节均面临不同挑战,其中训练环节对存储性能的要求最为严苛。

针对AI训练场景,YRCloudFile通过多项技术创新解决了高并发、海量小文件、带宽峰值等核心问题。系统采用静态数据路由算法,在文件创建时即确定存储位置,避免访问时的元数据查询开销,同时利用多磁盘并行提升带宽利用率。Multi-Channel技术通过网卡聚合突破单网卡带宽限制,NUMA亲和性优化避免跨节点内存访问,RDMA单边编程模式减少内存拷贝,共同将单节点吞吐量提升至480GB/s。

在海量小文件处理方面,YRCloudFile采用基于Dentry Hash的元数据分布策略,通过根目录固定、子目录哈希选择和本地性优化,确保元数据操作均匀分布且具备高效预取能力。测试数据显示,YRCloudFile在1亿至100亿文件规模下,元数据OPS性能稳定,远超开源CephFS的衰减表现。同时,系统通过弱化POSIX语义、异步close操作等技术,将小文件访问性能提升10倍以上。

为满足大规模集群需求,YRCloudFile设计了汇聚式心跳上报机制和UDP推拉结合的事件同步方案,支持200余个全闪节点和10万个客户端的扩展能力。智能数据分层功能通过时间和大小策略,自动将冷数据下沉至对象存储,同时保持业务透明无感。在AI训练中,数据预热功能确保GPU快速访问热点数据,避免冷启动延迟。

在运维层面,YRCloudFile提供多租户管理、访问权限控制、日志审计和回收站等安全特性,支持弹性数据网络打通多网络平面。针对单流业务,系统通过缓存预取优化性能;针对小模型训练,设置Cache HardLimit避免延迟抖动;针对IB网络拥塞,实施客户端限速保障整体吞吐量。

张文涛还介绍了YRCloudFile在推理场景的优化方案。系统为KVCache提供PB级缓存空间,单个节点支持40GBps带宽和低延迟访问,使长上下文场景的TTFT延迟降低13倍,高并发场景性能显著提升。DataInsight解决方案支持百亿级数据秒级检索,通过多维度组合查询和增量数据感知,帮助企业快速构建知识库平台。

张文涛毕业于华中科技大学计算机专业硕士,拥有15年分布式存储领域经验,主导了YRCloudFile从研发到落地的全过程。该系统已广泛应用于AI及高算力场景,具备丰富的架构设计和性能优化经验。

湖北建院2025级新生初体验:在大数据与AI世界开启科技逐梦之旅
在大数据创新工作室,“武汉建工施工云项目”让新生们惊叹不已,这个智慧工地的“大脑”正是大数据专业“数字住建”特色的生动体现。 从物联网的“技能匠心”到大数据与人工智能的“科技前沿”,信息与设备工程学院用一场场…

2025-10-02

iPhone16升级iOS18.7.1体验:续航提升、信号优化,相机与发热表现均有改善
苹果iOS18.7.1大概率就是iOS18最后一个版本了,很多用户都给予了高度评价,升级都后都表示更省电了,其他方面优化也超预期,综合体验远比iOS18.6.2更好,那么具体带来了哪些优化呢? 以上就是iPh…

2025-10-01

华为eSIM新机来袭:超薄机身配大电池,麒麟芯对战iPhone17 Air
但没想到的是,华为竟然又出来狙击苹果了,据最新爆料显示,华为打造的eSIM新机,也是国产首款eSIM手机正在来的路上,该机和iPhone17Air一样也是主打超薄机身,可能厚度和iPhone17 Air不…

2025-10-01

华为鸿蒙系统崛起:设备超12亿台,实现多终端统一,未来潜力无限
而经过这么多年发展,我们发现有一款国产操作系统真的崛起了,使用的设备总数甚至超过了12亿,并且这个系统,比windows、安卓、iOS们更有想象力,因为它是一个大一统的系统,可以用在手机、PC、平板、汽车、…

2025-09-30

昇腾大EP方案发力六大行业,打通AI大模型商业落地“最后一公里”
从以上昇腾大EP的行业实践与发展逻辑中,可清晰看到中国AI产业的差异化发展路径,即在单卡算力与全球顶尖水平存在差距、企业AI投资预算相对有限的约束下,中国产业界通过“技术垂直整合+行业场景深耕”的组合策略,…

2025-09-30

天翼AI入选两大榜单 星辰超级智能体助力政企数字化升级
近日,德本咨询发布《2025中国人工智能分类排行》系列榜单,中电信人工智能科技(北京)有限公司(以下简称:“天翼AI”)入选“2025‘人工智能+’新质生产力领航企业TOP100”榜单,旗下星辰超级智能体入…

2025-09-28

中国电信牵头6G计费项目:以标准为笔 绘就6G产业生态发展新蓝图
通过提前布局计费标准,中国电信旨在协同全球运营商、设备商和服务提供商等产业伙伴,共同探索6G计费新模式,为全球运营商和产业链伙伴提供清晰的技术路径参考,避免未来可能出现的产业碎片化风险,加速6G技术的成熟与应…

2025-09-28

JGGY-L314/II型变压吸附实验装置:功能完备,技术参数详尽,助力实践学习
吸附塔、吸附剂、干燥器、油水分离器、空压机、真空泵、缓冲罐、压力表、流量计、气体分析仪、不锈钢管路、阀门、中央处理器、触摸屏、高品质铝合金型材框架。实现压力、温度、含氧量,吸附时间的显示, 以及阀门调节、吸…

2025-09-27

小米17系列多机型搭载UWB,魅族22顶配版也加入,智能交互再升级
通过在Pro和Pro Max上突出UWB,小米不仅展现了高端机型的差异化价值,也再次强调了其在智能互联战略中的核心定位。今年7月,卢伟冰曾公开表示,该机型将树立“移动影像新高度”,延续Ultra系列的产品定位…

2025-09-27

智慧AB门系统:以科技之力重构监狱安防,开启智能管控新篇章
•与车辆管理系统的联动:对于进出车辆,系统可实现全流程自动化:车牌识别自动抬杆->进入过渡区->车辆底盘扫描系统自动扫描并AI比对违禁品->系统确认无误后,才授权开启B门。2. 风险态势评估:系统可综合…

2025-09-26