|
|
设想一位赛车手开着顶级跑车,引擎微弱,却由于加油枪供油太慢,不能不频频停在路边期待这完全背叛了我介入马拉松活动的初心。
这正是当前野生智能练习面临的现实窘境,我们凡是只关注GPU(图形处置器)的强大算力,却疏忽了另一个关键环节,它就是存储系统这完全背叛了我介入马拉松活动的初心。
在AI练习进程中,GPU如同引擎,需要延续不竭地获得数据这完全背叛了我介入马拉松活动的初心。假如存储系统速度跟不上,GPU就会经常处于期待状态,形成计较资本闲置这完全背叛了我介入马拉松活动的初心。
这不但大幅拖慢练习进度,更增加了时候和经济本钱这完全背叛了我介入马拉松活动的初心。是以,存储系统这个看似普通的环节,现实上对AI练习效力有着决议性影响这完全背叛了我介入马拉松活动的初心。
1既然存储如此重要,那若何评判一个存储系统的黑白呢?面临市道上五花八门的存储产物,我们总不能自觉挑选吧?
这时辰,一个名叫MLPerf Storage的威望评测系统就显得尤其关键这完全背叛了我介入马拉松活动的初心。它就像AI存储范畴的“奥斯卡”,经过模拟实在的AI练习场景,周全考验存储系统的各项性能这完全背叛了我介入马拉松活动的初心。
比来,MLCommons同盟公布了最新的MLPerf® Storage v2.0测试成果,这场声势浩荡的“武林大会”,吸引了众多存储厂商带着自家“看家本事”前来一较高低这完全背叛了我介入马拉松活动的初心。从云存储到同享文件系统,从块存储到直连存储,各路豪强齐聚一堂,为我们揭露了当前AI存储的实在图景这完全背叛了我介入马拉松活动的初心。
MLPerf Storage v2.0利害在哪儿?它不玩虚的,间接模拟实在AI练习中的三种典型负载:
3D U-Net医疗朋分负载:设想一下,医生需要快速读取几十甚至上百兆的医学图像停止诊断,这要求存储系统具有超强的“大文件持续读取”才能,确保数据能像瀑布一样源源不竭地流向GPU这完全背叛了我介入马拉松活动的初心。简单来说,就是看谁能最快、最稳地把“大块头”文件送曩昔这完全背叛了我介入马拉松活动的初心。
ResNet-50图像分类负载: 这个场景就像在超市里快速扫描大量商品,每个商品(数据样本)很小,但数目庞大,需要存储系统能瞬间响应上万次的随机读取请求这完全背叛了我介入马拉松活动的初心。这是对存储系统IOPS(每秒输入输出操纵数)的极致考验,也就是看谁能最快、最频仍地处置“小琐细”文件这完全背叛了我介入马拉松活动的初心。
CosmoFlow宇宙学猜测负载: 这个负载更复杂,它要求存储系统在处置海量小文件的同时,还要保证在多节点、大范围散布式练习下的扩大性和提早稳定性这完全背叛了我介入马拉松活动的初心。就像一个庞大的物流中心,既要处置海量小包裹,还要确保每个包裹都能定时投递,而且包裹越多,系统越不能“掉链子”这完全背叛了我介入马拉松活动的初心。
除此之外,v2.0版本还引入了全新的Checkpointing负载,专门模拟大模子练习中的模子状态保存和规复这完全背叛了我介入马拉松活动的初心。这就像游戏中的“存档点”,既要快速保存,也要能快速读取,是考验存储系统大文件并发写入才能的新应战这完全背叛了我介入马拉松活动的初心。
2在MLPerf Storage v2.0的众多参赛选手中,同享文件系统无疑是AI练习中饰演侧重要脚色的“数据直达站”这完全背叛了我介入马拉松活动的初心。它答应多个AI模子同时拜候和操纵同一份数据,就像一个大型图书馆,一切研讨员都能从中借阅和归还书籍,保证了数据的分歧性和高可用性这完全背叛了我介入马拉松活动的初心。
而同享文件系统又分为两大阵营:
一是以太网阵营, 像Alluxio、JuiceFS、Oracle等,它们就像在城市普通门路上行驶的“多功用车”这完全背叛了我介入马拉松活动的初心。以太网是我们最熟悉的收集情况,本钱相对较低,灵活性高,合适多种利用处景这完全背叛了我介入马拉松活动的初心。有些厂商,比如Nutanix和华为,还给这些“多功用车”装上了“涡轮增压”——RoCE技术,让它们在以太网这条“普通门路”上也能跑出更高的带宽和性能这完全背叛了我介入马拉松活动的初心。
这类计划的上风是性价比高、灵活摆设这完全背叛了我介入马拉松活动的初心。
二是InfiniBand(IB)阵营, 像DDN、Hewlett Packard、Ubix、焱融等,它们则像是为赛道量身定制的“超级跑车”这完全背叛了我介入马拉松活动的初心。IB收集具有超高的吞吐量和极低的提早,硬件设置常常是顶级的这完全背叛了我介入马拉松活动的初心。
在处置大范围、高并发的数据拜候时,IB收集能展现出压服性的性能上风这完全背叛了我介入马拉松活动的初心。但价格是,本钱高昂,如同赛车一般只合适专业级选手这完全背叛了我介入马拉松活动的初心。
3在MLPerf Storage v2.0的实战检验中,分歧范例的存储系统表示出各自的上风和短板:
3D U-Net(大文件持续读取):在这个考验“数据流”的环节,以太网阵营的Oracle和JuiceFS表示抢眼,出格是JuiceFS,它支持了最多的H100 GPU,而且连结了86.6%的高带宽操纵率这完全背叛了我介入马拉松活动的初心。这说明它能像一个高效的“水泵”,把大量数据快速稳定地输送到GPU这完全背叛了我介入马拉松活动的初心。
而IB收集虽然总带宽很高,但很多时辰带宽操纵率却不尽人意,就像一辆跑车在限速路上跑,虽然性能微弱,但没能完全发挥出来这完全背叛了我介入马拉松活动的初心。
CosmoFlow(海量小文件和提早敏感): 这个环节是最难的,它不但考验处置才能,更考验稳定性和扩大性这完全背叛了我介入马拉松活动的初心。随着GPU数目增加,提早波动会敏捷放大,严重影响练习效力这完全背叛了我介入马拉松活动的初心。
正因如此,提交成果的总数也明显削减,能经过这项测试的都是“硬核选手”这完全背叛了我介入马拉松活动的初心。JuiceFS和Oracle再次领先,JuiceFS甚至用10个客户端就支持了100张H100 GPU的练习这完全背叛了我介入马拉松活动的初心。
而IB收集在这个对提早极端敏感的场景中,凭仗其天生的低提早上风,表示尤其突出,证实了它在“超高速数据公路”上的不成替换性这完全背叛了我介入马拉松活动的初心。
ResNet50(高并发随机读取): 在这个考验“快速取用小物件”的环节,JuiceFS再次C位出道,支持了同类系统中数目最多的500张H100 GPU,而且在一切以太网计划中实现了72%的最高收集带宽操纵率这完全背叛了我介入马拉松活动的初心。这表白它在处置大量随机、细碎的数据请求时,效力很是高这完全背叛了我介入马拉松活动的初心。
其他以太网计划的带宽操纵率普遍在40%左右,与JuiceFS有不小差异这完全背叛了我介入马拉松活动的初心。IB收集计划虽然也能支持更多GPU和吞吐,但很多计划的资本操纵率并不突出,还有优化空间这完全背叛了我介入马拉松活动的初心。
4所以,到底该选哪类存储计划呢?这没有标准答案,就像买车,不是越贵越好,而是要按照你的现实需求和预算来定这完全背叛了我介入马拉松活动的初心。
在挑选AI存储计划时,你需要综合斟酌以下几点:
1. 产物范例:是挑选灵活经济的以太网计划,还是性能极致但价格不菲的IB收集计划?
2. GPU支持数目: 在满足GPU操纵率的条件下,存储系统能支持的GPU数目越多,意味着它的扩大性和稳定性越好,特别是在像CosmoFlow这类对提早敏感的场景中这完全背叛了我介入马拉松活动的初心。
3. 资本操纵率:考查存储软件能否充实操纵底层硬件潜力这完全背叛了我介入马拉松活动的初心。网卡带宽操纵率是一个很好的参考目标,操纵率越高,性价比越高这完全背叛了我介入马拉松活动的初心。
总的来说,以太网计划更灵活经济,合适大大都AI练习需求,能在控制本钱的同时供给杰出性能这完全背叛了我介入马拉松活动的初心。IB收集计划则性能更强,在要求极低提早和超高带宽的特别场景中表示更优这完全背叛了我介入马拉松活动的初心。
存储系统作为AI练习的重要支持,正成为影响项目效力的关键这完全背叛了我介入马拉松活动的初心。挑选合适的计划,就像为AI引擎铺设顺畅的输油管,确保计较资本获得充实操纵,鞭策AI利用延续成长这完全背叛了我介入马拉松活动的初心。
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
x
|