阿里云计算池化方案:英伟达H20 GPU用量削减82%

来源:电子发烧友网 | 2025-10-23 16:39

  640 (4).jpg

      综合报道,在当前人工智能(AI)领域,算力资源的高效利用已成为各大科技公司争相追逐的目标。近日,阿里云提出的创新计算池化解决方案“Aegaeon”成功入选顶级学术会议SOSP2025。

  SOSP(操作系统原理研讨会)是由ACM SIGOPS主办的计算机系统领域顶级学术会议,每年仅收录数十篇论文,被誉为计算机操作系统领域的“奥斯卡”。

  在过去的几个月里,阿里云对Aegaeon系统进行了为期超过三个月的Beta测试,结果显示,该系统在服务参数量高达720亿的大型AI模型时,所需的英伟达H20 GPU数量从1192个减少至213个,削减比例高达82%。

  这一显著的减少不仅意味着阿里云可以大幅降低硬件采购成本,更是为那些依赖成千上万张GPU进行模型服务的大型企业提供了宝贵的经验与借鉴。以服务数十个720亿参数大模型为例,原本需要1192张GPU才能完成的任务,现在仅需213张即可胜任,硬件成本锐减超80%。

  通过数据分析,阿里云发现,现有模型市场中,少数热门模型(例如阿里的Qwen)承载了绝大多数用户请求,而大量不常被调用的“长尾”模型却各自占用大量GPU资源。数据显示,曾有17.7%的GPU算力仅用于处理1.35%的请求,资源闲置现象相当严重。

  Aegaeon系统通过GPU资源池化的方式,打破了传统“一个模型绑定一个GPU”的低效模式,实现了更高效的资源配置。具体而言,Aegaeon将多个GPU的计算、内存等抽象成一个资源池,按需分配给不同的任务,避免了单个任务独占资源导致的闲置。

  Aegaeon系统的核心创新点在于Token级调度。该系统的多模型混合服务功能能够在每次生成下一个token时动态决定是否切换模型,从而实现精细化管理。通过组件复用、显存精细化管理以及KV缓存同步优化等全栈技术,Aegaeon将模型切换的开销降低了97%。

  这一技术确保了token级调度的实时性,使得模型切换响应时间可支持亚秒级的快速反应。据介绍,Aegaeon系统支持单个GPU同时服务多达7个不同模型,相比于现有主流方案,其有效吞吐量提升了1.5至9倍,处理能力提高了2至2.5倍。

  Aegaeon的落地将推动算力租赁行业从“按卡计费”转向“按实际使用量计费”,企业可通过弹性调度降低闲置成本。据测算,采用该技术的云服务商可将算力租赁价格降低40%-60%,加速AI普惠化。

  随着AI技术的不断进步,对算力的需求将持续增长。GPU资源的高效利用,是实现AI规模化应用的关键。阿里云的Aegaeon方案,为AI算力效率提升提供了新的思路和解决方案,未来有望在更多云计算平台和AI应用场景中得到推广和应用。


【声明】物流产品网转载本文目的在于传递信息,并不代表赞同其观点或对真实性负责,物流产品网倡导尊重与保护知识产权。如发现文章存在版权问题,烦请联系小编电话:010-82387008,我们将及时进行处理。

10秒快速发布需求

让物流专家来找您