
综合报道,在当前人工智能(AI)领域,算力资源的高效利用已成为各大科技公司争相追逐的目标。近日,阿里云提出的创新计算池化解决方案“Aegaeon”成功入选顶级学术会议SOSP2025。
SOSP(操作系统原理研讨会)是由ACM SIGOPS主办的计算机系统领域顶级学术会议,每年仅收录数十篇论文,被誉为计算机操作系统领域的“奥斯卡”。
在过去的几个月里,阿里云对Aegaeon系统进行了为期超过三个月的Beta测试,结果显示,该系统在服务参数量高达720亿的大型AI模型时,所需的英伟达H20 GPU数量从1192个减少至213个,削减比例高达82%。
这一显著的减少不仅意味着阿里云可以大幅降低硬件采购成本,更是为那些依赖成千上万张GPU进行模型服务的大型企业提供了宝贵的经验与借鉴。以服务数十个720亿参数大模型为例,原本需要1192张GPU才能完成的任务,现在仅需213张即可胜任,硬件成本锐减超80%。
通过数据分析,阿里云发现,现有模型市场中,少数热门模型(例如阿里的Qwen)承载了绝大多数用户请求,而大量不常被调用的“长尾”模型却各自占用大量GPU资源。数据显示,曾有17.7%的GPU算力仅用于处理1.35%的请求,资源闲置现象相当严重。
Aegaeon系统通过GPU资源池化的方式,打破了传统“一个模型绑定一个GPU”的低效模式,实现了更高效的资源配置。具体而言,Aegaeon将多个GPU的计算、内存等抽象成一个资源池,按需分配给不同的任务,避免了单个任务独占资源导致的闲置。
Aegaeon系统的核心创新点在于Token级调度。该系统的多模型混合服务功能能够在每次生成下一个token时动态决定是否切换模型,从而实现精细化管理。通过组件复用、显存精细化管理以及KV缓存同步优化等全栈技术,Aegaeon将模型切换的开销降低了97%。
这一技术确保了token级调度的实时性,使得模型切换响应时间可支持亚秒级的快速反应。据介绍,Aegaeon系统支持单个GPU同时服务多达7个不同模型,相比于现有主流方案,其有效吞吐量提升了1.5至9倍,处理能力提高了2至2.5倍。
Aegaeon的落地将推动算力租赁行业从“按卡计费”转向“按实际使用量计费”,企业可通过弹性调度降低闲置成本。据测算,采用该技术的云服务商可将算力租赁价格降低40%-60%,加速AI普惠化。
随着AI技术的不断进步,对算力的需求将持续增长。GPU资源的高效利用,是实现AI规模化应用的关键。阿里云的Aegaeon方案,为AI算力效率提升提供了新的思路和解决方案,未来有望在更多云计算平台和AI应用场景中得到推广和应用。
“一带一路”背景下,物流装备企业的全球化发展 01月01日 08:00
解读汽车物流全局数字化 08月16日 14:11
“大数据与智慧物流”专题报道 12月06日 14:24
2017年中国零售电商十大热点事件点评 12月11日 16:35
供应链协同、互联网+,中国制造业转型的十个方向! 01月11日 10:42
预判:2018年,中国快递十个可见趋势 02月28日 11:16
2018年关于零售的18个趋势 03月27日 10:51