研究院动态

NEWS

尖山喜讯|我院院长杨超教授、特聘副研究员李秀红团队大模型训练领域研究成果荣获ASPLOS 2024最佳论文奖
品牌宣传办公室2024-05-15发布于湖南
      近日,计算机体系结构顶级会议ACM ASPLOS 2024在美国圣迭戈举办,北京大学长沙计算与数字经济研究院(以下简称“研究院”)院长、大数据分析与应用技术国家工程实验室副主任、北京大学数学科学学院教授杨超,研究院先进计算研究中心特聘副研究员、大数据分析与应用技术国家工程实验室助理研究员李秀红团队在本次会议发表了论文《Centauri: Enabling Efficient Scheduling for Communication-Computation Overlap in Large Model Training via Communication Partitioning》,并荣获会议最佳论文奖(Best Paper Award)。该论文成果第一作者为北京大学前沿交叉学科研究院大数据科学研究中心博士生陈畅,通讯作者为李秀红、杨超。其他作者包括朱钱超(北京大学),段江飞(香港中文大学),孙鹏、张行程(上海人工智能实验室)。
 

颁奖现场


Centauri 流程
 
      Centauri是针对大规模模型训练过程中巨大的通信开销,进行通信-计算覆盖优化的框架。Centauri包含通信切分和重叠调度两个部分。针对“通信是负载在设备群上的映射变换”这一核心抽象,文章提出了通信原语(primitive),通信群组(group),通信负载(workload)这三个切分维度。根据这三个维度构造出全面并且可以系统化探索的切分空间。根据模型训练任务的层级特点,在Centauri的调度模块中任务被分成算子级,层级,模型级的不同粒度的调度层。在算子级别针对前向layer内部的通信算子进行贪心的局部调度。在层级别动态地利用反向layer内部自带的算子重叠空间。在模型层级调度micro batch计算以求最大的通信计算重叠。针对多种不同分布式并行配置下,Centauri对于流行大模型可以提升45%的训练性能。
 

获奖证书
 

      ASPLOS是涵盖跨学科系统研究、交叉计算机体系结构、硬件和新兴技术、编程语言和编译器、操作系统和网络的CCF A类计算机体系结构国际顶级会议。中国大陆机构此前仅在2014年获得过ASPLOS最佳论文奖(占录取论文的4%),以及在2023年获得过杰出论文奖(占录取论文的8.6%)。本次会议共收录文章170篇,录取率为18.4%,共评出6篇最佳论文(占录取论文的3.5%)。

 

-作者简介-

杨超

北京大学长沙计算与数字经济研究院院长、大数据分析与应用技术国家工程实验室副主任、北京大学数学科学学院教授

 

      长期从事与超大规模并行计算相关的模型、算法、软件和应用研究,主持国家自然科学基金重点项目、重大研究计划集成项目、科技创新2030重大项目等国家级科研项目10余项,发表学术论文100余篇,研究成果先后获2016年国际计算机协会“戈登·贝尔”奖、2017年中国科学院杰出科技成就奖、2017年CCF-IEEE CS青年科学家奖、2018年茅以升北京青年科技奖、2020年首届王选杰出青年学者奖等国内外重要奖项。目前担任National Science Review编委、SIAM Journal on Scientific Computing编委,中国工业与应用数学学会高性能计算与数学软件专业委员会副主任,中国新一代人工智能产业技术创新战略联盟AI指令集与开发接口标准专题组组长,IEEE C/DC 2941标准工作组副主席等职。
 

李秀红

北京大学长沙计算与数字经济研究院先进计算研究中心特聘副研究员、大数据分析与应用技术国家工程实验室助理研究员

 

      2014年本科毕业于北京大学微电子系,2019年博士毕业于北京大学计算机科学与技术系,2020年3月至2021年7月在香港中文大学做博士后研究。担任科技部2030“新一代人工智能”重大项目课题负责人,在PPoPP、ISCA、MICRO、HPCA、TC等相关领域国际顶级期刊会议发表论文20余篇,相关研究成果曾获得PPoPP和ASP-DAC会议最佳论文提名。研究方向:计算机系统结构、高性能计算和深度学习系统。