观众在杭州举行的 2023 云栖大会上了解云计算产品及应用(2023 年10月31日摄) 黄宗治摄 / 本刊
随着AI技术和应用创新不断加速,模型复杂度和数据量急剧增加,对包括算力在内的新型基础设施建设提出了新需求和新要求,建立适应AI+时代的高质量算力服务体系迫在眉睫。
日前国家信息中心信息化和产业发展部发布了《“人工智能+”时代公共云发展模式与路径研究》报告,提出公共云是破解我国AI+时代算力“供不上、用不起”瓶颈问题的重要抓手。
公共云是指面向公众提供的云计算资源,通过聚合各类算力并通过在线的模式为各类用户提供简单易用,且近乎无限扩展的计算服务,其本质是将云计算资源规模化、大范围进行共享。“公共云能以资源利用效率最大化的方式,帮助提升我国算力供给能力,并通过规模经济效应推动算力门槛降低,让更多的用户享受普适普惠的算力服务。”国家信息中心信息化和产业发展部主任单志广介绍。
智能算力紧缺
制约大模型规模化应用
智能算力资源紧缺已成为制约大模型规模化应用的主要瓶颈。
按照应用和功能特性,算力可分为基础算力、智能算力、超算算力三类,基础算力主要基于CPU芯片,用于满足基础通用计算需求,如网购、打游戏等;智能算力基于GPU、FPGA(现场可编程门阵列)、ASIC(专用集成电路芯片)等AI芯片的加速计算平台,主要用于人工智能的训练和推理计算,如语音、图像和视频的处理;超算算力由超级计算机等高性能计算集群提供,主要用于尖端科学领域的计算。
智能算力方面,以AIGC(生成式人工智能)为代表的AI应用、大模型训练等所使用的数据量和参数规模呈指数级增长,带来了智能算力需求爆炸式增加。例如GPT-3模型参数约为1746亿个,训练一次需要以每秒一千万亿次计算,运行3640天。GPT-4参数数量扩大到1.8万亿个,是GPT-3的10倍,训练算力需求上升到GPT-3的68倍,在2.5万个A100芯片上需要训练90~100天。
在中文大语言模型方面,2023年3月百度发布文心一言,4月华为发布盘古大模型,阿里发布通义千问大模型,商汤科技公布日日新大模型体系,5月科大讯飞发布星火大模型等,到目前我国大语言模型已有上百个。根据中国信息通信研究院测算,从设备供给侧看,2022年我国计算设备总算力规模中,基础算力占比40%,智能算力占比则高达59%,成为算力快速增长的驱动力。根据预测,到2026年智能算力规模将进入每秒十万亿亿次浮点计算(ZFlops)级别。
“大语言模型发展带来了AI算力需求的快速上升,所消耗的计算资源每几个月翻一倍,算力需求的增长速度已经远超芯片性能提升和产能扩张速度上限。”单志广介绍。
公共云具备缓解算力紧缺潜力
公共云是以需求为导向以应用为目的的一种公共服务模式。AI+时代,公共云将成为破解算力资源紧张、降低算力成本的关键抓手。
首先,公共云具备训练大模型所需的强算力。训练全球领先的基础大模型需要调度至少万张GPU芯片高效协同工作,只有极少数公共云具备相应能力。从亚马逊、微软和谷歌等科技巨头运营公共云的经验来看,其优势是规模大、效率高,天然能向全球市场扩张。
其次,公共云的规模效应能够带来算力普惠。随着AI大模型规模化应用,支撑海量用户频繁使用所需要的推理算力成本也将急剧上升,尤其是多模态大模型对于算力的消耗将远高于文本类大语言模型。算力成本是限制大模型发展的关键因素之一,中小型AI企业往往难以通过自建算力设施解决训练和推理算力需求,因此算力租赁需求旺盛。公共云可以多路复用,通过多租户使用同一套计算资源大池,削峰填谷,显著提升硬件资源利用率,降低使用成本。例如亚马逊、阿里云等公共云厂商随着用户规模增加、技术优化和运营效率提升,持续降低云计算服务价格,亚马逊AWS曾连续三年每年降价12次;过去十年阿里云将计算成本降低了80%,存储成本降低了近90%。
再者,公共云能够实现我国算力供给能力的边界突破。公共云通过集群的计算、网络、存储平衡设计和软硬一体化加速技术,调度“盘活”已有芯片,可以形成超大规模算力资源池,实现芯片复用、弹性可扩展;发挥公共云大规模机器调度、异构芯片兼容能力,不仅能将已有先进芯片集约化利用,还能充分利用已有的通用CPU资源,为AI大模型训练和推理应用提供必要的算力支持;随着公共云技术体系加速升级,AI训练、AI推理以及HPC超算等计算资源将并池管理,实现算力普惠和模型普及。
推动云计算走向云智算
公共云和AI相结合将推动云计算走向云智算。未来云计算将不再局限于IT计算本身,而是提供包括算力、模型、数据、生态等与智能化发展相关的全方位创新服务,从而促进AI+切实落地,引领新质生产力发展。
推动云计算走向云智算,亟待解决技术层面的短板。国家信息中心信息化和产业发展部提出了公共云技术服务架构解决方案。
第一,以融合算力设施为支点搭建云计算基石。利用虚拟化技术把各种硬件资源,如计算、存储、网络等整合起来,并输出融合异构算力服务。无论是X86、GPU还是ARM(微处理器芯片),都能在这个平台上运行,不仅解决AI算力不足的问题,还能使大规模商业化成为可能。
第二,以AI工程化工具为重点搭建平台,为开发者提供统一的研发、测试、运维工具,包括了智算服务和机器学习框架,让AI开发变得更加高效。开发者无需在本地维护复杂的平台就能享受到工程化的便利,降低开发成本。
第三,为开发者提供一站式模型服务。大模型是AI竞争的关键,通过模型聚合、开发和服务的整合,打破传统AI应用的壁垒,让AI技术更易于应用到各行各业。
第四,以智能化应用场景为特色,提供适用于各种智能化场景的软件服务。
“此外,公共云需要进一步提升大规模集群管理能力,以优化资源利用效率,从而更好地满足AI对算力的需求。”单志广介绍。
(《瞭望》2024年第17期 )