郑纬民:以“东数西算”为契机解决算力面临的三大问题和挑战
2022-04-01
2021年5月24日,国家发展改革委、中央网信办、工业和信息化部、国家能源局联合发布《全国一体化大数据中心协同创新体系算力枢纽实施方案》,明确提出布局建设全国一体化算力网络国家枢纽节点,加快实施“东数西算”工程。其后,四部委又分别于2021年12月20日和2022年2月7日正式复函同意京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵州、甘肃、宁夏等地启动建设国家算力网络枢纽节点。至此,“东数西算”工程全面进入建设期。
顾名思义,“东数西算”工程就是把东部地区的非实时算力需求以及大量生产生活数据输送到西部地区的数据中心进行存储、计算并反馈。其目的是希望构建更绿色、更平衡和更高效的国家算力网络体系,以满足新时代各行各业数字化转型、数字技术与生活场景加速融合所带来的海量计算、传输、存储需求,最大化实现数据中心产业绿色集约发展,推动资源统筹利用和西部数字经济建设。可以预见,“东数西算”工程未来将发挥与众所周知的“南水北调”工程(建设国家高品质水网)和“西电东送”工程(建设国家高品质电网)相似重要作用和价值,并与西部发展、生态文明建设和双碳战略等当前重大国策休戚相关,同步发展。
从整体上,“东数西算”工程将围绕“五个一体化”的工程目标建设:
网络一体化。围绕集群建设数据中心直联网,建立合理网络结算机制,增大网络带宽,提高传输速度,降低传输费用。围绕集群稳妥有序推进新型互联网交换中心、互联网骨干直联点建设。
能源一体化。从国家双碳战略整体规划出发,充分发掘西部丰富的风光等可再生资源,应对好可再生能源波动性问题,扩大清洁能源市场化交易范围,促进建立清洁能源消纳的市场化机制。从整体规划层面对数据中心集群进行统一能耗指标调配。
算力一体化。在集群和城区内部的两级算力布局下,推动各行业数据中心加强一体化联通调度,促进多云之间、云和数据中心之间、云和网络之间的资源联动,构建算力服务资源池。
数据一体化。建设数据开放共享、政企数据融合应用等数据流通共性设施平台。试验多方安全计算、区块链、隐私计算、数据沙箱等技术模式,构建数据可信流通环境。
应用一体化。开展一体化城市数据大脑建设,选择公共卫生、自然灾害、市场监管等突发应急场景,试验开展“数据靶场”建设,探索不同应急状态下的数据利用规则和协同机制。
回顾以往,建设国家级超级计算中心与基础服务环境,我国已经有了超过十年的积累,取得了令世界瞩目的成就;在超大型数据中心和云计算平台的建设上,一些基础电信运营商、云服务商也积累了大量经验,在该领域已进入国际先进行列。但对照“东数西算”的预设目标,面对更广域、更多方参与和更高品质要求下的数据和应用流动场景,现有的技术储备、工程建设水平、市场化等方面仍旧面临着大量挑战。
从笔者视角,“东数西算”工程能够从以下三个方面发力,解决遇到的问题和挑战。
“东数西算”工程最为显著的特点就是提出了算力联接网络,异地算力与网络协同工作的实现思路。这种思路希望突破传统计算与数据中心算力提供服务的限制,在目前已经取得广泛成功的大数据中心和云计算平台上实现广域扩展和顶层优化。然而,算力资源传统上来自计算与数据中心的内部资源且集中部署和管理,要满足算力一体化需求,需要算力的无缝分布式使用,业界目前还没有成熟可靠的解决方案。计算的实施是建立在数据之上的,算力的流动首先应完成高效的数据流动,需要更加完善和先进的数据平台、服务与相关制度。技术层面,可以借鉴数据网格、数据中心网络、广域与分布式文件系统的技术经验,融合新型存储介质与体系架构,推动新一代分布式数据访问协议、存储系统和基础软件(分布式数据库、分布式文件系统)的演进。政策层面,则应进一步加快推动数据要素市场制度建设,推动数据市场化交易模式的落地。
在云服务中,算力作为一种IaaS资源被使用与管理。但是单一的云平台调度范围(区域)有限,过大的管理调度范围将导致云业务交付无法确保服务质量。无论是采用资源交付还是云服务交付都面临困难。前者需要一体化的资源管理平台,实现起来相对简单,对用户要求高;后者需要统一的云服务平台,实现起来将引入更多的服务因素,难度更大。在这方面的探索上,超算互联网正开展一些初步工作。“十四五”初期就启动了“国家高性能计算环境的领域应用平台及服务体系”项目,构建高速网络连接无锡、广州、北京、天津、深圳、长沙、青岛等地的多个国家级超算中心,集成与研发跨超算资源管理环境、共性应用函数库与工具软件,建立复杂力学体系与量子物理体系、生物与材料、环境治理与灾害防治三个重点领域的应用资源集成与服务集成,探索跨中心的超算社区运行机制与快速响应与协同机制。跨不同计算架构之间的应用有效部署仍是该项目面临的挑战和亟须完成的技术突破。同时,算力本身存在着位置分散、能力各异和动态变化的特征,导致算力存在度量困难,从而影响构建算力使用的结算体系,进一步损害产业运转。因此,做好算力感知、算力建模及算力评估刻不容缓,面向全网的算力资源(计算、存储和网络),开展对各类算力资源的状态、动态性及分布的分析、度量以及建模,实现基于干扰分析的算力资源评估,作为算力资源发现、交易、调度的依据。
数据信息传输过程中,物理设施、网络安全、应用安全、数据安全和信息安全等方面可能面临多重风险。而“东数西算”工程实现的算力资源开放使用则面临更多的信息安全问题,算力资源从申请到使用再到结算清退,过程中至少跨越使用方和供给方的边界,一旦有风险,不仅导致算力使用方出现漏洞,也会引发算力供给方的隐患,从而给整个算网资源体系带来风险。因此,如何在数据开放共享、大范围多方融合应用的需求和场景下实现端到端的安全,需要技术突破和政策制定等多方面努力,例如:采用和部署内生安全的基础设施,合理规划网络的安全区域以及不同区域之间的访问权限,试验多方安全计算、区块链、隐私计算、数据沙箱等技术模式,做好网络安全态势监测。
算力设施是数字经济健康发展的底座,对推动数字经济健康发展作用巨大。有数据显示,算力指数平均每提高1个百分点,数字经济和GDP将分别增长0.33%和0.18%。算力网络的技术理念已逐步在行业中达成共识。可以预见,“东数西算”工程将为我国以数据为中心的产业发展带来新的契机,并持续提升数据资产对于经济发展的贡献度,带动广大西部地区参与智能化引导的数字经济浪潮当中。尽管面临上述一系列挑战,随着“东数西算”工程的逐步建设,大数据、云计算、高性能计算技术、新一代网络技术、端到端安全技术,以及其相关产业和政策法规的快速进步与完善,创新开放的业态和场景不断涌现,未来将逐步实现网络与计算的一体融合,有效赋能数字经济。
作者: 郑纬民 中国工程院院士