标题说的这档事儿,所涉人物无名无姓,事发地点一概不察,发生年月具体无考,如有雷同,纯属巧合。
这事儿的缘起是,一些城市发了“数字经济”的愿,慕了“智慧城市”的名,纷纷要建“城市大脑”。
这本是件好事。谁不想做算力经济的弄潮儿?
若是地方政府踏踏实实建平台,厂商老老实实部署产品,也就没什么可大书特书的。可偏偏有些古怪现象,搅皱了这一池春水。
注意,有古怪!
比如,半个多月前,某城市人工智能计算中心项目建成投用,面向人工智能(AI)行业,提供公共算力等服务。这多好的事儿!但是呢,在媒体对该中心算力的报道中,却出现了这样的怪相:
“中心一期建设规模100P FLOPS人工智能算力……其算力相当于5万台高性能计算机。”XX发布、招商XX、一点资讯XX等
“人工智能算力相当于5万台高性能计算机”,这是典型的误导。
无独有偶。两年前,某城市大规模智能计算项目一上马,对外发布的算力即是“100PFLOPS”,题目还强行加戏:“国产AI训练集群进入超算领域”……
AI专用的智能计算机一下成了全能的超级计算机,妙啊!
把dollar说成“刀”,把智能计算机说成超级计算机,谁在装糊涂?
对不起,串台了!真就媒体全锅吗?未必。
且先不论是谁的锅,但见那歪风渐长。有些地方为了快速上马算力项目,对什么算力不加甄别,只要数字够漂亮就够了。
地方或许确实没花特别大的本钱,就建成了动辄所谓数十P、上百P的算力,以为可以比肩国家级超算中心,大搞一波算力驱动经济了。谁知当他们请来超算专家一问,好像不是那么回事儿。
为啥?算力这东西,一分价钱一分货。
地方为了快速上马算力项目,智能计算机、超级计算机傻傻分不清楚,更分不清什么是推理性能、什么是训练性能,结果,本以为花了小钱建了世界级的大超算,最后可能花了不少钱只建成了一台仅有推理性能的机器。
那句话怎么说的来着?“所有命运的馈赠,早已在暗中标好了价格。”
今天我们就好好说道说道这其中玄机。
智能计算机VS 超级计算机,真就分不清?
首先,超算就是超算,将专用于AI计算的一些机器也叫作超算,值得商榷。
目前业界用于衡量超级计算机的Linpack测试,测试的是超级计算机的“双精度浮点运算能力”,即64位浮点数字的计算(FP64),这是一种高精度的数值计算。在以二进制所表示数字精度中,还有单精度(32位,FP32)、半精度(16位,FP16)以及整数类型(如INT8、INT4)等。数字位数越高,意味着人们可以在更大范围内的数值内体现两个数值的变化,从而实现更精确计算。
与许多科学计算等不同,AI所需的计算力不需要太高精度。比如一些AI应用需要处理的对象是语音、图片或视频,运行低精度计算甚至整型计算即可完成推理或训练。这种专用计算机处理AI算法速度快、能耗低,这是由其特点决定的。
总结一下,我们可以这么区分:
智能计算机是一种专用算力,它们擅长于推理或训练等智能计算,但由于AI推理或训练一般仅用到单精度甚至半精度计算、整型计算,多数智能计算机并不具备高精度数值计算能力,这也限制其在AI计算之外的应用场景使用。
对比而言,超级计算机是一种通用算力,其设计目标是提供完备、复杂的计算能力,它们在高精度计算能力更强,应用范围更广,比如科学家常使用超级计算机进行行星模拟、新材料开发、分子药物设计、基因分析等科学计算和大数据处理。
中国工程院院士陈左宁曾形象地将使用超级计算做AI计算是“大马拉小车”,来说明超级计算虽然“十项全能”,但毕竟不是为AI量身打造,为了便宜行事,智能计算机由此兴起。
此前曾一度热炒的AI与超算融合,也是将改良后的高性能计算机“AI专用化”,严格意义上来说,它们已经不再属于我们传统话语体系里的超算范畴。
如今却是,不论超级计算中心落成还是智能计算中心落成,都宣称算力是多少“FLOPS”,其实这个单位是“每秒浮点运算能力”,而一些智能计算机的单位其实是“OPS”——每秒操作次数。如果不加区别,大家很容易误认为是同一种计算精度、同一种计算能力。
这也导致一些地方以为花了小钱建了世界顶级的“大超算”,好像占了便宜;等项目上了马,将项目介绍给超算业内人士时,才傻了眼。
对不起,又串台了!用新指标引导行业健康发展
为免引发误导、引起行业混乱,智能计算机与超级计算机两者的概念,要区分清楚。
上面也提到,业内还存在另一种误导,即模糊智能计算机的推理性能和训练性能。
与推理相比,训练性能往往需要计算精度高一些,比如32位甚至64位。而大部分性能“耀眼”的AI芯片,往往指的是其推理性能,而且可能还只是理论值。
对于AI计算而言,训练性能往往更重要——许多智能模型正是有赖于此。
如果要画一张AI所需算力的示意图,“推理”位于算力矩阵的最下层,因为半精度算力(FP16)或整型算力(如INT8)即可满足推理需要。
排在其上的是“训练”,一般需要使用单精度算力(FP32)或半精度算力(FP16);对算力需求最高的是类脑“模拟”,它的算力需求需要双精度算力(FP64)和低精度算力同时支持。
为实现更好的引导,需要一个简单有效的指标来帮助判断系统的AI算力和整个高性能AI领域的发展状况。
2020年11月,中科院计算所研究员、中国计算机学会高性能计算专业委员会秘书长张云泉联合清华大学教授陈文光、美国阿贡国家实验室研究员Pavan Balaji和瑞士苏黎世联邦理工学院教授Torsten Hoefler,与ACM SIGHPC China委员会共同发起了基于AIPerf大规模AI算力基准评测程序的“国际人工智能性能算力500排行榜”(即AIPerf500)。有兴趣的可以翻一下这个榜单,上榜机器的算力单位是OPS。
“超级计算与AI计算,一码归一码,需要一个新的标尺来引导AI计算行业走上健康发展的道路。”张云泉说。
绕不过英伟达?国产AI芯片待奋蹄
算力始于芯片。在AI芯片赛道上,我国拥有华为昇腾、百度昆仑、燧原等芯片设计企业,但即便如此,国内的智能计算机仍很少能绕过美国GPU巨头英伟达。
这是一个无奈的现实:国内上马的诸多智能计算中心,英伟达是切切实实的受益者。
专门做智能计算的AI芯片,只要核数足够多、主频足够高,就可以实现速度更快、在低精度计算中高出几个量级的性能。但如果某个计算集群既需要高精度计算又需要低精度计算,那这对AI芯片的要求就高了。
这也正是英伟达GPU的杀手锏,它们在各种精度的计算能力都很突出、非常均衡(当然AI算力更强),更别提NV还有更优的软件栈和应用生态。
对不起,又串台了!这也是大部分国产AI芯片难以与英伟达GPU硬碰硬的原因之一。而如果英伟达最终顺利收购ARM,那将更加是如虎添翼、完全起飞。
不过,国产AI芯片并非完全没有机会。
首先,当下我国的算力基础设施,都有强烈的国产化意愿。即便英伟达、英特尔等巨头虎踞龙盘,但综合成本、生态等各类因素,国产化的大潮仍不可阻挡。
其次,就AI当前发展而言,场景、数据、模型、算力缺一不可,这也就意味着,中国将是未来全球AI算力富集地。AI芯片作为核心需要,不可能被一种形态、一种生态所垄断,寒武纪、昇腾等国产AI芯片的佼佼者仍坐拥巨大发展空间。
再者,虽然芯片是算力的主要来源和最根本的物质基础,但是算力的生产、聚合、调度和释放是一个完整过程,需要复杂系统的软硬件生态共同配合,才能实现“有效算力”。因此,不能只关注芯片的单一性能指标,更要注重上层软件应用生态。
没有巨大算力就无法发展AI了吗?
最后,我们聊聊AI的发展态势。
在算力概念被混淆的背后,是AI计算有如脱缰野马一般疯涨的算力需求。
这不奇怪。AI的训练量是由参数量决定的,现在训练AI的参数是什么规模呢?千亿、万亿!
由多位硅谷“大亨”联合建立的人工智能非营利组织OpenAI,在2020年5月推出了其新一代无监督的转化语言模型GPT-3,目前已有1750亿参数,训练数据量达到45TB(约1万亿单词量)。
GPT-3模型目前已经在语义搜索、文本生成、内容理解、机器翻译等方面取得重大突破。其最大价值是证实了机器在无监督下的自我学习能力,验证了纯粹通过扩大规模即可以实现性能提升。
万亿参数模型已经在路上。6月初,北京智源人工智能研究院发布了“悟道2.0”,宣称达到1.75万亿参数,超过之前由谷歌发布的Switch Transformer,成为全球最大的预训练模型。
迅猛增长的参数体量,也意味着更高的计算需求——有的可能需要数千块GPU来提供必要的算力。类似GPT这样的巨模型,对算力的需求可不是闹着玩的。
难道,没有巨大算力就无法发展AI吗?
专家认为,在目前AI的发展阶段(感知智能和认知智能)中,算力仍然是第一位的。
其实,发展AI可以通过算力提升,也可以通过算法革命等途径提升,但在“资本导向”的现阶段,相比不确定性的算法模型突破,算力提升是那个容易的选择。
但是必须要指出的是,运用巨大算力并不是人工智能发展的唯一方向,GPT-3这样的巨模型同样存在缺陷,如缺乏常识等;而探索人脑奥妙机理,实现小数据学习、迁移学习也是重要手段。
毕竟,大脑的功耗只有20W左右,实现低能耗的智能系统或许是更重要的努力方向。
(本文成稿得到了中国计算机学会高专委张云泉秘书长等超算领域专家的大力指导,在此一并致谢!)
相关阅读:
1.李国杰院士谈超算与智能历史性会合:“70年未有之大变局”
2.李国杰院士:发展大数据不能抛弃“小数据”
3.一夜之间,世界最强超算易主!