您的位置 首页 > 二氧化碳

微智能CTO欧阳鹏:架构创新是高性能计算芯片的必由之路

  近几年,如果问哪个行业最火?绝对是芯片。

  宏观层面,我们看到了国外限制的打压,国内政策的支持,整个芯片行业的沸腾。芯片对于高科技和前沿技术发展的重要性不言而喻。

  在微观层面,中国的芯片产业一直在做技术上的尝试。面对数据爆炸时代,传统芯片架构的计算瓶颈亟待突破,而在前沿架构的探索中,中外公司一致选择数据流驱动的可重构架构。

  那么,为什么可重构计算架构能够成为应对大计算力时代的最佳技术路线呢?如何兼顾高能效比、软硬件的灵活重构和可扩展性?目前架构的落地难点在哪里,落地情况如何?

  围绕可重构计算架构芯片的探索、创新和商业落地,清微智能联合创始人兼CTO欧阳鹏在量子比特视点直播中分享了自己的经验和观点。

  根据以下共享内容进行整理:

  我今天与大家分享的主题是可重构计算架构(CGRA)创新,以实现计算性能的突破。

  我今天就从几个方面来介绍一下:一、清微智能公司的发展情况,包括发展现状,软硬件产品等。其次是计算能力大爆炸的时代背景带来的挑战;再者就是目前的技术路线,以及主流产品架构存在的问题;第四,清微智能是如何在这种环境和挑战下,通过创新和突破实现产品性能的提升;第五是对未来技术的展望,包括发展趋势和方向。

  全球第一家出货量最大的可重构芯片公司。

  清微智能研究可重构计算技术已有16年。2006年,我们在清华大学成立了可重构计算实验室,开展可重构计算的相关研究。16年培养了300多名硕士、博士、博士后。在该领域的不断探索和突破,沉淀了300项专利和论文,先后获得国家技术发明二等奖、国家专利金奖和国际比赛冠军。

  基于多年的积累,微智能于2018年成立,正式开启商业化之路。2020年,卫青获得中国电子学会技术发明一等奖。2021年和2022年,卫青先后入选国际电子信息领域的《时代周报》EE Times的全球半导体公司“硅100”榜单。2022年,卫青入选麻省理工学院评选的世界50家最聪明的公司(MIT TR50)。经过四年的商用发展,目前已有十个型号的芯片实现规模化销售,头部客户包括海康、国家电网、商汤、阿里等。这项技术经受住了市场的考验。清微智能的可重构芯片是完全自主的技术体系,拥有独立的核心技术,完全自主可控。清微智能是全球可重构芯片的领导者。

  人工智能的发展对芯片计算能力提出了更大的挑战。

  目前人工智能发展非常迅速,对计算能力的需求巨大。可以说,我们已经进入了计算能力爆炸的时代。作为智能计算能力的提供者,芯片企业应该如何应对?

  我们先来看看这个时代的特点。具体来说,人工智能对计算能力的需求是爆炸式的,这种需求来自于网络模型参数和计算量的不断增加。到2025年,模型参数数量将达到万亿,支持从图像和视频处理、自然语言处理,到自动驾驶、通用智能,甚至元宇宙的发展。模型的发展进一步推动了各种智能计算中心的建设需求。现在26个城市都在建计算中心,计算能力都在P级以上。2022年8月,美国总统拜登签署了《芯片与科学法案》,计划在未来5年内投资2800亿美元,甚至瞄准建设Z (10万亿)级高计算平台。

  这种计算能力需求对芯片底层提出了非常严峻的挑战。如果使用最主流的GPU产品,会带来巨大的计算能耗和投入成本,无法满足大模型开发带来的“计算能力黑洞”。

  比如像open AI GPT,只需要3个NVIDIA A100训练三天,但是单卡的话,需要366年训练。与GPT-3型号一样,它需要1024块80GB显卡,一个月的培训费用超过1200万美元。如果培训北京致远研究院的“启蒙”模式,整个费用就要上千万。图1:我们可以看到,以GPT三号为界,左图中的模型到达GPT三号后,开关变换,启蒙,阿里M6等。都是几千亿到几万亿的模型参数计算。

  △图1 AI大模型

  从另一个维度来看,能提升芯片性能的无非是工艺和架构。图2是基于浪潮8卡AI服务器的MLperf的性能数据。计算性能已经超过摩尔定律,这意味着架构创新起到了非常重要的作用。随着时间的推移,芯片架构创新对性能提升的影响会越来越大。性能提升和摩尔定律之间的“剪刀差”会越来越明显。

  △图2架构创新的推动超过摩尔定律,架构创新是必由之路。

  因此,架构的突破和创新是目前计算能力大爆炸时代的唯一解决方案。

  我们来看一些现有的技术架构路线。如图3所示,该图分为左右两个技术方向,右边有一个红色箭头,表示共享存储越多,反之则是越靠左,数据流量越多或空间计算能力越强。

  △图3主流技术路线对比

  这些代表了目前的两个技术方向:一个代表了存储器可以更多的共享,通过不断改进工艺,使用先进的HBM存储器,增加晶体管密度,提高单芯片的性能;另一种是对工艺要求不高,通过数据流驱动架构提高多机多卡的性能和线性度。除了卫青,Sambanova和tenstorrent等外国公司也走这条路线。以共享存储模式为代表的GPU计算架构,可以在单卡上通过高科技提升性能,但也存在一些问题,分为三个方面。

  第一,核心SM架构本质上是指令集驱动的,所以不能在计算上花费大量资源,尤其是像AI这样的流计算,需要大量指令和频繁调度才能保证计算的准确。

  其次,因为共享存储,里面有不同的缓存结构,所以有不同程度的延迟。同时,需要网卡和交换机来连接多台服务器。这样,通过增加卡数,性能并不一定线性增加,因为会有网络延迟和通信延迟。

  第三点是成本,这其实是大计算中心包括数据中心需要关注的一点。一些现有的方案使用2.5D HBM存储。以a100为例,其HBM成本超过50%,非常昂贵。此外,基于该技术方案构建大型计算集群时,网卡、分层交换机等。都是需要的,而且这部分成本很高,接近总成本的50%。

  要实现一个数据中心的可持续发展,必须考虑如何实现计算能力的线性增长,同时降低芯片和系统单位计算能力的能耗和成本。

  还是那句话,刚才我提到主流的GPU产品都是以2D/2.5D的方式做存储集成,比如HBM,可以提供1-2TB/s的带宽,但是我们看AI本身的计算,特别是像训练,对带宽要求很高,至少5TB/s以上。要充分发挥性能,2D和2.5D存储集成提供的带宽是远远不够的。如下图4所示,由于互连端口的数量,带宽不可能更高。

  △图4当前2D和2.5D存储集成方案的存储约束性能提升数据流驱动的可重构计算架构自然适应大计算能力。

  所以需要一种新的计算范式或者一些新的思路来解决这些问题,解决计算单元效率的问题。我们将从三个方面考虑:

  首先是计算范式。能不能把更多的计算资源用在计算上,不要做太多的控制?它在很多应用场景下不需要太多的控制。如果我把90%的资源花在计算上,肯定会提高计算效率。

  第二,沟通墙的问题。更多的算法,更多更大的模型意味着大量的通信,有时会延迟,成为计算能力增长的短板。我们需要考虑的是:如何让这种多卡实现线性增长,同时摆脱包括交换机、网络等非核心计算设备的成本?

  第三,2D和2.5D都在解决带宽问题。如何突破现有方案,让存储和计算更加耦合紧密,从而提高带宽。

  那么我们该如何看待这个问题呢?

  首先,尽可能把宝贵的应用资源集中在计算上。

  传统的CPU和GPU都是指令驱动的,需要逐个取指令和解码指令,需要精确控制。如此大量的资源用于控制和频繁的存储器访问。我们采用一种数据驱动的动态重构的空间模型:里面有大量的计算资源,可以灵活地组织到不同的计算通道中,大大降低了控制开销,在计算中使用了90%的基础资源,提高了计算效率。

  二是尽可能让数据在计算单元内流动,减少大量的外部存储开销。传统GPU使用共享存储,无论是GDDR还是HBM,来实现共享同步,包括在多个卡之间。新的方法是在计算单元之间进行数据传输,而不需要与外部存储器频繁交换,从而降低了存储器访问的成本。这里有两个层次:一个是计算单元之间的数据流,是微观的传输。第二,芯片之间发生数据流,直接实现数据传输。

  第三,提高数据流的可扩展软硬件能力。跨服务器跨机架直连,打破芯片边界。我们一直说GPU很强,但是如果要扩展更大的集群,还是要找开关。我们称之为数据交换设备。我们能去掉交换设备吗?芯片之间直接实现互联,整体是一个数据模式来支持这个应用。同时,可以对每个数据流进行配置,以提高编程的规模和灵活性。这样,芯片内部和芯片之间都平整了。从逻辑上来说,对于开发者来说,一台机器和十台机器面临的是同样的编程模式,因为它在底层架构上是扁平化的。因此,通过这种方式,可以实现芯片对芯片的通信,数据流可以突破芯片的边界,从而进一步降低存储器访问的成本。

  第四,它以数据流的方式在芯片内部和芯片之间流动。在单个芯片上节省昂贵的HBM,并通过本地存储提供大带宽。同时,通过多个芯片之间的直接连接,省去了昂贵的交换机。我们上面说过,GPU产品是通过交换机和网卡互联的,成本很高。如果芯片内外直接互联,整个芯片都是数据流,就可以省去昂贵的存储器和交换机的成本。

  第五,采用3D存储对高级存储进行解耦。考虑将存储和计算更紧密地结合在一起。清洁是通过一种叫做3D存储集成的方法实现的。如图5所示,这种集成方法很自然地适应了数据流计算方案。因为是垂直连接,每个PE不需要访问整个空间,每个PE都可以有自己独立的存储容量和带宽。通过表面到表面的集成,减少了计算单元和存储单元之间的连接距离,增加了信号密度,并且减少了处理功耗。可以实现相同的性能,同时节省一半的功耗。与传统的集成方法相比,带宽可以提高十倍。

  △图5可重构分布式计算与3D DRAM的自然结合

  这些正是我们正在做的。微云芯片TX8项目于2021年启动,汇集了苹果、海思、英伟达、SUN、Intel、AMD、平头等一批技术骨干。,对服务器芯片和AI芯片的软硬件都有丰富的经验。团队正在快速推进项目,产品预计明年年底上市。我们希望通过这种更加合理可行的可重构计算架构,满足计算爆炸时代对芯片的需求,解决目前方案中存在的一些问题。

  世界可重构计算路线的发展

  可重构计算是一项相对早期的技术。1991年,国际学术界开始研究基于新机器范式的新型ASIC设计方法。经过10多年的探索和发展,其计算能力和多功能性的完美平衡得到了广泛认可。

  国际工业界和学术界已经达成共识,可重构架构芯片具有广泛的通用计算能力,可以应用于多种场景。面对日益增长的计算能力需求,考虑到灵活性和高计算能力的特点,可重构计算技术是解决通用高计算能力需求的必由之路。

  未来,可重构芯片将被定位为数据密集型计算的核心载体,形成CGRA+的异构开放生态。这是必然的趋势。Intel以CPU为主,然后收购Altera,加上自研GPU,形成CPU+GPU+FPGA的异构产品形态。基于AMD x86 CPU,收购Xilinx FPGA,Xilinx同步切入CGRA,同时收购ATI GPU,形成CPU+FPGA+CGRA+GPU的生态。英伟达试图收购ARM,没有成功,但也能体现其整个技术路线,希望形成一个CPU+GPU的生态。卫青将不是一个一般的生态,而是一个计算生态。它在向前发展,是一个CGRA+CPU的生态。我们的CPU可以是x86架构,ARM架构或者RISC-V架构,开放兼容。

  最后,我想谈谈微智能未来的发展规划。清晰的微现实从端侧开始,正在向云侧延伸,打造“CGRA+”生态。如图6所示,从横坐标和纵坐标两个维度发展,横向是软件生态,不断从单个产品切入,完善整个应用场景,完善整个生态。纵向是基于CGRA技术体系,内生并不断扩展,吸收单点技术,实现软硬件通用处理器平台。

  △图6卫青未来十年的技术发展规划是关于“量子比特观点”的

  量子发起的CEO/CTO系列分享活动,不定期邀请前沿科技领域的先锋公司CEO/CTO分享最新战略、最新技术、最新产品,与从业者、爱好者共同探讨前沿技术理论和产业实践。欢迎大家多多关注~