史上最大芯片诞生!含有1.2万亿晶体管,40万个内核!

IC007 2019-8-21 24小时 86 0 0

史上最大芯片诞生!含有1.2万亿晶体管,40万个内核!


文︱综合整理

图︱网络


史上最大芯片诞生!拥有1.2万亿个晶体管,40万核心,芯片面积为42225平方毫米,是目前芯片面积最大的英伟达GPU的56.7倍,学习速度大大提升,AI的好日子来了!



日前Cerebras公司发布了全球最大的芯片WSE(Wafer Scale Engine),专注于AI运算,总计1.2万亿个晶体管,核心面积超过46225mm2,集成了40万个核心以及18GB SRAM缓存,带宽超过100Pb/s。


史上最大芯片诞生!含有1.2万亿晶体管,40万个内核!



这颗巨型芯片由Cerebras Systems公司推出,芯片发布后,三位中国芯片领域专家在朋友圈立即做出评价:

  

芯片专家唐杉:“膜拜一下Cerebras的巨型芯片,每边大约9英寸,22cm。我记得我之前写文章还画过一个类似的对比图。[机智]Wired的文章,看来Cerebras要走到前台了。”

  

深鉴科技联合创始人姚颂:“Cerebras的Wafer-scale chip确实壮观,有一种独特的美感,就好像看到大炮巨舰的那种壮丽之情。希望Andrew Feldman一切顺利。”

  

猎户星空首席战略官王兵:“一万两千亿晶体管的巨大芯片,300mm wafer能做出的最大芯片,挑战芯片行业极限之作。如果能成功必然会颠覆整个AI芯片行业。不过即便是用了多种错误冗余技术,量产良品率还将会是个巨大的挑战。”


史上最大芯片诞生!含有1.2万亿晶体管,40万个内核!


WSE芯片采用了台积电的16nm工艺生产,集成了40万个AI运算核心,如此大规模的并行运算需要解决很多问题,包括核心核心之间的通讯及缓存,所以WSE配备了18GB SRAM缓存,同时带宽达到了100Pb/s,要知道通常的计算芯片SRAM缓存也不过几百兆,带宽也就Tb/ss级别,比如AMD的EPYC二代处理器L1/L2/L3缓存加起来不超过300MB,PCIe 4.0总线带宽不过128GB/s,NVIDIA的NVLink 2.0最大带宽也不过300GB/.s,算下来也就是2.4Tb/s,WSE的内部带宽是现有水平的3.3万倍之多。


此前,三星实际上已制造出了一个闪存芯片eUFS,拥有2万亿个晶体管。但Cerebras芯片专为流程加工而设计,拥有400,000个核心,芯片面积42,225平方毫米。它比最大的Nvidia GPU大56.7倍,后者尺寸为815平方毫米,含211亿个晶体管。


总之,WSE芯片在工程技术上绝对是一次奇迹,不过官方并没有提及WSE芯片的具体性能,也没有提到量产及上市时间,这让它的前途也面临一丝怀疑,毕竟这样的芯片实在是太特殊了。


史上最大芯片诞生!含有1.2万亿晶体管,40万个内核!

  


单晶圆提供超级计算机级的计算能力

  

“Cerebras WSE”专为人工智能设计而设计,其中包含了不少基础创新,解决了限制芯片尺寸的长达数十年的技术挑战 - 如良品率,功率传送、封装等,推动了最先进技术的发展。和包装,每个架构决策都是为了优化AI工作的性能。结果是,Cerebras WSE根据工作量提供了数百或数千倍的现有解决方案的性能,只需很小的功耗和空间。”Cerebras Systems首席执行官的Fieldman说。

  

通过加速神经网络训练的所有元素来实现这些性能提升。神经网络是一种多级计算反馈回路。输入在循环中移动速度越快,循环学习的速度越快,即训练时间越短。可以通过加速循环内的计算和通信来加速输入的循环速度。

  

Cerebras WSE芯片面积比目前最大的GPU大56.7倍, 并提供更多核心进行计算,有更多核心靠近内存,因此内核可以高效运行。由于这些大量的内核和内存位于单个芯片上,因此所有通信都在芯片上进行,通信带宽高、延迟低,因此核心组可以以最高效率进行协作。

  

Cerebras WSE中的46,225平方毫米的芯片面积上包含40万个AI优化核心,无缓存、无开销的计算内核,以及和18千兆字节的本地化分布式超高速SRAM内存。内存带宽为每秒9 PB。这些核心通过细粒度、全硬件、片上网状连接通信网络连接在一起,可提供每秒100 petabits的总带宽。更多核心、更多本地内存和低延迟高带宽结构,共同构成了面向AI加速任务的最佳架构。

  

“虽然AI在一般意义上被使用,但没有两个数据集或两个AI任务是相同的。新的AI工作负载不断涌现,数据集也在不断变大,”Tirias Research首席分析师兼创始人Jim McGregor在一份声明中表示。

  

“随着AI的发展,芯片和平台解决方案也在不断发展。Cerebras WSE是半导体和平台设计方面的一项惊人的工程成就,它在单个晶圆级的解决方案中提供了超级计算机级的计算能力、高性能内存和带宽。

  

Cerebras 表示,如果没有多年来与台积电(TSMC)的密切合作,他们不可能取得这个创纪录的成就。台积电是全球最大的半导体代工厂,在先进工艺技术方面处于领先地位。WSE芯片由台积电采用先进的16nm制程技术制造。


史上最大芯片诞生!含有1.2万亿晶体管,40万个内核!


  

400000个AI优化的内核

  

WSE包含40万个AI优化的计算内核(compute cores)。这种计算内核被称为稀疏线性代数核(Sparse Linear Algebra Cores, SLAC),具有灵活性、可编程性,并针对支持所有神经网络计算的稀疏线性代数进行了优化。SLAC的可编程性保证了内核能够在不断变化的机器学习领域运行所有的神经网络算法。

  

由于稀疏线性代数内核是为神经网络计算进行优化的,因此它们可实现业界最佳利用率——通常是GPU的3倍或4倍。此外,WSE核心还包括Cerebras发明的稀疏捕获技术,以加速在稀疏工作负载(包含0的工作负载)上的计算性能,比如深度学习。

  

零在深度学习计算中很普遍。通常,要相乘的向量和矩阵中的大多数元素都是0。然而,乘以0是浪费硅,功率和时间的行为,因为没有新的信息。

  

因为GPU和TPU是密集的执行引擎——引擎的设计永远不会遇到0——所以它们即使在0时也会乘以每一个元素。当50-98%的数据为零时,如深度学习中经常出现的情况一样,大多数乘法都被浪费了。由于Cerebras的稀疏线性代数核心永远不会乘以零,所有的零数据都被过滤掉,可以在硬件中跳过,从而可以在其位置上完成有用的工作。


史上最大芯片诞生!含有1.2万亿晶体管,40万个内核!

  


比GPU大3000倍的片上内存

  

内存是每一种计算机体系结构的关键组成部分。靠近计算的内存意味着更快的计算、更低的延迟和更好的数据移动效率。高性能的深度学习需要大量的计算和频繁的数据访问。这就要求计算核心和内存之间要非常接近,而在GPU中却不是这样,GPU中绝大多数内存都很慢,而且离计算核心很远。

  

Cerebras Wafer Scale Engine包含了比迄今为止任何芯片都要多的内核和本地内存,并且在一个时钟周期内拥有18 GB的片上内存。WSE上的核心本地内存的集合提供了每秒9 PB的内存带宽——比最好的GPU大3000倍的片上内存和10000倍的内存带宽。


史上最大芯片诞生!含有1.2万亿晶体管,40万个内核!

  


低延迟、高带宽的独特通信结构

  

Swarm通信结构是WSE上使用的处理器间通信结构,它以传统通信技术功耗的一小部分实现了带宽的突破和低延迟。Swarm提供了一个低延迟、高带宽的2D网格,它将WSE上的所有400,000个核连接起来,每秒的带宽总计达100 petabits。

  

路由、可靠的消息传递和同步都在硬件中处理。消息会自动激活每个到达消息的应用程序处理程序。Swarm为每个神经网络提供了一个独特的、优化的通信路径。软件根据正在运行的特定用户定义的神经网络的结构,配置通过400,000个核心的最优通信路径,以连接处理器。

  

典型的消息遍历一个具有纳秒延迟的硬件链接。一个Cerebras WSE的总带宽是每秒100 PB。不需要TCP/IP和MPI等通信软件,因此可以避免性能损失。这种结构的通信能量成本远低于远低于每比特 1 焦耳,比GPU低了近两个数量级。结合了巨大的带宽和极低的延迟,Swarm通信结构使 Cerebras WSE比任何当前可用的解决方案学习得更快。



(更多内容请点击下方“阅读原文”



内容声明:本文来源于网络综合整理。本文任何之观点,皆为交流探讨之用,不构成任何投资建议,也不代表本公众号的立场。用户根据本文及本公众号任何其他观点进行投资,须风险自担,责任自负。由此造成的一切后果,本公众号不承担任何责任。


史上最大芯片诞生!含有1.2万亿晶体管,40万个内核!





史上最大芯片诞生!含有1.2万亿晶体管,40万个内核!


行业交流、媒体合作请联系:微信ICzhoukang

投稿请发至邮箱:icinside01@163.com








原文始发于微信公众号(快芯网):史上最大芯片诞生!含有1.2万亿晶体管,40万个内核!

转载请注明来自快芯网,本文标题:《史上最大芯片诞生!含有1.2万亿晶体管,40万个内核!》

喜欢 (0) 发布评论
发表评论

您必须 [ 登录 ] 才能发表留言!

Top