在今年的特斯拉AI开放日,D1芯片非常漂亮。
晶圆封装系统独特的芯片设计,使D1在训练数万亿参数的神经网络时具有数量级的优势特斯拉甚至在发布会上表示,在性能方面已经完全碾压了NVIDIA GPU和谷歌TPU
可是,颠覆性的设计会引起注意并受到质疑。
最近,半导体分析网站SemiAnalysis表示:
D1芯片有一些重要的技术问题。
还有关于内存和成本的问题。
作为特斯拉首款AI训练芯片,D1芯片采用分布式结构和7nm工艺,配备500亿晶体管和354个训练节点,实现超高计算能力和超高带宽。
根据特斯拉披露的信息,半分析从以下几个方面提出了问题:
首先是记忆问题。
根据半分析,D1芯片可能没有足够的内存来实现他们所说的计算能力,无论是在功能单元级别还是系统级别。
在功能单元层面,D1芯片单个功能单元具有1.25MB SRAM缓存和1触发器FP16/CFP8精度计算能力。
在芯片级,管芯上没有其他SRAM结构,只支持1.25MB SRAM的354个单元。
基于类似的IPU设计,半分析推测这种设计会导致严重的内存缺陷,从而影响芯片的计算能力。
其实每个IPU芯片上的SRAM数量是D1的两倍,但是和NVIDIA A100相比,它的劣势还是非常明显的。
在BERT和ResNet50训练中,NVIDIA A100分别比IPU快1.54倍和1.43倍。
其次,是成本问题。
特斯拉芯片可以无缝集成,使其能够实现8 TB/s的IO,比ASIC和NVIDIA高一个数量级。
为了满足如此大的IO,特斯拉采用了独特的封装方式,即InFO_SoW。
这个包的特点是可以足够大。
在新闻发布会上,他们还展示了一个由25个D1芯片组成的训练模块。
但是这种包装方式在实际生产中难度很大,会出现较多的报废案例,也会导致成本的突然增加。
除了这两个方面,半分析认为D1还有许多问题没有解决。
比如在发布会上被问及软件时,特斯拉工程师甚至回答完全没有准备。
SRAM的问题也急需解决,否则会面临运行过快的风险。
这些都导致特斯拉开发者对系统进行了优化。
此外,特斯拉透露,目前仅部署了3000枚D1芯片。
所以,D1芯片的摊销成本也很高。
D1真的登上神坛了吗。
事实上,在特斯拉AI开放日的第二天,其股价涨幅甚至不及NVIDIA。
可见投资界对马斯克带来的新技术也是非常淡定的。
有人说特斯拉把技术锁在了自己的堡垒里,外界无法评价,不可能知道它真正的优势和局限。
这一次,它是半分析,一个半导体分析和评论网站首席分析师迪伦帕特尔毕业于佐治亚大学特里商学院
参考链接:
声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。