微软亚洲研究院的NNFusion和阿里巴巴云的HALO开源项目都希望从AI编译的角度避免重复性的工作,让用户在GPU和其他AI加速器之间,尤其是GPU和IPU之间,尽可能顺利地迁移。
也就是说,NNFusion和HALO上跨AI框架,不仅可以集成TensorFlow生成的模型,还可以集成PyTorch或其他框架生成的模型。向下的用户只能通过NNFusion或者HALO的接口在不同的AI芯片上训练或者推理。
这种调度框架不仅可以降低迁移的难度和成本,还可以提高性能。根据OSDI 2020年发布的研究成果,研究人员对NVIDIA和AMD以及Graphcore IPU的GPU进行了各种测试,GPUs的训练模型提升了3倍。
当然,这样的好处仍然需要开源社区和硬件提供商的密切合作,比如Graphcore与微软亚洲研究院和阿里巴巴云的合作。
增加迁入IPU的便利性
—
“我们与阿里巴巴云HALO和微软NNFusion紧密合作。这两个项目支持的最重要的平台是GPU和IPU。”陆涛说,“目前在阿里巴巴云HALO的GitHub中已经有了一个完整的IPU的支持代码odla_PopArt,下载开源代码已经可以在IPU使用了。”
没有主流机器学习框架的支持,可以方便地使用IPU。Graphcore最近发布了本月针对IPU和白杨SDK 1.4的PyTorch产品版本。PyTorch是AI研究员社区中最热门的机器学习框架,它与TensorFlow是两个世界。
PyTorch对IPU的支持引起了机器学习大神Yann LeCun的注意。这种支持之所以受到广泛关注,是因为它对IPU的广泛应用具有积极意义。
Graphcore中国工程总工程师、AI算法科学家陈进说:“在PyTorch的代码中,我们引入了一个轻量级的接口,叫做PopTorch。通过这个接口,用户可以基于他们当前的PyTorch模型进行轻量级封装,然后可以在IPU和CPU上无缝运行这个模型。”
它还可以更好地与HALO和NNFusion开源社区合作。陈进告诉雷锋。“不同的框架有不同的中间呈现格式,即IR。我们希望将不同的IR格式转换为我们通用的PopART计算图表,这也是兼容性最关键的一点。”
据悉,IPU支持TensorFlow,就像TPU一样,通过TensorFlow XLA后端访问TensorFlow框架,相当于把一个TensorFlow计算图转换成XLA计算图,然后通过访问XLA计算图下沉到PopART的计算图中,然后通过编译生成可以在IPU执行的二进制文件。
金炜认为,“每个层次图的转化是一个非常关键的因素,需要一些定制化的工作,因为一些通用的算子也是基于IPU开发的,这是我们的特殊工作。”
除了增加对不同AI框架和AI框架中用户定义操作符的支持,增强对模型覆盖的支持,降低迁移成本。
陈进介绍,对于训练模型的迁移,如果是迁移一个不太复杂的模型,一个开发人员一周就可以完成,而一个比较复杂的模型需要两周。如果是迁移推理模型,通常只需要1-2天就可以完成。
IPU正在挑战图形处理器。
云芯片市场或发生变化
—
在AI时代,软硬件融合的重要性更加突出。陆涛说:“AI处理器公司大致可以分为三类。一个是在讲PPT的公司,一个是有芯片的公司,一个是真正接近或者有软件的公司。”
软件有进步的Graphcore,硬件的性能是否也能给用户足够的切换动力?本月,Graphcore发布了基于MK2 IPU的IPU-M2000的几个模型的训练Benchmark,包括典型CV模型ResNet、基于包卷积的ResNeXt、EfficientNet、语音模型、BERT-Large等自然语言处理模型,以及MCMC等传统机器学习模型。
有一些大的改进。例如,与A100 GPU相比,IPU-M2000的ResNet50吞吐量可提升2.6倍,ResNeXt101可提升3.6倍,EfficientNet可提升18倍,Deep Voice 3可提升13倍。
值得一提的是,IPU-POD64次列车的BERT-Large比一辆DGX-A100快5.3倍,比三辆DGX-A100快1.8倍。一辆IPU-POD64和三辆DGX-A100的动力和价格基本相同。
强调IPU培养BERT-Large不仅仅是因为它是继NVIDIA GPU和谷歌TPU之后发布的第三款可以培养这种模式的AI芯片,更是因为BERT-Large模式对当前芯片落地的意义。
陆涛说:“今天,BERT-Large模型是工业和研究的一个很好的基准,在未来至少一年内,它将是一个在线模型水平。”
不过这个成绩目前还不是MLPerf发布的成绩,正式成绩还需要等Graphcore明年上半年正式参加MLPerf性能测试。Graphcore最近宣布,它已经加入了MLCommons,这是MLPerf的管理组织。
“我认为我们加入MLCommons并提交MLPerf表明,IPU将处于GPU的核心领域和GPU的前沿PK,这表明IPU不仅可以做GPU做不到的事情,还可以在GPU最擅长的领域实现更好的TCO。同等甚至更好的表现。”陆涛说。
微软亚洲研究院、阿里巴巴云和Graphcore都在将GPU一起推向IPU。什么时候会破?