数智资源网
首页 首页 大数据 查看内容

Google第四代TPU 细节曝光!MLPerf榜单决战英伟达A100

木马童年 2020-10-31 08:30 74 0

2018年,谷歌在其年度 I/O 开发者大会上宣布了第三代产品,在今天上午刚刚揭开了第四代TPU产品的神秘面纱,该产品目前尚处于研发阶段。MLPerf 发布的一套人工智能性能基准指标显示,第四代 TPU集群大幅超越了第三代 ...

2018年,谷歌在其年度 I/O 开发者大会上宣布了第三代产品,在今天上午刚刚揭开了第四代TPU产品的神秘面纱,该产品目前尚处于研发阶段。

MLPerf 发布的一套人工智能性能基准指标显示,第四代 TPU集群大幅超越了第三代 TPU的能力,甚至在目标检测、图像分类、自然语言处理、机器翻译和推荐基准等方面,部分能力超越了英伟达发布的 A100。

Google第四代TPU 细节曝光!MLPerf榜单决战英伟达A100MLPerf是致力于机器学习硬件、软件和服务的训练和推理性能测试的组织,在AI业界颇受芯片巨头的关注。MLPerf组织囊括了该行业中的70多个知名企业和机构,包括英特尔、英伟达、Google、亚马逊、阿里巴巴和百度、微软、斯坦福大学在内。

Google第四代TPU 细节曝光!MLPerf榜单决战英伟达A100

谷歌第四代 TPU 的平均性能是上一代2.7 倍

没有最强,只有更强!

谷歌称其第四代 TPU 提供的每秒浮点运算次数是第三代 TPU 的两倍多,第三代 TPU 的每秒矩阵乘法相当于1万亿次浮点运算。

在内存带宽方面,也表现出了「显著」的增长,芯片从内存中获取数据进行处理的速度、执行专门计算的能力都有所提高。谷歌表示,总体而言,第四代 TPU 的性能在去年的 MLPerf 基准测试中比第三代 TPU 的性能平均提高了2.7倍。

TPU是谷歌在2015年推出的神经网络专用芯片,为优化自身的TensorFlow机器学习框架而打造,跟GPU不同,谷歌TPU是一种ASIC芯片方案,属于专门定制的芯片,研发成本极高。

谷歌的处理器是专门为加速人工智能而开发的应用集成电路(asic)。它们是液体冷却的,可以插入服务器机架; 可以提供高达100petaflops 的计算能力; 还可以支持谷歌产品,如谷歌搜索、谷歌照片、谷歌翻译、谷歌助理、谷歌邮箱和谷歌云计算人工智能API。

谷歌人工智能软件工程师 Naveen Kumar 在一篇博客文章中写道: 「这表明我们致力于推进机器学习研究和工程的规模化,并通过谷歌开源软件、谷歌产品和谷歌云将这些进步传递给用户」。

机器学习模型的快速训练对于研究和工程团队来说至关重要,意味着团队可以提供以前无法实现的新产品、服务和研究突破。」

ImageNet图像分类任务,256个TPU1.82分钟完成训练

今年的 MLPerf 结果显示,谷歌的第四代TPU几乎无可挑剔。在一个图像分类任务中,用 ImageNet 数据集训练ResNet-50 v1.5达到75.90% 的准确率,256个第四代 TPUs 可以在1.82分钟内完成。

这个速度是什么概念,几乎相当于768个英伟达 A100显卡和192 个AMD Epyc 7742 CPU 内核(1.06分钟)和512个华为 ai 优化的 ascen910芯片与128个英特尔至强铂金8168内核(1.56分钟)的速度。

第四代TPU的训练时间为0.48分钟,打败了第三代TPU,但这或许只是因为第三代是4096个TPU串联的原因。

第四代 TPU 在运行 Mask R-CNN 模型时获得了最强的效果,Mask R-CNN 模型是用于自动驾驶等领域的图像分割 AI,其训练速度是第三代TPU的 3.7 倍。

Google第四代TPU 细节曝光!MLPerf榜单决战英伟达A100

目标检测任务四代TPU略微领先

在 MLPerf 的「重量级」目标检测类别中,第四代 TPU略微领先。一个参考模型(Mask R-CNN)用 COCO 语料库在256个第四代TPU上进行9.95分钟的训练,接近512个第三代TPU的时间(8.13分钟)。

在WMT 英德翻译数据集上训练 Transformer 模型,256个第四代 TPU 在0.78分钟内完成。4,096个第三代 TPU要发花费 0.35分钟,480个 Nvidia A100(外加256个 AMD Epyc 7742 CPU 内核)要花费0.62分钟。

第四代TPU在维基百科等大型语料库上训练 BERT 模型时也表现良好。使用256个第四代 TPU的训练时间为1.82分钟,仅比使用4096个第三代 TPUs 的0.39分钟稍慢。同时,使用 Nvidia 硬件0.81分钟就能完成训练,但需要2048块 A100卡和512块 AMD Epyc 7742 CPU 内核。

的 MLPerf ,包括新的和修改过的基准测试--推荐系统和强化学习,对于 TPU来说是喜忧参半。

由64个第四代 TPU 组成的集群在推荐任务中表现良好,花了1.12分钟在 Criteo AI 实验室的 1TB 点击率日志数据集训练了一个模型,而八块 Nvidia A100卡和两块 AMD Epyc 7742 CPU 核心用了3.33分钟才完成训练。

但英伟达在强化学习方向上取得了领先,用256块 A100卡和64块 AMD Epyc 7742 CPU 核心,用了29.7分钟,成功训练了一款简化版围棋模型,获胜率达到50% ,而256个第四代 TPU一共花了150.95分钟。

需要注意的一点是,Nvidia 的硬件基准是 Facebook 的 PyTorch 框架和 Nvidia 自己的框架,而不是 Google 的 TensorFlow,第三代和第四代的 TPU 都使用了 TensorFlow、 JAX 和 Lingvo。虽然这可能对结果有些影响,但在基准测试中还是能看出第四代 TPU 有着明显优势。

参考链接:

https://venturebeat.com/2020/07/29/google-claims-its-new-tpus-are-2-7-times-faster-than-the-previous-generation/

声明:文章收集于网络,版权归原作者所有,为传播信息而发,如有侵权,请联系小编删除,谢谢!

欢迎加入本站公开兴趣群

软件开发技术群

兴趣范围包括:Java,C/C++,Python,PHP,Ruby,shell等各种语言开发经验交流,各种框架使用,外包项目机会,学习、培训、跳槽等交流

QQ群:26931708

人工智能 目标检测 图像分类 自然语言处理 机器翻译 机器学习
0
为您推荐
HIVE数据仓库完美实战课程,资源教程下载

HIVE数据仓库完美实战课程,资源教程下载

课程名称【快速掌握HIVE视频教程】HIVE数据仓库完美实战课程课程目录├第一周:hive基…...

尚硅谷大数据Flink技术与实战,资源教程下载

尚硅谷大数据Flink技术与实战,资源教程下载

课程名称尚硅谷大数据Flink技术与实战课程目录理论_Flink基础 001__Flink理论_Flink…...

廖雪峰-2019大数据分析精品资料价值1980元,资源教程下载

廖雪峰-2019大数据分析精品资料价值1980元,资源教程

课程介绍:廖雪峰大神历时3个月打磨出来的《数据分析必备技能》的视频学习资料,由浅…...

尚硅谷-大数据项目之电商数仓教程下载

尚硅谷-大数据项目之电商数仓教程下载

课程介绍:本课程以国内电商巨头实际业务应用场景为依托,对电商数仓的常见实战指标以…...

小码哥李明杰Java版《恋上数据结构与算法》 ,资源教程下载

小码哥李明杰Java版《恋上数据结构与算法》 ,资源教

课程目录01-学前须知01-为什么要学习数据结构与算法02-编程语言的选择03-课程大纲04-…...

阿里云大数据分析师ACP认证视频教程下载

阿里云大数据分析师ACP认证视频教程下载

课程介绍阿里云大数据行业认证-大数据分析师认证(ACP-Alibaba Cloud Certified Prof…...

恋上数据结构与算法(第二季),视频教程下载

恋上数据结构与算法(第二季),视频教程下载

课程介绍:课程由MJ老师和名企算法大咖共同研发,在保证易懂的同时确保课程的系统全面…...

社交网络分析与挖掘,视频教程下载

社交网络分析与挖掘,视频教程下载

课程介绍:社交网络和数据挖掘是计算机学科相关研究中的热点,其具体研究涵盖理论、关…...