首页 > 科技 > 正文

AI 芯片现状:领导者很难被超越
2019-10-13 01:46:01   来源:东方头条   

第二届 AI HW 峰会于 9 月 17 日至 18 日在硅谷中心举行,近 50 位演讲者向 500 多位与会者(几乎是去年首届参会人数的两倍)发表了演讲。虽然我不可能在一个简短的博客中涵盖所有展示的公司,但我想分享几点看法。

John Hennessy 的观点

计算机架构传奇人物 John Hennessy,Alphabet 董事长兼斯坦福大学前校长。他介绍了半导体的历史趋势,其中摩尔定律和 Dennard Scaling 的过时消亡,引发了对 " 特定领域架构 "(Domain-Specific Architectures)的需求和机遇。这个 "DSA" 概念不仅适用于新颖的硬件设计,也适用于深度神经网络的新软件架构。挑战是创建和训练大量的神经网络,然后优化这些网络,使其在 DSA 上高效运行,无论是 CPU、GPU、TPU,ASIC、FPGA 或 ACAP,用于新输入数据的 " 推理 " 处理。大多数初创公司明智地决定专注于推理处理,而不是训练市场,避开挑战英伟达。

一种新的软件方法,即软件通过迭代学习过程创建 " 软件 "(又称 " 模型 "),需要超级计算性能。为了使这个问题更具挑战性,这些网络模型的规模呈指数级增长,每 3.5 个月翻一番,从而对性能的需求不断提高。因此,现在有 100 多家公司正在开发新的体系结构,以提高性能并降低计算成本。但是,他们的工作量很大。英特尔 Naveen Rao 指出,要实现每年所需的 10 倍改进,架构,芯片,互连,软件和封装方面都需要 2 倍的进步。

图 1:IntelNaveen Rao 表示,处理不断增加的模型复杂性所需的计算能力每年需要提高 10 倍。

观察 #1: 领导者很难被超越

初创企业可以并且将会发明出新颖架构,并在性能上击败老牌公司。但是它们仍需要与大型客户建立合作伙伴关系才能将这些技术大规模推向市场。尽管丰富的体系结构方法令人惊奇,但硬件和必备软件的开发速度都慢得令人沮丧。一年前,数十家创业公司在峰会上用 PowerPoint 展示了他们的计划。今年,数十家创业公司展示了更新的 PowerPoint。但是,硬件在哪里?

事实上,自上次峰会以来,几乎没有新的芯片投入批量生产。高通的 Snapdragon 855 和阿里巴巴的含光 800 是个例外;Snapdragon 当然是一款移动 SoC,而含光只供阿里巴巴内部使用。在某种程度上,延迟的部分原因是这种材料比它最初看起来要难得多(不是所有的芯片吗?)。但我们也要现实一点:20、50 甚至 100 名工程师不会排除 NVIDIA,Google,Xilinx,Microsoft,Amazon AWS 和 Intel 等公司。他们可以创新出令人惊叹的新架构,但执行是工程学,而不是艺术。尽管许多人可以使用很多 TOPS 来构建快速的芯片,但它将 " 吸引 " 研究人员,工程师,大学教授,互联网数据中心和社交网络公司,将这些 TOPS 转变为可用的性能,并为这些新芯片构建和优化模型。

以色列初创公司 Habana Labs 就是一个很好的例子。Habana 在首届 AI HW Summit 峰会上推出了其首款令人印象深刻的芯片 Goya,用于数据中心推理处理。然而,整整一年过去了,尽管 Goya 的性能非常出色,功耗非常低,但它并没有得到市场的认可。这并不是因为 Goya 不能正常工作,而是因为 " 故事的其余部分 " 需要花费一些时间和精力才能完成。

另一个例子是英特尔的 Nervana 神经网络处理器。即使有了创新的设计和世界一流的工程团队,该芯片在经历了 3 年的工作后被搁置。大约一年前,英特尔明智地选择了回到最初,并收集了更多的经验和客户反馈,以弄清楚它如何与 NVIDIA 已有 3 年历史的 V100 TensorCore 技术(仍是业界最快的 AI 芯片)竞争。与初创公司不同的是,英特尔可以耐心等待,直到它能够赢得胜利:英特尔的 Nervana 处理器(NNP-T 和 NNP-I)现在预计将在今年晚些时候提供样品。但是,NVIDIA 也并没有停滞不前——我们应该在不久的将来看到它新的 7nm 设计(也许在 11 月的 SC19,但更有可能在明年春天的 GTC 20。)

展望未来,新芯片的生产部署速度将取决于生态系统投资的深度和广度,以及芯片本身的完成程度。请记住,尽管数据中心正在拥抱异构性,但他们更喜欢我所说的同类异构性 - 选择数量最少的芯片体系结构,以覆盖最广泛的工作负载。否则,由于碎片化的计算领域利用率低,并且管理成本高昂,这样做将无利可图的。

观察 #2: 有许多途径可以提高性能

当我在峰会上聆听演讲者的演讲时,他们所描绘的丰富的创新景观让我感到惊讶。除了使用较低的精度、张量核和 Mac 阵列(乘法累加核心)之外,这里还有几个亮点。顺便说一下,这些都不是正交方法。例如,基于奥斯汀的 Mythic 公司正在使用闪存阵列进行模拟脉冲神经网络的内存计算。

图 2: 为寻找更快更节能的 DNN 处理器而进行的一些创新的简短列表。有些创新,比如量子计算,需要几年时间才能实现。这些体系结构有两个主要类别 : 冯 · 诺依曼(Von Neuman)的大规模并行设计使用代码(内核)来处理数字计算机传统领域中的矩阵运算(先执行,再执行 ……)。更激进的方法通常是将计算和内存融合在一个芯片上。或者使用组成神经网络的权重和激活的数字表示,或者或者使用更类似于人脑生物学功能的模拟技术。模拟技术的风险较高,但可能有很大的前景。

许多数字内存设计都使用数据流计算架构,包括 Cerebras 和 Xilinx Versal,在这些架构中,AI 核心被嵌入带芯片存储器的结构中,这些存储器将激活连接到后续的网络层或从后续的网络层传输。要使这些设计在推理中运行良好,玩家需要开发自定义编译器技术来优化网络,修整网络中未使用的部分,并消除零乘(当然,这里的答案是零)。

图 3: 一个有用且简单的分类法,可以帮助您正确看待公司和架构风格,尽管这忽略了 FPGA。别误会,这些公司中的大多数,无论大小,都会提供一些非常出色的设计。不过,请记住,一个新颖的 DSA 设备构建有用的可扩展解决方案所需的时间和投资规模。为了正确看待这项投资,我怀疑 NVIDIA 每年花费数亿美元来在全球范围内促进其芯片上 AI 研究与开发的创新。没有初创公司能与之相抗衡,因此他们需要通过一些设计上的巨大胜利来帮助他们跨越这个鸿沟。

观察 #3:NVIDIA 仍然领先

NVIDIA 公司数据中心业务部副总裁兼总经理伊恩 · 巴克(Ian Buck)是这次活动的最后一位演讲者。他介绍道,NVIDIA 公司通过其 Saturn V 超级计算机(在 500 强排行榜上名列第 22 位)支持的更快的软件和 DNN 研究,在扩展其推理技术方面取得了进展。Buck 指出设计胜出的理由,包括一些知名度和广泛的用例。

图 4:NVIDIA 能够展示出 12 家采用 GPU 进行推断的公司,以及所有主要的云供应商。

为了帮助推动 GPU 上的推理应用,NVIDIA 公司宣布推出 TensorRT 软件第 6 版,该软件包括一个优化器和运行时支持,可在经过训练的神经网络上部署经过训练的神经网络,以对各种 NVIDIA 硬件进行推理处理。它支持 99 美元的 Jetson 用于嵌入式处理,Xavier 用于自动驾驶汽车,Turing T4 用于数据中心应用等。

其次,亚马逊 AWS 宣布支持 NVIDIA TensorCore T4 GPU,这是一种 75 瓦的 PCIe 卡,可以支持复杂的图像,语音,翻译和建议的复杂推理处理。NVIDIA T4 将成为 Habana Labs 等初创公司和 Intel Nervana 等老牌公司的共同比较目标。虽然我认为新的芯片会带来出色的性能指标,但 NVIDIA 公司将辩称,这些设备在云中的实用性将取决于可用软件的数量以及能否在这些加速器上运行各种模型的用户群。

最终,NVIDIA 证明了 GPU 可以在适当的位置不断发展(与许多初创公司所说的相反),它宣布了用于语言处理的 83 亿参数 Megatron-LM 变压器网络。这是使用 512 个 GPU 在 NVIDIA Saturn V 上开发的,这也显示了拥有自己的 AI 超级计算机时可以做什么。请注意,根据 mlPerf 基准测试,NVIDIA 在短短 7 个月内也将其现有 V100 GPU 的性能提高了一倍。

有些人仍然认为推断是针对轻量级的。但 NVIDIA 公司表明,现代推理用例需要实时延迟的多个模型来满足用户的期望,20-30 个容器协作回答一个简单的口头查询。

图 5: 本幻灯片描述了回答简单口头查询的工作流程

结论

即将到来的寒武纪特定领域架构爆炸令人兴奋,但是它仍然处于 " 很快就会出现在您附近的服务器上 " 的阶段中。当大多数初创公司开始发展人工智能领域时,寒武纪就拥有了很多潜在客户,例如 Google,Amazon、 AWS,百度和阿里巴巴都将有自己的设计投入生产。此外,大型半导体供应商将准备使用新的硅材料来处理更大的网络(如 Megatron-LM)或节能的推理设计。

这并不意味着初创公司应该简单地放弃并将其资本返还给投资者,但是这些初创公司将有很高的门槛,而且利润率很高。否则,他们将需要瞄准利基市场,在这些市场中他们可以以更高的能效和更低的价格获胜。

当然,他们的另一个选择是做大,或者回家,就像 Cerebras 最近在 Hot Chips 上发布的 Wafer-Scale AI Engine。然而,这不是我推荐给胆小的人的方法。我期待看到特定领域的体系结构进一步发展。

相关热词搜索:很难 领导者 芯片 现状 超越

上一篇:音箱跨界新玩法,不能打游戏的音箱不是好电脑,Ditoo像素蓝牙音箱
下一篇:最后一页

泰安知名律师   电话:18053115917
手机:0531-80961678   微信:18053115917   QQ:709581498   邮箱:709581498@qq.com
网站地图 (XML地图 / 百度地图