- +1
谷歌“强化学习”攻克AI芯片设计周期难题
力琴 机器之能

编译 | 力琴
众所周知,人工智能三要素算法、算力和数据,其中影响算力的重要因素就是 AI 芯片。AI 芯片也被称为 AI 加速器或计算卡,即专门用于处理人工智能应用中的大量计算任务的模块 (其他非计算任务仍由 CPU 负责)。人工智能研究组织 OpenAI 曾指出,「高级人工智能所需的计算能力每三个半月就会翻一番」。
以往设计芯片需要花费数年的时间,这与日益迭代的 AI 算法形成供求矛盾。
此前,两大 EDA 巨头 Synopsys 和 Cadence 在芯片设计工具中加入 AI,以加速生产芯片。EDA 公司主要做的事情就是给芯片公司开发一系列设计工具。作为集成电路芯片产业链的最上游,他们承担着高技术含量的工作。芯片设计涉及布局规划、物理验证、模拟仿真以及硬件描述语言等方面的几十、上百种设计工具。
尤其在布局规划中,芯片工程师们要用专有工具给芯片板上的数亿个晶体管「排兵布阵」,而单靠人力是无论如何都做不到的。布局规划就是放置芯片的宏单元模块,在总体上确定各种功能电路的摆放位置,并直接影响芯片最终的面积。
EDA 巨头之一 Synopsys 推出的是用于芯片设计的自主 AI 应用程序——DSO.ai,通过获取由芯片设计工具生成的大数据流,并用其来探索搜索空间、观察设计随时间的演变情况,同时调整设计选择、技术参数和工作流程,以指导探索过程向多维优化的目标发展。
Cadence 也推出了新版 Cadence 数字全流程,这一新版的流程采用了支持机器学习(ML)功能的统一布局布线和物理优化引擎等多项业界首创技术,吞吐量最高提升 3 倍,PPA 最高提升 20%。通过这两家 EDA 巨头的布局,AI 应用于 AI 芯片的趋势已经显现。
而为了能够保证设计出的芯片能够更好地满足快速迭代的算法。近日,Google 的高级研究科学家 Azalia Mirhoseini 和高级软件工程师 Anna Goldie 在一篇题为《Placement Optimization with Deep Reinforcement Learning》(基于深度强化学习的布局优化)的研究论文中提出一种强化学习算法,用于芯片的设计布局环节,以缩短芯片设计周期。
这篇论文于 3 月 18 日发布在 arxiv 上。他们在论文中提到,「我们相信,AI 将能够缩短芯片的设计周期,在硬件与 AI 算法之间建立共生关系,并进一步推动彼此的进步。」
谷歌目前已经将经验应用于实际环节,可以在不到 24 小时的时间内为 Google Tensor 处理单元完成设计,在功耗、性能、面积(PPA)都超过了人类专家数周的设计成果。
一
不到24小时就搞掂Tensor处理单元
通常,工程师最多可以花费 30 个小时来配置单个芯片布局平面图或芯片平面图。这个复杂的 3D 设计问题需要在受约束的区域中跨多个层配置数百个甚至数千个组件。工程师将手动设计配置,以最大程度地减少组件之间使用的电线数量,以提高效率。
因为这很费时,所以这些芯片只能使用 2 至 5 年。但是,随着机器学习算法的逐年提高,对新芯片架构的需求也不断增加。
面对这些挑战,Google 的研究人员 Anna Goldie 和 Azalia Mirhoseini 研究了一种强化学习算法。这种强化学习算法使用正反馈和负反馈来学习复杂的任务。为此,研究人员设计了一种所谓的「奖励功能」来根据算法的设计性能对其进行惩罚和奖励。然后,该算法产生了成千上万的新设计,每一个设计都在不到一秒钟的时间内完成,并使用奖励函数对其进行了评估。最终,它为如何放置这些芯片组件创造了最佳策略。


该算法在对芯片设计进行了足够长时间的学习之后,它可以在不到 24 小时的时间内为 Google Tensor 处理单元完成设计,在功耗、性能、面积(PPA)都超过了人类专家数周的设计成果。
经过测试,研究人员使用电子设计自动化软件检查了他们的设计,发现使用 AI 处理过的平面布置图比人工工程师设计的有效得多。此外,该系统还可以教导工作人员一两个新的技巧。
二
用AI设计芯片的良性循环
自 2015 年初以来,Google 就已在其数据中心部署了 Google 的 Tensor 处理单元,即 Tensor Processing Unit(TPU 芯片)。TPU 是由 Google 设计的定制机器学习芯片,用于成功执行其常规机器学习工作负载。
目前谷歌已经形成 TPU 矩阵,包括 TPU、TPUv2、TPUv3、Edge TPU、TPUv2 pod、TPUv3 pod。
早在 2016 年 5 月的谷歌 I/O 大会上,谷歌公布其自主设计的 TPU;2017 年谷歌 I/O 大会,谷歌宣布正式推出第二代 TPU 处理器。在谷歌 2018 年 I/0 大会,谷歌发布第三代 TPU 处理器,紧接着 2018 年在 Next 云端大会,发布 Edge TPU 芯片抢攻边缘计算市场。
Edge TPU 是功能强大的云 TPU(Tensor Processing Unit)处理器的简化版本,是专为在边缘运行 TensorFlow Lite ML 模型而设计的 ASIC 芯片。Edge TPU 是对 CPU、GPU、FPGA 以及其他在边缘运行 AI 的 ASIC 解决方案的补充。它将使传感器和其他设备能够更快地处理数据,并且极大突破了边缘计算设备的狭小空间和功率限制。

直到 2019 年 5 月,谷歌发布其第二代和第三代可扩展云端超级计算机 TPU Pod。第二代 TPU Pod 能够容纳 512 个内核,实现每秒 11.5 千万亿次浮点运算;第三代 TPU Pod 速度则更快,可实现每秒超过 100 千万亿次浮点运算。
Google 在 TPU 系列取得的进步,凸显谷歌拥有强大的计算能力。鉴于谷歌可以在不到 24 小时的时间内为 Google Tensor 处理单元完成设计,也意味着这些芯片能够更快开发出来。
早在今年 2 月中旬,据 ZDnet 报道,谷歌 AI 研究负责人杰夫·迪恩(Jeff Dean)就公开表示,Alphabet 的 Google 部门正在尝试人工智能 (https://www.cnet.com/tags/artificial-intelligence/) 程序,以推进专用芯片的内部开发,以加速其软件。这个过程可能有助于 Google 削减成本并产生更有效的设计。
他在旧金山举行的年度技术研讨会国际固态电路会议上发表主题演讲,并向听众介绍如何使用机器学习程序布置计算机芯片的电路。迪恩表示,一个深度学习的神经网络,只需花 24 个小时就找到一个更好的解决方案,而人类设计师要花费 6 到 8 周才得以解决。
他表示,这种深度学习程序类似于谷歌的 DeepMind 为征服围棋而开发的 AlphaZero 程序。与 AlphaZero 一样,芯片设计程序也是一种被称为强化学习的形式。为了达到一个目标,程序会尝试不同的步骤,看看哪些步骤能带来更好的效果。
对于谷歌而言,利用 AI 设计 AI 芯片是一次创新的尝试。使用 AI 设计芯片也会产生良性循环,其中 AI 使芯片变得更好,然后那些经过改进的芯片将增强 AI 算法的功能,依此类推。
在整个领域的历史中,人工智能的进步与芯片设计的进步息息相关。希望该算法加快芯片设计过程,并改进芯片结构,从而加速 AI 行业的发展。
原标题:《Tensor设计不到24小时搞掂!谷歌「强化学习」攻克AI芯片设计周期难题》
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。





- 报料热线: 021-962866
- 报料邮箱: news@thepaper.cn
互联网新闻信息服务许可证:31120170006
增值电信业务经营许可证:沪B2-2017116
© 2014-2026 上海东方报业有限公司




