网站首页

产品中心

智能终端处理器 智能云服务器 软件开发环境

新闻中心

关于星空体育

公司概况 核心优势 核心团队 发展历程

联系星空体育

官方微信 官方微博
主页 > 新闻中心

AI芯片星空体育发展历史及最新趋势

发布时间:2024-05-09 16:23浏览次数: 来源于:网络

  ,而AI芯片又有那些常见分类及未来可能发展方向。接下来就逐一为大家介绍不同类型的AI芯片用途及优缺点。

  人工智能自1950年发展至今已经过多次起伏,从最简单的「符号逻辑」开始,历经「专家系统」、「机器学习」、「数据采矿」等多个时期。直到2012年Alex Krizhevsky和其导师Geoffrey Hinton推出基于类神经网络扩展出来的「卷积神经网络」(Convolutional Neural Network, CNN) 「AlexNet」,以超出第二名10%正确率的优异成绩赢得ImageNet大赛后,「深度学习」(DeepLearning, DL) 架构正式开启新一波的AI浪朝。

  一个小型模型少则数千个神经元、数万个权重值,多则可能数十万个神经元、数十亿个权重值。以常见手写数字(0-9)辨识小型CNN模型LeNet5为例(如Fig.1所示),它约有6万多个权重,当模型推论(Inference)一次得到答案时,约需经过42万多次MAC运算。而像大型的VGG16模型则有1.38亿个权重,推论一次则约有150多亿次MAC计算。

  一般来说模型的初始权重值通常都不太理想,所以根据推论后得到的答案,必须再反向修正所有权重值,使其更接近正确答案。但通常一次是很难到位的,所以要反复修正直到难以再调整出更接近正确答案为止,而这个过程就称为「模型训练」(Model Training) 。

  通常这样修正的次数会随着数据集(Dataset)的大小、权重的数量及网络结构的复杂度,可能少则要几千次,多则要几万次、甚至更多次数才能收敛到满意的结果。由此得知训练模型所需的计算量有多么巨量了。

  Fig. 1 手写数字辨识LeNet-5卷积神经网络模型及卷积、矩阵乘法示意图。

  在AI芯片领域中主要分为训练用及推论用。前者重点在效能,所以功耗及成本就不太计较。而后者会依不同应用场合会有高效能、高推论精度、低功耗、低内存空间、低成本等不同需求。尤其在Edge AI上更强调低功耗、低记体体空间及低成本需求,而效能表现通常就只能迁就不同硬件表现。

  近几年手机成长迅速,有很多芯片为了整体表现,因此整合了很多功能在同一颗芯片上称为SoC (System on Chip),包含CPUDSPGPU, NPU及像影音编译码的功能等。而FPGA的开发板也有反过来不过全部都自己设计,而把常用的CPU, DSP, AISC等整合进来,让使用者能更专心开发自己所需的特殊功能,包含AI等应用。

  CPU可运行各种形式的AI模型,不限矩阵运算类型,弹性极高,但一次只能执行一道运算指令,如一个乘法或一个加法或一个乘加指令,效能极低。若搭配单指令流多数据流(Single Instruction Multiple Data,SIMD)指令集,如INTEL的AVX、ARM的NEON、RISC-V的P扩充指令集,则可将32/64/128/256/512bit拆分成8/16/32 bit的运算,如此便能提高4~64倍的运算效能。另外亦可透过提高工作频率频率(MHz)或增加核心数来增加指令周期。

  在MCU / MPU尚未有MAC及SIMD指令集前,当遇到需要对数字声音或影像进行时间域转频率域计算如快速傅立叶变换(Fast Fourier Transform, FFT),常会遇到大量定点数或浮点数的的矩阵计算,此时就需要专用数字信号处理器(Digital Signal Processor, DSP)来加速计算。

  此类处理器在AI专用芯片未出现前,亦有很多被拿来当成浮点数矩阵加速计算使用,如Qualcomm Hexagon, Tensilica Xtensa, Arc EM9D等系列。它在开发上弹性颇高,价格居中,但仅适用于矩阵计算类的应用,在MCU / MPU开始加入MAC、SIMD指令集及GPU技术大量普及后,逐渐被取代,目前大多只有少数独立存在,大多依附于中大型微处理器中,或者整合至小型MCU芯片中代替NPU的工作。

  图形处理器(Graphics Processing Unit, GPU)是用于处理计算机上数字绘图用的专用芯片,而其中最主要的功能就是在处理矩阵运算,因此它能将CPU一次只能处理一个MAC的计算变成一次处理数百到数万个MAC来加速运算,同时可以分散CPU的计算负荷。早期有些科学家发现其特性,因此开发出GPGPU (General Purpose computing on Graphics Processing Units)函式库来加速科学运算。

  由于GPU原本是用于计算机绘图,有大量电路、处理时间、耗能是用来处理绘图程序,因此后续许多AI芯片的设计理念就是保留计算部份而去除绘图处理部份,来提升芯片面积的有效率。目前使用GPU开发的弹性尚佳,但不适用于非大量矩阵计算的模型及算法。

  另外为了容纳更高的计算平行度,一次能处理更多的乘加运算,因此芯片的制程也随之越来越小(从数百nm到数nm)、晶体数量和芯片单价也越来越高,较适合大模型训练及高速推论用。

  一般开发如影像分类、声音辨识、对象侦测、影像分割等AI专用型应用甚至是MCU / MPU等通用型应用芯片前,为确保投入像台积电等晶圆代工厂生产前没有电路及计算功能的问题,通常除了会使用软件进行仿真分析外,亦会使用FPGA (Field Programmable Gate Array)来进行硬件验证。常见的供货商有Xilinx(已被AMD收购)、Altera(已被Intel收购)、Lattice等。

  FPGA除了可以验证IC的功能外,另外由于其超高弹性,所以可以排列组合出超过CPU / DSP / GPU 功能的应用,且可以用最精简的电路来设计,以达到最低功耗、星空体育最高执行效能。但此类型的开发非常困难,需要非常专业的工程师才有办法设计,且需配合相当多的硅智财(Semiconductor intellectual property core,简称IP),因此大型FPGA的单价及开发成本是非常高的。

  当使用FPGA验证后,就可以将特殊应用集成电路(Application Specific Integrated Circuit, ASIC)送到晶圆厂及封装厂加工了。完成后的芯片就可独立运作,优点是可大量生产让单价大幅降低,能满足市场需求,同时拥有极高的执行效能和最低的功耗。但缺点是没有任何修改弹性,万一设计功能有瑕疵时就有可能需要全部报废。因此当没有明确市场及需求量时,通常会使用如CPU或GPU或CPU+NPU等通用型解决方案来取代。

  「神经网络处理单元」 (Neural Network Processing Unit, NPU) 或称「深度学习加速器」(Deep Learning Accelerator, DLA) 是专门用于处理深度学习神经网络运算的特殊应用集成电路(ASIC)。它较接近GPU的用法,所以可以一次处理很多的乘加运算(MAC)。但因为只负责乘加计算,无法处理大量数据搬移及逻辑性计算,所以通常必须搭配CPU使用。

  目前AI应用越来越强大,模型权重数量已从数万个(如LeNet-5)激增到近一千多亿个(如GPT3),传统NPU、TPU及FPGA的速度已不够快,功耗也大的惊人,因此近来开始有厂商在开发新的解决方案,企图以更接近人脑运行方式或者减少在计算时权重大量搬移问题,甚至使用光子进行计算来进行改善。以下就简单介绍几种常见方案,如Fig. 3所示。

  可依不同需求以软件重构位宽度、MAC算子结构、矩阵计算结构、混合精度计算等。主要代表厂商如下:

  主要将内存和计算单元整合在一起,减少计算时海量存储器搬移浪费的时间。主要括下列几种技术:

  历经近十多年的发展,AI加速芯片不论是在云端服务器所需要的大型模型训练或是模型高速推论,或者边缘装置所需小而美、高性价比的推论单元,都已有长足的进步。相信随着半导体技术的提升,未来Edge AI能运行的模型大小、复杂度及所需的功耗都能有更棒的表现,能适用的AI应用也会更加宽广。

下一篇:星空体育AI算力芯片:以“芯”助先进算法以“算”驱万物智能
上一篇:星空体育什么是人工智能(AI)?

咨询我们

输入您的疑问及需求发送邮箱给我们