寒武纪科技(Cambricon)是中科院计算所孵化的一家独角兽公司,2016年推出的寒武纪1A处理器(Cambricon-1A)是世界首款商用深度学习专用处理器,面向智能手机、安防监控、可穿戴设备、无人机和智能驾驶等各类终端设备。
华为官方在Twitter也发布了一张海报,上面写着一句话:“AI不止是语音助手”,预示华为下一代自研的处理器将摆脱束缚,实现更多人机交互的可能性。余承东认为:“人工智能时代的来临,意味着移动互联网进入到智慧互联网时代,用户入口将有由从传统的APP,向智慧助理+API入口发展。未来的智能手机将成为真正的智慧手机,到2025年超过90%的智能终端用户将从个性化、智慧化的智能个人助理服务中获益。”
全球智能芯片领域“抢占赛道”白热化
而放眼全球,科技巨头对于智能芯片追逐和布局已经到了白热化的地步:
1. 人工智能显卡芯片总龙头英伟达股价2年8倍,继续领涨美国科技股;
2. 2016年7月20日,软银宣布将以243亿英镑(约合320亿美元),43%的溢价收购移动端芯片总龙头ARM,英国芯片设计公司ARM;
3. 2016年9月,英特尔收购视觉芯片公司Movidius;
4. 2017年3月,英特尔宣布以153亿美元收购以色列无人驾驶Mobileye;
5.谷歌自主研发人工智能数据中心芯片TPU,搭载AlphaGo应用,横扫人类围棋界
“芯片”是站在整个电子产业链最顶端的行业,在英特尔芯片垄断PC时代、ARM芯片称霸移动互联网时代的历史进程中,芯片永远都是作为产业链最上游,是行业先导指标。核心芯片决定一个计算时代的基础架构!当今谷歌、微软、IBM、Facebook、英伟达等IT巨头之所以纷纷投巨资加速人工智能核心芯片的研发,都是意图从源头上掌控核心芯片架构,取得人工智能计算时代的主导权。未来3-5年,随着人工智能定制芯片的突破,所有行业都将实现人工智能化!届时,智能化市场之规模和容量将数十倍于现今的移动互联网市场。
在PC时代处于霸主地位的X86架构和移动互联网时代垄断全行业的ARM架构的发展历程表明,核心芯片决定了一个新的计算平台的基础架构和发展生态,新的计算时代来临之时往往是新兴企业弯道超车的绝佳机遇,目前使用的GPU、FPGA均非人工智能定制芯片,天然存在局限性,人工智能专用芯片对于IT巨头和初创企业是同一起跑线的蓝海。
目前以深度学习为代表的人工智能新计算需求,主要采用 GPU、FPGA,AISC定制化芯片等已有适合并行计算的通用芯片来实现加速。
三种主流人工智能芯片方向:GPU, FPGA,AISC定制
GPU:以英伟达为主导的GPU芯片,作为图像处理器,设计初衷是为了应对图像处理中需要大规模并行计算。因此,其在应用于深度学习算法时,存在应用过程中无法充分发挥并行计算优势,硬件结构固定不具备可编程性,运行深度学习算法能效远低于 FPGA。
FPGA:即现场可编辑门阵列,是一种新型的可编程逻辑器件。其设计初衷是为了实现半定制芯片的功能,即硬件结构可根据需要实时配臵灵活改变。目前的FPGA 市场由 Xilinx 和 Altera主导,两者共同占有 85%的市场份额,其中Altera 在 2015 年被 intel 以 167 亿美元收购(此交易为 intel 有史以来涉及金额最大的一次收购案例),另一家Xilinx 则选择与 IBM 进行深度合作,背后都体现了 FPGA 在人工智能时代的重要地位。
对于机器学习算法的性能和功耗的角度来说:FPGA 可以开发出为机器学习算法专用的架构,但是 FPGA 本身的峰值性能较 GPU 要差很多。
FPGA 实现的机器学习加速器在架构上可以根据特定应用优化所以比 GPU 有优势,但是 GPU 的运行速度(>1GHz) 相比 FPGA 有优势 (~200MHz)。所以,对于平均性能,看的就是 FPGA 加速器架构上的优势是否能弥补运行速度上的劣势。
AISC定制:ASIC是指依产品需求不同而定制化的特殊规格集成电路,由特定使用者要求和特定电子系统的需要而设计、制造。以谷歌TPU为代表的AISC定制化芯片(包括4个芯片能够提供180TFLOPs浮点运算的计算能力)就是一种最大化性能需求和成本能耗平衡的重要手段。
打个形象的比方,我们设计一款人工智能芯片就像设计一个某种功能的房子,那么我们有三种选择:
1. 买一个已有的比较通用的房子,然后改变内部的软件设施来让这个房子达到我们需要的功能,优点是对于用户代价小,但肯定没法达到性能最大化,这就对应了通用型GPU芯片;
2. 买一个半成品的房子,我们可以随时改变房子里面的各个房间格局,优点是相对第一种房子性能肯定会更贴近我们需求,而且也保证了一定灵活性,如果需求有改变,可以随时再改变内部房间格局,这对应了FPGA芯片;
3. 完全一块砖一块砖按自己需求重新搭建一个房子,这种肯定性能上最能贴近我们的需求,但是一次性投入太大,如果不是确定性需求需要冒风险,这就对应ASIC芯片。
所以我们可以不难理解为什么大部分创业公司都会采用英伟达GPU这类生态成熟的通用芯片,为什么在人工智能算法没有最终成熟需要不断改进时FPGA会出现在一些应用领域,而谷歌这类财大气粗自己需求量很大的公司自己用ASIC的TPU。