人工智能芯片
作者:孤寂的黑暗
项深度学习工程的搭建,可分为训练(tra
g)和推断(
fere
e)两个环节:训练环境通常需要通过大量的数据输入,或采取增强学习等非监督学习方法,训练出个复杂的深度神经网络模型。训练过程由于涉及海量的训练数据(大数据)和复杂的深度神经网络结构,需要的计算规模非常庞大,通常需要g集群训练几天甚至数周的时间,在训练环节g目前暂时扮演着难以轻易替代的角se。
推断(
fere
e)环节指利用训练好的模型,使用新的数据去“推断”出各种结论,如视频监控设备通过后台的深度神经网络模型,判断张抓拍到的人脸是否属于黑名单。虽然推断环节的计算量相比训练环节少,但仍然涉及大量的矩阵运算。在推断环节,除了使用或g进行运算外,fga以及as均能发挥重大作用。
fga(可编程门阵列,feldrgraalegatearray)是种集成大量基本门电lu及存储器的芯片,可通过烧入fga配置文件来来定义这些门电lu及存储器间的连线,从而实现特定的功能。而且烧入的nei容是可配置的,通过配置特定的文件可将fga转变为不同的chu理器,就如块可重复刷写的白板样。
因此fga可灵活支持各类深度学习的计算任务,xing能上根据百度的项研究显示,对于大量的矩阵运算g远好于fga,但是当chu理小计算量大批次的实际计算时fgaxing能优于g,另外fga有低延迟的特点,非常适合在推断环节支撑海量的用户实时计算请求(如语音云识别)。
as(专用集成电lu,at
sef
tegratedrt)则是不可配置的高度定制专用芯片。特点是需要大量的研发投入,如果不能保证出货量其单颗成本难以下降,而且芯片的功能旦liu片后则无更改余地,若市场深度学习方向旦改变,as前期投入将无法回收,意味着as具有较大的市场风险。但as作为专用芯片xing能高于fga,如能实现高出货量,其单颗成本可做到远低于fga。
从市场角度而言,目前人工智能芯片的需求可归纳为三个类别:首先是面向于各大人工智能企业及实验室研发阶段的训练环节市场;
其次是数据中心推断(
fere
e
ld),无论是亚马逊alexa还是出门问问等主liu人工智能应用,均需要通过云端提供服务,即推断环节放在云端而非用户设备上;
第三种是面向智能、智能安防摄像头、器人无人、自动驾驶、vr等设备的设备端推断(
fere
e
deve)市场,设备端推断市场需要高度定制化、低功耗的人工智能芯片产品。如传闻华为即将在ate0的麒麟970中搭载寒武纪,旨在为端实现较强的深度学习本地端计算能力,从而支撑以往需要云端计算的人工智能应用。
我们围绕上述的分类标准,从市场及芯片特xing两个角度出发,可gou画出个人工智能芯片的生tai体系,整个生tai体系分为训练层、云端推断层和设备端推断层。
本章已完成!