< --="" -="">>< -="">也被称为是 ,是的,架构延续自其 架构,扩展了计算单元和的数量>< -="">其特点为:>,推测此时工艺为工艺提供 或 使用的 指令集,支持 /支持多核并发,以支持更强的计算能力使用/进行数据访问兼容的软件工具集< -="">其架构与 的图像处理极为类似>< -="">注意看:的分拆方式与不同,这里是否意味着其对原来的分拆方式有些不同看法呢?>< ="--">>< -="">家的最新加速器是>< -="">官方介绍材料比较简单:>专为矩阵操作/全连接/激活/池化层优化的引擎允许用户自定义扩展支持/量化最大支持 ×,/// 可配置 +< -="飞狗">注意看:和和加速器直接没有共享内存>< -="">:这个架构感觉没有什么特别让人眼前一亮的东西>< ="--">>< -="">>< -="">这是一个架构的加速器> < -="">作为传统的厂家虽然没落了,但是其架构还是有延续下来,官方信息显示其加速器引擎有如下特性:>最大/,能效比./高度并发的多线程并行处理单元(看起来很像的架构)支持多个 ,每个有/支持常见的////-//////网络支持多种层(// ////// .)支持&;计算(注意,能支持持的不多)号称个 可以实现×的实时-,这个能力不多见使用和作为编程接口。工具链使用定义的作为中间层< -="">存疑的是:>一般认为架构的利用率会比和专用架构低一些,不太清楚是否能够解决这个问题。另外在扩展自定义层时,和接口与 相比可能还是略微麻烦一些。< ="--">>< -=""> +. >+.< -="_">这是一个专为网络设计的加速器,宣称支持. />产品目标为,安防监控,和其他应用支持常见的, , , ,-, 网络比较奇特的是支持 ,可能和他的设计哲学有关。有工具直接将浮点网络映射为网络。同样支持网络,以节省带宽。能效比高达 /对于不支持的网络层或其他用户自定义层,可以通过 ()辅助完成软件接口包括,,, 曾经有传言,该加速器的上一版本不支持-等年以后的网络。从官网资料看.已经改进了类似缺陷。< ="--">>< -=""> >< -="">官方没有放出架构图,借用上的一张图片来介绍,>从这个架构图看,使用的不是架构,而是专用架构,这点与不同加速器数量可配,从/~ /可配置。支持///////(但考虑到实际支持/ ,所以////时并不会有额外的算力提升,估计只是节省了带宽)中间计算结果的累加器保持精度支持格式,支持/ 离线/转换工具< ="--">>< ="--">>< -="-">接下来的这两家其实不能算传统 ,只是谈端侧 又怎能绕开这两家呢?>< ="--">>< -=""> >< -="-">业界传言华为海思使用的是-的加速器。的公开信息并不多,涉及商业秘密,此处只能用一些公开数据进行解释了。>广泛应用于计算机视觉、语音识别、自然语言处理等智能处理关键领域(既支持,又支持操作,可以参考其产品的介绍)另外从其,的论文先后顺序来看,没有使用脉动阵列的架构其与其他加速器相比,可以支持多种机器学习方法(不局限在及其衍生模型)< -="">上图: 下图:>< -="">另外,有兴趣的同学可以去看一下鲁大师的评测得分,和高通对比一下,大概可以推算一下的实际数量。>< -="">知乎上有两篇文章对寒武纪的分析的很不错,也列在这列一并参考。>< ="--">>< -=""> >< -="">高通的材料非常有限,这里仅是我根据网上找到的资料给出的推测值:/。>< -="">下面这个链接中有这样一段话:>< -="">-----/>< -="">,,. , , - . , - - .>< -="">考虑到骁龙的工艺是,一个比较合理的推测是骁龙的的数量是,频率是。而的骁龙是,频率.。>< -="">而宣传的是相比再增加,很可能采用的策略是类似的,再 数量,同时提频。由于和都是工艺,还算同一节点的产品,靠提频可能无法完全达到.性能提升,在中可能引入了其他诸如之类的微架构改动。><>>