本篇文章4372字,读完约11分钟
作者|中国科学院微电子研究所剑白
前几天,比特大陆推出了云人工智能芯片--sophon (算丰) bm1682芯片。 bm1682是位大陆设计,是人工智能硬件加速芯片,为图像和视频等解决提供额外的辅助支持,峰值运算速度为3tflops,为客户提供强大的硬件加速支持。 最近,位大陆还将推出边缘计算芯片bm1880,用于加速前端图像、视频、语音、自然语言等深度学习硬件。
边缘计算和云计算。
我想每个人都知道云计算,云计算也被称为集中式计算系统.。 在云计算系统中,需要建立一个具有强大计算解决方案的云中心。 客户可以通过互联网将本地很多噪音很大的数据传输到云,利用云强大的计算执行能力快速执行数据解决任务。 但是云计算并不总是起作用,云计算的延迟很大,取决于互联网通畅的好坏。 这是因为在实时性要求高、数据隐私性高的应用程序中,将数据传输到云来解决是不合适的。
边缘计算的概念是由运气产生的,边缘计算也被称为前端计算。 在实时性要求高、数据机密性高、网络资源不足等情况下,边缘计算只需靠近水楼台先取月,及时解决数据,将必要的消息传遍云即可。 该方法可以通知终端设备及时处理本地收集的数据,响应特殊警报消息,及时应对顾客。 边缘计算和云计算是局部和整体的关系,云计算统一全球,解决许多复杂实时性要求不高的新闻,边缘计算保护自己的一亩三部分。
位边缘计算--bm1880芯片概述
根据bm1880最近发表的技术资料,bm1880是聚焦于边缘应用的深度学习推理人工智能芯片。 其第一个应用方向是图像、视频和其他类型的深度学习推理。 面部检测、识别、表情分解等丰富的ai功能支持人体属性和姿势分析物体的检测和识别; 车牌识别; 声纹识别等。
从功能模块图来看,bm1880是人工智能芯片,具有用人工智能解决视频、图像的额外支持。
核心部分,bm1880包括512个mac,包括支持winograd卷积运算的TPU ( TPU )。 tpu用于人工智能深度学习推理的硬件加速,可以大幅度提高运算速度,加快系统推理学习的星速。 与位大陆剩下的人工智能芯片一样,bm1880的tpu也配备了调度引擎,为张量解决器的核心提供极高的带宽数据流,对于8位数据宽度的数据,其计算速度达到1tops,Wii 值得注意的是,bm1880的典型功耗仅为2.5w,但可以提供1tops的运算能力,足以进行边缘计算。 tpu配置了2mb sram以优化系统性能、重用数据,从而提供了最佳的编程灵活性。
bm1880提供了人工智能深度学习算法的cpu编程操作。 bm1880的cpu有两个部分。 一个应用程序解决方案,由双核arm a53组成,业务发展到1.5ghz。 其他部分是精简命令的rsic-v解决方案,由1.0ghz的单核risc-v组成。
bm1880人工智能深度学习系统的运算结构的构成分别适用于用于执行深度学习算法的双核cpu、用于加速深度学习算法的硬件的tpu、用于解决外围设备的关联状况的单核cpu 该结构可以容易地满足外围设备实时性、深度学习算法执行的流畅性的要求。
作为专用功能,bm1880提供了视频解决方案子系统的硬件模块。 这个模块非常方便。 在图像视频解决方案方面,客户几乎不需要添加外围设备,从而大幅降低产品开发成本。 这个视频子系统位于功能图的右半部分,包括mjpeg编/解码器、h.264解压缩器、视频后期解决方案三个部分。 mpeg编解码器、h.264解压缩器的装备也很符合现在的互联网视频资源的类型,视频监视装置中最常用的视频样式是mjpeg和h.264,mjpeg是监视供应商最初使用的视频编码压缩 h.264风格是不可逆压缩风格,压缩算法比mjpeg先进,压缩率高,画质更鲜明,传输速度更快。 h.264是现在互联网、视频监视中经常使用的压缩风格。 “视频后期处理程序”( video post processor )区域可以预先解决进入bm1880的视频流。 该模块支持深度学习(如颜色空间转换、尺寸切割和缩放)中常用的视频操作,通过硬件流水线的视频预解析,不需要软件部分的参与,大大减少了cpu的流量。
内存面bm1880具备支持ddr3/ddr4、lpddr3、lpddr4四种规格的内存的功能,客户的程序和数据流可以存储在内存中,提高算法的执行速度。
本地存储的bm1880同样具备一般的存储设备接口,如果与对应的设备协作,本地存储了需要深度学习解决的数据,则系统从本地存储图像、视频或其他数据 存储接口包括sd/sdio、EMC、spi nor闪存、nand flash等。 sd/sdio搭载了高速功能,通过在sd卡的读写基础上追加外围设备,可以追加蓝牙、照相机、gps、802.11 a/b/g/n无线等功能,以高速的接口速度满足大数据的传输要求。 EMC最多支持32gb闪存,客户可以根据诉求选择合适的闪存访问系统,进行存储/读取等操作。 bm1880还可以同时支持nand flash和spi nor flash。
bm1880还配备了两个以太网接口和usb接口。 以太网接口支持100兆和千兆位速度。 usb接口包括高速usb3.0接口和支持主机/从机的otg2.0接口。 bm1880不仅可以从本地存储设备读取数据流新闻,还可以通过以太网接口和usb接口接收从外围设备和主机传送的图像、视频和其他类型的流数据,以实现深度
调试界面具有通用的jtag接口,客户可以通过jtag接口轻松快捷地下载程序和调试器。
bm1880还为功能外围设备接口提供了足够的支持。 bm1880具有四个通用串行接口uart、五个i2c接口、通用gpio端口和16路pwm输出。 uart和i2c接口提供了低速通信功能,还可以与外围设备进行交互。 从数量上看,uart是4路,i2c是5路,客户可以根据开发诉求连接足够的外部传感器,所以bm1880在设计上也很亲切,客户在开发上基本上不需要为接口不足而烦恼。 通用gpio端口和16路pwm可以提供强大的反馈控制功能,在深度学习边缘计算中,当需要处理及时的突发警报状况时,bm1880核心程序直接驱动gpio端口或pwm接口
bm1880以面向图像影像深度学习解决的边缘计算人工智能芯片为重点,除了对图像影像的强力应对以外,还搭载了双向音频信号i2s接口。 该接口可以支持音频信号的输入输出功能,芯片本身只提供接口,不配备响应的硬件代码的解码,相关的代码/解码工作可以在软件部分进行。
bM1880的软件支持与开发生态链
在开发人工智能深度学习产品的过程中,在客户选定人工智能深度学习硬件芯片后,硬件往往是固定的、不可调整的,因此软件支持对客户来说是更重要的一点。 强大的软件支持意味着平稳的开发速度、稳定的产品性能、低的时间和投资价格。 比特大陆在其开发生态链中拥有完整的开发系统,提供了与人工智能芯片的完全支持。 与剩馀深度的学习人工智能芯片bm1680/bm1682一样,官方对bm1880也有强大的软件支持。 比特大陆为bm1880的顾客提供了强大的深度学习模型编译器和软件sdk开发包,顾客为了程序算法需要移植消费量太多的主流深度学习体系结构( caffe和tensorflow等) 另外,cnn/rnn/dnn等一般的神经网络模型也可以在bm1880上执行。
bm1880应用模式
根据上述硬件和软件部分的分析可知,bm1880在下流的深度学习硬件的加速能力。 显然,除了将bm1880作为协处理器进行边缘计算之外,在局部视频监视等不是巨大的运算量的情况下,bm1880也能够作为主储存器。 bm1880拥有丰富的外围设备和高速的通信接口,根据其1tflops的峰值计算能力,最适合作为前端解决方案。 下图显示了bm1880的三种常见使用方法
第一种是云边缘计算系统,即边缘计算的方法。 在云-终端方法中,系统不仅需要监视从四面八方涌来的数据,还需要监视异常状况。 监视异常情况后,终端部分必须立即抛出异常,提供解决方案以确保终端系统的安全性。 在系统中,云部分主要负责解决通过互联网等通信链路从前端发送的许多复杂数据流,以及调整整体人工智能深度学习系统。 另一方面,在端部分,如视频监视中,结合传感器侧系统通过本地的简单解决,可以及时发现火灾,结合面部识别/动静物等操作,可以及时发现盗窃等情况。 bm1880位于系统的前端,中心云解决部分负责系统的调度和深度学习许多噪声数据的推理学习。 另外,该方法可以减轻系统对网络资源的依赖性。 bm1880位于离原始数据流源最近的本地位置,因此首先分解进入系统的数据流,发现异常,在前端部分完成先行解决,将压缩、合理化的数据传输到云,在云中解析
第二种应用方法是bm1880作为协处理器工作。 bm1880由执行人工智能深度学习程序的主机将需要进行深度学习推理的图像、视频和其他类型的数据流转发到bm1880,bm1880利用其强大的推理学习能力高速计算,并主机其结果
第三种应用方法是bm1880可以作为主解决器。 bm1880具有强大的深度学习运算能力,具备最大1tflops的执行速度和高速cpu,经常能够胜任作为主解决方案进行人工智能深度学习推理的任务。 下图是其应用框架图。 bm1880可以直接接收图像、视频和其他类型的数据流作为主解决方案,进行深度学习推理运算,并基于推理结果通过控制接口直接实时控制外部设备。
bm1880公式制品
基于bm1880,比特大陆推出了部分以bm1880为中心的人工智能产品。 简单介绍各种产品。
usb人工智能计算棒:这个产品对广大开发者来说很滑! usb轻轻插入,pc摇晃就算力王! 仅从外观来看,铝合金外壳、精致的散热外壳、科学技术感都很充分。 此时,usb人工智能计算棒中的bm1880是协解决器的应用方法,当客户在支持pc或其余usb接口的设备上执行深度学习算法时,往往是自己设备的性能算法妨碍执行,更换设备。 有了这个usb人工智能计算棒,只要轻轻访问客户的主设备,大量的深度推理过程就全部交给计算棒,释放主设备的资源,帮助系统顺利进行。
usb人工智能模块:该产品是集成bm1880的pcb人工智能计算机模块。 从图中可以看到,这是一个最小化的系统。 客户不需要通过在需要深度学习推理的产品中添加此模块来重新绘制基板。 通过组合此模块,任何产品都可以轻松实现ai功能。
bm1880开发板:这一部分不需要很多证明。 对于人工智能深度学习的初学者和研究者来说,一块开发板是入门的高度选择。 集成的硬件系统,系统的完整学习资料,足够的代码例子确实是开发学习者的主要选择。
标题:【科讯】比特大陆发力边缘计算,详解终端AI芯片BM1880
地址:http://www.miutrip.net.cn/news/2130.html