付斌丨作者
昨天,一颗芯片刷爆朋友圈,它就是由清华团队发布的世界首款类脑互补视觉芯片“天眸芯”(Tianmouc)。时隔3年,清华团队的研究再次登上Nature封面。
该工作的论文通讯作者为清华大学精密仪器系施路平教授和赵蓉教授,此外精密仪器系杨哲宇博士(现北京灵汐科技有限公司研发经理)、精密仪器系 2020 级博士生王韬毅、林逸晗为论文共同第一作者。
有人说它能够开辟AGI(通用人工智能)新路,有人说它比之前的神经拟态传感器还厉害。所以,这颗芯片到底是什么,怎么实现的,什么水平?
突破芯片性能?模仿人眼和大脑
在了解“天眸芯”之前,我们需要了解一个与它在同一赛道的技术——神经拟态视觉(Neuromorphic Vision,也可以叫类脑视觉感知)。
人类的身体是神秘且伟大的,只要我们稍加模仿,就能获得成倍的性能。
想象一下,当我们按下手机摄像头的拍照按键,它可以拍摄出某个瞬间的照片,但它无法记录汽车快速转动的车轮、快速经过的自行车手、甚至是路上行人摆动的胳膊等,这些信息可能都会是模糊的,因为普通的图像传感器没有办法清晰记录这些动态的信息。
人眼不会像相机一样看到一张张的图像或者照片,而是在大脑中持续不断地处理看到的信息,并且以一种非常高效的方式处理这样的过程,比现今社会上任何计算机都先进。
从原理上来看,人眼中的感光细胞,只有在检测到视觉场景的某些特征(如对比度或亮度)发生变化时,才会向大脑报告。
正因人眼如此优秀,所以人类一直在想办法把这一套机制搬到芯片中。
早在20世纪80年代后期,加州理工学院的Carver Mead教授就曾提出有关神经拟态(或者说类脑)的技术。彼时,Carver Mead教授和他的学生的初衷主要是想更好地了解生物运作方式,包括我们大脑运作方式、眼睛运作方式。
现在,随着神经拟态技术的成熟,模仿人类视觉已不再是科幻电影里的情节。按照这种原理制造的神经形态视觉传感器由感知、存储和运算功能的器件与电路组成,交叉科学工程研究包含材料、器件、电路、算法以及集成技术等,同时也可以依赖Chiplet封装技术有效地提高集成度和性能。
受生物启发的神经拟态视觉传感器,可以用3个关键词来概括:更小,更快,更智能。
神经拟态视觉传感器在工程系统应用非常广泛,包括手机触屏唤醒功能、消费电子相机高速摄影和动态感知、工业微型机床高速运动抓手的跟踪、工业检测视觉感知、移动机器人视觉感知系统、驾驶员疲劳检测系统、自动驾驶联合检测、无人机视觉导航系统、高速视觉测量等。
目前,神经拟态视觉传感器早就开启了商用之路,而且均从科学成果转化而来,包括:
Delbruck团队和IniVation公司(现已被时识科技收购)开发的第一款商用的DVS128,IBM公司曾采用DVS128作为
类脑芯片TrueNorth的视觉感知系统来进行快速手势识别,此后继续推出DAVIS240、DAVIS346;
Posch团队和Prophesee公司研制的商用ATIS,Prophessee公司曾受到Intel公司1500万美金的项目资助,将ATIS应用于自动驾驶汽车的视觉处理系统;
陈守顺教授团队和CelePixel公司曾发布了第五代CeleX-V,CelePixel公司也受到了Baidu公司4000万的项目资助,采用CeleX-V用于汽车自动驾驶辅助系统,利用其优势对驾驶异常行为进行实时监测;
黄铁军教授团队研制的第一款Vidar,可用于高速运动场景的物体检测、跟踪和识别,在自动驾驶、无人机视觉导航、机器视觉等涉及高速视觉任务领域的应用潜力巨大。
总结起来,神经拟态视觉就是一个将感存算放在一颗芯片之上技术,是一个包含硬件开发、软件支撑、生物神经模型,三者不可缺一的视觉感知系统。
天眸芯创新了什么
天眸芯也属于类脑视觉感知芯片领域,不过,它提出了一种全新的视觉感知芯片设计范式,即“双通路互补”(CVP):
“双通路互补”首先会模仿人眼,自动把看到的场景分解成很多元素,包括物体运动、轮廓边缘、色彩以及不同区域之间的对比度等信息,这些拆分出来的元素,就被称为“视觉原语”;
接着“双通路互补”再模仿人脑的处理机制,把这些信息分配到不同的“处理通路”中去,就像工厂的多个流水线;然后它又模仿人脑响应机制,对“时间空间变化”的信息进行响应,并让时空变化和色彩等其他信息互补,如同在流水线之间又做了连接和协同。
所以,官方将其称为“类脑互补视觉芯片问世”,其中的互补就是与此前商用产品中的不同。
根据官方的介绍,现有传统CMOS图像传感器只是单纯地将光强信号点对点地转换为数字信号,这使得传统图像传感器在同等代价下很难实现“分辨率、信噪比、动态范围和帧率”的同时提高。
而多通路的人类视觉感知系统将场景解析为不同的组件,将前景与背景分开。然后,通过多个通路间的相互组合,可以实现对危险的快速响应,又不失去对全局场景的理解。比如说,人类视觉系统,无论是在正午还是黄昏,无论是在开阔场景中还是被部分遮挡,都可以实现对运动目标的快速识别。实现了远超现有计算机视觉系统的鲁棒性与通用性。
用人话讲,就是把人类眼睛感知的过程,拆成两条通路,来模拟人类的多通路。这两条通路,被清华大学称为认知导向通路(COP)和行动导向通路(AOP)。
具体到芯片上,天眸芯采用90 nm CMOS背照式技术制造(BSI),由两个核心部分组成:
用于将光学信息转换为电信号的混合像素阵列;
用于构建两个CVP(互补视觉通路)的并行异构读出架构。
Tianmouc具体架构
那么它的性能如何?粗略来看,天眸芯在极低的带宽(降低90%)和功耗代价下,实现了每秒10000帧(10000fps)的高速、10bit的高精度、130dB的高动态范围、72%@530nm,NIR的高灵敏度的视觉信息采集。
天眸芯双通路合成后可以达到640*320的空间分辨率,包括,320*320 常规速度(30fps)高精度(10bit)的RGB Cone (或称为COP)与160*160高速(750~10,000fps自适应可调)且可变精度(±1~±7bit可调)的单色Rod (或称为AOP)通路。经过与EMVA1288标准兼容的测试方法,达到130dB动态范围。其同时具有高精度,最大SNR接近50dB。在实现高速、高动态范围、高图像质量的同时,Tianmouc具有极低的代价。其具有低带宽,典型值达到总带宽50~60 MB/s (threshold = 1),为同等帧率、分辨率和精度的高速相机的10%以下,典型功耗约300mW。
可以看到,天眸芯功耗只是毫瓦级的,也就是说,能力又强,功耗又低。同时,对比现有的神经拟态视觉传感器,天眸芯更平衡一些。
论文中,更是可以看出,天眸芯综合指标(FoM)位列世界一流,其综合表现超越了现有神经形态传感器和传统图像传感器,同时仍能保持低功耗和低带宽消耗(如下图中f)。
此外,研究人员还开发了一个集成“天眸芯”的汽车驾驶感知系统,以评估在开放道路上行驶,涉及各种极端情况,例如强光干扰、高动态范围场景、域偏移问题(异常物体)和具有多个极端情况的复杂场景。实验结果表明,天眸芯可以有效适应极端光环境并提供领域不变的多级感知能力。
目前,清华大学开发了两种模组。第一代为高性能模组,采用了Xilinx ZCU102或KU040系列FPGA板卡作为Tianmouc和上位机的桥接芯片,设计使用PCIe的上位机通信方式,将Tianmouc的数据经过整合、处理后,以极高带宽传输至上位机中。
第二代为微型化模组,载板包括微型化Tianmouc子板(30mm * 30mm)和转换载板。子板与载板通过高速接插件或者高速软排线的方式连接。这个小型模块可以应用到更加广泛的领域,如安防、无人机、机器人等重要领域。
类脑科学,AI未来的路
可以说,天眸芯的成功开发离不开清华大学一直对于脑科学的研究,清华大学类脑芯片天机芯则是研究这一切的基础所在。可以看到,本次论文中,灵汐科技也贡献了一部分。
2021年,北京灵汐科技更是依托清华相关研究成果,进一步研制出首款商用的异构融合类脑计算芯片KA200及HP系列计算板卡,推动了产业应用生态。
除了灵汐科技,国内另一家公司,SynSense时识科技的类脑视觉芯片Speck已开始批量出货,并号称世界上第一颗正在商业量产的动态视觉类脑芯片。此外这家公司还在本月初收购瑞士类脑视觉传感公司iniVation AG,这家公司本身也是从苏黎世大学及苏黎世联邦理工的类脑研究成果孵化而来,可以说两家公司等于是把成果融合一起了。
巨量的计算能耗成为AI主要瓶颈之一,特别是最近炒的特别热的AI大模型,简直就是“吞电兽”,而类脑感知及计算具备毫瓦级超低功耗、毫秒级超低延迟等特点,有助于减少云计算依赖,在设备端实现计算能效量级提升。
可以说,未来是属于类脑感知的,而且可能会是“感存算一体化”的,一颗芯片就能超低功耗地解决所有问题。
而对于人脑,我们或许也有更多可挖掘的。比如说,无人机板载处理器要消耗18W的电力,利用最先进的AI技术,无人机只能勉强以步行速度通过预先编程在几扇门间自主飞行。反观人类的大脑,由约850亿个神经元组成,通过一千万亿(10^15)个神经突触连接在一起,每秒能够执行1亿亿次操作,但如此庞大的系统处理起日常任务的功耗只有20W。
模仿越像人脑,实现能力就越强,功耗就越低,等到我们模仿得更像时候,真正的移动时代就来了。
發表評論 取消回复