我国学者实现对类脑语音的识别

科技日报记者吴长锋

记者16日从安徽大学获悉，该校集成电路学院吴秀龙课题组与北京大学杨玉超教授课题组合作，利用动态忆阻器的动力学行为，开发了一种生物学可解释的特征提取单元，用于提取语音事件信号时空特征，并基于此单元成功构建了语音识别硬件系统进行实验验证。相关研究成果日前在线发表于国际学术期刊《科学‧进展》上。

目前，基于深度学习的语音识别模型，在取得高性能的同时往往依赖于高算力、高存储容量的硬件平台。这使得这些模型往往无法满足移动边缘端对低功耗、低延迟的要求，增加了边缘端计算的复杂度与能耗。脑启发的脉冲神经网络(SNN)是实现低功耗人工智能的重要途径。然而，现有的基于SNN模型的语音识别系统，由于缺乏可以高效地进行声学特征提取和神经编码的听觉前端，导致高性能的语音识别系统，往往依赖于复杂的语音特征提取算法和网络结构复杂的深度脉冲神经网络，这限制了在边缘端的应用。因此，为了优化性能并简化系统架构，急需设计一种高效的听觉前端，以实现基于SNN模型的超低功耗语音识别系统。

针对这一问题，研究人员利用钴酸锂动态忆阻器的非线性动力学特性，设计了硬件DTSN神经元作为听觉前端，提取基于事件的语音信号的时空特征。研究人员通过构建具有可调节衰减时间核的钴酸锂动态忆阻器，实现了硬件动态时间表面神经元（DTSN），其中衰减时间核的结构包括zero-sum时间核和指数时间核两种形式。该神经元具有高效提取音频信号中事件流的时空特征的功能。这不仅增强了脉冲神经网络硬件系统的语音识别性能，而且简化了网络结构复杂度，从而提高了整个硬件系统的计算效率。

研究人员表示，这项工作显著提升了脉冲神经网络硬件系统处理基于事件的语音信号的识别性能，为超低功耗的语音处理硬件系统提供了一种神经形态解决方案，将会推动边缘AI技术在智能语音识别领域的发展。

（安徽大学供图）