万根顺: 攻关语音识别技术

经济观察报记者周应梅2012年，科大讯飞发布全球首个中文语音识别DNN系统，将语音识别准确率提升到80%，10年里语音识别技术突飞猛进，不断拓宽应用场景。拿现在最常见的“实时转写”功能来说，这在7年前是难以实现的。

2015年，25岁的万根顺加入科大讯飞，彼时他还是一个零基础的新人，这些年则见证了一代又一代语音识别技术的革新，他也从参与者变成主导者。

万根顺形容自己刚进科大讯飞时是菜鸟。7年时间里，他的成长稳扎稳打，如今他已成为科大讯飞语音识别条线研究负责人。从参与攻关科大讯飞原创的DFCNN语音识别方案，到负责起新一代语音识别技术的研发落地。

保持语音识别技术领先是每个讯飞人的信念，这种精神也在万根顺这样年轻的技术骨干中得到传承。

新人参与技术攻关

万根顺刚到讯飞研究院上班的第一天，就看到员工们在办公室激烈讨论，谁也不让谁，这个氛围一度让他很紧张，因此一直刻在他的脑海里。后来这样的场景不断发生，他才知道这就是讯飞研究院同事们工作的方式。

2015年江苏大学研究生毕业后，万根顺加入了讯飞研究院语音识别转写组，负责基础算法研究。此前他的专业方向是图像研究，进入语音识别领域是从零开始。

2016年初，刚入职半年，万根顺就加入了讯飞DFCNN语音识别方案项目攻关。作为一个新人能有机会参与技术攻关，让万根顺倍感珍惜。这次经历也成为他职业生涯最重要的起点。

科大讯飞原创的DFCNN语音识别方案在2016年下半年正式推出，在过往RNN识别系统基础上整体效果提升了15%以上，在语音识别效率、口语化处理、噪音降噪等功能上有较大的改善。

首次参与项目攻关，万根顺见证了新系统的诞生，更体会到了科大讯飞的同事们在核心技术保持国际领先的追求。

2010年开始，科大讯飞是中国首批开展深度神经网络语音识别技术研究的企业之一，2012年首个中文语音识别方案DNN上线，2015年新的RNN语音识别方案开启全面升级，2016年推出DFCNN语音识别方案。2017年至今，科大语音识别方案又经过了多次迭代，保持每年至少30%的效果提升。

在DFCNN语音识别方案出现之前，业界最好的语音识别方案是双向RNN语音识别，不过这个方案的算法训练比较复杂，识别结果所需时间很长，难以在工业界推广。在有噪音或者更复杂一些的场景，使用RNN语音识别方案会存在识别效果较差的情况。而像今天这样的实时识别转文字，更是难以想象。

攻关技术期间，团队每天的工作状态与万根顺第一天进办公室的场景一样，常常伴随着激烈的讨论，为共同的目标集思广益。他说，这是讯飞研究院同事们工作的态度，有想法直接讲，不论你是新人，还是技术大牛、专家，都可以积极参与讨论。

过去科大讯飞就将语音识别和深度学习结合，在训练策略上有多年积累。在此基础上，DFCNN语音识别方案攻关时间仅花了半年，投入不到10个人的团队。另外，借鉴成熟领域的模型也成为突破点。科大讯飞在攻关DFCNN语音识别方案时，就借鉴了图像领域的算法模型，将语音信息转化为一张张语谱图。这很大程度上减少了输入信息损失。

也是在这次攻关中，多次的实验下来，万根顺掌握了精准的分析能力。在这个项目中，万根顺还见识到了行业前辈们“敢想敢做”的态度和专业能力。“当时前辈们提出了一些设计方法，在几年之后变成了一个主流。他们几年前就能想到几年后可能的发展趋势，后续对我触动很深。”“要大胆地去想，不要有所顾忌，只要能说服你自己的，坚持做下去一定能够有所收获。”这样的理念在万根顺心里树立起来了。

一位技术骨干的成长

万根顺研究语音识别时喜欢分析数据。他会花时间仔细听音频，去标注语音识别错误的一些词或者内容，找到识别不出来的原因。此前“因5毛钱”这个句子识别错误就是他这样发现的，当时他发现语音识别模型会把“因5毛钱”中的“因5毛”，识别为“鹦鹉毛”，通过这样细微的数据，找规律后再去改进。

找到问题后，改进方式是在语音识别系统中加一些韵律信息，“因5毛钱”和“鹦鹉毛”两句语音的停顿方式是不一样的。通过小细节，可以解决研究工作中的实际问题。

2017年，万根顺作为技术负责人，实现了DFCNN语音识别方案基础上持续升级，一年里进行了多个版本的迭代升级。

除了参与攻关DFCNN语音识别方案外，对万根顺来讲，职业生涯中比较重要的第二件事情是，2018年开始主导新一代语音识别框架的落地。

2019年科大讯飞首个基于ED框架的语音识别方案落地。新的识别方案在输入法、讯飞听见、办公本、录音笔等多个产品中应用。

ED框架是科大讯飞第三代语音识别方案，创新过程持续时间比较长，一直从2018年到2020年。

万根顺坦言，从一个技术创新到真正的落地，中间经历了无数次打磨，对个人业务能力带来了质的提升。也是在这个过程里，万根顺对语音识别有了更深刻的认识，全面理解一个新系统，见证了追求大规模产业化落地的目标所需要面对的困难。

二代语音识别系统分了声学模型跟语音模型，两个模型需要联合起来。到第三代，是一个统一的框架，整个系统结构更加简洁，语音输入输出文字直接对应，效率进一步提升，不同语种切换使用也可以识别，在用户实用性上更加友好。

2021年开始，万根顺再次负责无监督训练在语音识别中的应用研究。面对不同场景设计的语音识别模型所需要的训练数据，在加入无监督训练功能后大大减少。

今年讯飞研究院所发布的“唇形+语音”的多模态语音交互技术，就是引入无监督训练的成果。基于多模态交互以及医疗认知等技术，科大讯飞还研发了一套抑郁症定量筛查系统和老年认知障碍筛查系统。

为了在语音识别领域保持技术领先，科大讯飞的做法是研发一代储备一代。在研发新一代语音技术框架的时候，就会投入一部分人力去做下一代框架的预研。“中文语音识别要由中国人做到最好。”这种追求已经内化为科大讯飞员工的信念，并成了一种传承。

目前科大讯飞下一代语音框架的预研已经在准备，万根顺表示，下一代将更加关注用户体验，以及重点会解决语音识别的语义合理性，让识别更加准确合理。

同时，下一代系统更加强调系统自我进化的能力，例如，让系统自动捕捉到对新词识别效果差，然后实现自动更新。

创新背后的机制

万根顺从新人成长为可以独立负责项目的技术骨干，并非一蹴而就。

刚进入讯飞研究院，每个新人都会有一个导师。在万根顺的印象里，工作上导师会帮做一些明确的规划。

他记得，当时自己基础差，导师会直接教一些工具的使用，以及为他规划需要了解哪些方面的知识，设计实验怎么定目标，怎么执行，“导师会事无巨细给安排好。怎么做，做到什么样的程度。”这让他顺利度过了适应工作的阶段。“一开始有了顺利的过渡，往后一步一步走得更加踏实。”万根顺说。

讯飞研究院对新人的培养除了导师制，还有轮岗机制。员工可以自愿申请，转到同一个条线的其他方向，或跨领域轮岗，最长是半年。“讯飞鼓励系统性的思维模式创新，轮岗的目的是让员工掌握的知识更加全面，了解的更多，才能基于整个系统去考虑创新模式。”万根顺表示。

在一次又一次的磨练中，能力提升是渐进式的，这样的培养机制让新人能慢慢成长。“当公司让你去独立负责一个项目时，你是有底气的。多次参与重要项目之后，自己本身的能力有了很大提升。在共创模式下，不是一个人在战斗，团队有很多人在支持你。”万根顺说。

智能语音与计算机视觉、NLP这些领域一样已成为产业。因此关注各行各业研究进展，是讯飞研究院语音识别团队必做的一件日常工作。万根顺说，这也是需要具备的一种思维。

现在万根顺已经成为了新人的导师，他带过不少新人。他强调，让新人参与更多重点项目，而不要因为新人没经验就安排边角料的工作。“给新人机会，引领式指导。有一个想法后我不会让新人直接执行，而会先把想法分享给新员工，同时让对方说出自己的看法，达成一致后再执行。这样效率会提高很多。”万根顺说这是自己指导新人的方式。

刚加入科大讯飞的两年，万根顺给同事的印象是有拼劲，喜欢钻研。几年下来，万根顺的状态更加松弛，日常与同事相处更加活泼轻松，慢慢打破设下的边界。

在科大讯飞的七年里，万根顺也收获了新家庭。万根顺在这里认识了妻子，两个人都在讯飞研究院工作。