上次我们发了关于语音标注工具Praat的基础使用,有好多小伙伴们,也说想要了解一些关于语音标注的其他知识点,这不今天小编又快马加鞭的整理了N多基础点,无论你是数据标注师还是其他岗位的小伙伴,都有必要知道这些知识点
常见的语音声音特征(语音四要素)
(1)音色/音质:由发音体决定,指能够区分两种不同声音的基本特征,比如人说话的声音和小提琴的声音。在语音信号处理技术中,人声识别研究常将音色作为重要研究对象
(2)音调:指声音的高低,由声波的频率决定。例如,在一般情况下,男声听起来比较低沉,而女声听起来会比较尖锐
(3)音强:指声音的强弱,由声波的波动幅度决定,可简单理解为语音信号波形图中的信号幅度
(4)音长,指声波震动持续的长短,也称时长,由发音时间的长短决定
几个重要的语音概念
采样
由于声音为模拟连续信号,而计算机只能处理数字离散信号,因此要用计算机来分析和处理声音,就需要经历模数转换过程[Anlog to Digital Converter,即ADC],即将模拟连续信号转换为数字离散信号。采样就是按照一定时间间隔从模拟连续信号提取一定数量的样本来,其样本值用二进制码0和1来表示,这些0和1构成了数字音频文件,其过程实际上是将模拟音频信号转换成数字离散信号
采样率
采样率表示了每秒对原始信号采样的次数,单位为Hz。显然,在一秒内采样的点越多,获取的信息越丰富,数字化语音信号的保真度越高,但占用的资源也越多。如果采样率低于语音频率的两倍,则会产生低频失真、信号混淆现象
在进行语音信号处理时,不同任务对采样率高低的要求不同,在选择合适的采样率时应均衡考虑信号保真度与存储空间。目前,主流的采样有8kHz、16kHz、22.05kHz、44.1kHz等
采样精度
采样精度就是指存放一个采样值所使用的比特数目。当用8个比特(采样精度为8位)存放一个采样值时,对声音振幅的分辨等级理论上为256个,即0至255;当用16个比特(采样精度为16位)存放一个采样值时,对声音振幅的分辨等级理论上为65536个,即0到65536。如果您将采样精度设置为16位,计算机记录的采样值范围则为-32768到32767之间的整数
声道/声音通道数
声音通道数:也称声道数,是指输入或输出信号的通道数,也就是声音录制时的音源数量或回放时相应的扬声器的数量。常见的声道数有单声道、双声道、立体声、四声环绕等
声道指输入或输出信号的通道。通常用多声道来输入或输出不同的信号。如果只需录制一个位置的一种信号时,只要使用单声道就可以了
信噪比
信噪比指信号与噪声之间的能量比。录音时信噪比越高越好。16位采样率的信噪比大约是96dB,8位采样率的信噪比大约是48dB。在录音时,在录音时简单估计噪音大小的办法是:当没有语音信号输入的时候,如果麦克风输入的信号振幅值超过200(单位为采样值,相当于46dB),则噪声就比较大,需要进行一定控制,如在比较安静的环境下录音,关闭窗户、空调、电扇等噪声源,远离电脑等噪声源等等,选用比较好的带有屏蔽的麦克风,选用比较好的声卡等等。噪声的振幅值越低越好,录音室里的录音一般可以控制在10以下(单位为采样值,相当于20dB)
注:采样率和采样精度的设置以越高越好,采样率和采样精度越高则声音的质量越高,不过考虑到存储空间和语音信号的特点,一般可以设置为16000赫兹的采样率和16位的采样精度。如果需要录制两个不同的信号源,则使用立体声,否则都使用单声道
语音数据标注任务分类
语音数据标注任务的目的在于对语音段中的各种属性加以辨认与标识,包括语音内容、噪声种类、周围环境、说话人信息、说话人情感等,从而帮助提升人工智能领域中语音研究方向的性能。与多种多样的语音交互场景相同,语音数据标注任务也具有各自不同的形式,大致可从以下不同维度考察它们的特点:
(1)按照智能应用场景,可划分为智能家居、智能会议、智能客服、智能车载等;
(2)按照语音信号处理研究方向,可划分为语音识别、语音合成、说话人识别、情感识别、语音分离等;
(3)按照音源与拾音器之间的距离,可划分为近场语音、远场语音;
(4)按照语音时长,可划分为短语音、长语音;
(5)按照难度等级,可划分为简单、中等难度、高难度;
(6)按照口音,可划分为普通话、方言、带地方口音的普通话等
除此之外,小语种,外语相关的语音数据标注任务则需要有相应专业背景的专业人士来完成,这也加大了语音数据标注任务的难度
语音AI领域的主要方向
1.TTS(Text-to-Speech,语音合成),即“从文本到语音”,是人机对话的一部分,让机器能够说话
2.ASR(Automatic Speech Recognition,语音识别),是将声音转换为文字
以上两个概念呢,大家可以自行百度一下有非常详细的介绍,在这里就不复制粘贴啦
在TTS中最主要的一个指标就是自然度,也就是当你听见机器跟你说话的时候,你能不能区分出来这个不是人,目前在很多电话机器人上的使用很广泛,而且几乎已经判断不出来是机器人在对话(当然从其他方面还是很容易区分出来的)
而在ASR部分就比较难了,特别是在中文领域的应用,难上加难啊,中文还是博大精深的啊。当然应该也是发展非常有机会的一个方向,当然要结合NLP来进行应用才能发挥出真正的威力
以上这些就是语音数据相关最基础的一些知识点,也是每位数据标注员必须要掌握的内容,希望对大家今后的工作学习中,对大家有所帮助