壹鸽技术小贴士：全双工语音交互技术，帮你告别套娃语音导航服务

一、应用场景

智能语音客服行业作为人工智能技术较早实现商业化落地的领域，吸引了众多企业争相布局。目前，随着智能语音客服机器人大规模应用到实际生产环境中，语音通话数据生成快速，体量浩大，模态繁多，且由于ASR识别鲁棒性不够，导致智能语音客服机器人表现还不尽如人意，分析主要原因，有以下几方面：

（1）音频采集环境复杂

音频采集环境复杂，主要包括了，背景包含多种噪声，性噪比SNR过低；音频采集通道性能不合格，不能过滤掉不相干的信号，使得有效信息丢失或者不足。

（2）测试数据和训练模型的数据不匹配

测试数据和训练模型的数据不匹配，主要有性别，年龄，说话人情绪，口音影响等因素为音频的识别带来了很大的困惑性，导致不能正确解码。

（3）说话人非标准表达

说话人非标准表达，即自发性口语识别问题，由于在实际生活中，说话人在表达时，会存在迟疑，重复，停顿等多种自发性口语现在，同时，还可能在说话时夹杂着外语词汇或者不常见的独有词汇。

ASR系统要应用于实际生产环境中，不仅要适应各类缓变噪声，而且必须在噪声强度和种类多变的情况下保持稳定性能；除声学环境噪声因素外，还需面对说话人存在的口音和方言以及说话人说话方式的随意性等因素。

二、模型

智能语音客服应用于通信系统，典型的会话信道大约只有40%的时间真正用于传输语音，其余的时间传输的都是静默和背景噪声。因此，需要在ASR前端采用一个语音端点检测器VAD来区分语音和静默以及背景噪声，通过提高ASR系统资源的利用率扩大ASR系统的并发识别容量。

同时，由于处理的数据量越来越大，需要处理的规模越来越大，从工程实现以及部署成本而言，还需综合考虑多路并行处理、实时性、易实现、资源占用情况以及大规模实现等诸多关键因素，设计实现大规模电话语音识别前端实时处理系统，完成对多路实际电话信道语音的实时处理，满足在大规模电信网中的应用需求。

除实现大规模电话语音识别前端实时处理系统外，还需使系统具备一定的容错性，确保在语音信号段判决错误的情况下通过声学拒识决定是否接受ASR识别后文本，并且要通过句间停顿时间自适应调整清晰定义句子边界，从而大大降低ASR的计算量和处理时间，提高系统的识别精度。

通过对大量电话系统语音进行统计分析得出90%以上话路的语音信噪比大于10dB，个别话路信噪比相对较低，存在各式各样的噪声，甚至有些环境下信噪比为0dB左右。基于此，本方案分两级对电话信道语音进行检测。首先在时域进行一级处理，判决出疑似语音帧和非语音帧，将疑似语音的帧交由二级进行频域处理。因为二级判决是在一级判决的基础上完成，只用对一级处理后疑似语音的帧进行判决，对同一目标话路的检测，相对只通过一级检测所需的计算数据量明显减少，为整个系统的其他处理模块提供更多的可支配时间，提高系统实时性。

二级VAD检测实现对电话语音流标识通话状态，分为会话静默、会话开始、会话进行中以及会话结束4类。并且，在二级VAD检测实现时增加帧特征参数提取模块、且在进行特征计算时调用特征参数提取部分中间运算模块（如FFT运算模块），以此减少整个语音处理系统的资源消耗。

增加新的帧特征参数提取模块，主要是用来进行声学拒识和句间停顿时间自适应调整的实现。其中，声学拒识主要分为对声学环境噪声、口音方言等的过滤，在电话语音流通话状态标志为会话结束时给出0/1的判决，决定是否接受ASR识别文本；句间停顿时间自适应调整主要是在子句间的停顿时间调整，防止停顿时间过长增加客户等待响应时间、停顿时间过短丢失后续子句造成抢话等不良体验。大规模电话语音识别前端实时处理系统设计如图1所示。

图1 大规模电话语音识别前端实时处理系统实现框图

三、数据处理及分析

目前，正在收集标注这样一个数据集。数据集分为干净语料、声学环境噪声语料、口音方言语料以及双声道通话语料，其中干净语料、声学环境噪声语料和口音方言语料需要通过人工标注收集。数据处理及分析流程图如图2所示。

图2 数据处理及分析流程图

（1）声学拒识

首先，基于特征规则来辅助人工收集声学拒识语料库（干净语料、声学环境噪声语料、口音方言语料），减少人工标注的工作量，并构造一个语音大数据信息处理工具，应对机器学习的不确定性，通过多试快速迭代出语音大数据信息处理工具，便于通过该工具方便地添加新数据、新特征，并快速训练出一个新模型通过海量的拒识语料来进行性能指标测试；然后，基于高斯混合模型GMM算法和支持向量机SVM算法等机器学习算法，并结合语音大数据信息处理工具提取出来的多种语音特征值，在语音识别前端，开发实现一种复杂环境下准确性和稳定性较高的声学拒识算法。

采取的方案以及方案要适用多类条件识别情况，不仅适用于口音方言的语音识别问题，还需适用于复杂背景噪声环境识别问题等。

（2）句间停顿时间自适应

基于电话库中的自然口语对话中存在各种各种各样的话轮转换形式，并且有大量的叠接现象（抢话）。通过基于双声道通话语料进行智能客服交互场景下的叠接现象分析，研发一种可根据预估思考时间、话轮意图、环境音感知的句间停顿自适应调整机制，实现智能语音客服通过和人类一样的非对称对话模式协调与人类进行全双工语音交互，减少用户感知的等待时间，及时响应话者意图。

壹鸽技术小贴士：全双工语音交互技术，帮你告别套娃语音导航服务

相关阅读

壹鸽智能

壹鸽智能

举报文章问题

举报评论问题

用户登录×