• 发文
  • 评论
  • 微博
  • 空间
  • 微信

智能语音:不该仅仅是听懂

品途商业评论 2018-05-08 17:31 发文

       “XXX,现在温度多少?”

“现在室温27度,我的主人。”

“打开空调,设定温度24度。”

“好的,打开空调,模式冷风,温度已设定为24度。”

“播放周杰伦的晴天。”

“现在为你播放音乐《晴天》……”

有这么个东西,能聊天、唱歌、播放音乐和有声书籍、语音控制家电……没错,说的就是智能音箱。统计数据显示,从2017年12月至2018年2月,智能音箱的普及率增幅达50%,包括阿里天猫精灵、 、百度RavenH、百度小度在家,再到最近的腾讯听听。众多AI音箱相继问世,这一产品已经不是什么稀罕物。

而音箱之所以“智能”,在于内部搭载的智能语音系统。其实不止音箱,如今是个3C家电,都想和智能扯上点关系,不带点语音交互,都不好意思拿出来卖。这里面最被大众熟知的,应该就是苹果手机的Siri了。而从用户体验角度来看,人机交互是使用产品的“入口”,所以很多人认为,能否准确地识别人声,成了判断产品档次最重要且唯一的标准。

但事实真的是这样吗?

听清97%还是98%其实区别不大

语音交互的第一步,是系统要先能听清你在说什么,才能进行后续操作。其实在这一点要求上,人类科技进步的很快。国内早在2016年11月,百度、搜狗、科大讯飞等数家国内智能语音头部集团玩家都召开过新闻发布会,对外界公布语音识别和机器翻译方面的进展,其中有一条颇为引人注目:它们不约而同地宣布自己的中文语音识别率是97%。

 

应该说,97%的识别率已经完全可以满足实际需要。而在去年12月,科大讯飞创始人刘庆峰更是声称科大讯飞语音输入法识别率已经高达98%。目前科学界已经对语言识别的技术思路达成共识:深度学习。而基于这个技术的瓶颈是用计算机将人类的各种知识进行有效的特征提取和形式化的知识表达,这个瓶颈还未突破,所以现有技术的极限就在97~98%。

但是如果继续纠结这个数据,实际意义却很有限。且先不说这只是近场语音的数据,远场语音和环境噪音,以及方言、语气词、专有名词都会干扰识别率,造成10%以内的误差浮动。在生活实际应用中,100句听清97句还是98句有太大的区别吗?打字的错误率都可能比这个高。

况且,在完整的智能语音交互链条里,“听清”仅仅是第一步。在去年的百度AI开发者大会上,百度度秘总经理景鲲就公开表示,智能语音唤醒万物的核心三要素是听清、听懂、满足。

“听清”之后是“听懂”

判断一个系统究竟是人工智能还是人工智障,只要看它对你的反馈就行了,也就是“到底听懂没”。

近日,市场分析公司StoneTempleConsulting发布的最新报告,对欧美几大互联网公司的智能语音系统进行了盘点和对比,主要考查了AI助理在两个方面的能力,其一是能回答多少问题,其二是有多少问题能完全回答正确。

从调查结果图表来看,这几家旗下的智能语音对问题的识别率差距不大。

 

而关键在于能否正确回答问题,这么一看,对比就出来了,谷歌Assistant的表现最好,其次是亚马逊Alexa,微软Cortana和苹果的Siri,而且档次差距很明显。如果和AI对话的过程中出现“答非所问”的情况,毫无疑问会极大影响使用体验,并产生“这玩意一点也不智能”的想法。

因此,在相应技术取得突破,使识别率无限趋近100%之前,做智能语音的公司继续抓着9X%这个数字自我标榜,只能忽悠不懂行的人。提高应答能力和多轮对话能力,才是真正需要攻克的方向。在这一点上,数据多、介入深是打造对话系统的必然条件,具备这两点才能做好一个真正可以对话的“听懂”系统。这时候BAT三家互联网巨头的优势就出来了,以百度为例,它是国内具备数据量最大的公司,拥有亿级的多轮对话数据、十亿级的知识图谱数据,这无疑为它在深入对话系统研究上奠定了坚实基础。

在后续服务里让用户“满足”

任何涉及到商业落地的技术,核心目标都应该是满足用户的某种需求,只有这样,产品才具备购买的价值。如果一个音箱只能机械地和人一来一回的对话,恐怕也没什么销量。因此,在“听清”和“听懂”之后,还需要为用户提供相应的功能服务。

举例来说,如果用户用语音说出一首歌的名字,音箱能识别并将它收入列表,但是却不能播放,对用户的整个使用体验影响是致命的,甚至连累作为基础平台的语音系统——因为用户会将不能播放音乐视为系统问题,而不会多想这款音箱是否具有音乐版权。

不仅仅在音箱上,大部分搭载了智能语音系统的产品,如果自身自身技能和内容足够丰富,甚至可以接入大量第三方资源,无疑能给用户极大的满足,因为做到“发出需求——理解需求——获得反馈——需求满足”才是一个完整的产品,而智能语音作为底层系统,在这个链条中像德芙巧克力一样“如丝般顺滑”地完成了自己的任务,并不需要强调自己的存在。

所以,我们常常说,智能音箱或者智能语音系统到最后又变成了巨头之间的“斗地主”,原因就在于BAT之间的深厚“内功”——内容生态。同样以百度的智能音箱举例,百度可以提供着百度音乐、喜马拉雅FM、考拉FM等内容,并且对带屏音箱小度在家而言还有爱奇艺和好看视频两大流量利器,可以最大化满足用户的需要。

 

除了走自行研发路线的百度(DuerOS)已卓有成效并建立起自己的生态联盟之外,阿里和腾讯都对智能语音这一块很上心,毕竟这代表了下一代交互方式。近日阿里巴巴宣布收购先声互联,第三方数据研究机构CB Insights也披露腾讯在美拥有50个左右的语音专利。

目前,BAT三家都将智能音箱作为了智能语音的试验场,推出了自己的产品,再加上小米的小爱音箱,构成了国内智能音箱产品的头部集团。而市场反应也佐证了前文“智能语音交互水平接近,短期差异不大”这一事实。

因此,智能语音目前的交锋点,还是在于能否给用户一个完整的使用体验。这大概就是为什么最近智能音箱们在做广告时,不再拿“最懂你的音箱”来大做广告了,而是纷纷拼起了内容生态和功能服务。在产品上进一步检验语音系统,发挥自己的体量优势,抢占入口,这才是巨头们的真正目标。

声明:本文为OFweek维科号作者发布,不代表OFweek维科号立场。如有侵权或其他问题,请及时联系我们举报。
2
评论

评论

    相关阅读

    暂无数据

    品途商业评论

    发现商业创新,专注商业企业互联网...

    举报文章问题

    ×
    • 营销广告
    • 重复、旧闻
    • 格式问题
    • 低俗
    • 标题夸张
    • 与事实不符
    • 疑似抄袭
    • 我有话要说
    确定 取消

    举报评论问题

    ×
    • 淫秽色情
    • 营销广告
    • 恶意攻击谩骂
    • 我要吐槽
    确定 取消

    用户登录×

    请输入用户名/手机/邮箱

    请输入密码