你知道小米小爱同学，苹果Siri这些语音助手是如何实现的吗？

来源：＠首席数智官（ID：shouxishuzhiguan）

hello 大家好，我们是首席数智官，研究产业数字化已经10年。

在长期的工作中，我们一直试图寻找「新品牌是如何借助数字化技术实现快速崛起」的答案。

为此，我们走访了大量知名企业，与上千位技术专家、创业者、前辈同行等一线精英们交流学习，看他们是如何利用数字化技术来创造新的商业机会，打造新的爆款产品。

我们希望把这些技术影响商业创新的案例分享给你们。

关注我，每天给你讲一个商业案例。

今天我们要给你讲的是：小米小爱同学，苹果Siri这些语音助手是通过什么技术实现的。

在给你讲今天的案例之前，我们先来看几个生活小片段。

半夜，女人醒来，感觉有点热。随口喊了句：“小乖乖，把空调调低点”，“好的。”“再调低点”，“这个温度睡眠刚好，再低你就感冒了”。听见响起的声音里带着微微的责备，女人撅撅嘴，嘟囔了一句，转过身睡了。

但其实，小乖乖不是一个人，是她的卧室空调。

房间内，男人刚刚通过手机订了一张明天飞往成都的机票。他还对刚刚客服小姐姐甜甜的声音以及温馨的提示回味不已：“先生您好，成都明天预计温度是23－28°，您要记得带凉爽的衣物与预防肠胃不适的药哦”。
走下电梯，男人快速向车的方向走去。已经马上12点了，他要去见一位老朋友——午夜场的《深夜有约》。在无数个需要陪伴的夜晚，这个略带慵懒的声音温暖了他无数次。

但其实，他不知道的是，电话对面并没有什么小姐姐，只有一台AI智能电话机。陪伴他很久的《深夜有约》，也不是想象中的知心姐姐，而是姐姐提前录好的声音。

晚上10点，孩子的房间，一个男声正声情并茂地讲《水浒传》，孩子讲，必须要听着这些英雄的声音才能睡着；

但其实，声音不是孩子的爸爸，而是手机正在播放的有声书；

有人分享过来一个视频链接，随手打开，是漫威各个主角与西游记里边各路神仙吵架的视频。伴随着雷神暴躁的怒吼与观音菩萨中英文混杂的淡定……你觉得有点迷幻。

但其实，这不是什么赛博朋克的科技大片，而是现在正流行的TTS应用场景。

以上这几则小片段讲的并不是科幻悬疑故事，而是当下生活中正在经历的真实场景。

说的更具体点，就是语音合成技术（Text－To－Speech，简称TTS）照进现实的具体表现。它让我们的生活更具质感与温度，随时随地体验科幻片的生活。从电影走向生活。

语音合成技术中，让声音富有情感和表现力，一直是一大难点。

而近日，云知声AI开放平台上线的新产品功能：面向企业，由专业团队提供服务的云知声音库定制功能，融合了业界领先的神经网络声学模型和神经网络声码器的端到端合成技术让合成语音有了情感的温度，高保真音色可媲美真人。

一经推出后，受到了众多智能家居、智能客服、电台、有声读物、视频自媒体创意视频合成等具有AI智能化需求的企业定制与好评。

与市面上传统的TTS产品所不同的是，云知声音库定制是一款主要针对企业做个性化定制的产品，不仅可以根据企业的个性化场景需要定制专属的IP发音人，还可以通过私有化部署语音服务，将定制发音人部署到客户自身的服务器上，使用更私密、更安全。

01 端到端合成技术，高度还原音色，让声音更具温度

音库定制是语音合成技术（TTS）的个性化应用。语音合成是将文字转化为声音“朗读出来”。

常见的Siri、小爱同学等语音助手的声音，都是TTS技术的“杰作”。

音库定制通过迁移学习技术，在千句级别的录音上进行深度定制音色，训练出来的音库定制效果取决于原始录音的质量，录制语音越干净、稳定和自然，合成的语音与原声的相似度越高，听感更加自然。

为了使合成发音更具专属发音人的特点，云知声音库定制功能中使用的端到端合成技术，更加重视个性化与情感共鸣，合成效果也具有更高的自然度、辨识度。

它通过端到端声学模型将输入文本转换成声学参数，然后通过神经网络声码器将声学参数转换成语音，对原音的音色和风格全面学习，合成效果贴近真人1：1还原的真人数字声音，实现真实还原个人音色，实现有温度、有感情、零距离感的真实分享。

同时，可以满足企业更多场景定制方向，实现企业的各类定制化需求，比如赋予智能客服更具人情味的生命力，让智能接待更加真情实感；比如可以丰富企业语音助手的声音形象，与用户产生更多情感互动；比如与最近市场火热的有声阅读行业结合，打造专属的声音IP形象，技术赋能有声阅读行业新生态。

02 专业团队定制服务，个性化私有部署，让企业专属发言人更安全

目前，TTS技术已经被应用在各个场景，但根据使用主体的不同，从技术层面可以分为 “大众应用级”和“专业应用级”。

大众应用级则主要适用于C端客户在无干扰噪音的纯静录音环境，自行录制不同情感表达的语音数据，上传到相关语音制作平台即可，在基础模型训练和调优具有一定的还原性，适用于个人娱乐等场景；

专业应用级是则更需要专业TTS数据制作机构进行高质量语料采集，通过专业技术调优后合成效果无限贴近真人1：1。适用于企业做个性化的TTS定制服务。

云知声音库定制功能，由专业团队对接服务，基于客户的实际使用场景，为客户提供定制化制作流程，采用标准模型训练、最终模型训练多重非实时语音模型训练方案，定制企业的“专属IP发音人”，有效保障服务质量和音库定制质量。

同时，为了保证企业”专属IP发音人”的私密性与安全性，云知声声库定制通过私有化部署的方式，将定制发音人部署到客户自身的服务器上，使用更私密、更安全。

未来已来。10年前科幻电影中描绘的生活已经逐渐地走进现实。云知声作为人工智能独角兽企业，以人工智能语音技术为企业核心，在TTS技术能力上区别低程度复刻，娱乐化的应用领域，专注为变革中的千行百业提供专业的技术支持与语音智能解决方案，助力国内企业降本增效。

为你，千千万万遍！

－END－

你喜欢语音助手吗？欢迎在评论区留言告诉我们。

如果你觉得本文有价值，欢迎点赞分享收藏。

如果你想进一步与我交流，欢迎随时私信我。

关注＠首席数智官（ID：shouxishuzhiguan）看精英们成功的商业方法论

p．s．我也会回关你噢

你知道小米小爱同学，苹果Siri这些语音助手是如何实现的吗？

相关阅读

首席数智官

首席数智官

举报文章问题

举报评论问题

用户登录×