语音交互优势场景产品设计

trqi2896 · 发表于 2022-8-25 06:25:43

语音交互逐渐在更多的场景里替代可视化交互，或者赋能可视化交互。上世纪80年代语音交互技术就出现在计算机里了，为什么好像最近几年才真正走入大众的生活中？

其实语音交互的发展经历了三个阶段：

语音交互的技术的实现包括三个环节：听（ASR）、语义理解（NLP）、和说（TTS）。

相比于成熟的可视化交互，语音交互的场景还有许多可以挖掘的方面。相比于可视化的交互，哪些场景下人们更倾向于语音交互呢？

本文从不同语音交互动机进行分析，探讨一下语音交互的产品设计。

首先，语音交互的场景很多，在不同的场景下，人们使用语音交互的动机大致可以归纳为以下四种：

以下详细分析一下这四种动机的场景和产品设计。

更快

语音交互主要使用动机之一是快。可视化交互把许多复杂的业务缩短到了几分钟以内，而语音交互进一步把几分钟的流程缩短为秒的级别，因为人说一句话大概也就3-20秒吧。

这也是语音交互在应用中的主要优势，场景举例：

小N感觉身体有点不舒服，想去医院看一下，打算先预约挂号。

方案一：在手机上找到预约的app，按流程进行预约。找到想去的医院、选择科室、选择日期、选择或输入自己的医保卡等信息，然后确认挂号预约并支付。

方案二：对语?助?说，“?爱同学，帮我预约某某医院后天上午内科的普通挂号”，语?助?完成任务后，回复“已预约后天上午某某医院的内科的普通挂号，请在?机上确认?付。”

在这个场景中，图形界面流程与语?流程的对?：

很明显，AI的语义理解能力把“查找和选择”的行为高效地代劳了，原本界面操作要花去5-10分钟的事情，语音交互用几十秒完成了。哪些情况下语音交互能体现出这种高效性？在用户熟悉、高频、复杂流程的场景中能体现，比如点餐、购物、出行等。

语音交互的快速性还会在以下几个方面中体现出来：

数据存储

语音的信息录入门槛高，所以从效率自然发展的角度来说，要么减少录入次数，要么加速录入过程。因为“更快”这种动机容易出现在高频场景，所以比起加速录入，减少录入次数是更明智的选择。

既然要减少录入次数，那么信息就必须录入后存储起来，所以语音交互的用户信息存储量有增大的趋势。而且随着用户信息存储量的增加，语音交互的效率提升会越来越明显，“快”的优势就会发挥出来。所以，数据存储在用户语音交互“更快”上会发挥重要作用。

声纹识别无缝登录

声纹识别技术的应用也是语音交互“快”的重要环节。声纹识别就是以声识人，准确率高达99.7%，已经应用在一些考勤、门禁系统中。这种技术用在登录上，相比可视化的登录方式，是比“一键登录”还要快的登录方式。因为登录过程，用户可以完全无感知地完成，一句唤醒词就能识别出身份，很多的授权流程就直接完成了。

多轮对话

多轮对话也是语音快速性的重要环节。上述医院预约的场景中虽然流程看起来很短，但一句话完成的交互，在实际中大概率会引起多轮对话。引起多轮对话的原因有可能是信息更改，也有可能是信息补充。比如医院挂号会需要选择主治医师，或者当天的时间约满了需要改时间等等。

总的来说，多轮对话这种交互方式，在快速性上会从以下几个方面发挥优势：

（1）快速修正

语音对话要修正某个信息，可以保证其他信息不改变。比如上面医院的例子中，用户选择了医院、科室、时间。如果用户想修改科室，在图形界面中需要返回到上一步，然后更改科室，重新选择时间。但语音交互改了科室，不用重新选时间。

流程对比如下：

所以，流程越长语音交互节约的重复操作越多，优势越明显。

（2）智能匹配

语音对话中，语音的智能匹配推荐也是帮助用户节省流程中重复选择的时间。比如刚才医院那个场景中，如果用户要更改医院，但是另一家医院没有相同名字的门诊，比如有的医院没有呼吸科，只有普通内科。用户想更换一家医院的时候，如果没有直接对应的相同的科室，语音助手可以智能推荐同类的科室，用户无需重新比对和搜索。就像这样：

如上所示，语音智能匹配可以省略很多重复的流程。更深一些的智能性，比如智能分诊，不仅仅选择相似的，甚至直接可以根据用户对病情的描述，分析用户的病情推荐最匹配的门诊。随着语音技术的发展，智能匹配推荐在语音交互中可以应用地无处不在，会极大加速语音交互的效率。

（3）中断衔接

智能语音对上下文理解的能力，使得语音交互在对话中断后，也可以直接地衔接上，避免重复走流程。比如：

?N：”?爱同学，帮我预约某某医院明天上午内科的普通挂号。”

语音助手：“某某医院明天上午内科已约满，后天上午可预约，要为你预约后天上午吗？”

小N：“我想听首歌。（用户中断了预约的对话）”

语音助手：“好的，一起来听音乐。”（音乐响起）

小N：“刚刚医院预约改为上午吧。”（用户衔接上对话）

语音助手：（搜索刚才的对话记忆，以及用户信息）“好的，已预约后天上午某某医院的内科的普通挂号，请在手机上确认支付。”

总的来说，语音交互在高频、复杂业务流程的场景中，相比图形化交互，在快速性上还是有很多优势的。

更轻便

第二个语音交互动机是轻便性。在某些场景中，语音交互的方式可以免去许多额外的设备，比如：

小P是AAA公司的员工，今天要给部门开会，开会前将ppt上传到了云端。公司的语音系统存储了所有员工的声纹信息，小P在会议室时，对语音助手说，“小度，打开投影仪，打开人工智能调研PPT”，语音助手打开投影仪，查询到小P的身份，登录后访问其云盘数据，打开了PPT。

在上述场景中，无语音交互流程和有语音交互流程对比：

如上所示，有语音交互时，U盘这类存储设备、PC和一些遥控设备都不需要了，整个过程是非常轻便的。

学习成本更低

第三个语音交互的动机是学习成本更低，换句话说，比可视化交互更贴合用户使用习惯。场景举例：

小A刚开始学视频软件，但是总是记不住什么功能什么快捷键在什么位置。“怎么裁剪图片？”“先点击上方菜单栏。”用户点击后一步步引导。“怎么修改颜色？”“点击屏幕左边第四个菜单栏….”

上述场景图形交互与语音交互流程对比：

如上所示，图形交互来回切换是比较冗余的，而且随着步骤越多，冗余性越严重。所以，语音交互的这种动机主要出现在学习和引导型的应用场景中，比如老年人协助、儿童学习、步行导航等等。语音交互的这个优势主要在易用性上体现出来。

易用性（智能理解、眼耳配合）

易用性体现的第一个方面是智能理解。当用户提出疑问，语音助手通过语义理解能够智能地为用户匹配教程，比起搜索，语音助手还可以更加智能地判断用户在操作时所处在的处境，比如用户已经选择了裁剪工具，但是比起方形裁剪工具，更适合用圆形裁剪工具等等，智能语音可以结合上下文和其他信息更综合地理解用户的意图。

易用性的第二个方面是眼耳配合。看文章指导教程时只用视觉获取信息，学和做的过程不连贯，语音教程解放用户双眼，视觉专注于图形化界面操作，听觉接收指导信息，学习过程更加连贯。

其实听觉接收文字信息的速度肯定是比不上视觉的，那为什么会更好呢？

因为语音教程和图形界面教程相比，用户更加专注于眼前的操作，专注度更高，专注度才是学习效率提升的关键。也就是说，语音教程其实是帮助用户创造了更加沉浸式的学习体验。

被动信息获取成本更低

第四种使用语音交互的动机是被动信息成本更低，或者说，信息触达用户的方式更加高效。场景举例：

重要提醒，在家里的时候，比如A想设置一个1小时后的重要提醒事项，比起手机提醒，A选择了用智能音箱提醒。因为相比Push提醒，语音提醒是一种更强的提醒。除了设置起来更简便外，A怕错过提醒信息，而喇叭般的音量确保A不会忘记这件事情。

上述场景中，图形触达和语音触达流程：

相比图形触达，语音交互把用户主动获取的这一环节省了，交互的成本更低。好比快递打电话让你到小区门口取和送到你家门口的区别。但是这种触达方式对环境的私密性有一定要求，公共的场景中突然收到语音提醒并不太符合人的习惯。

总结

本文总结了四种常见的语音交互动机：更快、更轻便、学习成本更低和触达用户更加高效。

以上是对语音交互的一点思考，总的来说，语音交互相比图形交互的优势还是很明显的。

本文由 @长青原创发布于人人都是产品经理。未经许可，禁止转载

题图来自Unsplash，基于CC0协议

声明：以上内容来源于网络，如有侵权请联系我们(123@shiyan.com)删除！

城市大秀场

语音交互优势场景产品设计

相关帖子

发表回复