|
语音交互逐渐在更多的场景里替代可视化交互,或者赋能可视化交互。上世纪80年代语音交互技术就出现在计算机里了,为什么好像最近几年才真正走入大众的生活中?
其实语音交互的发展经历了三个阶段:
第一阶段是上世纪80年代,语音交互能够实现一问一答,但不能理解上下文,不能连续对话。随着人工智能深度学习算法的发展,计算机语义理解的能力越来越强;大约在2009年的时候,随着siri的出现,进入第二阶段,能有问有答,能够理解上下文,但是这种应用场景还不太普及;第三阶段,2014年Amazon Echo的出现,实现了应用的革新,拓展了远场交互的场景,2017年的时候智能音箱的快速发展才使得语音交互的方式才逐渐走入大众的视野。
语音交互的技术的实现包括三个环节:听(ASR)、语义理解(NLP)、和说(TTS)。
听:把语音识别成文字,用的是ASR技术。语义理解:把文字输入转化为文字输出。通过语法判断、上下文理解、关系理解、知识图谱等技术。就是理解文字的含义后,把想反馈的回答以文字表达出来,使用NLP技术。(把流程和技能归到这一环节)说:把文字合成为语音,用的是TTS技术。
相比于成熟的可视化交互,语音交互的场景还有许多可以挖掘的方面。相比于可视化的交互,哪些场景下人们更倾向于语音交互呢?
本文从不同语音交互动机进行分析,探讨一下语音交互的产品设计。
首先,语音交互的场景很多,在不同的场景下,人们使用语音交互的动机大致可以归纳为以下四种:
更快:省去信息填写、省去界面操作等;更轻便:更轻的硬件携带成本;学习成本更低:相比可视化更贴合用户使用习惯;被动信息获取成本更低:信息触达用户的方式更高效。
以下详细分析一下这四种动机的场景和产品设计。
更快
语音交互主要使用动机之一是快。可视化交互把许多复杂的业务缩短到了几分钟以内,而语音交互进一步把几分钟的流程缩短为秒的级别,因为人说一句话大概也就3-20秒吧。
这也是语音交互在应用中的主要优势,场景举例:
小N感觉身体有点不舒服,想去医院看一下,打算先预约挂号。
方案一:在手机上找到预约的app,按流程进行预约。找到想去的医院、选择科室、选择日期、选择或输入自己的医保卡等信息,然后确认挂号预约并支付。
方案二:对语?助?说,“?爱同学,帮我预约某某医院后天上午内科的普通挂号”,语?助?完成任务后,回复“已预约后天上午某某医院的内科的普通挂号,请在?机上确认?付。”
在这个场景中,图形界面流程与语?流程的对?:
很明显,AI的语义理解能力把“查找和选择”的行为高效地代劳了,原本界面操作要花去5-10分钟的事情,语音交互用几十秒完成了。哪些情况下语音交互能体现出这种高效性?在用户熟悉、高频、复杂流程的场景中能体现,比如 点餐、购物、出行等。
语音交互的快速性还会在以下几个方面中体现出来:
数据存储
语音的信息录入门槛高,所以从效率自然发展的角度来说,要么减少录入次数,要么加速录入过程。因为“更快”这种动机容易出现在高频场景,所以比起加速录入,减少录入次数是更明智的选择。
既然要减少录入次数,那么信息就必须录入后存储起来,所以语音交互的用户信息存储量有增大的趋势。而且随着用户信息存储量的增加,语音交互的效率提升会越来越明显,“快”的优势就会发挥出来。所以,数据存储在用户语音交互“更快”上会发挥重要作用。
声纹识别无缝登录
声纹识别技术的应用也是语音交互“快”的重要环节。声纹识别就是以声识人,准确率高达99.7%,已经应用在一些考勤、门禁系统中。这种技术用在登录上,相比可视化的登录方式,是比“一键登录”还要快的登录方式。因为登录过程,用户可以完全无感知地完成,一句唤醒词就能识别出身份,很多的授权流程就直接完成了。
多轮对话
多轮对话也是语音快速性的重要环节。上述医院预约的场景中虽然流程看起来很短,但一句话完成的交互,在实际中大概率会引起多轮对话。引起多轮对话的原因有可能是信息更改,也有可能是信息补充。比如医院挂号会需要选择主治医师,或者当天的时间约满了需要改时间等等。
总的来说,多轮对话这种交互方式,在快速性上会从以下几个方面发挥优势:
(1)快速修正
语音对话要修正某个信息,可以保证其他信息不改变。比如上面医院的例子中,用户选择了医院、科室、时间。如果用户想修改科室,在图形界面中需要返回到上一步,然后更改科室,重新选择时间。但语音交互改了科室,不用重新选时间。
流程对比如下:
所以,流程越长语音交互节约的重复操作越多,优势越明显。
(2)智能匹配
语音对话中,语音的智能匹配推荐也是帮助用户节省流程中重复选择的时间。比如刚才医院那个场景中,如果用户要更改医院,但是另一家医院没有相同名字的门诊,比如有的医院没有呼吸科,只有普通内科。用户想更换一家医院的时候,如果没有直接对应的相同的科室,语音助手可以智能推荐同类的科室,用户无需重新比对和搜索。就像这样:
如上所示,语音智能匹配可以省略很多重复的流程。更深一些的智能性,比如智能分诊,不仅仅选择相似的,甚至直接可以根据用户对病情的描述,分析用户的病情推荐最匹配的门诊。随着语音技术的发展,智能匹配推荐在语音交互中可以应用地无处不在,会极大加速语音交互的效率。
(3)中断衔接
智能语音对上下文理解的能力,使得语音交互在对话中断后,也可以直接地衔接上,避免重复走流程。比如:
?N:”?爱同学,帮我预约某某医院明天上午内科的普通挂号。”
语音助手:“某某医院明天上午内科已约满,后天上午可预约,要为你预约后天上午吗?”
小N:“我想听首歌。(用户中断了预约的对话)”
语音助手:“好的,一起来听音乐。”(音乐响起)
小N:“刚刚医院预约改为上午吧。”(用户衔接上对话)
语音助手:(搜索刚才的对话记忆,以及用户信息)“好的,已预约后天上午某某医院的内科的普通挂号,请在手机上确认支付。”
总的来说,语音交互在高频、复杂业务流程的场景中,相比图形化交互,在快速性上还是有很多优势的。
更轻便
第二个语音交互动机是轻便性。在某些场景中,语音交互的方式可以免去许多额外的设备,比如:
小P是AAA公司的员工,今天要给部门开会,开会前将ppt上传到了云端。公司的语音系统存储了所有员工的声纹信息,小P在会议室时,对语音助手说,“小度,打开投影仪,打开人工智能调研PPT”,语音助手打开投影仪,查询到小P的身份,登录后访问其云盘数据,打开了PPT。
在上述场景中,无语音交互流程和有语音交互流程对比:
如上所示,有语音交互时,U盘这类存储设备、PC和一些遥控设备都不需要了,整个过程是非常轻便的。
学习成本更低
第三个语音交互的动机是学习成本更低,换句话说,比可视化交互更贴合用户使用习惯。场景举例:
小A刚开始学视频软件,但是总是记不住什么功能什么快捷键在什么位置。“怎么裁剪图片?”“先点击上方菜单栏。”用户点击后一步步引导。“怎么修改颜色?”“点击屏幕左边第四个菜单栏….”
上述场景图形交互与语音交互流程对比:
如上所示,图形交互来回切换是比较冗余的,而且随着步骤越多,冗余性越严重。所以,语音交互的这种动机主要出现在学习和引导型的应用场景中,比如老年人协助、儿童学习、步行导航等等。语音交互的这个优势主要在易用性上体现出来。
易用性(智能理解、眼耳配合)
易用性体现的第一个方面是智能理解。当用户提出疑问,语音助手通过语义理解能够智能地为用户匹配教程,比起搜索,语音助手还可以更加智能地判断用户在操作时所处在的处境,比如用户已经选择了裁剪工具,但是比起方形裁剪工具,更适合用圆形裁剪工具等等,智能语音可以结合上下文和其他信息更综合地理解用户的意图。
易用性的第二个方面是眼耳配合。看文章指导教程时只用视觉获取信息,学和做的过程不连贯,语音教程解放用户双眼,视觉专注于图形化界面操作,听觉接收指导信息,学习过程更加连贯。
其实听觉接收文字信息的速度肯定是比不上视觉的,那为什么会更好呢?
因为语音教程和图形界面教程相比,用户更加专注于眼前的操作,专注度更高,专注度才是学习效率提升的关键。也就是说,语音教程其实是帮助用户创造了更加沉浸式的学习体验。
被动信息获取成本更低
第四种使用语音交互的动机是被动信息成本更低,或者说,信息触达用户的方式更加高效。场景举例:
重要提醒,在家里的时候,比如A想设置一个1小时后的重要提醒事项,比起手机提醒,A选择了用智能音箱提醒。因为相比Push提醒,语音提醒是一种更强的提醒。除了设置起来更简便外,A怕错过提醒信息,而喇叭般的音量确保A不会忘记这件事情。
上述场景中,图形触达和语音触达流程:
相比图形触达,语音交互把用户主动获取的这一环节省了,交互的成本更低。好比快递打电话让你到小区门口取和送到你家门口的区别。但是这种触达方式对环境的私密性有一定要求,公共的场景中突然收到语音提醒并不太符合人的习惯。
总结
本文总结了四种常见的语音交互动机:更快、更轻便、学习成本更低和触达用户更加高效。
更快动机,主要适用于高频、复杂的场景为主,其中多轮对话能力、声纹识别能力和数据存储设计可以把语音交互“更快”的优势发挥出来。轻便性动机,语音交互可以替代某些控制设备和存储设备等。学习成本更低动机,主要通过发挥语音交互在学习型和引导型场景中的易用性。触达用户高效动机,通过降低人机交互的成本来体现优势。
以上是对语音交互的一点思考,总的来说,语音交互相比图形交互的优势还是很明显的。
本文由 @长青 原创发布于人人都是产品经理。未经许可,禁止转载
题图来自Unsplash,基于CC0协议
声明:以上内容来源于网络,如有侵权请联系我们(123@shiyan.com)删除! |
|