语音交互实例：从切换播放模式细节想到的

李曼婷 · 发表于 2022-8-25 06:12:46

这一段项目时间不是很紧张，比较有时间去探讨一些细节的问题，有些东西可以做有些东西可以不做，去探究背后的原因是一件很有趣的事情。

一、简单介绍VUI

想必大家对于语音交互并不是很了解，而车载方面的语音交互更是陌生。这里我先来科普下大背景，至于对这个方面比较感兴趣的可以查找一下资料，想必其他的文章会很详细的介绍理论。这里我先讨论在实际应用当中的需求探索。

首先语音交互是从交互式语音应答系统（Interactive Voice Response，IVR）而来，它是通过电话来执行任务，和10086不同的是，它能够识别人们说的话，由于擅长处理带有大量信息的复杂句子，应用场景比较广泛。

后面智能手机高速发展，于是诞生了VUI（Voice User Interactive ），像Siri、Cortana都是比较典型的应用，语音交互一直被称作“最为自然的交互入口”，优点和缺点都很明显。

车载场景的语音交互，有个很明显的优势：无需司机分心操作，直接语音指令即可达到想要的目的。所以在车内使用语音交互，任务型需求会占大多数。

二、实际应用中遇到的问题

今天看到之前的产品文档中有这样一个设计：

当前的设计都由于技术的限制，不支持的说法不能进行下一轮的对话，所以这里在反馈完毕后直接退出语音。并没有什么大问题，很多车机语音交互直接提示不支持的说法，后面的说法提示都没有。但这个方案对于用户来讲，依旧大大打击了他们使用语音的积极性，这样的设计至少有下面几点不是很合适的点：

三、从用户出发，了解说出这句话的初始意图

在我看来语音交互是一个比较繁琐的设计过程，因为不同场景用户会说什么样的话很难预测，所以我会选取几个最常见的使用场景，然后为每个场景按照最优路径（同样结合业务流程）写出示例对话，同时还要加上异常情况。

这个就是在切换播放模式时的一种异常情况：

User：帮我切换到随机播放/随机播歌/按照随机播放歌…

TTS：随机播放

（TTS：从文本到语音，Text To Speech，一般是由产品、交互设定的内置文本，当用户说了某句话命中某个说法，那么就播报该说法对应的反馈语。这整个过程就算做是一个完整的对话交互设计了。）

再来看看用户为什么会这样说“切换播放模式”吧：

不论从哪个出发点，最终的目的导向都是：想要切换播放模式。

四、根据不同意图，对用户进行分类，寻找更好的解决方案

根据上面三种情况，其实可以分为：

再来看看语音切换播放模式的需求想要解决的问题：

来，先来分析上面两种用户群体的更深层的用户定位。

1.对音乐比较熟悉的用户

手机上的操作大部分是因为在播放详情页的操作按钮过多，所以把播放模式收入到一个按钮中去，下面是不同的音乐界面，特意选择了一些不常用的音乐App，出乎意料酷狗是可以选择，基本其他的应用都采用点击切换播放模式的交互；

再深入一点，手机用户切换播放模式的时候分两种场景：

综合上述，不论是熟悉程度如何，都会有一个既定的心理目标，有比较明确的操作意图。

而对音乐APP比较熟悉的用户群体基本集中在：18-40岁左右，他们基本上都知道有这三种播放模式，所以可以有以下做法：

2.对音乐不怎么熟悉的用户

我专门找了我亲爱的爸比，询问了下他的中老年开车朋友们，年龄分布在40-50岁，大部分在45岁以下。下面是一些聊天记录。

我的问题：你们在播放音乐的时候，知道能够切换播放模式么？如果知道，那你们知道有几种播放模式可以切换么？请说出你们印象中的名字。在这个过程中，不要打开音乐APP查看，靠自己的记忆～

很出乎我的意料，可能调查的目标用户在一线城市会结果又不一样。但是生活在一线城市的中老年人人数又有多少呢？很大部分的中老年人都生活在非一线城市，对于他们而言，简单的播放歌曲就能满足他们对音乐的需求。

但是，有没有必要像这一部分的人推送这个功能呢？

再来看会使用智能车机的人群分布：（网上扒来的数据，随意看下）

有65%的中国消费者愿意接受车联网功能，高于欧洲国家的40%和北美的32%。中国消费者也更加愿意尝试娱乐资讯方面的功能，比如社交媒体和车载视频及音乐。

未来十年间55岁以上族群会增长近1亿人，与此同时同时90后替代80后逐步长大为消费市场主力，2015年数量已经接近2亿。年轻和老龄人群的消费需求变化将值得深入挖掘，以赢得未来市场进行提前布局。

所以中老年的需求有待挖掘，所以我觉得这里应该要做的是音乐推荐的智能化，让他们享受到人工智能带来的好处；而不是引导他们使用新的功能，这样对他们而言使用、操作成本都大大提升，也增加了他们的记忆负担，明明车机的语音交互只是想要减少用户在开车中的干扰因素，这样和我们想做的事情背道而驰。

五、结合推荐做法、语音交互优化准则，确定最后的方案

好了用户群体分析、需求深入分析已经告一段落，那么就要按照刚开始觉得做的不到位的点，明确最后的方案。

根据二、四种可优化的点和推荐的做法，我们来对比分析下：

做法一是交互引导，其实在整体方案设计中就有考虑如何引导用户了解语音交互，已有方案。

做法二、三，都符合理解用户意图、能够提高可发现性，区别是后续的信息有没有提示用户。不过这里让人纠结的点有以下考虑：

我们再来明确设计目标：简单、高效、不分散注意力；所以提示是必须的。明确这些，继续参考资料-《语音界面用户设计》这本书，根据语音用户界面基本设计原则中的异常处理中，增强错误提示有这样的实例对话：

天气APP：我能为您提供天气信息，请问您所在的州和城市是哪里？

User：恩…我在斯普林菲尔德。

天气APP：抱歉，我没听懂，请说出所在的州和城市。

用户：哦，我在明尼苏达州，斯普林菲尔德。

这个异常处理有提示用户需要明确的信息，那么我们的方案也可以采用这样的方案：

User：切换播放模式

TTS：好的，请问您想切换为哪种播放模式呢？

User：随机播放

TTS：已切换，您下次可以直接对我说随机播放。再见~

这样的方案是不是看起来不是那么智障呢？

做语音交互方案一直处于这样的发现提升点、探索、制定方案、纠结、推翻、不断优化的过程中，关于这方面的教科书般的理论并不是很多，所以这里记录下一个优化小点从发散到制定优化方案的小过程，可能比较琐碎，分享下语音交互的日常工作，也希望能帮助想了解的人对此有点认知。

作者：青绛，微信公众号：慕七和大胖

本文由 @青绛原创发布于人人都是产品经理。未经许可，禁止转载。

题图来自Pixabay，基于CC0协议

声明：以上内容来源于网络，如有侵权请联系我们(123@shiyan.com)删除！

鬼泣4活该 · 发表于 2022-8-25 06:17:49

很喜欢你的文章，专业有深度！

城市大秀场

语音交互实例：从切换播放模式细节想到的

相关帖子

发表回复