本文由腾讯数码独家发布
自2011年Siri语音助手首次出现在苹果iPhone 4s上以来,这项技术已经从噱头创新变成了智能音箱的基础技术。现在,智能音箱已经出现在六分之一的美国家庭中,普及率相当高。
顶级人工智能语音技术开发公司、Nuance Communications创新总监Tom Heberna在接受采访时表示:“在Siri出现之前,当我们介绍自己所做的事情时,对方的眼神充满了困惑,很多人会问这是什么样的技术,为什么有人的声音会说傻话。当时,这是用户与语音技术互动的唯一方式。”
但今天的情况完全不同。根据eMarketer的预测,到2020年,全球将有近1亿智能手机用户使用智能语音助手。虽然人工智能助手已经不是什么新鲜事物,但目前这项技术还处于感人的发展阶段。事实上,要完全实现智能语音助手作为热门产品类别的承诺,我们还有很长的路要走。
以下是五种提升语音助手技术的方法,可以让技术更智能、更高效,从而帮助我们过上更高效、更便捷的生活。然而,我们今天所做的只是“预测”或所谓的“愿望清单”,要实现这些目标,仍然有很大的困难需要克服。
没有知识,就没有问题
亚马逊Alexa现在可以告诉你马来西亚吉隆坡的天气,还可以帮助查找货币兑换,甚至是如何拼写一个不常见的单词。但本质上,如果一个用户有人工智能助手,就相当于拥有了一整套最新的百科全书。虽然我们可以得到自己想要的正确信息,但目前并没有根据不同专业进行知识水平的划分。
赫布纳在接受采访时表示:“我们家智能音箱面临的挑战是,它们可以做太多事情,但人们却无法开始。”
这是一个很难解决的问题,但如果解决了,就会改变游戏规则。Nuance公司针对具体场景开发了很多专家系统,比如帮助航空公司空公司解答旅客咨询问题或者帮助医生做医疗笔记。这样做不仅意味着这些系统可以获得更详细的信息,还意味着它们可以包含更智能的功能。“人们对能够理解更多的单词感到非常兴奋,但如果你不知道如何处理这些单词,这似乎并不重要。”赫布纳说。
他举了一个略有不同的系统的例子,既能了解医生为患者开出的潜在药物清单,又能强调潜在的关键点,这个功能远远超出了大多数用户级人工智能助手的能力。
不过,Alexa在不同领域有更专业更细致的知识,这也是Alexa其他技能所隐含的,很可能是革命性的改变。从表面上看,向更聪明的演讲者寻求法律或医疗建议听起来不可靠,但事实上,我们在法律机器人领域取得了显著进展。根据最近发布的一份报告,苹果希望Siri能在2021年之前与用户进行一场关注意外健康的对话。
虽然人工智能助手的专业知识图谱仍然是虚幻的,但语音机器人的新技术和人工智能的报道表明,虚拟助手的技能肌肉群正在迅速扩大。但是,当这些技能有一天能够进入真正的专业领域,我们的生活就会从中受益。
更多更好的个性化服务
事实上,智能音箱的个性化领域还处于非常早期的阶段。我们可以更改语音助手的口音和语音性别,或者添加或删除一些技能,并向语音助手输入一些信息,如用户的姓名和工作地点。在某些情况下,我们可以设置多个语音配置文件,以便像谷歌主页这样的产品可以识别家中的不同成员。
但是这个功能,其实还有很长的路要走,虽然目前进步还是很明显的。例如,Mattersight开发了一项名为“预测行为路线”的人工智能呼叫中心技术,可以分析用户的语音模式,并将其与性格相似的人类操作员进行匹配。根据该公司的说法,一个性格匹配的人通常需要一半的时间才能进行成功的谈话。
使用类似的方法,我们可以让人工智能助手以我们喜欢的方式相互交谈。它可以是一些简单的东西,比如匹配对方的口音和语调,也可以通过对一些用户使用更多的情感词汇来改变或表达思维方式,而不是对其他用户使用更密集的普通信息。可能有的人想要一个语音助手长时间的说话,有的人只是想要一个能以最简单的方式传达必要信息的助手,而人工智能助手应该具备这两种能力。
像谷歌双工这样的技术可以展示现在的人工智能技术是多么令人信服和准确,以生成合成语音,并使对话越来越自然。作为一项人工智能技术,我们可以完成更复杂的领域,如歌曲发送请求和烹饪定时,我们期待看到这项技术发挥重大作用。
而通过语音识别实现用户能力的突破可以帮助我们实现这一点。赫布纳指出,Nuance的技术可以在一秒钟内通过音频识别用户。他说:“在过去,语音助手需要10秒钟才能知道自己是谁,以便获得准确的信息,但这种能力实际上非常重要。通过一小段语音信息识别用户,不仅解决了密码和认证问题,还为使用语音助手获取更细微的个人信息提供了机会。
互动更加活跃
一个好的智能助手会在我们问的时候做一些事情,我们不需要问问题。目前人工智能助手还处于初级阶段,用户只有明确要求后才能得到想要的歌曲或提醒。随着用户越来越习惯使用语音助手,未来这款设备的交互模式将从被动变为主动。
用户是否愿意给机器一些工作也是一个大问题。
你认为人工智能助手会代表你做出什么样的决定?这些建议可以是,当用户说他冷的时候,他可以自动打开恒温器;或者帮助我们重新安排午餐会议,因为我们迟到了;随着越来越多的智能设备进入家庭,智能语音助手能够控制的内容将大大增加。
在一定程度上,这是一个社会问题,即人们对智能语音助手做出的决策有多满意,是否愿意将一些工作交给机器,这是一个大问题。我们把它想象成一个真正的助手,可以操作自己的信用卡和房屋钥匙,但只需要一个网络连接。这样做的缺点是你在一定程度上放弃了控制,潜在的好处是让你的空空闲时间更多。当然,从技术上来说,这似乎也是一个巨大的挑战。
反馈更准确
Tom Hebner还指出了智能语音助手倡议的另一大挑战:我们的机器助手如何知道自己什么时候是对的,那么让我们回到“好助手”和“智能助手”的概念上来。一个好的助手可能会在大型会议前拿出他所有的文件,而不会问我们问题。但是如果它们是错误的文件呢?让家庭AI助手更活跃的一个大问题是,只有有限的方法来显示我们获得的信息是否正确。
“如果我每天走进房子,听同一首歌,然后有一天我走进房子,它开始播放,他们怎么知道自己选对了歌?”赫布纳说。“如果我不停止播放,是否意味着它被正确选择了?如果我说停止,是否意味着它是错误的?同时不应该再做一次吗?这种反馈机制是我们目前没有更加积极主动的系统性原因之一。”
对于工程师来说,这是一个具有挑战性的问题。任何有过实习经历的人都知道,领导应该对分配给我们的任务给予反馈,有时候自己做一份工作比把工作委托给别人更容易。人工智能助手可以让你的生活更顺畅;而不是每天完成几十个小调查来确认是否做得对。这需要以不破坏这些设备的用户友好性的方式来解决,并且在系统知道您的偏好之前,不需要大量的预训练。
那么答案是什么呢?我也不确定。然而,正如苹果前CEO史蒂夫·乔布斯曾经说过的,解决问题不是消费者的任务,而是制造商的工作。
新的交互方法
在《2001 Tai 空漫游》的一个场景中,杀人如麻的Hal 9000给人留下了深刻的印象,但令人不安的是,它仍然是历史上最著名的虚构人工智能助手。它揭示了人工智能不用麦克风就能判断别人对它说了什么。当两名船员试图选择一个哈尔听不到的地方时,哈尔说他仍然能听懂他们说的话,这是通过读嘴唇实现的。
虽然上面描述的是电影中的恐怖桥段,但未来的人工智能技术确实可以有更多的交互方式。
语音助手不应该只局限于语音交互的方式,否则这种想法会减少与人工智能有效交互的可能方式。随着人脸识别和情感跟踪技术的兴起和发展,越来越多的生物识别技术将不断采集用户的信息,甚至可能出现读心术技术,而人工智能助手则可以利用大量不同的信号得出正确的结论。
相信10年后的今天,我们只能用语音指令来控制这些人工智能助手,就像80年代初的个人电脑一样。相信总有一天,人工智能和语音助手的互动会变得越来越梦幻。