语音交互,走向岔路 当前资讯

其实两种表述方式得到的答案都是一样的,也就是附近餐厅的推荐。而两种表述的体验区别就在于车机能否准确识别其中语义,带来的用户体验也是不同的。

“可见即可说”引起的分歧


(资料图)

两位同样试驾过哪吒S的同事曾经为了语音交互展开过辩论,两人的分歧点在于:

A.认为哪吒S满足“可见即可说”,并且可控范围广。

B.认为假如他在理想L9上说“我饿了”,语音助手就能识别他的意思并给出餐厅推荐,而哪吒S没啥反应,必须要说出“附近有什么吃的?”这种明确的需求语音助手才会给出相应反馈,让他感觉交互体验有些死板。

说白了,A更看重“可见即可说”的可控范围和指令调用准确性,从这一点来看,哪吒S语音的四音区识别、车辆硬件可控范围、功能应用可控范围确实在新势力车型中处于比较领先的地位。

而B则更加看重语音交互的情感智能化体验和更加自然的对话效果,也就是说问题主要还是出现在更加拟人化、口语化的语义泛化层面。

“语义泛化”包含的形式很多样,但为了帮助大家更好地理解,上文中所提到的“语义泛化”我们可以简单理解为“一朝被蛇咬,十年怕井绳”的表面意思。

被蛇咬了一次以后,在遇到绳子这种细长的相似的东西就会对被蛇咬的经历产生联想。

关键就在于联想能力,用户说出一个词汇或一句话,语音助手能够根据语义识别并联想到更多同音词、近反义词以及扩展词汇等,并从中进行检取,从而对用户需求进行准确转化。

关于同事B用“我饿了”来调取车机的餐厅推荐能力就是如此。如果能够调用成功,很明显代表着语义泛化能力更广,而在体验层面上也会让车机形象在用户心目中更加拟人化,毕竟它能“猜”出用户的真实意图嘛。

不过利用“我好冷”、“我肚子饿了”、“下雨了”等这种类人的交流语句来调用功能,目前车机的语音交互基本也都可以满足了,只是相对范围还比较局限。

“舍”还是“得”

其实之前在体验哪吒S的时候,我也问过哪吒负责座舱研发的工作人员类似的问题:

“假如我们看电视剧让哪吒帮忙选集的时候不用看着屏幕上的字一板一眼地表达‘选集——16’这种,直接说‘帮我选第16集吧’这种形式的语句也有回应的话会不会更自然一些呢?”

对此哪吒的工作人员表示,他们也考虑过这个问题,但是用户实际的对话场景是非常多样性的。如果想要让车机的语音交互支持更广的模糊语义范围,满足用户更加口语化的表达,那一定不是针对一个指令,而是要从所有场景入手。

并且有的用户本身就更加喜欢用最明确的要求、更少的字数以更快地调用指令,加上考虑到座舱芯片的可处理能力和车机交互的流畅性,所以斟酌之后做出了这样的选择。

总结一下观点就是,哪吒S车机语音交互的目标是让用户更快地调用指令,语音调用的范围更广,而要让交互过程更加统一、简洁也面临着相应的取舍。

撇开这一小点,哪吒S的语音交互就我个人体验来看,语音助手的人声还原度、唤醒后支持无数轮连续对话、与朋友聊天时语音助手优先识别对应位置以及上下文语境理解等方面的体验都是很不错的。

当然,同事B如此在意车机语音对话的自然性也不是没有缘由的。

语音交互发展三阶段

毕竟随着语音交互的发展,“更自然”早已成为现阶段语音交互发展的核心,新势力车型的座舱宣传也往往离不开“情感智能”这几个字。

早在20世纪90年代就诞生了第一个具备普适性的语音识别系统,每个人都可以通过电话拨号的方式开始语音问答,但当时由于时代、环境、技术等诸多局限性必然存在很多缺点。

即使该项技术发展至今,我们在拨号查询快递或是拨打移动运营商号码办理业务时也依然经常存在暴跳如雷地按下人工接待键的情况。

当语音交互发展到第二时期,移动端集成视觉和语音信息的语音助手成为主流。

比如当初苹果在iPhone4S,iPad 和Mac上应用的语音助手Siri一经推出就成了网红,机主们只要说“Hey ,Siri”就可以通过语音交互来完成读短信、介绍餐厅、询问天气、语音设置闹钟等等操作。

另外,这一时期车机端也有了基础的语音产品,车主们可以在停车和驾驶状态下利用语音调用平时使用频率较高的功能,但由于技术局限性和使用习惯的问题,前期用户们唤醒语音助手进行指令操作的频率仍然是比较低的。

不过,随着互联网技术井喷式的发展,车机端的语音交互功能逐渐完善,很多车型的车机可以同时使用语音和屏幕交互的多模态交互形式,大大提高了处理任务的效率,也有了支持连续对话的可能性,用户们自然也就喜闻乐用了。

根据相关资料显示,在这一阶段,人机界面的演化轨迹从偏向机器的一端移向了人的一端,这已经暗示了“更自然”、“情感化”会成为未来语音交互发展的主打标签。

而我们正处于语音交互从第二时期发展到第三时期的过渡阶段。随着人工智能的发展和商用落地,车机交互方面的语音识别和语义理解能力都发生了质的飞跃,对应的用户场景也从驾车到生活的方方面面都有涉及。

语音交互面临的挑战

不过,尽管使用“听”和“说”作为车机交互的主要方式大幅减少了用户获取信息所需的学习成本,但目前的语音交互也依然存在诸多挑战。

比如多轮对话流畅性体验还有很大提升空间,比如多人、多细分场景对话体验有待拓展,比如基于语音对话与可穿戴设备或HUD相结合以提升用户更快信息获取度的可能性等等。

而当前相对更重要的,就是扩大语音助手的语义理解范围,包含上下文语境理解、模糊语义识别等需求,这也是让用户体验更自然的秘诀所在。

像目前有很多车型都官宣了车机即将接入百度发布的大模型生成式对话产品——文心一言,不过具体效果还得看后期的实际体验才行。

另外,在上海车展期间我也体验了商汤前段时间发布的“sensenova”大模型体系,其中“商量”语言模型也支持连续对话和上下文语境理解等功能,个人也非常期待它在未来座舱中的落地效果。

不难发现,不论是车企还是供应商都在积极拓展车机端语音助手的能力边界,而语境的识别与理解能力也已经成为那一道众“鲤鱼”要跃的“龙门”。

不禁想起在科幻题材类影片《永无止境》的大结局中,男主大脑开发到了百分之百也依然搞不定中文。

这个例子虽然夸张了些,但个人感觉目前语音交互能力拓展的主要难点还是“中国文化博大精深”,这也代表着车机端的语音交互发展仍然有很长的路要走。

标签:

x 广告
通达股份董秘回复:公司线缆产品主要原材料为铜、铝、塑料,有关材料价格可在上海有色网、长江有色金属网等网站查询

通达股份(002560)12月30日在投资者关系平台上答复了投资者关心的问题。

羊没羊,好像也没那么重要了!

疫情管控刚一放开,我就一直在想,如何降低羊的概率和影响。​由于家里老人身体不太好,孩子年龄又太小,加上只有我一个人整天在外面跑,感染

郑州富士康面试当天可以进厂吗(附面试前准备)

答:郑州富士康面试当天合格就可以安排宿舍,所以当天就可以进厂,也可以携带行李参加招募面试。拓展阅读:1 面试前准备携带资料:身份证原件

2021年我国产出卓越科技论文48万篇

新华社北京12月29日电(记者温竞华)中国科学技术信息研究所29日发布的《2022年中国卓越科技论文报告》显示,2021年,中国卓越科技论文共计48

世界关注:2023武汉欢乐谷免票及优惠票适用人群

武汉欢乐谷免票及优惠票适用人群儿童:身高1 2米以下(含),免费;身高1 2米(不含)-1 5米(含),优惠票老人:70周岁(含)以上凭有效证件

明年欧元区难逃衰退?经济学家警告:能源紧缺仍是重大隐忧 天天速递

明年欧元区难逃衰退?经济学家警告:能源紧缺仍是重大隐忧 ">

天风证券:火电行业利好频传,重申沿海电厂盈利修复逻辑 当前简讯

本周专题:火电行业利好频传,2022年12月15日云南省发改委提出设立燃煤发电调节容量市场;22日江苏、广东2023年年度交易结果出炉,电价基本实

形容天秤座的句子精选220句_今日要闻

形容天秤座的句子精选95句1 拦不住要走的风,抱不住整片天空。2 哪里有什么老天的眷顾,所谓的幸运和成功都源自你自身的努力和付出。3 所以,

昆明2023年兔年贺岁纪念币可以流通吗? 环球快看

昆明2023年兔年贺岁纪念币可以流通吗?双色铜合金纪念币与现行流通人民币职能相同,与同面额人民币等值流通。贺岁纪念币普通纪念币是央行发行

实时焦点:记一次QQ找回经历

腾讯的风控策略让普通用户抓狂经历是这样的,昨天有事要登录下QQ号,因为很久没用过QQ的缘故,现在是在一个新设备上登录,提示我需要扫码才能

x 广告

Copyright ©  2015-2022 欧洲城市网版权所有  备案号:沪ICP备2022005074号-23   联系邮箱: 58 55 97 3@qq.com