現在在汽車行駛過程中,通過喚醒車載語音助手實現導航、播放音樂、開關車窗等這些的簡單操作對用戶已經沒有多少吸引力了。
或許是受到智能音箱、手機、機器人的語音交互功能帶來的人性化、趣味性體驗的影響,又或是在自動駕駛、智能汽車風潮的大力推動下,用戶從最初對車載語音只要求能聽到聽懂就好變成希望它能夠像真正的人工智能助手一樣,不只是一問一答的簡單人機對話,而是真正傾聽他們的需求,給與情感上的反饋。
這樣的要求好像對于現在發展還不夠健全的車載語音交互來說,有點困難。當我們暫且拋開車載語音交互,單純談論語音交互的應用,會發現它其實已經在其他的場景中得到了較為成熟的應用。
比如智能家居就是一個很明顯的例子,諸如國外的谷歌、亞馬遜、蘋果,國內的百度、小米等公司他們都可以使用旗下的智能音箱或是在手機端下載APP來實現對家居、電器下達語音指令實現語音控制。
一般討論的語音交互包括三個模塊,語言識別ASR(將聲音轉化為文字)、自然語言處理NLP(機器理解人類表達的意思,并給與反饋)和語音合成TTS(將文字轉化為聲音)。
語音識別對于國內外具有一定技術研發實力和積累的公司已經不是一個緊迫的問題,真正現在困擾供應商和用戶的是自然語言處理部分,即語義理解,不僅是識別到用戶的語音指令,更重要的是理解用戶指令的含義。
智能化和情感化的車載語音
車載語音也遵循同樣的原理,只是發展困境顯然比其他類型終端的語音交互艱難得多。汽車無人駕駛級別的不斷遞推,也是車載語音交互持續進化的一個過程,它們是一個相輔相成的關系。
2000年寶馬推出了第一款具有語音識別的汽車,當時這款汽車語音識別能力非常有限,根本無法滿足用戶車內的交互需求,之后隨著人工智能、AI、大數據、深度神經網絡的發展,車載語音也實現了一次華麗的蛻變。
今年9月份,外媒報道,新梅賽德斯-奔馳A級車的車載語音角將很快可以實現駕駛員與汽車的深度融合,利用本地數據和云端數據解鎖更多豐富的場景和功能。例如,當用戶餓了,可以向語音助手尋求有關餐廳的建議,包括食物種類、餐廳風格等個性化需求。
對車載語音來說這種智能和情感是如何體現的呢?
試想一個場景:在下班開車過程中,對車載語音助手說一句,“XX,下班了來首音樂”,基于對下班這個詞的語義理解,它推測出用戶現在需要的是舒緩、安神類的歌曲,而不用再次詢問用戶,播放什么歌曲。減少了無意義的對話,增加了交互和溝通的效率。
語音交互是車載人機交互的主入口
人機交互的本質是人與機器的交流,而交流必定是雙方之間有互動有反饋,人對機器發出指令,機器也要能在極快的時間內做出回應,這才稱得上是優質的人機交互體驗。從物理按鍵、觸控、語音交互、手勢控制,車內交互方式的更迭與共存是一個體驗升級的過程。
車載語音能夠不斷的進化變得越來越懂用戶,這與它自身具有優勢條件密不可分。車內的交互大部分時間都處于汽車行駛狀態下,安全駕駛成為交互的首要考慮選項,這也是為什么在中控屏幕上采用觸控而被大家吐槽。
因為觸控意味著用戶需要頻繁低頭看屏幕來確認自己的操作是否正確,畢竟在中控屏上實現盲操作還是一件挺困難的事情。雖然對于部分經驗豐富的老司機來說,使用物理按鍵能夠實現部分功能的盲操作,但絕大多數的普通司機并沒有掌握這一項技能。
與之相對比,語音控制就成為了車內交互的首選方案。它只需要用戶發出語音指令就可以完成相關操作,不用低頭、不用動手,全程確保駕駛員的注意力集中在駕駛上。
此外,語音交互增加了用戶與汽車之間的互動,并且這一互動是具有趣味性和新鮮感的,它能夠用更加人性化的方式給予用戶反饋,而不是冰冷的機械觸感。這也契合了近年來智能座艙的內涵,讓汽車從出行工具轉變為智能的生活平臺。
現階段已經有很多科技公司在語音交互上取得了新的突破,在2018年Google I/O 大會上,展示了谷歌的語音助手Google Assistant是如何模仿人類與電話另一端的人工客服人員進行問答交流。
有意思的是,語音助手在流暢的表達了自己的意圖后,還模仿人類的口語,發出了enmm這種表示停頓的語氣,當人工客服在回答“稍等,我查詢一下”之后,谷歌語音助手試圖去理解這句話的含義,發出了表示疑問的嗯哼。
盡管這種“高仿人類”的人機對話還無法進行商業落地,但它清晰地向外界傳輸了一個信號——未來的語音交互應該具備什么樣的能力。
另一大語音科技巨頭亞馬遜旗下在今年9月發布了車載語音產品Echo Auto,將旗下的語音助手Alexa整合到汽車中,拓展出行使用場景,為駕駛員提供更加自然、流暢的語音交互體驗。
Echo Auto不僅可以播放音樂、查看新聞、打電話、設提醒、管理日歷等常規操作,還能夠與智能家居相連接,行駛過程中可以命令Alexa關閉家中的電器或是關閉車庫大門等。
不管是技術發展的趨勢,還是用戶的需求導向,可以肯定的是,未來的車載語音交互必定是在人工智能浪潮的推動下朝向更智能、更人性的方向邁進。