econto專利保護專利技術專利專利專利專利專利專利
來源:IPRdaily.cn中文網(wǎng)
作者:劉成 韓雪 審協(xié)北京中心 IP創(chuàng)新贏
原標題:Echo:能回應的音箱【最佳發(fā)明系列之12】
能獲評最佳發(fā)明,亞馬遜的Echo顯然不是一款簡單的無線音箱。其真正強大之處在于內(nèi)置了云端語音服務“Alexa”。一下子將這款音箱變成了能和用戶語音交流、控制其它設備的“智能助理”??纯磥嗰R遜官方發(fā)布的介紹視頻(建議在WiFi環(huán)境下觀看):
“Always ready, connected and fast. Just ask.”
隨時待機,快速響應
從亞馬遜的廣告語中就知道:問就好了!
Alexa,幾點了?
Alexa,找首輕松的歌放放
Alexa,明天要不要帶雨傘
如果你覺得上面的小兒科,那么它還可以;
控制Nest、IFTTT公司旗下智能家居產(chǎn)品
查銀行賬戶信息
訂購披薩
Uber叫車
甚至還能語音控制汽車。
(當然,目前還不支持中文)
外表簡約卻內(nèi)藏豐富的功能,Echo倍受用戶歡迎。自2015年正式發(fā)售至今,短短兩年銷量即已突破500萬臺,在近來甚少創(chuàng)新的音箱界可謂異軍突起,而且,據(jù)亞馬遜官網(wǎng)的銷售頁面顯示,Echo在近5萬用戶評價中獲得67%的全5星好評,被亞馬遜視為“下一個10億美元級”業(yè)務。
下圖是Business Insider在2016年12月對Echo銷量及Alexa技能數(shù)量的統(tǒng)計:
銷量翻倍,技能數(shù)直線上升……一個看上去比較簡單的音箱類單品能達到這種火爆程度,實在令人驚訝。
在互聯(lián)網(wǎng)各大巨頭早已布局語音助手的情況下,為什么Echo能夠獨領風騷,甚至讓Google追隨其腳步而推出Google Home音箱,蘋果也據(jù)傳將要發(fā)布基于Siri的智能音箱?
下面,小贏就從產(chǎn)品功能和專利技術角度,和大家分享一下亞馬遜這款“可以回應的揚聲器”背后的秘密。
亞馬遜開發(fā)Echo以及Alexa服務的項目可以追溯到2011年,由亞馬遜的Lab126實驗室研發(fā)(Lab126類似于Google的X實驗室。126表示第1到第26個字母。其研究項目以字母順序命名,例如Kindle為項目A),屬于項目D,于2011年啟動。
該項目最初的目標并沒有十分遠大,其創(chuàng)意實際是項目C(涉及增強現(xiàn)實)的一個衍生分支,后來才逐漸明確。為了加速語音技術的研發(fā),亞馬遜從著名的語音技術公司Nuance挖來一批重要技術人員,后來又陸續(xù)收購了Yap、Evi、Ivona Software等多家語音初創(chuàng)公司,為語音轉(zhuǎn)文字、語音識別在商品搜索上的應用、文本語音轉(zhuǎn)換和語音命令等功能提供技術支撐。
2014年11月,亞馬遜推出Echo,并于2015年7月正式對所有用戶出售,售價179.99美元:
Echo呈圓柱形,高約23.5厘米,內(nèi)置麥克風陣列和揚聲器陣列,以語音作為主要交互方式,通體只有兩個按鍵,其主要硬件結構如下圖所示:
Echo的兩個物理按鍵都在頂面,分別是關閉麥克風和喚醒;頂部有一個燈環(huán),燈環(huán)下面是一個音量控制轉(zhuǎn)環(huán),可以通過旋轉(zhuǎn)來調(diào)節(jié)音量。燈環(huán)會對Echo的狀態(tài)做出燈光反饋,比如關閉麥克風的時候,燈環(huán)會變成紅色,而調(diào)節(jié)音量的時候,燈環(huán)為白色,且范圍隨著音量變化。當捕捉用戶語音時,燈環(huán)還會在朝向用戶的部分點亮。
2016年3月,亞馬遜豐富Echo品類,發(fā)布了小型版的Echo Dot,并在10月更新為Echo Dot 2,售價49.99美元。
Echo Dot具有與Echo同樣的語音交互功能,只是弱化了揚聲器,但可以通過3.5mm音頻接口或者藍牙的方式連接到其它音響中,從而彌補揚聲器的不足。
與Echo Dot同期推出的還有Amazon Tap,是一款360°戶外藍牙音箱,同樣內(nèi)置了Alexa語音助手,售價129.99美元。
在Echo研發(fā)過程中,亞馬遜很長時間都沒有明確這款揚聲器的主要功能是什么。作為一個重要特點,Echo支持同時播放聲音和監(jiān)聽用戶語音的功能在后期才確定下來。
亞馬遜創(chuàng)始人貝索斯希望能讓Echo完全支持電商購物。需要說明的是,有證據(jù)表明,早在2013年底,Lab126就已考慮將Echo作為一款智能語音控制設備,通過互聯(lián)網(wǎng)將它與其他公司開發(fā)的智能燈泡等設備進行連接和控制。
2015年4月,Alexa新增對Belkin WeMo無線開關和飛利浦Hue燈具的控制功能,正式觸及智能家居領域。
在先后增加對多款智能家電的支持之后,2015年6月,亞馬遜宣布將Alexa開放給第三方開發(fā)者,發(fā)布了Alexa Skills Kit(ASK)和Alexa Voice Service(AVS)兩套工具包。
其中,ASK主要面向開發(fā)者,在Alexa中開發(fā)更多語音服務應用,AVS則主要支持第三方設備廠商在設備中集成Alexa。與此同時,亞馬遜還特別設立了1億美金的風險投資基金“Alexa Fund”,專門用來扶持語音交互領域的初創(chuàng)企業(yè)。
由于亞馬遜的推動以及Echo的良好口碑,其它智能設備廠商和第三方開發(fā)者的熱情日益高漲,Alexa具備的技能越來越豐富。2015年Echo整合的第三方服務只有14項,現(xiàn)在已經(jīng)上升至7000余項,并且以每天大約100項新技能的速度增長。有國外媒體對Alexa Skills的數(shù)量情況統(tǒng)計如下:
在剛剛進行的CES 2017消費展上,據(jù)說有700多種產(chǎn)品將內(nèi)置Alexa服務,包括:
LG超豪華冰箱、
華為Mate9手機(美國版)
聯(lián)想的音箱
優(yōu)必選機器人
甚至福特電動汽車……
雖然沒有參展,但Alexa幾乎無處不在
福布斯新聞表示:亞馬遜的Alexa要主宰CES
亞馬遜硬件部門高級副總裁David Limp曾說:“亞馬遜相信下一個大平臺是語音,我們要做的就是為用戶打造一個完全由語音控制的云計算機。”
伴隨Echo發(fā)展起來的Alexa不再只是一個內(nèi)置于設備中的智能語音助手,它已經(jīng)成為一個搶占先機的智能語音平臺,是亞馬遜在人工智能和智能家居領域的重大布局。而作為亞馬遜自家最先接入Alexa服務的主體,Echo未來也必然水漲船高,還將具備更多令人期待的功能。
如此重要的產(chǎn)品,自然少不了專利保護。同時,為了保密起見,對于Echo項目早期的專利,亞馬遜是借助一家名為Rawles LLC.的公司進行申請,后來再轉(zhuǎn)讓給亞馬遜。
從2012年6月起,Rawles LLC.申請了多個名稱中包含“voice controlled assistant”(語音控制助理)的專利,其中的語音控制助理就是Echo音箱的形式,例如,較早的一篇申請US13/486,774(已于2015年6月獲得授權,授權公開號:US9060224B1),如下圖所示,語音控制助理包括麥克風陣列、揚聲器陣列和計算組件,用戶以說話的方式向語音控制助理提交請求,語音控制助理通過麥克風陣列采集聲音信號,對聲音信號進行處理,形成相應的查詢請求,然后與云端通信,通過云端為用戶提供各種應用服務,例如播放音樂、回答提問等,最后通過揚聲器陣列將結果反饋給用戶。
2013年12月,同樣是通過Rawles LLC.公司,亞馬遜申請了一項名稱為“Natural Language Control of Secondary Device”(二級裝置的自然語言控制)的專利(申請?zhí)枺篣S14/094,270,公開號:US2015/0154976A1),同時還申請了PCT并進入歐洲和中國。該申請描述了通過自然語言輸入并經(jīng)由初級語音響應裝置來控制二級裝置的技術,也就是利用Echo以語音方式控制其它設備的原型,如下圖所示。
眾所周知,亞馬遜并非最早推出智能語音助理的公司,單就以語音方式控制二級設備而言,這也不是亞馬遜的首創(chuàng)。例如,Sensory, Inc.的一項專利(授權號:US7418392B1,申請日為2004年9月10日)就公開了通過語音指令控制設備操作的方案,被蘋果和亞馬遜的相關申請大量引用:
然而,在Echo推出之前,市面上最為普遍的語音交互應用一般都是采用單麥克風或雙麥克風系統(tǒng),例如集成Siri語音助手的iPhone等。單麥克風系統(tǒng)可以在安靜環(huán)境或距離較近的情況下取得良好效果,但如果聲源距離麥克風較遠,并且真實環(huán)境存在大量的噪聲、多徑反射和混響,這會嚴重影響語音識別率。在這種情況下,即便如iPhone這么優(yōu)秀的產(chǎn)品,其Siri的表現(xiàn)也不盡如人意。
相比之下,Echo的獨特之處在于:使用了麥克風陣列,并且結合亞馬遜強大的云服務進行語音識別。麥克風陣列由一組按一定幾何結構(常用線形、環(huán)形)擺放的麥克風組成,對采集的不同空間方向的聲音信號進行空時處理,能夠?qū)崿F(xiàn)噪聲抑制、混響去除、聲源定位、人聲干擾抑制等功能,從而提高語音信號處理質(zhì)量,提高真實環(huán)境下的語音識別率。
下邊左圖中的綠色圓圈示出了Echo使用的6+1麥克風陣列,位于Echo頂部,右圖為前面提到的專利US9060224B1中的相關附圖:
Echo所宣傳的“Far-Field Voice Recognition”(遠場語音識別):
正是基于其硬件中的麥克風陣列實現(xiàn)?;邴溈孙L陣列技術,亞馬遜在音頻信號處理、智能語音識別等領域布局了大量專利,對其產(chǎn)品和方案進行保護。
(1)遠場拾音
為了實現(xiàn)良好的遠場拾音效果,獲得清晰的目標語音信號,需要用到波束形成,聲源定位,噪聲抑制,混響消除,回聲消除等技術。下表簡要說明了這些技術及亞馬遜的典型相關專利:
(2)智能語音識別
得到聲音信號之后,Echo如何進行智能語音識別,準確理解用戶的語音命令?這里需要用到“模型匹配”技術。模型匹配主要是和語音識別以及語義理解進行匹配,語音交互是一個完整的信號鏈,從麥克風陣列開始的語音流不可能割裂的存在,必然需要模型匹配在一起。實際上,效果較好的語音交互專用麥克風陣列,通常是兩套算法,一套內(nèi)嵌于硬件實時處理,另外一套服務于云端匹配語音處理。
亞馬遜設計了運行于云端的自動語音識別ASR(automatic speech recognition)系統(tǒng),并基于模型匹配設計了關鍵詞識別(keyword spotting)系統(tǒng)。Echo收到的語音命令被系統(tǒng)拆分為多個字段,它們在云端與關鍵詞模型逐一比對,匹配度最高的部分被認為是用戶發(fā)出的語音命令。US9159319B1描述了該關鍵詞識別系統(tǒng)。
對于較為特殊的“喚醒詞”,亞馬遜還專門申請了多篇專利,例如US9275637B1(美國專利授權公開號),US9368105B1等,可以避免錯誤喚醒。
此外,US9299346B1、US9424840B1描述了一種語音識別平臺,可基于自動語音識別ASR的結果和用戶上下文來確定語音指令的范圍,理解語音指令的意圖,并執(zhí)行相應的動作。
通過對多種音頻處理和智能語音識別技術的綜合運用并不斷優(yōu)化,亞馬遜將Echo的平均語音處理響應時間從最開始的5秒縮小到1.5秒,如今甚至已做到1秒以內(nèi),大幅領先其它智能語音類產(chǎn)品,與Echo對話毫無延滯感,用戶體驗十分出色。
經(jīng)過以上分析可以看出,Echo之所以領先于Google Home等競爭對手,其秘笈包括:
(1)性能優(yōu)異,用戶體驗良好;
(2)高度機密的研發(fā)過程;
(3)低調(diào)和完善的專利布局;
(4)開放的策略,促進發(fā)展完整生態(tài)鏈。
目前Echo和Alexa還暫未進入國內(nèi),以上策略或許可供國內(nèi)有關廠商借鑒一二,在競爭激烈的人工智能語音交互市場覓得一席之地。
亞馬遜硬件部門高級副總裁David Limp曾在描述Alexa的時候說,“我們的長期愿景是讓Alexa這個系統(tǒng)能像《星際迷航》里的中央計算機一樣,像科克船長一樣坐在艦橋里,用聲音控制一切。”
隨著大數(shù)據(jù)的不斷積累和人工智能的迅速發(fā)展,我們相信,人類與機器之間自然語言交流的障礙將會消除,“用聲音控制一切”的時代終將到來。而Echo,也許是這一時代開啟的序章。
參考資料
“The Real Story of How Amazon Built the Echo”,Joshua Brustein,【https://www.bloomberg.com/features/2016-amazon-Echo/】
“遠場語音交互的麥克風陣列技術解讀”,陳孝良,【http://blog.sciencenet.cn/blog-1375795-1012654.html】
來源:IPRdaily.cn中文網(wǎng)
作者:劉毅 審協(xié)北京中心通信部
編輯:IPRdaily.cn LoCo
校對:IPRdaily.cn 縱橫君
本文來自IPRdaily.cn 中文網(wǎng)并經(jīng)IPRdaily.cn中文網(wǎng)編輯。轉(zhuǎn)載此文章須經(jīng)權利人同意,并附上出處與作者信息。文章不代表IPRdaily.cn立場,如若轉(zhuǎn)載,請注明出處:“http://jupyterflow.com/”
文章不錯,犒勞下辛苦的作者吧