本文系網易智能工作室(公眾號smartman163)出品。聚焦AI 讀懂下一個大時代!編者按:智能音箱像潮水一般席卷科技行業 隨著各家巨頭的進入 百箱大戰一觸即發。8月15日 網易智能獨家發布特稿《搶灘智能音箱(上):新大陸還是海市蜃樓?》 采訪了智能音箱生態鏈中的各環節廠商和資深行業人士。在上篇中 主要闡述了中美智能音箱的差距以及造成差距的具體原因 各大廠商爭搶智能音箱背后的語音交互大時代以及落地場景 以及對于智能家居控制論的爭辯。在下篇中 我們將探討如果做出一款智能音箱 目前還有哪些技術問題 以及智能音箱背后的內容服務與音樂版權之爭。文/小羿四、技術為先:關于遠場識別、喚醒時長以及聲紋識別想做一款智能音箱 首先要解決端的問題。而要想在智能音箱上達到自然的語音交互能力 這其中最關鍵的技術首先是遠場語音識別。遠場語音識別的實現 涉及麥克風陣列 以及降噪算法 聲音識別的準確性及延遲等一系列問題。”麥克風陣列本身很成熟 不管是2、4、6、7麥 目前國內廠商都有生產 而關鍵的是在軟盒方案(降噪、聲源定位等) 如果你想做一款智能音箱 很多語音識別技術公司都會給你指定采購方。“網易人工智能總監劉銳說到。但如何選擇麥克風的組合數量?很多人給出了不同的看法。一般認為 麥克風(mic)越多 聲音采集的效果越好 但算法也就越復雜 對CPU的主頻要求也就越高。云知聲Pandora項目負責人張鵬認為 6mic和4mic的效果差距不是特別明顯Product Series 但成本更高 加上2mic和4mic之間效果還是有一定的差距 綜合考慮選擇4mic會是一個比較好的方案。“麥克風不是越多越好 應該是合適最好。”智能音箱集成方案商SugrCEO宋少鵬說 “GoogleHome只用了兩個麥克風 但它的算法做的非常好 效果也不錯。所以 選擇多少麥克風數量 需要考慮使用場景、距離、成本 甚至是系統算法。”目前來看 6+1的麥克風方案是亞馬遜Echo驗證的方案 目前使用類似方案的廠商有很多。據靈隆科技總經理魏強稱 叮咚音箱目前使用的是7+1的麥克風組合方案 這通常是軟硬件一體的解決方案 除了硬件外 還必須搭配降噪、背景音消除等諸多算法 甚至涉及外部結構、電路設計。雖然目前行業中已經有很多成熟的麥克風陣列軟硬件一體化解決方案 但是真正用到實際場景中 還是會有很多問題 比較典型的是方言識別問題 以及中英文夾雜識別問題。漢語中有很多方言 這就導致不同地區的用戶在使用智能音箱做語音交互時體驗上差距很大。魏強認為 方言問題本質上是數據訓練的問題 如果我們有足夠多的方言語料 就能解決這個難題。另外一個很典型的問題就是用中文語音交互搜索英文歌曲more product information 甚至中英文混雜的曲目 最后的結果往往是驢唇不對馬嘴。這需要語音識別的技術公司在中、英文的切換上找到突破口。遠場識別之外 另一個比較受關注的技術問題是喚醒詞定制以及喚醒時長問題。從目前的技術水平來說 喚醒詞定制沒有太大的問題 難點在于定制喚醒詞的喚醒準確率沒有常規喚醒詞高。近期 百度全資收購了專門做喚醒詞定制的技術公司KITT.AI 以加強自己在這部分技術上的實力。關于喚醒時長 這是目前業內還沒有達成技術統一的難點所在。也就是說 智能音箱被喚醒之后 是一直在拾音狀態 還是轉到休眠狀態 這是一個問題。如果一直在喚醒狀態 就有可能出現誤識別的問題 比如電視上的聲音說“報警” 智能音箱就立即撥打報警電話。這是發生在GoogleHome上的真實案例。“目前行業上的普遍做法是預留6秒或者10秒的喚醒時長 或者干脆讓用戶自己設置喚醒詞的預留時間。”劉銳向網易智能解釋到。除了以上的技術之外 目前在智能音箱上還有一個方興未艾的技術 那就是聲紋識別。在網易智能對各行業人士的采訪中 大家都比較認同這項技術未來的應用前景。在張鵬看來 聲紋識別為語音交互時代提供了一個身份ID 這就使得為個體成員提供個性化的服務奠定了基礎。“聲紋識別技術會成為智能音箱甚至是未來語音交互的標配。”劉銳這樣給聲紋識別技術定位。“不過 目前聲紋識別技術才剛剛興起 現在可以識別的用戶數量并沒有一個標準。從技術上看 識別的用戶越多 誤識別率越高。”劉銳稱 目前聲紋識別的算法還處于數據積累初期 還需要進一步發展成熟。魏強認為 目前的聲紋技術只能用在比較清晰的語音環境下 而且不能用于支付等有風險的場景中。“今年的語音交互技術就像2008年的手機觸控技術 當時的觸摸操作不靈敏 打游戲沒不跟手 設備還容易發燙。但是未來語音技術肯定會越來越成熟 以上難題將迎刃而解。”宋少鵬說到。五、從云服務到技能:生態鏈的重構智能音箱之上 越來越多的人都認為 云端內容服務將成為未來語音交互時代競爭的焦點。為了將內容服務接入語音交互設備中 亞馬遜Alexa給出了一個很好的解決方案 那就是將語音技術開放一個API接口 當你問Echo今天天氣怎么樣 它會先把語音通過本地處理上傳到云端服務器 將語音翻譯成文字 然后把文字關鍵詞找出來理解意思 找到對應答案 這個答案去調用氣象信息數據庫 最后反饋給音箱播報出來 整個過程可能只需要幾秒的時間。而這里的氣象信息數據 就是一項云端服務內容 亞馬遜將其稱為技能(Skill)。最新數據顯示 Alexa平臺上已經擁有15000項技能。“比如你跟冰箱說 今天有點累了Product Series 它會給你推薦你喜歡吃的而特別有營養的東西。”海知智能CEO謝殿俠稱 以后所有的業務服務都會升級成skill(技能) 這種skill能夠像專家一樣給你推薦東西。魏強也表達相似的觀點 “手機生態中 基本是幾個APP把握了巨大的入口。但是語音交互可以自然地隨意切換 這是非常長尾的需求 而且越多服務對用戶越好。”“從這個角度看 未來所有的APP都會重構 這種重構可能是把一個單品升級為一個技能 也可能是過去相互隔離、推崇單點極致的APP思維互相打通。”謝殿俠這樣推測語音交互的未來服務形態。目前 國內不管是巨頭廠商還是創業公司 都希望搭建一個類似Alexa的平臺。 百度、阿里、騰訊、網易、小米、科大訊飛都已經進入。目的就是要打造一個中文語音對話平臺 將移動互聯網上的服務變成平臺的技能。百箱大戰檔口 創業公司也不甘示弱 另辟蹊徑謀求在對話平臺的布局上分一杯羹。據思必馳CMO龍夢竹透露 思必馳將很快發布一個面向開發者的對話平臺DUI “我們做了一項調研 發現Alexa平臺上大概60%的開發者都在觀望。是否在自己的產品中加入語音識別?在這個問題上 大企業開發者需要等待上級指派 中小客戶需要更多的定制化功能。”龍夢竹稱 在語音交互開發初期 你必須要跟開發者一對一進行深度溝通 而這件事只有創業公司能做。目前 DUI已經面向500個種子開發者開放 不僅支持多輪對話、麥克風降噪、語音識別和輸出、TTS語音合成 還整合了很多第三方技能(如閑聊、導航、天氣等) 能定制喚醒詞 最重要的是會進行一對一溝通 滿足開發者多樣化的需求 并將數據進行整合梳理 滿足開發者運營需求。而對于云知聲的團隊來說 他們希望通過芯片級的解決方案整合軟硬件及服務。據張鵬透露 云知聲希望延續云端芯的產品技術架構 讓用戶拿到芯片直接套用音箱外殼即可。 云知聲提供完整的解決方案。謝殿俠也認為 智能音箱的本質是機器人的MVP(最小可用功能體) 它具備叫起床、查星座、運勢、黃歷 讀取百科、菜譜等諸多功能 可以裝入各種機器人和智能家居設備中。方案集成商老樹開花科技CEO朱俊文認為 未來語音交互的競爭焦點是在云平臺上面 而互聯網公司是很重要的力量。他認為 “未來純語音引擎技術會成為成熟的基礎技術 各家差異都不是很大 而最終要拼的還是內容服務 這是一個生態建設過程。”不管是XXUI 還是XXOS 各大廠商都希望做成內容服務的平臺 從而掌握語音交互時代的入口。但在無線音響設備廠商Sonos看來 他們可以整合各家平臺。王漢華向網易智能解釋到 Sonos的定位是成為智能音箱產業鏈中的一環 主要是將音箱設計、音質、互聯互通等軟硬件體驗做好 至于承載內容服務的OS 可以與國內外廠商合作 甚至開放接入所有平臺。但是 在中國市場 對話操作系統的競爭如此激烈 又怎么能夠把多個OS接入一款硬件中呢?這種路徑能不能走通?在中文對話平臺沒有真正形成規模之前 這里還要打一個大大的問號。“最終能夠留下來的平臺級公司也就兩三家 這兩三個OS上面會聚集很多應用場景和硬件。”王漢華認為 “和手機很相似 未來的智能音箱產品也會出現從1000-6000元不同價格區間段的產品。”六、音樂版權之爭:未來困難重重 活下來是第一步對于智能音箱來說 在各家語音對話平臺沒有成型之前 音樂版權之爭已經成為智能音箱發展的一個關鍵點。在網易人工智能總監劉銳看來 智能音箱初期最基礎的功能還是聽音樂 這就要求各家產品廠商必須保證自己的音箱中有足夠的音樂素材。目前 國內音樂版權基本上在騰訊、阿里、網易三家手中 其他做智能音箱的廠商就需要去買二手版權。但是 這里有一個棘手的問題就是 像索尼等唱片公司授權給互聯網公司音樂版權的時候 都只是授權在APP上播放 在其他產品上并不合規。據悉 目前很多智能音箱還是爬去的APP音樂接口和曲庫 根本沒有版權可言 這為將來智能音箱市場大批量出貨埋下了隱患。“從音樂版權上看 智能音箱只有大公司才玩得起。不過目前就是看誰先活下來 后面還是要看用戶對于語音交互的需求。”劉銳認為 智能音箱才剛剛起步。 后面困難重重。 |