搶灘智能音箱（下）：對話OS圍獵服務生態鏈重構 - 埋線減肥,中醫減重,中醫減肥-中醫埋線減肥

關於診所

診療項目

常見問題

減重資訊

診所位置

最新消息

最新消息 > 搶灘智能音箱（下）：對話OS圍獵服務生態鏈重構

本文系網易智能工作室（公眾號smartman163）出品。聚焦AI 讀懂下一個大時代！編者按：智能音箱像潮水一般席卷科技行業隨著各家巨頭的進入百箱大戰一觸即發。8月15日網易智能獨家發布特稿《搶灘智能音箱（上）：新大陸還是海市蜃樓？》采訪了智能音箱生態鏈中的各環節廠商和資深行業人士。在上篇中主要闡述了中美智能音箱的差距以及造成差距的具體原因各大廠商爭搶智能音箱背后的語音交互大時代以及落地場景以及對于智能家居控制論的爭辯。在下篇中我們將探討如果做出一款智能音箱目前還有哪些技術問題以及智能音箱背后的內容服務與音樂版權之爭。文/小羿四、技術為先：關于遠場識別、喚醒時長以及聲紋識別想做一款智能音箱首先要解決端的問題。而要想在智能音箱上達到自然的語音交互能力這其中最關鍵的技術首先是遠場語音識別。遠場語音識別的實現涉及麥克風陣列以及降噪算法聲音識別的準確性及延遲等一系列問題。”麥克風陣列本身很成熟不管是2、4、6、7麥目前國內廠商都有生產而關鍵的是在軟盒方案（降噪、聲源定位等）如果你想做一款智能音箱很多語音識別技術公司都會給你指定采購方。“網易人工智能總監劉銳說到。但如何選擇麥克風的組合數量？很多人給出了不同的看法。一般認為麥克風（mic）越多聲音采集的效果越好但算法也就越復雜對CPU的主頻要求也就越高。云知聲Pandora項目負責人張鵬認為 6mic和4mic的效果差距不是特別明顯Product Series 但成本更高加上2mic和4mic之間效果還是有一定的差距綜合考慮選擇4mic會是一個比較好的方案。“麥克風不是越多越好應該是合適最好。”智能音箱集成方案商SugrCEO宋少鵬說 “GoogleHome只用了兩個麥克風但它的算法做的非常好效果也不錯。所以選擇多少麥克風數量需要考慮使用場景、距離、成本甚至是系統算法。”目前來看 6+1的麥克風方案是亞馬遜Echo驗證的方案目前使用類似方案的廠商有很多。據靈隆科技總經理魏強稱叮咚音箱目前使用的是7+1的麥克風組合方案這通常是軟硬件一體的解決方案除了硬件外還必須搭配降噪、背景音消除等諸多算法甚至涉及外部結構、電路設計。雖然目前行業中已經有很多成熟的麥克風陣列軟硬件一體化解決方案但是真正用到實際場景中還是會有很多問題比較典型的是方言識別問題以及中英文夾雜識別問題。漢語中有很多方言這就導致不同地區的用戶在使用智能音箱做語音交互時體驗上差距很大。魏強認為方言問題本質上是數據訓練的問題如果我們有足夠多的方言語料就能解決這個難題。另外一個很典型的問題就是用中文語音交互搜索英文歌曲more product information 甚至中英文混雜的曲目最后的結果往往是驢唇不對馬嘴。這需要語音識別的技術公司在中、英文的切換上找到突破口。遠場識別之外另一個比較受關注的技術問題是喚醒詞定制以及喚醒時長問題。從目前的技術水平來說喚醒詞定制沒有太大的問題難點在于定制喚醒詞的喚醒準確率沒有常規喚醒詞高。近期百度全資收購了專門做喚醒詞定制的技術公司KITT.AI 以加強自己在這部分技術上的實力。關于喚醒時長這是目前業內還沒有達成技術統一的難點所在。也就是說智能音箱被喚醒之后是一直在拾音狀態還是轉到休眠狀態這是一個問題。如果一直在喚醒狀態就有可能出現誤識別的問題比如電視上的聲音說“報警” 智能音箱就立即撥打報警電話。這是發生在GoogleHome上的真實案例。“目前行業上的普遍做法是預留6秒或者10秒的喚醒時長或者干脆讓用戶自己設置喚醒詞的預留時間。”劉銳向網易智能解釋到。除了以上的技術之外目前在智能音箱上還有一個方興未艾的技術那就是聲紋識別。在網易智能對各行業人士的采訪中大家都比較認同這項技術未來的應用前景。在張鵬看來聲紋識別為語音交互時代提供了一個身份ID 這就使得為個體成員提供個性化的服務奠定了基礎。“聲紋識別技術會成為智能音箱甚至是未來語音交互的標配。”劉銳這樣給聲紋識別技術定位。“不過目前聲紋識別技術才剛剛興起現在可以識別的用戶數量并沒有一個標準。從技術上看識別的用戶越多誤識別率越高。”劉銳稱目前聲紋識別的算法還處于數據積累初期還需要進一步發展成熟。魏強認為目前的聲紋技術只能用在比較清晰的語音環境下而且不能用于支付等有風險的場景中。“今年的語音交互技術就像2008年的手機觸控技術當時的觸摸操作不靈敏打游戲沒不跟手設備還容易發燙。但是未來語音技術肯定會越來越成熟以上難題將迎刃而解。”宋少鵬說到。五、從云服務到技能：生態鏈的重構智能音箱之上越來越多的人都認為云端內容服務將成為未來語音交互時代競爭的焦點。為了將內容服務接入語音交互設備中亞馬遜Alexa給出了一個很好的解決方案那就是將語音技術開放一個API接口當你問Echo今天天氣怎么樣它會先把語音通過本地處理上傳到云端服務器將語音翻譯成文字然后把文字關鍵詞找出來理解意思找到對應答案這個答案去調用氣象信息數據庫最后反饋給音箱播報出來整個過程可能只需要幾秒的時間。而這里的氣象信息數據就是一項云端服務內容亞馬遜將其稱為技能（Skill）。最新數據顯示 Alexa平臺上已經擁有15000項技能。“比如你跟冰箱說今天有點累了Product Series 它會給你推薦你喜歡吃的而特別有營養的東西。”海知智能CEO謝殿俠稱以后所有的業務服務都會升級成skill（技能）這種skill能夠像專家一樣給你推薦東西。魏強也表達相似的觀點 “手機生態中基本是幾個APP把握了巨大的入口。但是語音交互可以自然地隨意切換這是非常長尾的需求而且越多服務對用戶越好。”“從這個角度看未來所有的APP都會重構這種重構可能是把一個單品升級為一個技能也可能是過去相互隔離、推崇單點極致的APP思維互相打通。”謝殿俠這樣推測語音交互的未來服務形態。目前國內不管是巨頭廠商還是創業公司都希望搭建一個類似Alexa的平臺。

百度、阿里、騰訊、網易、小米、科大訊飛都已經進入。目的就是要打造一個中文語音對話平臺將移動互聯網上的服務變成平臺的技能。百箱大戰檔口創業公司也不甘示弱另辟蹊徑謀求在對話平臺的布局上分一杯羹。據思必馳CMO龍夢竹透露思必馳將很快發布一個面向開發者的對話平臺DUI “我們做了一項調研發現Alexa平臺上大概60%的開發者都在觀望。是否在自己的產品中加入語音識別？在這個問題上大企業開發者需要等待上級指派中小客戶需要更多的定制化功能。”龍夢竹稱在語音交互開發初期你必須要跟開發者一對一進行深度溝通而這件事只有創業公司能做。目前 DUI已經面向500個種子開發者開放不僅支持多輪對話、麥克風降噪、語音識別和輸出、TTS語音合成還整合了很多第三方技能（如閑聊、導航、天氣等）能定制喚醒詞最重要的是會進行一對一溝通滿足開發者多樣化的需求并將數據進行整合梳理滿足開發者運營需求。而對于云知聲的團隊來說他們希望通過芯片級的解決方案整合軟硬件及服務。據張鵬透露云知聲希望延續云端芯的產品技術架構讓用戶拿到芯片直接套用音箱外殼即可。

云知聲提供完整的解決方案。謝殿俠也認為智能音箱的本質是機器人的MVP（最小可用功能體）它具備叫起床、查星座、運勢、黃歷讀取百科、菜譜等諸多功能可以裝入各種機器人和智能家居設備中。方案集成商老樹開花科技CEO朱俊文認為未來語音交互的競爭焦點是在云平臺上面而互聯網公司是很重要的力量。他認為 “未來純語音引擎技術會成為成熟的基礎技術各家差異都不是很大而最終要拼的還是內容服務這是一個生態建設過程。”不管是XXUI 還是XXOS 各大廠商都希望做成內容服務的平臺從而掌握語音交互時代的入口。但在無線音響設備廠商Sonos看來他們可以整合各家平臺。王漢華向網易智能解釋到 Sonos的定位是成為智能音箱產業鏈中的一環主要是將音箱設計、音質、互聯互通等軟硬件體驗做好至于承載內容服務的OS 可以與國內外廠商合作甚至開放接入所有平臺。但是在中國市場對話操作系統的競爭如此激烈又怎么能夠把多個OS接入一款硬件中呢？這種路徑能不能走通？在中文對話平臺沒有真正形成規模之前這里還要打一個大大的問號。“最終能夠留下來的平臺級公司也就兩三家這兩三個OS上面會聚集很多應用場景和硬件。”王漢華認為 “和手機很相似未來的智能音箱產品也會出現從1000-6000元不同價格區間段的產品。”六、音樂版權之爭：未來困難重重活下來是第一步對于智能音箱來說在各家語音對話平臺沒有成型之前音樂版權之爭已經成為智能音箱發展的一個關鍵點。在網易人工智能總監劉銳看來智能音箱初期最基礎的功能還是聽音樂這就要求各家產品廠商必須保證自己的音箱中有足夠的音樂素材。目前國內音樂版權基本上在騰訊、阿里、網易三家手中其他做智能音箱的廠商就需要去買二手版權。但是這里有一個棘手的問題就是像索尼等唱片公司授權給互聯網公司音樂版權的時候都只是授權在APP上播放在其他產品上并不合規。據悉目前很多智能音箱還是爬去的APP音樂接口和曲庫根本沒有版權可言這為將來智能音箱市場大批量出貨埋下了隱患。“從音樂版權上看智能音箱只有大公司才玩得起。不過目前就是看誰先活下來后面還是要看用戶對于語音交互的需求。”劉銳認為智能音箱才剛剛起步。

后面困難重重。

回上頁