遠古時代,人類之所以能區別于其他動物而最終攀升到食物鏈的頂端,正是因為人與人之間的協作復雜而高效。計算機時代,人與機器的協作逐漸變得越來越重要。如何更好的讓機器學習人類的溝通方式從而實現人與機器更好的互動一直是人類不斷探索的方向。在上個世紀70年代計算機剛剛被發明出來的時候,最讓科學家們頭疼的是如何讓人們認識到計算機的強大能力而不被它繁雜的操作方式嚇倒,于是歷史上最著名的交互設計圖形用戶界面(GUI)誕生了。到了90年代以后,隨著智能手機的不斷普及,鍵盤的應用開始在手機上大行其道。到了20世紀,人們發現了更高效直觀的交互手段,2007年iPhone系列的推出宣告虛擬鍵盤和多點觸控時代的來臨。十年后的今天,語音交互正在蓬勃的興起,不知不覺中它已經開始重新定義我們的生活方式了。
今天的主角是Amazon Echo。Echo出身于Amazon 大名鼎鼎的Lab 126,這個類似于GoogleX的部門,據說是杰夫貝索思看了《創新者的窘境》之后深以為然,親自挑選各路人才創立的。它號稱擁有資源的”無限開火權“,可以腦洞大開的設計任何他們認為能改變世界的產品。126寓意從A到Z的26個字母,表明了Amazon要重新定義世界的野心,與Google的新名字Alphabet不謀而合。而這個天才實驗室的第一個項目A便是文青標配的Kindle。B項目是手機項目Fire Phone,2014年黑色星期五之后的一個月,Fire Phone經歷了從645 USD到199USD的史上最大調價,其中還包括一年價值99USD的亞馬遜會員。這是Amazon為數不多的失敗之一。很多媒體總愛拿這個項目說事兒,在面對BusinessInsider的采訪時,貝索思的回應鏗鏘有力:”我遇到過無數的挫折,如果我老想著這些失敗,那就像不打麻藥做手術。”臺下一陣哄笑,他繼續說:“這些事不好笑也不重要。重要的是要持續進行探索,因為如果公司不能接受失敗,最后就會變得絕望,到時候,他們唯一能做的就是在瀕死前打個冷顫“。就在黑色星期五來臨之際,項目D Echo發布了,這款產品很快會讓他們體會到人生的真諦就是死去活來。
Echo在立項初期完全是一個沒有野心的項目,那時候似乎沒有人認為世界上有比手機更重要的產品,至少不是音箱。所以大家對它的期望不高,團隊也沒有清晰的產品定位,要說有可能也是類似Echo Dot那樣在某個角落收集指令。盡管如此,原本計劃了6個月的開發周期最后做了三年。就在Echo將要發布前不久,一個工程師用自制程序控制電視的項目讓貝索斯茅塞頓開。那才是Echo該做成的樣子,之前的產品定位太小氣了!隨后市場反饋也證明了這個方向是對的,Echo在兩周內就獲得了超過100萬的預定,iPhone在上市后70天也達到了這個數字。雖然這樣的對比過于草率,但是變化往往在被注意到之前就悄然發生了。
恰如App Store之與iPhone,語音助手背后也需要一整個生態系統給它賦能。截止2016年底Echo 銷售量達到520萬臺,其語音助手Alexa已經掌握了5100項技能,同時Echo帶來的飛輪效應讓其擁有者在Amazon上的消費增加了10%
插句題外話,為什么杰夫貝索斯總能引領時代的潮流?
這就要說到他過去的經歷了,德州的少年天才,普林斯頓畢業,29歲做到了傳奇投資公司DESCO的副總裁,華爾街的青年才俊。然而就在事業巔峰,他看到了互聯網的潛力,毅然決定離開華爾街,一頭扎進互聯網的創業浪潮中。之所以會選擇賣書這個行業,是因為各家沒有太大的產品差異,這樣他可以更專注的提高用戶體驗。離開優渥的華爾街,投身于不確定性極大的互聯網商業,杰夫貝索斯這種開闊的視野,敏銳的嗅覺和強悍的執行力決定了他是天生的創新者。“決定勝負的瞬間不是一只腳有沒有踏進未來,而是另一只腳有沒有從過去離開。”
話說回來,Echo雖然是一個音箱,但其對聲音的追求跟其他普通音箱是完全不同的。Echo 配備了6+1MEMS麥克風陣列,是為了滿足遠場語音交互的需求應運而生的。所謂的遠場語音交互泛指4.5米以上的語音交互。
語音交互本身涉及了非常復雜的技術,其核心包括聲學處理,語音識別,語義理解和語音合成等技術。
-聲學處理主要是仿真人類的耳朵,保證機器能夠聽得準真實環境下人的聲音;
-語音識別則是把聽到的人聲翻譯成文字;
-語義理解則是分析這些文字的意義;
-語音合成就是把機器要表達的文字翻譯成語音;
以SIri為代表的近場語音識別技術已經發展了60余年,但一直不溫不火。直到我們發現用戶的真正需求是Echo這樣的遠場語音識別。而拾音距離的擴大帶來的技術問題不僅僅是語音信號的衰減,還有復雜的環境和用戶習慣造成的干擾。近場語音識別要求的是低噪聲,無混響,距離聲源很近的場景,同時還要求用戶滿足標準發音,識別率能達到95%以上。但是若聲源距離較遠,真實環境存在大量噪聲、多徑反射和混響,導致拾取信號的質量下降,這就會嚴重影響語音識別率。同時,真實環境中常常會出現多人說話的情形。當前的語音識別引擎都是單人識別模式,無法同時處理多人識別的問題。麥克風陣列技術實際上是一種聲學處理方法,是解決這些問題的主要途徑。選擇麥克風的時候有很多參數是需要考慮的,比如靈敏度、指向性、頻率響應、阻抗、動態范圍、信噪比、最大聲壓級、一致性。其中最后三個是麥克風最主要的性能指標。Echo之所以選擇MEMS麥克風也是因為它一致性較好。
9月28日亞馬遜推出第二代智能音箱Echo 2Gen和Echo Plus, 售價分別為99.99USD和149.99USD,10月31號正式發售。此外還有一個售價129.99USD的Echo Spot(帶屏幕)算是Echo Show的第二代產品。
這次升級的主要方向有四個:
1.更好的聲學設計和聲音單元配置,實現杜比聲效;
2.加強了對第三方智能硬件設備的控制;
3.優化了遠場拾音技術,優化嘈雜環境中的喚醒功能和消除噪音技術;
4.支持北美特定區域間的打電話和發短信服務;
簡單介紹下杜比聲效。它由美國杜比實驗室推出的,在原來左右兩個聲道的基礎上再分出兩路信號,分別是前中置聲道和環繞聲道。因此典型的杜比立體聲系統由4-5個音箱構成。我們知道傳統的聲道系統只能讓人感受到左右方向上的聲音區別,因此這是一種平面聲音系統,不能產生前后聲音的縱深差別。而杜比聲效加入了縱深信息,使聲音聽上去更加有層次感和方向感。
從統計數據上看,自2014年發售以來,Echo系列產品累計銷量超過1000萬臺,銷售額8-10億美元,占美國市場份額70.6%。可以說是當之無愧的領跑者。
然而亞馬遜也不是沒有對手,Google和Apple都有可能結合各自的產品生態特點走出一條不一樣的路。比如Airpods。
為什么一款耳機會對音箱構成威脅?因為它開辟了一個完全不同的應用場景。
很多人應該都還記得當年與Airpods一同發布的還有iPhone7和iPhone7S,這兩款iPhone最大的改變是取消了所有人都熟悉的3.5mm的耳機孔,蘋果發出了一個明確的信號:無線耳機才是未來。最新的統計結果顯示,Apple Airpods目前占據了85%市場份額的無線耳機,并在全球飽受好評。同時這款耳機有一個美妙的應用:可以通過輕輕敲擊Airpods喚出Siri。
上面說到Siri至今一直不溫不火,原因無非有三個:
1.語音識別不準,導致交互體驗差;
2.智能程度不夠,無法正確理解用戶發出的指令;
3.使用起來讓人略顯尷尬,尤其是在公眾場合對著話筒說話是不自然的;
隨著人工智能的突飛猛進,第一第二點最終都會被解決。而Airpods解決的就是第三點。這是一個天才的想法。想象一下當你戴上Airpods的時候就不用把手機拿在手上了,只要隨時輕敲兩下耳機就可以對Siri發號施令了。這和我們人與人之間的交互已經很接近了。它就像你的辦公室助理一樣,你讓它安排個會議,訂一張機票整個過程非常自然。而Airpods能有這樣的表現,和它底層的硬件基礎有密切關系。它搭載的W1芯片解決了很多藍牙無線耳機固有的技術問題: 噪聲過濾、低功耗、精準語音捕捉等等。設想,如果W1芯片不斷進化成為更先進的處理器,然后Airpods開始有了自己的App,能賦予Siri更多的技能,那這個”輕輕敲擊“就不再僅僅是個耍帥的動作了,而Airpods也會成為獨立于iPhone和Mac之外新的計算平臺。其實就在不久前Apple推出的Apple Watch Series3 上就已經搭載了W2芯片,內置e-SIM卡,同時更好的支持了Siri,能在沒有手機的情況下直接和Airpods連接。不得不佩服蘋果在這方寸之間醞釀的深意。
小結:
智能音箱以其使用便捷性、網絡連接性、技能擴展性正慢慢的成為當代人機交互的主流,恰好智能耳機也帶有同樣的屬性,同時它還具有私密性,傳感器兼容性,離用戶更近(便于多樣化的數據采集)等獨特優勢。讓我們大膽的預測下,或許蘋果會在這場交互升級中親手殺死iPhone,畢竟2007年當蘋果推出iPhone時埋葬的那個叫iPod的產品每年給公司貢獻的收入接近總收入的一半。