Siri產品分析

注:轉載請注明出處

本報告通過對Siri的分析,了解和學習人工智能助手在現有市場的應用情況,為制作機器人產品提供一些思考的方法和方向。

一、產品基本情況


分類

描述

中文名稱:

蘋果智能語音助手

蘋果智能語音助手:

Siri

軟件類型:

語音助手

首次面世時間:

2007年作為App Store的一款應用

Apple公司對Siri的宣傳廣告語:

與 Siri 交談可讓你更加輕松、快速地搞定大小事務。它就在你的 iPhone、iPad、Mac 和 Apple?Watch 上,時刻伴你左右,隨時為你提供幫助。讓 Siri 設置鬧鐘或路線,為你叫車或預訂會議,發送一個邀請或一條愛意滿滿的信息,甚至是調節你房間的燈光照明。你使用 Siri 的次數越多,它就越懂你的心思。只要說出你想要的,剩下的 Siri 會幫你搞定。

類似明星軟件:

1.Facebook M

2.Amazon Echo

3.Google Assistant, Allo

4.Apple Siri

5.IBM Watson

6.Microsoft Cortana

版本更新大事件:

iPhone 4S iOS 5 Siri首次推出

2011年10月13日,蘋果發布了iPhone 4S,搭載iOS 5系統,推出了語音助手Siri,盡管當時這款軟件被當做玩偶來戲弄。

iOS 6 Siri新增15個國家和地區語言

根據蒙斯特的測試,在iOS 6中,Siri能夠理解91%的問題,而在iOS 5系統中為89%;在iOS 6中,Siri回答問題的準確率77%,高于iOS 5的76%。雖然Siri從iOS 5到iOS 6的改善幅度并不大。

?

iOS7中除了Siri“測試版”字樣

2013年6月10日,蘋果在iPod、iPhone和iPad設備上正式放出iOS7操作系統更新。減少對Google的依賴,優化聲音和中文識別,其中在Siri方面去除了“測試版”字樣。在此之前一直是處于“測試階段”。

iOS8增加喚醒“嘿Siri

iOS9中Siri增加了彩色元素,在這之前Siri一直是黑白搭配,以智能穿戴為中心的智能家居正在形成

iOS 10 Siri首次開放了權限給第三方應用

從iOS 10開始,可能變化最大的Siri,這一誕生五年的產品第一次被移植到蘋果的筆記本電腦上,另外向第三方開發商開放,意味著功能將極大擴充(比如利用Siri購買電影票、機票等)。

在國外Siri首次開放了權限給第三方應用:WhatsApp、領英、Pinterest、Square Cash 和 Slack,也包含一些沒有那么響亮的名字,例如 Looklive 和 The Roll。這些應用的體驗更多集中在支付、拍照片、發消息等基礎交互。

?



二、背景介紹


Siri的學術化全稱為“個人自動智能助理”(Personalized Intelligent Assistant),并非蘋果公司自主研發,最初是蘋果AppStore的一款應用,蘋果公司發現后很快于2010年4月份從斯坦福研究機構國際智能中心(SRI)處收購而來,傳言收購價格在2億美金左右,之后很快Siri從AppStore下架并集成進入IPhone 4S。


三、行業分析


(一)人工智能發展方向


未來所有的政府、公司、軍隊都是人工智能機構,人工智能將無處不在。美國國防部20年未到訪硅谷,而在任國防部長卡特自去年上任以來連續4次密集訪問硅谷,對人工智能表示出極大興趣,直言要將民用AI技術用于改進國防裝備體系,幫助美國培育出新型的“鋼鐵俠”戰士,國防部高等研究計劃局(DARPA)正在基于人工智能技術研發自動駕駛戰車、反潛無人機械船、智能電子戰系統、“半人馬”人類作戰行動輔助系統等。據悉,美國國防部 2017 財年建議的研發預算為120~150億美元,而被國防部所看重的硅谷科技公司,如谷歌、微軟、蘋果、臉書和英特爾等巨頭也正在不約而同地投入“人工智能優先”戰略。


  • 數據、算法、計算、場景驅動新一輪人工智能。現階段,人工智能正在從專有人工智能向通用人工智能發展過渡,由互聯網技術群(數據/算法/計算)和場景互為推動,協同發展,自我演進。人工智能已不再局限于模擬人的行為結果,而拓展到“泛智能”應用。

  • 人工智能具備“快速處理”和“自主學習”兩種能力。人工智能實現了學習、決策和行動的快速處理,并且具備不停迭代和優化“試驗—驗證—學習”的正循環;人工智能可以更靈活地自主學習和管理知識,支持知識的“產生—存儲—應用—更新”的體系化管理。

  • 人工智能更易于解決具備三類關鍵特性的商業問題:

  • 行業存在持續痛點;

  • 商業流程本身具備數字化的信息輸入,問題可以細分并清晰地界定,商業流程存在重復,且獲得的結果的溝通以書面溝通或單項溝通為主;

  • 商業流程較少受整體商業環境的復雜影響。

  • 大數據是人工智能戰略性競爭優勢:

  • 互聯網催生了大數據,大數據催生了人工智能;

  • 場景數據的積累,促進人工智能技術應用,從而形成更高效的解決方案;

  • 數據主要有自籌數據、公共數據、產業協同數據三大來源。

  • 人工智能按照服務智能、科技突破和超級智能三個階段進化,未來3-5年處于服務智能:

  • 服務智能:充分發揮現有技術的能力,打造人工智能賦能的應用場景,讓智能服務各行各業

  • 科技突破:應用的擴展,數據的進一步豐富,對技術帶來新的要求,最終促進技術實現顯著突破,并相應推動應用向縱深拓展

  • 超級智能:技術顯著突破,應用海量擴展,人工智能無所不在

  • 人工智能五大競爭定位模式,生態構建者是關鍵一環

  • 按產業鏈展開分析,人工智能將呈現生態構建者、技術算法驅動者、應用聚焦者、垂直行業先行者、基礎設施提供者五類競爭定位模式;

  • 生態構建者布局全產業鏈,聚集大量開發者和用戶,將成為其中重要的一類模式。

  • (二)在API困境被解決之前的智能助理困境

  • 智能助理屬于對話式服務

  • 智能助理: Intelligent personal assistant/agent (IPA) 又稱為Virtual Personal Assistant/Agent(VPA)——幫助個人完成多項任務或多項服務的虛擬助理,當前討論的核心驅動力是人工智能。

    而“對話式服務(conversational service/commerce)”——這是包含智能助理在內的多個產品形態的統稱,核心特點是:

    1.對話式:人機交互的方式由圖形化交互(GUI-Graphical User Interface)變為以對話作為交互方式(CUI-Conversational User Interface 業界暫時還沒有定義,這是我自己瞎編的),就是用說話來代替觸摸或者鼠標,操作計算設備。

    2.服務:提供服務,解決問題都算,如訂機票,購買禮物等。不包括信息查詢(如天氣)。

    截止到2016年6月的時候,在Producthunt上標記為對話式服務(ConvComm)的有一百多個創業項目。

  • 智能助理應該解決服務需求

  • 選擇Producthunt當中排在最前150位的項目進行分析,其中高達70%的項目定位都在2C的個人助理(agent)上,其中大部分都想做切入服務,包括垂直類的和多任務的。

    這些助理服務當中有23.1%是專業類型的服務,主要是在醫療和理財方面。而剩下來的76.9%的助理干的最多的活兒是生活上的綜合幫助,出行安排,日程管理,購物訂餐廳等等——這一類是坑最大的地方——特別是那些試圖把生活上的各種服務都打包進去的產品。


    Producthunt上面69.7%的對話式服務都是智能助理產品(但并非所有都具備AI)

  • 人工智能助理的潛力

  • 移動紅利的結束,行業需要新的增長點

  • 多跡象都指向同一個結論:移動互聯的高速增長已經飽和。比如用戶已經不再愿意下載新的APP。



    2016年1月有超過5萬個新的APP被提交到了appstore,但是在美國市場有65%的智能手機用戶在一個月內下載新APP的數量為0,下了1個新APP的人占8.4%。

  • 對話式服務具備新的增長點的潛質

  • 回顧過去,最大的幾次浪潮基本都伴隨著一個規律:核心技術(軟硬一堆)的出現和整合,帶來全新的人機交互方式 ,在此基礎上大量的商業應用應運而生。



    從90年代,人機交互的三種變化比如2007年末移動互聯開始,核心驅動的硬件是觸摸技術、各種sensor的成熟以及整體計算能力的提升和小型化;軟件方面則是iOS&Android的顛覆式出現。軟硬結合創造出完全顛覆過去的觸摸操作的體驗,并使其稱為真正可用的人機交互方式——讓圖形化界面的輸入工具,從鍵鼠時代跨越到了更intuitive的觸摸,并完美的與后面開放的生態系統結合起來(不得不再次對喬大爺表示敬佩)。

  • 人機交互越來越傾向于人

  • 可以看到隨著技術的平民化(democratization),人機交互正不可逆轉地向人的方向靠近——不需要學習的人機交互。




  • 對CUI的特點的理解決定產品價值

    界面觸屏操作不可延續到語音操作服務器

  • 為了深入理解這個問題,我們可能要先分析一下,CUI和GUI究竟給用戶體驗帶來什么影響?因為這絕不是現在主流的“把按鈕變成語言操控”那么簡單的事情。

    CUI的特點:

  • 高度個性化,所有用戶能做的選擇范圍,都明確的顯示在界面上(所見即所選)


  • 這看上去是一個大家非常熟悉的界面,只是所有用戶能做的選擇范圍,都明確的顯示在界面上(所見即所選)。找美食,用戶能做的選擇基本就是:附近,類型,智能排序(不點開可能還不知道是什么意思)以及排序。當用戶自己不知道該如何決策的時候,這些視覺化的框架,給了用戶提示該從這些方面根據自己的需求來做篩選和匹配。

    但是在智能助理的界面,用戶看到的是這樣的:



    用戶對可以做哪些選擇一無所知——在沒有可視化的參考下,面對如此開放的交互,當用戶要找一個餐廳的時候,他們提出的要求,大都不在GUI設定的范圍以內。

    根據我們實際操作的經驗,用戶提出的問題是這樣的:



  • 使用流程非線性:比如GUI是線性的流程,界面引導用戶一步一步走到結果;而CUI則可以是完全無視先后順序的,用戶可以再最開始就提出本來到排在最后的條件當中。

  • 可避免信息過載:用戶打開GUI的一個界面,比如點評上找一個餐廳,用戶得在一個列表里去找尋自己最想要的選項(典型的案例是,GUI讓用戶選擇國家的時候那一長排的列表)。而CUI則可以規避用戶的信息過載,直接給出期望的結果。這個特點的另一面是,GUI因此是informative的,給不熟悉場景的用戶更多的提示,或者比較結果的機會。

  • 復合動作:“明天或后天,晚上最便宜的機票”——從用戶的操作和實際體驗來看,GUI無法一次給出結果,只能用戶先查一次明天的機票,再查一次后天的機票,然后手動來對比。CUI完勝——可以直接給出相關條件的檢索結果,前提是AI足夠優秀。

  • 什么樣的AI Agent能滿足C端的需求?

  • 具備基于上下文的對話能力 (contextual conversation)

  • 具備理解口語中的邏輯 (logic understanding)

  • 所有能理解的需求,都要有能力履行(full-fulfillment)

  • 1、基于上下文的對話能力(contextual conversation)

    在當前,做助理的產品的底層技術基本都是圍繞NLU(自然語言理解)打造的,很多還沒有涉及到NLP??墒菬o論是大公司還是小公司的NLU都是讓人失望的。舉個簡單的例子,在大公司的幾個產品上提出需求:我下周五要去北京,幫我查一下航班。

    需要識別意圖:查機票

    需要識別entities時間(下周五),目的地(北京),出發地(無/當前地理位置)

    我們看看結果,首先看三家的回復,從左到右分別是蘋果的SIRI, 微軟的CORTANA, Google的ALLO。



    換一句話來說,沒有結合上下文的對話,會造成的最嚴重的問題就是這個agent基本不能獨立完成服務。因為用戶不會在一個句子里把所有的條件都列出來。

    不能真正理解上下文的對話(機票查詢):

    AGENT: 從哪里出發?

    用戶:上海虹橋機場

    AGENT:到哪里?

    用戶:還是從浦東走吧

    AGENT:好的,從虹橋出發到浦東的航班是......

    在上面的對話,AI Agent在問第二個問題的時候,不能理解用戶對前一個回答的修改(出發地從“虹橋”改為“浦東”),只是按照預先設計對話的順序,填上命名實體識別得來的entity。繼而查詢不到結果,給用戶的感覺就是笨。

    真正理解上下文的對話(機票查詢):

    AGENT:從哪里出發?

    用戶:上海虹橋機場

    AGENT:到哪里?

    用戶:算了,從浦東走吧

    AGENT:好的,出發改為浦東。那到達城市呢?

    用戶:北京

    AGENT:好的,從浦東到北京的航班是...(給出正確的結果)

    而具備真正上下文理解的對話,agent可以正確理解用戶第二個回答的內容(從浦東走),其實是在修改上一問題的回答(出發機場),而不是真的在回答第二個問題(到達地在哪里)。

    這只是上下文的例子,而對于服務類agent而言,所有后續的NLP功能都基于上下文對話為前提。這些看上去其實都是非常簡單的需求,但是當前沒有任何一個2C的agent可以做到。

    可能有人會問,大部分用戶都應該在第一時間把需求表達出來吧,為什么還需要對話?實際上,真正操作過大量案例的同學就會發現,用戶不可能如此”貼心“地按照開發者的設計來提出需求。

    “幫我看看下個星期五去北京,下午3點多,從虹橋出發,國航的航班。” ——這一類的表達方式在幾乎從來沒有出現過。哪怕是在用戶最熟悉的場景,也很難確保一個句子的表達里包含了所有必須的檢索條件。而且,用戶還會不停的補充更多的個性化需求。

    對于用戶自己比較了解的場景,如:訂機票需要提供到達地,用戶提出的大多數需求,在最初都是非常簡單,然后逐漸開始細化的。所以需要當用戶提出不完整需求的時候,根據其意圖,結合之前已經給過的條件,通過對話,向用戶提出問題,再獲得答案來補全剩下還需要的條件,最后再完成服務。

    對于用戶自己不熟悉的場景,用戶根本就不知道自己該提出哪些方面的需求。如:不懂酒的用戶,想買一瓶合適的威士忌。他就根本很難提出除了價格以外的需求,比如產地,年份,釀造原料,水源等等。因此,Agent得以合適的方式來提問,引導用戶給出偏好,并且用對話提出推薦。

    而且對于agent而言,很難判斷哪些用戶對服務的認知有多深。如果不做識別,就容易問”老手“一些”新手問題“,繼而讓老手覺得我還不如自己下單;而給新手又留下”你在說什么我都不懂“的印象,也是不聰明。

    所以要有好的體驗,這是非常困難的。而基于上下文的對話,只是最基礎的用戶需求之一。

    2.理解口語中的邏輯 (logic understanding)

    在我們的實踐中,我們發現對”邏輯“的理解直觀重要。原因也是因為用戶的正常對話,大部分都不是開發者預設那樣的。

    再做一個簡單的測試,比如找餐廳,試試:幫我推薦一個附近的餐廳,不要日本菜。



    這是一個簡單邏輯,但是你看所有的服務,這次包括剛剛那個國內創業公司C一樣,都會是一個結果:全部推薦日本菜。測試了亞馬遜echo的alexa,結果也無法識別”不要“這個最簡單的邏輯。

    這次其實比剛剛好多了,至少4家里面除了google allo,都識別出來我的意圖是找餐廳——但是,當我明確提出不要日本菜的時候,給出結果的三家全部都是日本菜......也就是說“不要” 兩個字被完全忽略了。

    觀察大量的用戶案例表明,當用戶越是個性化需求強烈的時候,對話中出現邏輯和指代關系的頻次越高。

    ?“有沒有更便宜的?”

    除了大床房以外的房間有么?”

    “后天會比今天更冷么?”

    就要剛剛的那個2千多的吧?!?/p>

    除了廉價航空,其他的航班都可以。”

    以上這些需求是提需求的時候,在對話中經常出現的表達方式,而且看似簡單,但是目前沒有任何一個NLU的系統或產品能夠正確的理解。主要的阻礙就是對邏輯的理解,還有在基于上下文對話中的指代關系的理解失敗。


    3. NLP不是全部,還要有能力履行(API困境)

    NLU并不是智能助理發展的瓶頸,供給端的數據才是。

    我們假設如果有一個黑科技出現,使得NLP有了極大的進步,以至于兩個條件:1)基于上下文場景的對話;2)口語邏輯,都能被理解了,甚至還能基于場景和上下文用NLG來生成各類問題——它能理解我們所有講出來的需求。

    在用戶熟悉的范圍內,它能結合所有的過去的對話,歷史記錄等等內部外部條件,幫助用戶盡可能的實現“不用開口,就知道我在這個的需求”。比如當用戶提出“推薦餐廳的需求”:

    用戶:“女朋友周日過生日,推薦一個餐廳,找有江景的,最好桌子旁邊有一個大落地窗戶,能看到外面的夜景。吃的不要太貴,環境好點,有現場音樂的最好是爵士,不要太吵的。”

    Agent:“菜系有偏好么?”

    用戶:“意大利餐和法餐都可以,對了不要離外灘太遠了”

    agent解析出以下選擇餐廳的條件:

    1.周日晚(營業)

    2.適合女朋友過生日

    3.有江景

    4.有大落地窗

    5.不要太貴

    6.環境好

    7.有現場音樂,爵士

    8.不能太吵

    9.意大利餐或者法餐

    10.距離外灘不能太遠

    然后它去哪里找到這樣的餐廳呢?在地圖服務提供商,或者點評的API提供的信息里只有8,9,兩項能找到數據。假設評論中有這樣的數據,該用什么方式來傳遞呢?接口提供的都是結構化的數據,而“環境好”這樣的非結構化數據,最多以標簽的方式來做,但是這樣的話,標簽就會有無止境的多也不現實。

    這就是我們所謂的“API困境”——當前基于API的數據傳遞方式,只能1)承載結構化數據;2)承載數量非常有限的結構化數據。

    當前基于GUI的產品,都是用API來傳遞結構化數據。但大量個性化數據往往是非結構化的,以當前API的方式很難被處理。這還是在使用場景或者服務比較簡單的情況下。

    在用戶不熟悉的場景下,agent面對稍微專業一點的服務,就會遇到知識圖譜的問題。簡單來講,agent要做推薦的前提是對推薦的內容得先有了解。好比,要向一位不懂酒的用戶推薦一款威士忌,那就不能依賴這位用戶自己提出的問題(很可能提不出要求),而得依賴“懂行”的自己對威士忌的理解的方方面面來引導用戶做合適他的選擇。一個助理顯然無法擁有所有服務所需的知識圖譜。

    從知識圖譜的結構來看,是相對可被結構化。一個服務可以以各種方式被拆解成很多個方面,但大量的方面在當前是沒有結構化數據的(比如我們沒有每家餐廳的”營業面積“的數據);甚至很多方面無法用結構化數據來表達(比如每家餐廳有否”適合浪漫約會“的環境)。

    因此,智能助理就算有了強大的NLP,還需要全面的知識圖譜(結構化數據)和處理并傳遞非結構化數據的能力——而這兩點,在目前是無解的。

    總結

    在“API困境”解決之前,再加上NLP本身還有很長的路要走,基于人工智能的多任務服務agent不大可能達到C端滿意的水平。


    四、使用技術


    (一)技術來源

    Siri 技術來源于美國國防部高級研究規劃局所公布的 CALO 計劃:一個讓軍方簡化處理一些繁復庶務,并具學習、組織以及認知能力的數字助理,其所衍生出來的民用版軟件 Siri 虛擬個人助理。現在它采用了Nuance公司的語音識別技術。


    (二)Siri的整體技術架構猜想

    Siri是一個功能繁復的綜合AI框架,Siri里包含的眾多數據、模型和計算模塊劃分為輸入系統、活躍本體、執行系統、服務系統和輸出系統五個子系統。其在解析用戶輸入時候遵循一定的執行順序,以此來理解用戶的真正意圖并提供有用服務。

    Siri的資源主要分為資源類和計算類兩大類,其中屬于資源類的包括;

  • 領域模型;

  • 詞匯表數據庫;

  • 短期記憶系統;

  • 長期記憶系統;

  • 領域本體數據庫;

  • 對話流模型;

  • 服務模型;

  • 服務能力模型;

  • 外部服務;


  • 屬于計算資源的包括:


  • 語音識別系統;

  • 語言模式識別器;

  • 語言解釋器;

  • 對話流控制器;

  • 任務控制器;

  • 服務集成模塊;

  • 語音生成系統;


  • Siri的輸入系統支持多模態輸入,即不僅僅支持眾所周知的語音識別,也允許用戶進行文本輸入、GUI界面操作以及事件觸發等。除了支持多模態輸入外,Siri輸入系統一方面可以利用語言解釋器對早期輸入進行歧義消除,另外一方面還可以對用戶輸入進行有意識的引導,將用戶輸入盡量映射到Siri能夠提供的服務上來。這樣對于用戶和Siri來說才可相得益彰,Siri 可體現其價值,用戶可獲得幫助。


    舉例,想象一下,當你在騎行的時候,Siri在你耳邊提醒你臨近會議的準確時間和地點,并為你語音導航,同時為你口述剛剛收到的短信息——所有的動作都沒有打斷你的騎行運動,這就是語音交互的優勢所在。


    (三)前端方面技術


    前端方面,即面向用戶,和用戶交互(User Interface,UI)的技術,主要是語音識別以及語音合成技術。語音識別技術是把用戶的口語轉化成文字,其中需要強大的語音知識庫,因此需要用到所謂的“云計算”技術。iOS10.3系統的Siri經測試證明必須在有網絡的情況下才可以使用。


    (四)后臺技術


    這些其實才是真正的大角色。這些技術的目的就是處理用戶的請求,并返回最匹配的結果,這些請求類型很多,千奇百怪,要處理好并不簡單。基本的結構猜測可能是分析用戶的輸入(已經通過語音轉化),根據輸入類型,分別采用合適的技術(合適的技術后臺)進行處理。這些合適的后臺技術包括,①以Google 為代表的網頁搜索技術;②以Wolfram Alpha為代表的知識搜索技術(或者知識計算技術);③以Wikipedia 為代表的知識庫(和 Wolfram Alpha 不同的是,這些知識來自人類的手工編輯)技術(包括其他百科,如電影百科等);④以Yelp 為代表的問答以及推薦技術。


    (五)網頁搜索


    在大陸Siri以百度為搜索結果,且每次只展示5條搜索情況。

    傳言Siri試圖擺脫Google的搜索技術

    Siri一直被視為蘋果語音搜索的未來,同時也被視為Google搜索的潛在競爭對手,然而這一切最終的競逐場都在數據庫。而在最近的一項測試中,Siri回答問題的準確度只有62%,與Google相差甚遠。



    與iOS 5相比,在iOS 6中蘋果大幅增加了自己產品的比例,包括其剛剛推出的地圖服務,而來自Google的數據大幅降低。在美國投資銀行Jaffray的分析師Gene Munster發布的一份有關Siri和Google搜索準確性的
    報告中,提到了以下三個關鍵點:

    *Google能理解100%的問題,回答問題的準確度為86%

    *Siri在嘈雜的環境中能理解83%的問題,在安靜的環境中能理解89%的問題

    *Siri在嘈雜問題中回答問題的準確度僅為62%,安靜環境中回答問題的準確度為68%

    從蘋果最近的一系列動作來看,它急于擺脫對Google在某些方面的依賴。但是在搜索這一塊,借助于強大的數據庫,要撼動Google地位談何容易。雖然其語音搜索產品比蘋果的Siri晚,但是依靠搜索建立起的強大數據庫,Google 事實上已經給出了答案。而在最新的iOS 6,Siri仍有近一半的數據來自Google。


    (六)知識計算


  • 搜索技術

  • 知識庫技術(車音網也有在用,其他兩個暫時還未涉及到)

  • 問答推薦技術



  • 五、使用數據


    備注:以下數據只做對比,其參考性隨著時間的推移逐漸減小。

    蘋果是智能語音助手先鋒,但發展速度一直很慢。雖然Siri現在已經被集成在了可穿戴設備中(Apple Watch和AirPods),但Siri仍然缺少機器學習功能和用戶數據,Siri不支持這些的主要原因是蘋果更看重數據隱私和安全性。



    這次調查中有超過1000位英國智能手機用戶參與。語音助手最大的用戶群是年輕的男性。用戶選擇語音助手的三大原因分別是:方便、簡單和比如輸入更快。第四個原因竟然是有趣,很多人經常讓語音助手給自己講笑話。



    調查中還發現,22%的用戶感覺在公眾場合與自己的設備說話很尷尬,人們更喜歡在家中使用語音助手

    以下附一篇網站的數據報告,作為參考,可登陸該網址查看詳細的數據:http://www.sojump.com/report/12301070.aspx


    六、產品分析


    (一)產品功能分析


    Siri被使用最多的的功能:在線搜索、播放音樂、查看天氣情況和導航。

    功能框架圖如下:(備注:可放大查看)



  • 主要使用功能詳細描述

  • 設鬧鐘

    一步到位,但不可以更改、刪除鬧鐘;

  • 打電話

    通訊錄匹配可實現數字撥號、聯系人姓名,發音相同撥號,在駕駛環境下使用喚醒功能撥號非常方便,只需要3步即可完成。

    且具有重播功能

  • 發短信

    發短信支持很多種不同的說話,非常方便。自動拆分對象和內容,此處猜想主要包含以下幾個屬性:


  • 內容對應下圖:



  • 導航

    記錄家、公司的位置,可以設置地理圍欄。

    周邊查詢的多輪交互已經做到既準確又人性化的回答,Siri在嘗試通過多輪對話完成一些復雜的地點推薦、預定服務,一方面Siri整合了高德、大眾點評等的周邊地理位置數據作為支撐,另一方面Siri在對話邏輯上嘗試使用本地語音有限處理的方式來完成簡單的對話,但是在對用戶的引導上還需要進一步加強,因為漢語的博大精深,這讓Siri在回答上很難取舍用戶的回答到底是指什么意思?這樣一來引導性被削弱,且用戶也會被繁瑣固定無趣的流程消磨掉耐心值,Siri喪失了蘋果一向一來追求的完美主義用戶體驗。

    屬性定義如下表:


  • 對應下圖:



    最糟糕的是,已經被去掉“測試階段”名號的Siri在10.3系統上仍然存在bug,要達成任務仍然存在難度。


  • 搜索

    搜索功能在界面展示上來說,對于Siri是一個雞肋,Siri追求的極簡界面,和Siri 統一風格的UI界面,讓在大陸的百度搜索最多只能展示五條結果,暫且不談搜索的內容是否符合用戶的預期,這種展示方式便不適合于查看搜索引擎的內容,且經過多次跳轉才能達到目的地,又無返回機制,所以搜索功能就如其他第三方插件一樣始終是作為一個插件存在,并無法正在的與Siri融為一體,更無從談起Google抗衡,那一天的到來首先要解決的便是這種多模態的交互方式。

    Siri針對百度百科做了一些專門的圖形化表達處理,以便于能夠用百度百科簡單的回答用戶的問題,展示了一定的差異化,在界面上Apple公司總是超越其他產品。

  • 提醒事項、備忘錄

    用Siri來做提醒和備忘錄,都十分方便,從目前來看,只有這種嵌入式的本地操作,能夠一步到位,凡是需要第三方數據支持,且是需要數據清洗還篩選的要做到用現有的人工智能技術來簡單處理,只會讓流程變得更為復雜。




  • 在本地嵌入式調用操作這一層可以看出,Siri正在朝著分析用戶數據的方向來發展,例如給用戶的照片添加標簽:拍攝時間、拍攝地點、人物等,可以完成一些簡單的查找功能,對Siri說:查找我今年在雅安的照片,得出了如下的結果:



    (二)產品性能方面


    語音方面:合成痕跡很重

    中文識別能力:僅次于科大訊飛

    優勢:作為一款手機助手擁有調用root權限的天然優勢,是一切其他助手無法比擬的;

    劣勢:出于害羞,和不打擾其他人的心理,我更需要戴著耳機使用Siri,但是不能通過耳機麥克風喚醒,只能對著手機喚醒(此處可能涉及回升消除造成的影響);

    調用第三方插件的速度有待提高;

    雖然Siri在中國向QQ、滴滴出行、Keep這幾款開放了接口,但是也是一時可用,一時不可用,用戶可通過Siri與這些第三方接口產生的操作也僅限于淺層次的發消息、打開應用等能一步或者簡單操作完成的步驟,并不能對用戶使用這些應用的日常行為產生什么影響,而且90%以上的中國大陸用戶并不知道可以通過Siri來操作QQ或者滴滴。


    (三)產品交互設計分析


    沿用iOS系統的設計,盡量保持一致

    設鬧鐘和提醒,直接在界面顯示開關按鈕,沿用設置界面



    打電話

  • 有時通過讀音的播報來區分兩個人名;

  • 有明顯區分是不播報;

  • 調用打電話應用需要一定時間,感覺上并不十分快速;

    ?

    發短信

  • 發短信的句式比較隨意,能夠輕松區分聯系人和內容;

  • 取消發送短信后會控制界面的可操作區域會被限制為不能操作區域;

  • 如果出現設置按鈕同樣會被取消,這樣已經成為歷史的消息就只能是歷史,再無法進行操作,不會帶來界面上多按鈕操作的流程上的錯綜復雜,堅持了簡單的聊天界面,我想這也是音樂播放一定要采用插架方式的原因;

    ?

    比賽、天氣等

  • 盡量采用列表的方式來圖形化表達結論,也許列表圖形化是Siri目前能夠找到的最好的表達文字的方式,走極簡主義風格和用戶體驗路線的蘋果公司應該會在將來讓界面更加簡單,趨近于無,一旦能夠掌握足夠的用戶隱私數據和做到精準推送,計算足夠迅速,也許有一天無頁面輔助的方式會更加適合那些擁有選擇糾結癥的用戶。

  • 百度搜索結果最多只顯示5個,但是提供一些建議說法給用戶;

    ?



  • 聲音的交互設計:

    1、在播報時和提醒用戶說話時采用不同的聲音提醒用戶;

    2、在觸發應用完成時發出應用原本的聲音提醒用戶,例如發短信時有短信發送的聲音。


    七、未來猜測


    從上文的分析結果來看,人工智能或者說智能助理要顛覆現有的移動終端設備的觸摸式人機交互方式目前來說很不現實,不具備上下文理解的能力、邏輯處理能力技術上的局限性、API本身的局限性帶來的困境,人工智能未來將走向何方,仍然有很多未知領域需要探討。Siri在蘋果公司堅持的這7年里有很大變化,但是總體來說發展很緩慢,也許這一點恰好說明了AI在目前的市場環境下存在非常大的局限性。

    1、以下幾個方面是個人認為Siri目前最迫切需要解決的問題:

  • 識別的準確度和效率

  • 預防錯誤和及時更正

  • 用戶操作的自由度、效率以及流暢度

  • 簡潔明了是關鍵

  • 更擅長的業務引導能力

  • 人機交互的連續性、可靠性、普遍性(像使用觸摸手機一樣連續的使用Siri)

    2、以下為我認為Siri下一步的可能迭代方向:

  • 聲紋識別

  • 情感分析和語氣分析

  • 具備基于上下文的對話能力 (contextual conversation)

  • 具備理解口語中的邏輯 (logic understanding)

  • 所有能理解的需求,都要有能力履行(full-fulfillment)

  • 猜測可能擴展的方向

  • 智能穿戴設備

  • 智能家居

  • 無人駕駛

  • 最后編輯于
    ?著作權歸作者所有,轉載或內容合作請聯系作者
    平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

    推薦閱讀更多精彩內容