前言
隨著技術(shù)的進(jìn)步,尤其是信息傳播能力的提升,現(xiàn)今人類文明發(fā)展駛?cè)肓顺掷m(xù)加速的快車道。科學(xué)共同體的模式已經(jīng)將過去幾千年知識技術(shù)的臺階式漸進(jìn)發(fā)展變?yōu)槎钙率脚郎覀儠r時刻刻都在進(jìn)步中。更多分享,更多協(xié)作,現(xiàn)在再NB的科學(xué)家如果閉門做學(xué)問,有個3-5年不與外界接觸,就會被整個時代拋離。前不久看了《流浪地球》,不說情節(jié)設(shè)計,對背景設(shè)定有個最大感觸,真到了太陽壽命快終結(jié)的時候,按照現(xiàn)在人類文明的發(fā)展速度,探究出宇宙真理不敢說,但銀河系肯定早就邁出去了,亞光速飛行和聚變能源真不是啥太遙不可及的技術(shù),有幾百年肯定能搞定。
說的遠(yuǎn)了,回來講本文的主題。現(xiàn)在VR\AR\MR\CR\XR各種R概念紛飛,讓人眼花繚亂,作者希望通過從技術(shù)方面的整理分析,對未來5-10年個人終端設(shè)備VR\AR\MR的發(fā)展做一番展望。首先旗幟鮮明的表明作者個人觀點,智能眼鏡是一定會取代智能手機(jī)成為下一代個人終端的最主要形態(tài),這個時間過程可能至少會是3-5年,但肯定不會超過10年,要相信當(dāng)前技術(shù)發(fā)展的加速能力,具體在后文“下一代終端”章節(jié)中會有描述分析。
為了省事,本文中所有關(guān)系到VR/AR/MR三者全體的描述,都以3R表示,反正寫此文純粹是作者興致喜好,不涉及湊字?jǐn)?shù)算稿費的情況。本文的內(nèi)容全部源自互聯(lián)網(wǎng)公開資料,作者僅試圖從自身視角出發(fā),對相關(guān)技術(shù)內(nèi)容進(jìn)行邏輯整理和重組織輸出,更方便同好者學(xué)習(xí)理解。
作者對所有內(nèi)容來源的被引用者均致以最誠摯的謝意,因參考引用的源頭太多與較為零散,且本文也非學(xué)術(shù)性文章,就不一一列出了。閱讀者如果有更深入的學(xué)習(xí)意愿,也請自行就關(guān)鍵字去互聯(lián)網(wǎng)檢索,無需詢問作者有哪些推薦閱讀。另外本文適用于WTFPL license,如有讀者希望引用轉(zhuǎn)載本文中內(nèi)容時請參考。
概念與產(chǎn)品
首先明確概念,目前被提到最多的VR\AR\MR\CR\XR幾個,就個人理解,現(xiàn)階段技術(shù)相對成熟,有可見工程產(chǎn)品的只有VR(虛擬現(xiàn)實)、AR(增強(qiáng)現(xiàn)實)和MR(混合現(xiàn)實)三類;CR(影像現(xiàn)實)僅是一個成像效果概念,跟產(chǎn)品沒任何關(guān)系;XR則是個噱頭,X代表啥都能裝,這種就屬于純粹的概念炒作。
VR產(chǎn)品成熟度最高,作為全封閉影像系統(tǒng),專注于視頻和游戲領(lǐng)域,為用戶打造一個脫離現(xiàn)實的環(huán)境,類似于網(wǎng)文中的魔幻玄幻歷史架空類小說。業(yè)內(nèi)知名產(chǎn)品如全球的HTC Vive、Sony PS VR、Facebook Oculus Rift、三星Gear VR,國內(nèi)也有暴風(fēng)、小米和華為等大量價格更親民的VR產(chǎn)品。雖然仍有不少技術(shù)問題未能完美解決,但VR產(chǎn)業(yè)已經(jīng)進(jìn)入高速成長期,不影響大規(guī)模商用。那種用兩塊透鏡看手機(jī)屏幕的特色“VR”不在本文討論范圍內(nèi)。
AR和MR,都是將虛擬圖像和現(xiàn)實圖像結(jié)合在一起進(jìn)行呈現(xiàn),類似于網(wǎng)文中的現(xiàn)代都市異能類小說。二者目前概念說法很多,邊界定位不夠清晰,個人傾向于AR僅做數(shù)據(jù)圖層疊加,MR會將虛擬圖像與現(xiàn)實圖像結(jié)合顯示。產(chǎn)品形態(tài)上AR眼鏡都不是封閉的,現(xiàn)實景象仍然依靠人眼直接捕捉;而MR現(xiàn)在雖然受困于技術(shù),都是不封閉的,但未來發(fā)展方向一定是全封閉的,會通過攝像設(shè)備捕捉現(xiàn)實景象,然后與虛擬景象結(jié)合計算,再將融合結(jié)果在眼球前屏幕上成像。具體的分析請參考下文。
MR技術(shù)要求更高,目前主流市場上也僅有微軟HoloLens和Magic Leap這兩款不夠成熟的非商用產(chǎn)品。AR相對簡單,如Google Glass、EPSON BT系列、Meta AR等成熟產(chǎn)品很多,國內(nèi)目前也有GLXSS Pro、0glass等應(yīng)用于如醫(yī)療、工業(yè)制造等不同行業(yè)領(lǐng)域的產(chǎn)品,雖然使用場景嚴(yán)重受限,但價格也大都可以接受。
AR/MR面臨的最大問題是應(yīng)用,因為要跟現(xiàn)實相結(jié)合,就不能像VR那樣在視頻游戲領(lǐng)域天馬行空的去創(chuàng)造內(nèi)容。簡單來說就是我們帶著AR/MR設(shè)備能干啥是很受限的,如果只針對具體場景如行進(jìn)指路、醫(yī)療手術(shù)、工程維修等,就太細(xì)碎了,花很多錢研發(fā)出來的場景應(yīng)用,可能帶不來多少使用效果提升,投入產(chǎn)出比不高,市場自然做不起來。
個人感覺AR更快速的普及發(fā)展方向應(yīng)該是對個人辦公系統(tǒng)的替代,通過網(wǎng)絡(luò)和云桌面結(jié)合,能投影個Windows系統(tǒng)出來,隨時隨地干活兒,取代筆記本和臺式機(jī),便攜性提升很多,同時不屬于新增投資,也更有利于大眾的接受。MR技術(shù)成本短期內(nèi)很難有大的下降,且應(yīng)用方向不清晰,短期內(nèi)很難有普及性發(fā)展,但AR屬于MR的過渡技術(shù),終將被MR替代,當(dāng)然受技術(shù)成熟速度和商業(yè)發(fā)展影響,估計至少要5-10年的長周期才行。
我們?nèi)绾巍翱础笔澜?/h1>
不管是哪個R,其核心技術(shù)都是視覺成像,所以先簡單介紹下我們“看”東西的原理,這對后面理解當(dāng)前3R的技術(shù)困境會有很大幫助。
單眼成像
我們看到的景物都是光源發(fā)出的光或者物體反射的光。人眼本身是一個可自我調(diào)整的精密光學(xué)系統(tǒng),當(dāng)景物通過晶狀體在視網(wǎng)膜上成像,分布于視網(wǎng)膜上的各視覺系統(tǒng)得以感光并將其從輻射能轉(zhuǎn)變?yōu)殡娒}沖,最終由大腦解碼產(chǎn)生圖像。
視網(wǎng)膜上的感光細(xì)胞分為兩種:視錐細(xì)胞和視桿細(xì)胞,分別對應(yīng)人眼的明視覺和暗視覺。視錐細(xì)胞又分為紅色、綠色和藍(lán)色感光細(xì)胞,其對照明的明暗條件敏感度較低,只有當(dāng)光照強(qiáng)度達(dá)到一定條件時,錐細(xì)胞才能夠起作用;視桿細(xì)胞對光照的敏感度較高,可以在光照條件很暗的情況下對景物成像,卻不能感受顏色,這也解釋了為什么在晚上的時候人仍然能夠看到物體,卻不能有效地分辨物體的顏色的現(xiàn)象。
眼球中最主要的兩個部件就是負(fù)責(zé)控制進(jìn)光量的瞳孔虹膜和控制對焦的晶狀體(水晶體),例如近視的主要原因就是總看近處的景物,導(dǎo)致晶狀體長時間維持拉伸狀態(tài)導(dǎo)致無法壓縮(就像一直被拉開的彈簧會變得無法自動壓縮回彈),遠(yuǎn)處的景物就無法在視網(wǎng)膜上形成對焦了。我們常說的看書看手機(jī)看電腦容易近視,就是因為長期視線聚焦在近處小范圍物體上導(dǎo)致的,跟看啥東西其實關(guān)系不大。
雙眼聚散與深度
前面講的是單個眼球成像的光學(xué)原理,在我們通過視覺系統(tǒng)判斷景物的遠(yuǎn)近距離時,要依靠大腦通過雙眼觀察到的兩幅不同圖像進(jìn)行合成計算。單眼觀測圖像雖然也能簡單依據(jù)近大遠(yuǎn)小來判斷距離,但往往不夠準(zhǔn)確。雙眼觀測這里有兩個重要的計算因素,聚散和深度。我們都知道物體離眼睛越近,左右眼看到的差別就會越大,通過這些物體的光場觀測區(qū)別,大腦在合成圖像時,會給出物體距離更準(zhǔn)確的判斷。
當(dāng)看近處物體時,我們稱為匯聚,此時兩只眼睛是朝內(nèi)的,匯聚的目的是讓你聚焦的地方變清晰。而看遠(yuǎn)處物體時,雙眼朝外,我們叫做分散。大家小時候常玩的斗雞眼其實就是聚散效果的體現(xiàn),首先兩只眼睛都朝著鼻子的方向看,然后慢慢朝遠(yuǎn)處望去,雙眼匯聚的焦點越來越遠(yuǎn),遠(yuǎn)到無窮遠(yuǎn),這時雙眼視線就近乎平行了。
另外我們通過瞳孔的進(jìn)光量控制,可以對物體的深度進(jìn)行判斷。當(dāng)我們看近處的物體時,瞳孔收縮,減少遠(yuǎn)處物體的進(jìn)光量,使其變得模糊,從而給大腦一個深度的信息,用于位置距離的綜合計算。
視野范圍
視野也被稱為視場,指人眼平視某一個點時的視覺范圍,這個視覺范圍分為三個級別依次降低:最大視野、正常視野和最佳視野。
最大視野指能看到的最大理論角度,包含單眼的范圍極限,實際上對視覺成像影響不大,很多邊緣區(qū)域信息在腦中合成時會被自然丟棄,只有部分經(jīng)過特殊訓(xùn)練的情況下大腦才會做處理,例如某些橋段中情報人員用視線余光查看追蹤對象這種。
正常視野在水平區(qū)域左右30-60度之間,垂直區(qū)域上30度下40度范圍以內(nèi),具體都是因人而異的。根據(jù)這個數(shù)據(jù),大家就可以自行計算,多大的屏幕放置在離眼睛多遠(yuǎn)的距離是最合適的觀看效果了,對大家在挑選電視顯示器大小和沙發(fā)桌椅高度時,有很大的參考意義。
因為視野范圍是考慮到眼球的轉(zhuǎn)動范圍,那么就還有個最佳視野的概念,指實際最舒適的眼球轉(zhuǎn)動范圍,這個值一般是在更小的水平左右15度,垂直上25下30范圍內(nèi)。當(dāng)然這也是3R智能眼鏡產(chǎn)品應(yīng)該滿足的最低標(biāo)準(zhǔn)。
人眼分辨率
我們到底能看多清楚,實際上并沒有啥定論,人眼分辨率流行的說法,從400萬到5.76億像素的說法都有,各有各的算法。以5.76億為例,算法如下:
?-?人眼分辨率最小細(xì)節(jié)0.59角分,按0.6角分計算;
?-?一個線對2個像素,一個像素就是0.3角分;
?-?水平橫向視野120度,等于24000個0.3角分,就是24000個像素;
?-?按照正方形視野框計算,就是24000*24000=5.76億像素
算法很簡單,但實際指導(dǎo)意義不大,人眼的分辨能力因人而異差別極大,除了感光、色彩、視野這些基本條件外,更重要的是大腦。有個開玩笑的說法,上帝作為人眼設(shè)計師,水平是很爛的,也就是個膠片照相機(jī)的水平,比現(xiàn)在的數(shù)碼和光學(xué)相機(jī)設(shè)計差遠(yuǎn)了;但其作為大腦設(shè)計師真是超神級的,可以把人眼吸收到的亂七八糟圖像各種組合優(yōu)化。后期處理無敵,才讓我們能清晰地“看”到這個精彩的世界。
因為實際上每個人視覺成像的感知條件相差甚遠(yuǎn),所以這里也不對人眼分辨率做過多的剖析,個人比較贊同的觀點是,考慮分辨率時成像距離更重要。下面舉手機(jī)的例子計算。
?1.?假設(shè)我們在距離眼睛40cm(15.748英寸)看一個手機(jī),則屏幕上1個英寸對應(yīng)視野角度約為1.82*2=3.64度(直角三角形兩條直角邊1/2英寸和15.748英寸,得出短邊對應(yīng)角為1.82度);
?2.?按0.3角分1個像素,3.64度約738個像素,既屏幕分辨率能達(dá)到738PPI即可,更高的人眼也分辨不出來。
可以看到上述計算過程中的主要變量只有一個視距,之前蘋果MAC曾提出300PPI最佳分辨率的說法,實際上就是將人眼到顯示器屏幕的視距設(shè)置為1米,按照上述算法計算出來的。同理,如Gear VR和Oculus Rift等產(chǎn)品,屏幕距離眼睛約16cm(6.3英寸)左右,可以計算出分辨率能達(dá)到1800PPI即可滿足人眼分辨能力。
Google和LG在2018年5月發(fā)布的最新VR屏幕已經(jīng)可以達(dá)到1443PPI,隨著硬件技術(shù)的進(jìn)步,顯示分辨率不會成為3R的關(guān)鍵瓶頸。
如果再考慮到水平120度、垂直上30下40度的正常視野范圍,可以計算出16cm(6.3英寸)視距的VR產(chǎn)品,合適屏幕長寬為21.82*(3.6+5.3)英寸,理論上點對點分辨率約需達(dá)到39000*16000。但這只是個上限值,實際通過眼動追蹤和雙屏顯示等技術(shù),完全可以不必展示這么清晰的全景畫幅出來,人眼也看不過來,要相信大腦的視覺合成與理解能力。
視覺頻率
最后一個跟成像關(guān)聯(lián)性較大的概念就是視覺頻率了,對應(yīng)的是屏幕顯示技術(shù)中的幀率、刷新率等參數(shù)。前面提到眼睛成像主要依靠視錐細(xì)胞和視桿細(xì)胞感光,那么當(dāng)光反復(fù)變化時,我們眼中就形成了連續(xù)的過程圖像,在這個變化過程中,如果速度過快,會造成成像影響,既人眼只能識別出一定頻率的變化,更高的內(nèi)容會被忽略掉。例如999張黑圖片和1張白圖片按1ms每張速度變化,我們的眼睛根本看不到白色出現(xiàn),這就是視覺頻率極限。這個頻率一般是個范圍值,同樣會因人而異,通常60hz(120fps)以上的變化大部分人就看不出來了,實際上屏幕顯示技術(shù)都已經(jīng)能達(dá)到此指標(biāo),所以幀率不是3R技術(shù)發(fā)展的瓶頸。注意,這里60Hz是個范圍值,而不是說60Hz能看出來,61Hz就看不出了,各人的邊界值會有較大差異,能分辨出144Hz的強(qiáng)人也是存在的。有種說法是本來自然界的光變頻率沒有多高,人眼也能力一般,但隨著當(dāng)今屏幕顯示技術(shù)的進(jìn)步,人眼的視覺頻率也在逐漸增強(qiáng)進(jìn)化,當(dāng)然這還有待求證。
再補(bǔ)充一下,這里只是做了些基礎(chǔ)介紹,視覺頻率實際有著復(fù)雜的過程,視覺系統(tǒng)對于不同復(fù)雜程度的刺激物也有著不一樣的極限。例如電影只要超過24Hz就能“欺騙”眼睛,告訴我們成像是連續(xù)的,而閃光燈哪怕1/1000頻率亮起時,也會被捕捉到。如前所述,光感圖像除了在視網(wǎng)膜上成像外,還有大腦在做著NB的后期,會根據(jù)圖像復(fù)雜與刺激程度,決定哪些內(nèi)容需要“告知”我們,哪些直接被裁剪掉即可。
為什么會暈
現(xiàn)在網(wǎng)上一提到智能眼鏡,大家首先想到的就是看時間長了會暈,這也是目前3R產(chǎn)品普及過程中較大的攔路虎。想解決這個問題,就要先搞清楚為什么會暈。
人體是一整套復(fù)雜的器官組合,其中和外部世界交互的部分,可以簡單概括為輸入輸出兩類。那么去除掉人體自身發(fā)生的系統(tǒng)故障外,和外界交互過程中導(dǎo)致的頭暈,大部分原因都是輸入異常造成的。
本文所要討論的跟3R相關(guān)頭暈癥狀,可以依據(jù)輸入異常的原因主要區(qū)分為兩類:
?1.?視覺成像系統(tǒng)與身體其他輸入系統(tǒng)輸入信息不同步造成的混亂;
?2.?視覺成像系統(tǒng)自身信息輸入混亂。
第一類比較第二類更容易解決,下面分開介紹。
視體不同步問題
人體的耳前庭器官(主要是半規(guī)管)是感受運動狀態(tài)的重要器官,可以感知速度、重力等人體運動狀態(tài)。因此當(dāng)我們乘坐交通工具的時候,眼睛看到的結(jié)果告訴大腦,我們在快速運動,而耳前庭感受到的身體狀態(tài)是相對靜止或慢速運動,二者信息的不同步造成了大腦認(rèn)知的迷惑,出于保護(hù)告警目的會通過頭暈等癥狀提醒身體狀態(tài)異常。所以我們會出現(xiàn)暈車、暈船、暈機(jī)等各種暈動癥。
使用VR系統(tǒng)時,由于全封閉的視覺成像與外部環(huán)境脫離,更容易造成與人體運動狀態(tài)認(rèn)知的不同步,大腦多方采集的輸入信號矛盾,進(jìn)而導(dǎo)致頭暈的產(chǎn)生。
此類暈動癥相對好解決,因為人體有很強(qiáng)的自適應(yīng)能力,絕大部分人通過多次乘坐交通工具,會訓(xùn)練身體學(xué)習(xí)適應(yīng)此類狀態(tài),進(jìn)而讓大腦了解到此類視體不同步狀態(tài)是正常的,將眼睛成像與體感狀態(tài)區(qū)分開,減輕甚至不再產(chǎn)生頭暈現(xiàn)象。VR同樣可以在長期使用后訓(xùn)練適應(yīng),如通過模擬倉等一些技術(shù)手段幫助人體感受到運動狀態(tài)變化,減輕初期的頭暈癥狀。當(dāng)然因人而異,肯定存在適應(yīng)力極強(qiáng)和極差的個體,這里只對大部分平常人的狀態(tài)進(jìn)行討論。
簡單來說,使用VR產(chǎn)品時,視體不同步造成的頭暈,多看看就能適應(yīng)。
成像信息混亂問題
前面成像原理中提到雙眼自然成像時,是通過聚散與深度來幫助大腦進(jìn)行景物的遠(yuǎn)近判斷。當(dāng)我們使用VR等設(shè)備時,雖然可以通過3D技術(shù),給雙眼呈現(xiàn)不同圖像,解決大腦合成圖像時立體成像的問題,但全封閉眼鏡提供的屏幕視距都是很近的,導(dǎo)致雙眼根本無法進(jìn)行聚散。同時,由于屏幕的平面顯示過程中,自然成像的4維光場被縮減為2維光場,深度信息丟失,進(jìn)一步給大腦造成了成像的混亂,對物體的遠(yuǎn)近無法進(jìn)行準(zhǔn)確判斷。此時大腦就會自動反復(fù)調(diào)整瞳孔和晶狀體等眼部器官部件進(jìn)行對焦,最終造成視覺疲勞、眼壓增加,甚至惡心頭暈。
聚散與深度造成的視覺成像頭暈問題,其根本原因都是在于屏幕顯示這種成像技術(shù),目前還無法完美模擬出自然光場效果。
對VR\AR\MR的影響
視體不同步問題通過長期訓(xùn)練可以很大程度上緩解,但視覺成像信息混亂問題就不是那么好解決的了。
AR由于非封閉顯示,大腦認(rèn)知上可以清晰辨認(rèn)出虛擬與現(xiàn)實區(qū)別,眼球也可以在不同遠(yuǎn)近的真實物體間變換,相對來說視覺壓力要小很多。
VR產(chǎn)品雖然也面臨視覺成像問題,但由于主要應(yīng)用在視頻和游戲場景中,是完全的虛擬景象,大腦就不會將其“當(dāng)真”,再加上景象數(shù)據(jù)制作過程中,可以采用一些其他成像輔助技術(shù)調(diào)整聚散與景深效果,因此相對來說不適應(yīng)癥狀沒有那么強(qiáng)烈,更多的不適感還是由前面說的視體不同步造成。
而MR產(chǎn)品,因為其“以假亂真”的定位目標(biāo),則受此問題影響較為嚴(yán)重,也成為整個技術(shù)發(fā)展中最大攔路虎。想要徹底解決,目前能看到的只有Magic Leap的光纖投射技術(shù),將4維光場直接投射到眼睛上,在視網(wǎng)膜成像,這樣不存在信息丟失,跟我們自然視覺得到的景象在數(shù)學(xué)上是沒有區(qū)別的,因此理論上我們使用此技術(shù)設(shè)備時,也將無法區(qū)別出虛擬與現(xiàn)實。Magic Leap也是依靠這個技術(shù)噱頭,在7年沒有推出產(chǎn)品的情況下,仍陸續(xù)吸引了近30億美元的多輪融資,最高估值近百億美元。而微軟的HoloLens,也因為沒有提出很好的解決方案,導(dǎo)致其雖然很早就做出了工程產(chǎn)品,但一直無法大規(guī)模商用。
至于網(wǎng)上所說清晰度、幀率和延遲這些問題,雖然也造成了一定的視覺成像影響,但通過硬件的升級,用更好的CPU\顯卡\屏幕\網(wǎng)絡(luò)就可以解決,都不是3R至?xí)灥臎Q定性根因。這里就不做深入探討了。
理想與現(xiàn)實
從產(chǎn)品定位來說,MR是VR和AR的未來終極目標(biāo)。在這個理想目標(biāo)中,主要需要解決如下4個技術(shù)路線難關(guān)。數(shù)字影像->現(xiàn)實捕捉->虛實合并->視覺成像,成熟度由高到低,困難度由低到高。VR主要涉及數(shù)字影像和視覺成像兩項,以數(shù)字影像為主;AR四項雖然都會涉及,但都是輕量級使用;MR的目標(biāo)則需要將四條路線都發(fā)展極致。
下面分別來介紹下這四條技術(shù)路線的理想與現(xiàn)實差距。
數(shù)字影像
靜態(tài)影像
數(shù)字影像技術(shù)發(fā)展到現(xiàn)在已經(jīng)相對成熟,從靜到動,從2D到3D,從2K到4K,概念很多。概括來說,其發(fā)展過程就是一個由少到多,由簡單到復(fù)雜的圖片組合過程。
最基礎(chǔ)的數(shù)字圖像就是一個帶空間坐標(biāo)的灰度函數(shù),構(gòu)成的二維矩陣。從分類發(fā)展看,經(jīng)歷了如下幾個主要階段:
?-?二值圖像:最簡單,只有0/1黑白兩種狀態(tài)顯示;
?-?灰度圖像:擴(kuò)展到0(黑)到255(白),256級灰度表示;
?-?彩色圖像:三個256級灰度圖像,組合而成的紅綠藍(lán)圖像。真彩色指256*256*256=2^24種彩色組合,既24位。比其低的8位16位都是簡化了部分灰度級別的偽彩色;
?-?立體(三維)圖像:通常是多張彩色(灰度)圖像組合,形成多角度圖像,給人以立體視覺,最終腦海里面可以合成三維圖像。
總體上立體圖像分為兩大類技術(shù)手段:一是通過明暗虛實等光影效果造成立體感覺,來源于早期的繪畫技巧,但實際能夠呈現(xiàn)的內(nèi)容非常有限,只能在一張平面圖中對某幾個重點物體進(jìn)行立體感塑造,無法形成整體的立體圖像;二是通過左右眼呈現(xiàn)不同的圖像達(dá)到立體成像效果,此類方案更接近人眼成像原理,也是當(dāng)前主流發(fā)展方向。
具體來說,第二類雙眼區(qū)分成像技術(shù)還分為器械流和裸眼流兩派,器械流通過如3D眼鏡等外部設(shè)備,采用如紅青互補(bǔ)色或偏振光等原理,讓兩只眼通過不同鏡片過濾,收到不同的圖片信息,進(jìn)而在大腦中組合成立體圖像。裸眼三維圖像則是以光柵方案為主,通過在顯示屏幕外側(cè)增加一層光柵柱透鏡的方式,使平面圖像在向外發(fā)光的過程中,不同角度呈現(xiàn)不同圖像,進(jìn)而在兩眼形成視差,構(gòu)成立體效果。光柵方案對數(shù)字圖像的成像要求較高,必須是同一物體多張不同特定角度的平面圖像合成,加上必須采用增加了柱透鏡的屏幕或特殊紙張等材質(zhì)進(jìn)行顯示,技術(shù)上相對成熟度較低,沒有器械流的3D眼鏡應(yīng)用廣泛。
動態(tài)影像
剛剛說的都是靜態(tài)數(shù)字影像的呈現(xiàn),而我們知道這個世界,靜止是相對的,運動才是絕對的。我們在“看”這個世界的過程中,運動也是不可避免的,即使外界景物不動,眼珠也是在時刻運動的,正是在這種“動”的過程中,大腦才能合成出立體的外部全景影像。
數(shù)字影像技術(shù)的關(guān)鍵也是要動起來,在運動的過程中呈現(xiàn)合理的圖像變化,才能讓大腦感覺到圖像的擬真效果。這里僅介紹幾個比較通俗易懂的關(guān)鍵技術(shù)點:形狀、紋理、反射、透視、模糊。更多的技術(shù)作者能力有限,就不做深入探究了。
?-?形狀,點、線、面(形狀)是我們理解世界的最基本圖像元素,數(shù)字化圖像也是要把所有的有型物體解構(gòu)成這些基本的點線形狀,再進(jìn)行數(shù)字化創(chuàng)造。任何一個復(fù)雜物體的數(shù)字圖像都是由成千上萬個基礎(chǔ)形狀組成,物體的運動過程也是這成千上萬個形狀的運動過程。舉個例子,當(dāng)年《指環(huán)王》中的咕嚕,眼睛里有25萬個多邊形,而最新《阿麗塔》中女主的虹膜就由830萬個多邊形構(gòu)筑。
?-?紋理,指物體表面的細(xì)節(jié)效果。因為實際中的立體物體其細(xì)節(jié)大都是不平滑的,因此當(dāng)運動過程中轉(zhuǎn)換觀察角度時,呈現(xiàn)的紋理細(xì)節(jié)一定是不一致的,需要在采用軟件創(chuàng)建3D物體圖像的時候細(xì)致考慮。
?-?反射,我們看到的圖像都是物體發(fā)光或者反射光線到眼睛中的結(jié)果,那么當(dāng)空間中的物體或我們運動到不同的相對位置時,觀察到的反射結(jié)果也一定不同,尤其是存在多光源情況下,3D物體設(shè)計要考慮的光影反射復(fù)雜度也會成指數(shù)倍增。
?-?透視,描述當(dāng)空間中存在多個物體時,物體之間的相對成像關(guān)系。完全遮擋當(dāng)然更簡單,但實際上大部分物體都會存在透視的效果,尤其在運動過程中,透視效果會隨多角度光源及多物體位置關(guān)系進(jìn)行復(fù)雜變化。
?-?模糊,人類經(jīng)過幾十萬年的進(jìn)化發(fā)展,大腦結(jié)合視覺成像結(jié)果,對物體運動已經(jīng)形成了一套成型的識別算法。我們對運動速度較快的物體,運動過程中圖像會有意的進(jìn)行動態(tài)模糊,便于節(jié)省眼力和大腦成像的計算量。因此在數(shù)字成像過程中,也需要適配此能力,當(dāng)然這種模糊也有助于成像過程中處理設(shè)備的計算量降低,屬于多贏的方案。
小結(jié)
總體來說,數(shù)字影像技術(shù)的目的就是構(gòu)造一個“以假亂真”的世界,但受限于計算能力限制,目前最多能到“仿真”的階段,類似影視作品這種單向展示“想給你看的圖像”場景,相對更成熟些,圖像更“真”些。而游戲類作品這種需要雙向互動的圖像,基本上都還是“一眼假”的階段,離欺騙視覺系統(tǒng)還相差較遠(yuǎn)。這也是目前VR視頻發(fā)展遠(yuǎn)比VR游戲更普遍的原因。
好在數(shù)字影像的技術(shù)發(fā)展方向比較清晰,現(xiàn)階段計算能力的限制,相信隨著硬件的飛躍,數(shù)字影像不會成為3R的主要瓶頸。再以近期電影《阿麗塔》舉例,女主的虛擬形象擁有13.2萬根頭發(fā)、2000根眉毛、480根睫毛外加50萬根皮膚絨毛,這些毛發(fā)在不同光源下都會呈現(xiàn)不同的狀態(tài)。為了達(dá)到這種近乎亂真的效果,WETA工作室用了3萬臺服務(wù)器,進(jìn)行5.5億小時的渲染處理,當(dāng)年的《阿凡達(dá)》則是1.5億小時。
當(dāng)然,受主觀意識影響,從我們帶上3R設(shè)備的時刻起,無論看到的內(nèi)容多么“真實”,大腦一定還會告訴你這是“假的”,不是現(xiàn)實。所以理論上想達(dá)到類似《黑客帝國》那種效果,只有依靠影響大腦神經(jīng)信號才能實現(xiàn),不單單是3R設(shè)備從視覺上所能解決的,因此也沒有必要在“成真”這個結(jié)果上吹毛求疵。
現(xiàn)實捕捉
AR產(chǎn)品如GoogleGlass,EpsonBT300等都是鏡片透光,讓我們直接能看到現(xiàn)實場景,雖然也有攝像頭可以拍攝實景,但功能簡單,可以理解為就是在一張照片上做文章,例如道路上加個導(dǎo)航箭頭,人物頭頂加個名字紅藍(lán)條啥的。如果我們希望將整個現(xiàn)實環(huán)境捕捉下來,并在數(shù)字化環(huán)境中建模,進(jìn)而實現(xiàn)互動,那么就需要SLAM這個關(guān)鍵技術(shù)的登場了。
SLAM
SLAM是同步定位與地圖構(gòu)建 (Simultaneous Localization And Mapping) 的縮寫,上世紀(jì)90年代提出的概念,目前仍然處于最尖端的技術(shù)前沿,在自然導(dǎo)航AGV、掃地機(jī)器人、無人機(jī)、自動駕駛、自走機(jī)器人等方面都有廣泛應(yīng)用。
SLAM要解決的是“我在哪里?”和“我周圍是什么?”兩個問題,主要包括了感知、定位和建圖三個部分。
感知,通過傳感器獲取周邊環(huán)境信息的過程。這里的傳感器以激光雷達(dá)和視覺攝像頭兩類為代表。激光雷達(dá)的特點是精度高、范圍廣、實時性強(qiáng),缺點是貴,視覺攝像頭則與之相反。考慮到應(yīng)用場景,MR設(shè)備需要能夠?qū)F(xiàn)實場景成像,視覺攝像頭就是必不可少的了,也就是VSLAM的范疇(基于視覺的SLAM),激光雷達(dá)更多在機(jī)器人之類對實景要求不高的場景下應(yīng)用。
?-?定位,獲取自身位置姿態(tài)等狀態(tài)信息,了解我們正處于一個什么樣的位置、高度、角度、運動等狀態(tài)下觀察周圍。可以配合GPS、陀螺儀等其他硬件設(shè)備,通過算法構(gòu)筑自身與環(huán)境的相對關(guān)系。
?-?建圖,根據(jù)感知與定位結(jié)果,描繪出周圍實景圖像結(jié)果。這里的建圖不是簡單的在MR視覺中做圖片合成,而是要形成有深度、有寬度、可交互的實體空間圖景。建圖全靠算法,計算量是對設(shè)備最大的挑戰(zhàn)。
SLAM是多個學(xué)科多個算法的不同策略組合,它融合了圖像處理、幾何學(xué)、圖理論、優(yōu)化和概率估計等學(xué)科的知識,需要扎實的矩陣、微積分、數(shù)值計算知識,SLAM跟使用的傳感器和硬件平臺也有關(guān)系,研究者需要具備一定的硬件知識,了解所使用的傳感器的硬件特性。所以,根據(jù)不同的應(yīng)用場景,SLAM研究者和工程師必須處理從傳感器模型構(gòu)建到系統(tǒng)集成的各種實踐問題。作者水平有限,這里就不做深究了。
從MR的應(yīng)用場景來看,重點發(fā)展方向是視覺SLAM系統(tǒng)的輕量級和小型化,輔以多類傳感器,如IMU(慣性測量單元)、陀螺儀、磁力計等,最終通過與攝像頭拍攝的圖像融合,將實景通過數(shù)字影像方式于MR設(shè)備中再現(xiàn)出來。
目前就SLAM技術(shù)成熟度而言,軍用的現(xiàn)實捕捉技術(shù)精度更高,不論是雷達(dá)制導(dǎo)還是精準(zhǔn)定位,跟民用的都不在一個數(shù)量級上。而民用技術(shù)需要綜合考慮準(zhǔn)確性與性價比問題,短時間內(nèi)很難做出大的突破。MR場景產(chǎn)品如HoloLens和Magic Leap都只能數(shù)字化很小的范圍,參考下圖,Magic Leap水平40度,垂直30度,HoloLens更小,導(dǎo)致無法獲取完整的視場,看不了大的物體。受限于計算和成像能力,沒有個3-5年,SLAM很難實現(xiàn)大規(guī)模的商業(yè)化,近期內(nèi)還將輔以透光方式的肉眼現(xiàn)實捕捉為主。
VSLAM
在MR場景中,主要使用了基于視覺的VSLAM技術(shù),其前置條件就是通過攝像頭去拍攝實景。攝影攝像技術(shù)自1839年第一臺銀版相機(jī)誕生已經(jīng)發(fā)展了近兩百年,經(jīng)歷了百萬級像素的膠卷相機(jī)和千萬級像素的數(shù)字相機(jī)兩次革命性飛躍,目前的主流數(shù)字?jǐn)z像技術(shù)簡單概括就是光電轉(zhuǎn)換的過程,將外部景物的光信號捕捉下來,轉(zhuǎn)換成電信號保存到存儲介質(zhì)中。參考前文的光學(xué)成像原理,目前的單鏡頭在成像上已經(jīng)很難有大的突破,下一代億級/十億級像素的陣列相機(jī)(也有叫光場相機(jī))都是采用多鏡頭(多透鏡)的方案加上超卓的計算能力進(jìn)行圖像合成,如Lytro illum。但現(xiàn)階段,光場相機(jī)受限于每個鏡頭(透鏡)的能力,普遍像素不高,而且在將每個鏡頭記錄的二維光場通過數(shù)學(xué)計算模擬成四維光場的過程中,勢必會丟失部分?jǐn)?shù)據(jù),損失分辨率。加上相機(jī)中能部署的計算能力有限,想要完整的攝取景物光場,只能犧牲拍攝時間。現(xiàn)在想拍個RAW照片出來,需要舉著光場相機(jī)近一分鐘才行,用戶體驗相當(dāng)差勁。由此可見,將微鏡頭陣列應(yīng)用到MR設(shè)備中去做圖像捕捉,還有相當(dāng)長的一段時間才能技術(shù)成熟應(yīng)用。現(xiàn)有的MR設(shè)備都是通過多個攝像頭配合各種傳感器去做現(xiàn)實捕捉,再進(jìn)行合成,例如HoloLens包含1個慣性測量單元、4個環(huán)境理解攝像頭、4個麥克風(fēng)、1個環(huán)境光線傳感器。
小結(jié)
除了使用SLAM構(gòu)建立體圖景,在MR場景的現(xiàn)實捕捉中,追蹤技術(shù)也比較重要,其中有三個關(guān)鍵應(yīng)用場景,物體追蹤、手勢追蹤與眼球追蹤。物體追蹤用于識別外部物體運動過程,便于下一步虛實合并時,能夠讓虛擬物體與現(xiàn)實物體保持同步的合理運動行為。手勢追蹤則主要用于人機(jī)交互,作為MR重要的輸入手段,手勢動作的識別是必不可少的,如HoloLens。眼球追蹤則是通過識別人眼聚焦方位,減少成像計算量,是為便攜式MR設(shè)備減負(fù)的關(guān)鍵。
上述現(xiàn)實捕捉的技術(shù)點,哪個拿出來都夠展開一套大論文的,本文主旨做些體系性介紹,有興趣的童鞋可以自行研究,深入進(jìn)去是有很多有意思的東西可以學(xué)習(xí)的。
可能有看官會問,為啥我們一定要把現(xiàn)實世界完整的捕捉下來再做數(shù)字化影像顯示呢?類似AR這種透光方式直接觀看世界不是更加真實嘛,還增添了這么多的技術(shù)難題。這就跟我們想要的虛擬世界與現(xiàn)實世界結(jié)合程度密切相關(guān)了,既下面“虛實合并”章節(jié)要介紹的內(nèi)容。捕捉下來的實體成像只是第一步,更關(guān)鍵的是對捕捉圖像的識別和處理,只有知道了哪個是桌子,哪個是杯子,才能在虛實合并時對其進(jìn)行合理的處置,把虛擬的美酒倒進(jìn)杯子里,而不是灑在桌子上。
有追求才會有困難,有困難才能有進(jìn)步。
虛實合并
通過數(shù)字影像技術(shù),我們創(chuàng)造了虛擬的圖像世界;通過現(xiàn)實捕捉技術(shù),我們將真實世界數(shù)字化。接下來要做的就是將二者虛實合并,形成MR混合現(xiàn)實呈現(xiàn)。
數(shù)字影像生成的過程中就已經(jīng)完成了對影像內(nèi)容的定義,但現(xiàn)實捕捉的圖像還需要進(jìn)行識別才能知道其中實體代表的意義。二者都具備精準(zhǔn)含義后,才能進(jìn)一步進(jìn)行合并。理想狀態(tài)如下圖中的桌上太陽系所示,虛擬的太陽與行星在運動過程中,桌面上能夠有符合軌跡的光影出現(xiàn),反光也會隨著佩戴設(shè)備的觀察者移動而隨之變化,形成擬真的效果,就像桌子上真的有個太陽在發(fā)光一般。
當(dāng)然這是理想中的虛實合并效果,目前現(xiàn)實中的實現(xiàn)都還比較初級。如游戲Pokemon GO,基于地理位置信息、攝像頭照片與虛擬影像進(jìn)行了簡單的融合;再如在人像上加個貓耳朵,豬鼻子之類的照片處理APP,則是簡單對面部進(jìn)行了識別,然后再結(jié)合虛擬圖像成像。這些都可以認(rèn)為是最最基礎(chǔ)的AR類虛實合并應(yīng)用。
從技術(shù)上看,虛實合并階段最關(guān)鍵的有兩塊內(nèi)容,一是對捕捉下來的現(xiàn)實圖像進(jìn)行圖像識別,二是對生成的虛擬圖像進(jìn)行實時擬真。
圖像識別
首先說一下圖像識別與SLAM的區(qū)別,空間告訴物體如何運動,SLAM是要構(gòu)筑環(huán)境空間圖景,以便后續(xù)的運動軌跡規(guī)劃,如告訴我們前方1米處有個0.5米高的類正方體物體,便于后續(xù)動作中設(shè)計與其如何進(jìn)行運動交互,至于這個物體到底是個桌子還是椅子啥的,就是圖像識別要干的事情了。
圖像識別涉及了目前最火的大數(shù)據(jù)和AI等領(lǐng)域,人像識別也好,物體識別也罷,粗分下都是提取特征碼、算法比對、模型訓(xùn)練、提升正確率這幾步過程。目前特征庫的訓(xùn)練還以手工為主,真正的機(jī)器自動學(xué)習(xí)只是在很少的特殊領(lǐng)域里面能有所應(yīng)用。有一些三線城市和小縣城的圖像訓(xùn)練公司,業(yè)務(wù)就是甲方一次打包發(fā)過來的幾萬甚至幾十萬張圖片,乙方從中對指定的人像和物體做標(biāo)簽標(biāo)注,合下來標(biāo)一張圖片幾分錢到幾毛錢不等,一個熟練人員一天能賺到一兩百。過程除了是使用電腦以外,感覺跟流水線上的操作一脈相承。
圖像庫的豐富程度決定了圖像識別的程度,以ImageNet和PASCAL VOC兩個知名項目舉例,普林斯頓的ImageNET擁有約1000個對象類和1400萬個圖像,而歐盟各大學(xué)聯(lián)合創(chuàng)建的PASCAL VOC(2012年結(jié)束,目前重啟了PASCAL2項目)僅有20個對象類20000個圖像。巨大的數(shù)據(jù)差會造成識別能力的差距,如下圖所示,ImageNET可以識別出具體的犬類,而PASCAL只能認(rèn)識出圖像是狗。
圖像識別的算法主要有以下幾大流派:
?-?統(tǒng)計法(StatisticMethod):以決策理論為基礎(chǔ),通過建立貝葉斯或馬爾柯夫隨機(jī)場等模型,以大量統(tǒng)計分析的方法,找出圖像中的規(guī)律和提取特征進(jìn)行識別。嚴(yán)格的數(shù)學(xué)論證使其具有最小的分類誤差,但相對處理復(fù)雜結(jié)構(gòu)類圖像的能力較差。
?-?句法識別法(Syntactic Recognition):統(tǒng)計法的補(bǔ)充,模仿語言學(xué)中句法的分層結(jié)構(gòu),將復(fù)雜圖像分解為多個相對簡單的子圖像,令其空間結(jié)構(gòu)關(guān)系信息更易理解。
?-?神經(jīng)網(wǎng)絡(luò)方法(NeuralNetwork):通過神經(jīng)網(wǎng)絡(luò)算法進(jìn)行圖像識別,由大量簡單的計算單元(神經(jīng)元)組成,模擬人的認(rèn)知過程,適合復(fù)雜多變環(huán)境下的模糊識別,但對局部圖像的精確分類識別能力欠佳。
?-?模板匹配法(TemplateMatching):通過已知模板對未知物體進(jìn)行匹配,可以認(rèn)為是統(tǒng)計法的特例。受限于已知模板的依賴性,僅用于精確物體的比對識別,一般來說圖像變個角度就認(rèn)不出來了。
?-?幾何變換法霍夫變換HT (Hough Transform):快速形狀匹配的一種方法,通過將形狀曲線上所有點變換到霍夫空間中,形成峰點,進(jìn)而將未知與已知圖像的圖形匹配識別的過程,變成了峰點檢測的數(shù)學(xué)過程。隨后提出的幾種改進(jìn)算法,如快速霍夫變換(FHT)、自適應(yīng)霍夫變換(AHT)及隨機(jī)霍夫變換(RHT),都能夠很好的節(jié)省內(nèi)存空間與計算量,進(jìn)而提升圖像處理能力。可以說霍夫變換是目前應(yīng)用最廣泛的圖像識別算法。
實時擬真
在虛實合并階段,MR虛擬圖像的擬真,相比較純粹VR環(huán)境下生成數(shù)字影像,多了實時性的要求。假設(shè)現(xiàn)實捕捉可以在數(shù)字世界中營造出完全真實場景,而且已經(jīng)擁有完美的圖像識別能力,可以對場景中的所有景物進(jìn)行準(zhǔn)確識別。那么當(dāng)我們將虛擬圖像與其進(jìn)行結(jié)合的時候,為了達(dá)到以假亂真的效果,還必須進(jìn)行大量的計算處理。
首先在靜態(tài)場景下,需要計算出虛擬圖像與真實圖像之間的影響關(guān)系,如前面舉例的虛擬太陽在桌面的反光,還有如遮擋、壓變、陰影等變化。
然后在動態(tài)場景下,隨著觀察者自身和場景中虛實景物的移動,上述虛實景物的相互影響都需要隨時重新計算和進(jìn)行合理變化。這種動態(tài)計算對實時性要求非常高,延遲必須在毫秒級別,才能讓我們不會感知到虛擬圖像的“假”。目前的HoloLens和Magic Leap雖然計算配置都很高,如Magic Leap ONE配置CPU:NVIDIA ParkerSOC;2個Denver 2.0 64位內(nèi)核 + 4 個ARM Cortex A57 64位內(nèi)核;GPU:NVIDIA Pascal?;256個CUDA內(nèi)核。但實際上當(dāng)前這些MR都還是站樁式產(chǎn)品,佩戴的人一動起來就各種圖像混亂和馬賽克了,根本沒法帶出室外使用。
小結(jié)
總體來說,在虛實合并階段,圖像識別仍是亟需攻克的技術(shù)壁壘,雖然我們在人像識別等特定景物處理上已經(jīng)擁有一定進(jìn)展,但在廣泛意義的全景物識別上,能力構(gòu)建仍然不足,距離商業(yè)應(yīng)用還有很長的路要走,好在隨著其前置技術(shù)AI機(jī)器學(xué)習(xí)的飛速進(jìn)步,圖像識別也將在3-5年內(nèi)迎來能力的飛躍。而實時擬真方面,其前置技術(shù)在數(shù)字影像中基本都已點亮,目前主要受困于計算能力的提升,相信隨著CPU/GPU演進(jìn)速度和云端集中計算模式的推進(jìn),不會成為整個MR技術(shù)體系的發(fā)展瓶頸。但由于實時擬真是在現(xiàn)實捕捉和圖像識別之后進(jìn)行的動作,光自己快速成長也沒什么大用,還得等著前面兩個技術(shù)的成熟。
視覺成像
圖像都準(zhǔn)備好的情況下,回到如何讓我們“看到”這些圖像的基本光學(xué)問題。視覺成像也是當(dāng)前3R技術(shù)發(fā)展的最大攔路虎,前面《我們?nèi)绾巍翱础笔澜纭泛汀稙槭裁磿灐穬蓚€章節(jié)都是這部分內(nèi)容的前置介紹。
總的來說,成像用的頭盔眼鏡類設(shè)備就分為透光和不透光兩類,VR都是不透光的,AR都是透光的,MR受限于現(xiàn)實圖景和實時成像技術(shù)發(fā)展,目前產(chǎn)品都是透光的,未來趨勢也將是不透光的。
不透光的VR
先說不透光的VR類產(chǎn)品,成像重點是把那塊發(fā)光的“屏”做好,因為技術(shù)聚焦且成熟度較高,顯示效果比起需要透光的AR/MR來說那是杠杠的。屏幕顯示技術(shù)兩個最關(guān)鍵的點就是“光”和“屏”,技術(shù)發(fā)展上大體可分為三代。
第一代的陰極射線管CRT是通過陰極電子槍將電子打到熒光屏上,使熒光粉發(fā)光,電子槍快速移動,以逐行掃描形成全屏圖像。早期一只電子槍只能通過光線強(qiáng)弱形成黑白圖像,后來通過紅綠藍(lán)三只電子槍組成彩色圖像。因為體積較大,CRT基本沒有應(yīng)用到頭盔顯示系統(tǒng)中,2000年以后逐漸被淘汰,目前大都只能在計算機(jī)發(fā)展的歷史影像資料中見到了。
第二代,也是現(xiàn)在的主流技術(shù)液晶顯示LCD。在屏幕中間的液晶層,通過電壓對液晶分子的控制,將光源發(fā)出的白光做減法,從而實現(xiàn)256個層次的灰度,再通過每個像素點細(xì)分為紅綠藍(lán)三個子圖元,配合前面的濾色片實現(xiàn)彩色顯示。具體的技術(shù)細(xì)節(jié)太多,不深入解釋了,可參考如下兩張圖理解。
這里有個容易被廠家宣傳誤導(dǎo)的知識點,我們常說的LED(發(fā)光二極管)顯示屏,仍然屬于LCD的范疇,只是使用白光LED取代上圖中的冷陰極燈管CCFL作為光源,其他都不變,和第三代的OLED顯示原理完全不同。
第二代顯示屏中還曾有兩個主力選手背投屏和等離子屏PDP,背投可以理解類似為投影儀加透光屏,等離子屏則類似CRT,通過電壓使氣體發(fā)生等離子效應(yīng)產(chǎn)生紫外線,照射在熒光屏上產(chǎn)生三色可見光,通過發(fā)光時長變化來調(diào)整亮度。二者都因為體積無法縮小與移動時穩(wěn)定性差的問題,逐步被淘汰,背投僅在2005年左右輝煌過幾年,等離子屏則在2014年隨著三星LG等最后幾個廠家陸續(xù)宣布面板停產(chǎn)而落幕。
第三代,也就是下一代屏顯技術(shù)的代表是OLED(有機(jī)發(fā)光二極管),目前隨著技術(shù)的成熟,正在開始大量應(yīng)用于手機(jī)和pad這種小型設(shè)備上,電視等大屏由于成本問題發(fā)展相對較慢。OLED也被稱為小分子發(fā)光二極管,這個名稱是相對PLED(高分子發(fā)光二極管)而言。PLED更適合做大屏幕顯示,但壽命較短導(dǎo)致無法普及。相對LCD液晶屏來說,OLED主動發(fā)光的特點可以把屏幕做得更薄、擁有更廣的視角和更快的反應(yīng)速度,同時由于是全固態(tài)組件,抗震性更佳,能適用更多的環(huán)境。發(fā)光原理上,OLED更類似CRT,可以簡單認(rèn)為通過數(shù)字電路控制一個個小光源發(fā)光。OLED根據(jù)驅(qū)動方式不同,可以分為AMOLED(主動驅(qū)動OLED)和PMOLED(被動驅(qū)動OLED)兩類,PMOLED單純地以陰極、陽極構(gòu)成矩陣狀,以掃描方式點亮陣列中的像素,結(jié)構(gòu)簡單但驅(qū)動電壓高,不適合高分辨率顯示;AMOLED通過獨立的薄膜層電晶體去控制每個像素,每個像素皆可以連續(xù)且獨立的驅(qū)動發(fā)光,雖然成本更高,但驅(qū)動電壓低,壽命也相對更長。目前市面上的OLED顯示屏基本都是AMOLED,可以認(rèn)為二者商業(yè)意義等同。
下一代技術(shù)中,另一個有潛力的選手是Micro LED,就是將三色LED燈泡做得足夠小(1~10μm等級),再組成陣列,單獨控制發(fā)光,從功耗和亮度都更有優(yōu)勢。Micro LED需要解決的最大難點是燈體之間的干擾問題,且燈體結(jié)構(gòu)相比較OLED更加復(fù)雜,工藝制造成本也更高,量產(chǎn)困難。但蘋果、Sony、三星等玩家均在積極布局,普遍看好其作為新的屏顯技術(shù),行業(yè)預(yù)測2019年就將有商用產(chǎn)品問世。通過下圖可以更好的比較LCD\OLED\Micro LED三者的結(jié)構(gòu)區(qū)別。
了解了屏顯技術(shù)的發(fā)展,我們回來說VR到底需要什么樣的屏。
?-?輕:重了戴不長,對腦袋負(fù)擔(dān)重。 小:便于攜帶,現(xiàn)在的頭盔都太大了,只能固定場景用。
?-?快:反應(yīng)快,尤其是現(xiàn)在畫面清晰度越來越高,屏幕反應(yīng)慢了圖像拖影現(xiàn)象會很明顯。
?-?清:前面算過智能眼鏡類產(chǎn)品,屏幕到眼約15cm距離時,需要1800PPI。加拿大VueReal公司展示最新的Micro LED產(chǎn)品高達(dá)6000PPI,有助于拉近屏幕到眼的距離,進(jìn)而也可以使VR眼鏡設(shè)備體積進(jìn)一步減小。
?-?廣:曲面屏顯示可以提升視野范圍,更接近人眼的自然視野。順便吐個槽,目前手機(jī)的柔性屏純粹是為了外形好看搞的噱頭。按常識來說,凹面曲有助于擴(kuò)大視野角度范圍,如曲面顯示器,但凸面曲對視覺效果提升能有個卵用,只會有負(fù)面影響。說白了就是手機(jī)屏幕基本發(fā)展到極限,廠商們?yōu)榱烁偁幹荒荛_始玩各種花活。
總的來說,OLED和Micro LED都能很好的滿足VR屏幕的上述要求,會是后面VR發(fā)展的重點,技術(shù)雖有難點,但都在穩(wěn)步解決中,相信在1-2年之內(nèi)就會有更為成熟的產(chǎn)品面世。視覺成像技術(shù)不會是VR產(chǎn)業(yè)的最大絆腳石,數(shù)字影像的內(nèi)容制作才是關(guān)鍵。
透光的AR/MR
AR/MR產(chǎn)品的根本需求就是虛擬圖像與現(xiàn)實圖像的疊加,前面說了視頻捕捉等技術(shù)還不能完美的在虛擬世界實時展示現(xiàn)實圖像。那么過渡的技術(shù)就是通過透射加反射原理,將現(xiàn)實自然圖像與投射出的數(shù)字影像進(jìn)行組合,再由大腦去自行識別內(nèi)容。
基本原理很好理解,但技術(shù)實現(xiàn)起來也是困難重重的。技術(shù)大體上可以分為4類,細(xì)節(jié)上各有優(yōu)劣。
?1.?離軸光學(xué)
早期是應(yīng)用在飛行員頭盔上的技術(shù),具體的技術(shù)細(xì)節(jié)較復(fù)雜,就不細(xì)說了,優(yōu)點是視場大(90度),缺點是體積大。現(xiàn)在的代表產(chǎn)品就是Meta2,基本快趕上VR頭盔了。Meta2并不是最先推出市場的AR產(chǎn)品,只是離軸光學(xué)技術(shù)的發(fā)展較早,因此有時會被稱為第一代AR成像技術(shù)。但因受離軸光學(xué)技術(shù)影響,此類產(chǎn)品有體積無法縮小的問題,在AR/MR市場的發(fā)展普遍不被看好。
?2.?棱鏡(PBS偏振分光器)
PBS采用偏振分光膜實現(xiàn)光的過濾與組合,技術(shù)代表就是Google Glass了,也是市場上見到的最早AR眼鏡產(chǎn)品。
我們可以看到棱鏡技術(shù)眼鏡的側(cè)面會伸出一個玻璃塊到眼睛前面的位置,用于把側(cè)面的微顯示器投影的信息通過偏振分光膜反射到人眼中,同時外界光線的一半 (分光棱鏡通常會把自然光對半分開,一半反射、一半透射) 也會以同樣的光路進(jìn)入人眼,這樣的話,只要顯示信息的內(nèi)容和位置恰當(dāng),就會有和真實世界的東西處在同一個空間位置的感覺,也就是通常所說的疊加感。
棱鏡技術(shù)的特點是必須以立方體形式呈現(xiàn),既眼鏡的厚度需要與希望顯示的圖像畫面長寬幾乎相等,如想要顯示2cm*2cm的畫面時,則鏡片厚度也需要達(dá)到2cm。同時由于偏振分光膜對光線角度的選擇有較高要求,通常形成的視場角只有15度,造成視覺范圍受限,再加上位置偏離正前方,看久了會形成單眼斜視,因此Google Glass的客戶體驗一直不佳,市場也沒有能夠有較大發(fā)展。
?3.?自由曲面棱鏡
通過自由曲面技術(shù),對立方體棱鏡進(jìn)行了進(jìn)一步優(yōu)化。此類產(chǎn)品在設(shè)計的過程中通過精密的計算,把原本的立方體表面做成彎曲的表面,甚至膜層也做成彎曲的,最大程度地利用每一個位置的分光效果,以及更好地利用分光膜層,既擴(kuò)大顯示的范圍,又不產(chǎn)生體積上的增加,同時也能增大視場角的范圍。
自由曲面的代表產(chǎn)品EPSON BT300,視場角達(dá)到23度,鏡片厚度25mm,相比較Google Glass有了較大的視覺效果進(jìn)步。但自由曲面棱鏡從技術(shù)上講還是對棱鏡方案的修修補(bǔ)補(bǔ),改進(jìn)有限,并不能像最新的第四代技術(shù)那樣形成視覺效果的突破。
?4.?波導(dǎo)技術(shù)
首先說這個波導(dǎo)跟“手機(jī)中的戰(zhàn)斗機(jī)”沒任何關(guān)系。波導(dǎo)技術(shù)的產(chǎn)生是為了解決光的橫向傳播問題,利用了光的全反射原理。簡單地說,就是從玻璃或者塑料這些比空氣折射率大的光密介質(zhì)中,以一個比較大的角度打到內(nèi)壁上的光線,全部會經(jīng)過反射繼續(xù)傳播。就像是我們在潛到水下的時候,從某些角度去看水面時,看不到水面以上的物體。這種全反射的方式在平板內(nèi)部通過“碰壁”方式傳播的過程就叫波導(dǎo)傳輸,平板介質(zhì)相當(dāng)于一個傳導(dǎo)波的工具,故名“波導(dǎo)”(waveguide)。通信工程中的光纖傳輸采用的也是相同原理。
目前的波導(dǎo)技術(shù)主要分為陣列光波導(dǎo)與全息光柵光波導(dǎo)兩類,主要區(qū)別如下圖所示。陣列光波導(dǎo)相對成熟些,在成像效果、鏡片薄厚與透光度等方面占優(yōu);而全息光波導(dǎo)的成本是其最大的優(yōu)勢,可以直接使用玻璃或樹脂加工制取。
陣列光波導(dǎo)的代表產(chǎn)品是Magic Leap,而全息光波導(dǎo)則是HoloLens,二者目前都不是很成熟的商用產(chǎn)品。光波導(dǎo)技術(shù)代表了AR/MR的短期未來,會在3-5年間有一定發(fā)展,但從長期來看,仍然是不透光的視頻透視模式會取代這種光學(xué)透視模式,畢竟光學(xué)透視模式無法形成良好的現(xiàn)實捕捉和虛實合并效果,只能在有限的場景應(yīng)用,如Pokemon GO這種。
總結(jié)
理想很豐滿,現(xiàn)實很骨干。3R的技術(shù)發(fā)展還是任重而道遠(yuǎn),攔路虎很多,可概括為硬軟兩類。“硬”的方面如對計算、存儲、網(wǎng)絡(luò)、體積、能耗這些性能上的限制,需要硬件設(shè)備能力的不斷進(jìn)步;“軟”的方面如屏顯透光、SLAM、圖像識別這些,會涉及到光學(xué)、材料學(xué)、算法、機(jī)器學(xué)習(xí)等多個分支的科學(xué)進(jìn)步,前進(jìn)方向明確,但道路并不清晰,還有待探索。
再多說一個讓人又愛又恨的四維光場投射技術(shù),這是Magic Leap用來吸引了大家7年目光和海量投資的最大亮點,可惜在18年發(fā)布Magic Leap One產(chǎn)品的時候跳票了,產(chǎn)品仍然是采用的光波導(dǎo)技術(shù)。四維光場的視覺效果描述很誘人,但估計短期內(nèi)小型產(chǎn)品化夠嗆。市場是第一位的,Magic Leap再出不來產(chǎn)品投資方就該不干了,但不可否認(rèn),他的努力也推動了整個AR的產(chǎn)業(yè)發(fā)展,衷心希望有一天能見到技術(shù)的成熟產(chǎn)品。
最后我們再來看看Magic Leap夢開始的地方,第一臺原型機(jī)The Beast,由創(chuàng)始人Rony Abovitz在自家車庫中搭建。
人機(jī)“交互”
所有的智能終端產(chǎn)品都是要拿給人使用的,人機(jī)交互是必須深入考慮的設(shè)計內(nèi)容。將人體也視作一個交互個體,則我們與機(jī)器之間的交互手段無非是聲光觸三類,氣味暫時還做不到信息編碼的程度,也無法承載較多的信息內(nèi)容,可以先不做考慮。
交互方式分析
?-?先說聲音,目前的3R產(chǎn)品在輸出方面,聲音都不是問題,鏡腿組件離耳朵那么近,做個啥揚聲器或者配合各種有線無線耳機(jī),都能很好的適配各類使用場景。輸入方面則還存在較大的難題,畢竟語音識別技術(shù)現(xiàn)在還沒有成熟到能包打天下,聲音指令的輸入準(zhǔn)確性有待提升,再加上無聲環(huán)境和嘈雜環(huán)境下的場景干擾(想象一下公共場合下,一群人對著終端喊出各種指令的可怕場景),聲音雖然可以作為人機(jī)交互的主要輸入手段,但也只能成為之一,必須有更廣適和更精確的輸入手段配合使用。
?-?再說光線,也就是圖像交互,前文羅里羅嗦了半天,講的主要都是3R終端在輸出時,如何將圖像更好的呈現(xiàn)給人體,這里就不再細(xì)說。而反向交互的手段,目前主要是通過動作識別,如眼動追蹤和手動追蹤等方式,來讓機(jī)器能夠了解人的意思。前面也提到過,圖像識別是當(dāng)前技術(shù)上的攔路虎,需要AI有較大的發(fā)展才能提升準(zhǔn)確性。但更重要的目前人類的動作自身無法承載較多的信息元素,雖然有啞語可以表達(dá)出部分主要思維意識,但想用手勢動作編排一套《長恨歌》基本是不可能的。因此圖像交互還是只能限于特定的場景,如玩?zhèn)€游戲,搞搞虛擬訓(xùn)練啥的,很難普及出成熟的商用場景。
?-?最后說下觸覺,這個是人類當(dāng)前向機(jī)器設(shè)備最主要的輸出手段,短期內(nèi)也看不到能有代替手段成熟。鍵盤、鼠標(biāo)、手柄、觸控板、滑屏等等,都可以認(rèn)為是人通過物理碰觸機(jī)器的特定位置形成電信號指令的過程,簡單、準(zhǔn)確、適用場景豐富。唯一的代價是需要人對碰觸規(guī)則進(jìn)行學(xué)習(xí)和訓(xùn)練,當(dāng)然這個規(guī)則正在逐漸簡化,而且廣泛適應(yīng)性也是人類能成長到今天必不可少的基本屬性。看看能把微信玩得飛起的老年群體就可以知道,這點兒學(xué)習(xí)代價根本不是問題,只看個人意愿。
當(dāng)然在觸覺交互中還有些能玩出花兒的配套設(shè)備,如VR座艙和踏步場等,看過《頭號玩家》或《憨豆特工3》電影的朋友肯定都印象深刻,沒看過的現(xiàn)在去大城市的商場里面轉(zhuǎn)轉(zhuǎn),也能隨時體驗到此類VR設(shè)施。但此類配套設(shè)備基本都無法移動,只能適配下VR游戲或電影場景,且真實感嚴(yán)重不足,初次玩玩可以,很少見有人能長期保持興趣的。
現(xiàn)在的3R主流產(chǎn)品,輸入手段都是以觸控為主,如Magic Leap One的觸控手柄和愛普生的觸控主機(jī)板。
走的靠前的是微軟的HoloLens,直接采用頭瞄加手勢識別替代了觸控的輸入方式,勇氣可嘉,但精準(zhǔn)度和可操作性市場已經(jīng)給出了答案。
3R交互小結(jié)
小結(jié)一下3R產(chǎn)品的人機(jī)交互情況,短期內(nèi)的主流技術(shù)發(fā)展方向如下:
?-?人體輸出/機(jī)器輸入:觸控、聲音
?-?人體輸入/機(jī)器輸出:圖像、聲音
隨著3R產(chǎn)品的成熟,配套的觸控輸入設(shè)備也將成為新興產(chǎn)業(yè),就像電腦的鍵盤和鼠標(biāo)配套產(chǎn)業(yè)一樣,但短期內(nèi)還是要看各個智能眼鏡廠商自身的配套設(shè)計情況。
另外值得一提的是腦電波識別技術(shù)的發(fā)展,這個一點兒都不科幻,米國早有可以玩俄羅斯方塊的商用產(chǎn)品銷售了,無非是技術(shù)封鎖國內(nèi)搞不到。腦電波技術(shù)本質(zhì)上仍然是信號的捕捉、識別、轉(zhuǎn)譯和編碼。當(dāng)然要發(fā)展到能配合智能眼鏡產(chǎn)品取代觸控的交互方式,應(yīng)該還有很長的一段路要走,個人竊以為HoloLens搞啥手勢識別還不如直接上腦電波識別更有前途。
下一代終端
3R的追求不是只做個娛樂設(shè)備或者特種裝備,未來一定會取代智能Phone/PAD/Notebook/PC/TV等成為一統(tǒng)天下的個人終端。
個人智能終端雖然21世紀(jì)初始就出現(xiàn)了黑莓、多普達(dá)等廠商的設(shè)備,但真正的發(fā)展還是源自蘋果IPhone系列的問世,更準(zhǔn)確的說是自2008年7月發(fā)布的IPhone 3G開始,IPhone一代和IPhone2G就是起到個培育市場和試錯的作用,IPhone 3G發(fā)布了3G數(shù)據(jù)網(wǎng)絡(luò)與APP Store這兩個大殺器,而高速網(wǎng)絡(luò)與自由應(yīng)用正是智能終端與前面那些“能跑些程序的手機(jī)”的根本區(qū)別。
經(jīng)過了10年的高速發(fā)展,智能終端也進(jìn)入了另一個趨同性瓶頸。有興趣的朋友可以做個實驗,把目前排名前十的手機(jī)廠商主力機(jī)型掩蓋了商標(biāo)混在一起,看能分辨出幾個來。現(xiàn)在的智能機(jī)已經(jīng)類似于90年代的PC市場,操作系統(tǒng)被蘋果和安卓一統(tǒng)天下,手機(jī)廠商類似于DELL/HP/聯(lián)想這些,都是以組裝為主,有一定技術(shù)能力,但真的都不算啥核心技術(shù)。由此來看,在Google Project Ara和Moto Z此類模塊化設(shè)計的智能機(jī)可能發(fā)展方向下,手機(jī)攢機(jī)這種特色行業(yè)的再現(xiàn)也不是完全沒有可能。
下面我們從需求角度分析下終端設(shè)備的發(fā)展方向,個人終端的使用目的本質(zhì)上就是圖+音的交互,文字可以理解為一種特定編碼圖像,視頻則是連續(xù)圖像與聲音的組合,因此對終端設(shè)備的能力需求也可以簡單概括為如何更好的輸入和輸出聲音與圖像。
聲音需求分析
在當(dāng)前的聲學(xué)科技樹中,聲音的輸入輸出已經(jīng)不是問題,無非是怎么編碼成更優(yōu)質(zhì)的數(shù)據(jù)和進(jìn)行更精準(zhǔn)的識別,90分到100分的區(qū)別。作為理科出身的作者一直對諸如“低音渾厚、和聲飽滿、音色通透”之類純主觀表述的聲音評判方式無感,這種無法使用數(shù)學(xué)語言建立的結(jié)構(gòu),都不能納入現(xiàn)代科學(xué)的體系,也終將被時代拋離。人聽覺較靈敏的頻率范圍就是1000-8000Hz,可接受范圍就是20-20000Hz(大于20000是超聲,小于20為次聲),整個聽覺過程概括起來就是機(jī)械→電→化學(xué)→神經(jīng)沖動→中樞信息處理的過程,除了最終步驟中的中樞合成原理現(xiàn)階段還不清晰外(跟視覺中樞的影像合成原理不清相同,這也是造成當(dāng)前美學(xué)評判只能純主觀出發(fā)的根本原因),前面幾個步驟都已經(jīng)可以很清晰的進(jìn)行數(shù)字量化表述。作為個人終端設(shè)備的聲音處理,只要能盡量保證采集(除噪、信號擴(kuò)大等)、傳輸(編碼、壓縮等)、輸出(解碼、振動等)過程中,對原音的精準(zhǔn)識別和還原即可。
圖像需求分析
對于目前個人終端設(shè)備的圖像輸出來說,清晰度前面講過已經(jīng)不是啥問題,視距與像素點大小更關(guān)鍵,同樣1920*1080的圖像,在6寸和60寸的屏幕上顯示,在30cm和300cm距離上觀看,用戶的最終感受會有很大影響,近小遠(yuǎn)大是基本的設(shè)計依據(jù)。Phone/PAD/PC/NOTEBOOK/PC/TV基本上也是隨著屏幕的增大,視距也要越來越大。帶來的結(jié)果就是觀看者的身體自由度變化,當(dāng)看電視時,只要保持身體在電視正面即可,同時可以觀察到整個房間的環(huán)境;而看手機(jī)時,因視距太近,除了要占用人體的重要感知交互器官“手”來握持終端以外,受視線聚焦影響對周邊環(huán)境的觀察能力也基本為零,很容易與環(huán)境脫節(jié),造成對人體的安全威脅。
個人終端的圖像輸入可以分為文字、圖片和視頻三類,圖片和視頻基本依賴于攝像頭的能力,也是當(dāng)前各個手機(jī)廠商主打的最大賣點。文字的輸入則結(jié)合手指對設(shè)備的指定區(qū)域執(zhí)行指定動作形成電信號,再依靠各種輸入法軟件識別為文字信息。語音輸入轉(zhuǎn)文字則仍困于識別率問題,精度和使用環(huán)境受限。手寫這種在信息時代僅為照顧部分個體的落后輸入方式勢必會被淘汰。從習(xí)慣發(fā)展來看,鍵盤在可見的未來中仍然是最主要的輸入方式,就算HoloLens硬上手勢識別,也要在使用者視界中呈現(xiàn)一個虛擬鍵盤,再捕捉手指動作與虛擬鍵盤相對位置形成空擊,最終完成文字內(nèi)容的輸入。
產(chǎn)品比較
如上所述在個人智能終端的組件中,用于圖像輸出的屏幕是最為重要的功能部件,同時也是制約著終端整體物理形態(tài)發(fā)展的最主要因素。但便攜性與大屏兩個根本需求無法調(diào)和,這也是為什么我們現(xiàn)在的生活中會有Phone/PAD/NOTEBOOK/PC/TV這么多塊屏共存的根本原因,其實這些智能設(shè)備背后的馮諾依曼經(jīng)典計算機(jī)結(jié)構(gòu)都是相同的,軟件應(yīng)用層面也大多是互通的,其本質(zhì)上的區(qū)別就在于屏的大小給人的感受不一,進(jìn)而產(chǎn)生了不同的使用用途場景。
在可能的一些發(fā)展選項中,柔性屏和折疊屏?xí)缺籔ass掉。就算平時真能把屏團(tuán)成團(tuán)或者疊成豆腐塊揣進(jìn)兜里,但想看的時候還得讓屏幕恢復(fù)成一個有較大平面面積的實體,那這個實體依然面臨著當(dāng)前智能手機(jī)終端使用時遇到的問題,需要用手舉著或者找到個可以擺放的桌面。要知道便攜性不止是指設(shè)備不用的時候,更重要的是在觀看時候能擁有方便的放置方式。
另一個有些競爭力的選手是全息投影,場景在各科幻影視作品中大家都已經(jīng)很熟悉了,空氣中直接投放個三維的實體影像出來。技術(shù)上現(xiàn)在已經(jīng)可以部分實現(xiàn),但關(guān)鍵限制有二:一是空氣投也要有類似“屏”的介質(zhì)存在,不能完全的憑“空”投影,或者是含一定水分的氣流墻,或者是含一定氮氣與氧氣的空氣爆,至于要用到全息膜、旋轉(zhuǎn)鏡等固態(tài)實體的方案就更不提了,都會限制影像顯示的位置;二是全息投影首先需要有個全息的影像數(shù)據(jù),要采用專門的攝影方式將原始物體的全部三維光學(xué)信息采集下來,再做投影,這就限制了影像的數(shù)據(jù)來源廣泛性。至少從目前技術(shù)發(fā)展來看,有這兩個限制,全息投影真正想結(jié)合到個人終端中使用,還有漫長的路要走。
再介紹個奇葩的思路,將生活中所有的平面都變成玻璃面,所有的玻璃都成為屏,這樣也不用考慮啥終端了,走到哪里都是智能屏幕。先不說導(dǎo)電的問題如何解決(前面介紹過所有的屏幕顯示技術(shù)都是要靠電子激發(fā)發(fā)光的),僅是這種被全玻璃包圍的生活環(huán)境,就能將作者這種更偏好木、皮與金屬質(zhì)感的個體逼瘋。
綜上所述,能夠取代智能手機(jī),與其他終端多屏合一的下一代個人智能終端,只有,也只能是3R為代表的智能眼鏡了。關(guān)鍵優(yōu)勢有三:
?-?便攜性:頭部固定,解放雙手;
?-?大屏:等效100寸屏顯示效果;
?-?安全性:透光視野,增強(qiáng)現(xiàn)實。
現(xiàn)在智能眼鏡自身的計算存儲能力還存在不足,很多產(chǎn)品如EPSON BT300、HoloLens、Magic Leap One這些都需要帶著個主機(jī),很影響攜帶性。但隨著網(wǎng)絡(luò)通信能力的提升,大帶寬低延遲的5G網(wǎng)絡(luò)普及,計算存儲完全可以放在云端處理,現(xiàn)在如云PC和云游戲等云端應(yīng)用模式已經(jīng)開始大量出現(xiàn)。在不遠(yuǎn)的未來,云+5G+智能眼鏡將會成為一統(tǒng)天下的個人智能生活模式。
雖然3R還有很多技術(shù)問題亟需解決,但方向正確最為重要。個人認(rèn)為2019-2020年一定會有革命性的重量級產(chǎn)品面世。注意不是指革命性的技術(shù),而是革命性的產(chǎn)品,類似當(dāng)年的IPhone 3G。2025年之前百花齊放的各式智能眼鏡就會把智能手機(jī)打得一敗涂地,當(dāng)然百分百全取代也不太可能,畢竟就是今天也還有在使用非智能手機(jī)的用戶。
結(jié)束語
時代正在不斷加速,落后者被拋離也就是一轉(zhuǎn)眼的事情。諾基亞2010年二季度時還占據(jù)全球手機(jī)銷售份額的35%,領(lǐng)先第二名20.8個百分點,而2013年底前就以71億美元將手機(jī)業(yè)務(wù)打包賣給了微軟,2016年微軟又以3.5億美元的價格賣給了富士康。
烈火烹油,鮮花著錦,爬到山頂后往往就剩下坡可走了,區(qū)別是要慢慢走下來積蓄力量爬下一個坡,還是認(rèn)不清現(xiàn)實翻滾下來一蹶不振。十年輪回,智能手機(jī)的好日子也將開始倒數(shù),誰會是下一個蘋果?誰又會成為下一個諾基亞?