我們公司成立于 2014 年,我們的 CEO 黃鼎隆博士,是清華大學工業工程系的人工智能方面的博士。我知道今天在座的也有一位他的師弟。我們的 CTO 是 Matt Scott,他是一個美國人,是來自紐約的一位猶太好伙子。然后他是在 MSRA 工作了大概有 10 年的時間,有很多的技術積累。
魏顥 碼隆科技研發副總裁
所以,我們的黃鼎隆博士和 Matt Scott 先生合作,一起做的碼隆科技。他們在做這個事情的時候,其實人臉識別這個事情大家已經做了 30 年了。在那個時刻真的好像是感覺落地了。但是,正因為研究時間太長了,技術已經很成熟了,競爭公司也太多了,已經是一個紅海的狀態了。
我們作為一個新興企業也希望能找到一個新的戰場,能給我們更大的空間。大家可以想一下,生活中除了人以外,還有重要的一樣東西就是我們的商品、貨品、物品,所以我們聚焦于怎么用圖像識別的這些方法,來解決這個商品識別領域的一些問題。
所以,這個是我們公司的一個特點。最后我們在談到商品識別和新零售的關系這一點,其實商品識別涵蓋的內容還是蠻多的。不止是新零售,新零售我感覺去年之前可能談得都沒有那么火,但是去年一下特別特別火,很多的大企業都開始有一些新概念的便利店,包括一些無人便利店會出來。
包括去年的時候,無人貨柜也是一件很火的事情,但是今年回頭去看,很多的無人貨柜的概念,包括便利店的概念,其實都有限。有一些人步子邁的太大了,以至于現在可能會有一些問題,大家可能也很悲觀。我們的產品經理說過,現在整個社會的風口都會對無人風口這一塊,和無人結賬包括便利店這一塊,其實負面的聲音很多,他不知道在這個時間點我們公司聚焦于這個事情,會不會給大家一個誤導,我們公司走錯了方向。但是,我是這么想的,技術是一個長期積累的問題,人臉識別我們積累了 30 年,商品識別這個概念其實也就是這一兩年才出現的,是隨著新零售的出現而出現的,真的有可能是要做 30 年的時間。
所以,我相信在未來,一說到超市、便利店,包括我們的購物,它一定是我們理想中的,完全自助式的,像 Amazon go 這樣,人進去我拿了就走這個樣子。只不過我們可能還需要積累,所以我不擔心一段時間內,這波可能步子邁得太大了,導致有一些問題的情況發生,但是長期來看,我堅信最終這會是一個很棒的未來,所以我們要堅持的走這條路。
現在,我就開始給大家根據我 PPT 要介紹的內容,來給大家講一下,商品識別和新零售。在這個里面,我們列了五個點:
第一,我們要解釋一下,什么是商品識別。因為,我一談這個概念,我估計在座的每一個人都有自己的想法,我們也是做了很多的研究,我們也有自己的想法,但是我相信在這一點上,因為大家處于傳統行業,可能沒有專門去做這個事情,但是我是專門做了一些商品識別是什么這件事情的研究。
第二,深度學習已經是一個 10 幾年前的技術了,包括它最火的時候是 2012 年,AlexNet 出來的時候,但是到現在也是有 16 年的時間了,其實我們要看的不是一個新技術,我更多看的是一些成熟的技術,怎么樣去解決各種各樣的問題。所以,這里我會介紹一下我們現在圖像識別中一些成熟的技術,我會在商品識別中怎么使用它。
第三,我到了任何一個地方我去跟人家講的時候,人家都會問我,說你們跟人臉識別有什么區別,商品識別跟人臉識別到底哪個難,這一點我要給大家去做一些區分。
第四,我們為什么會選擇這個賽道?我們為什么會覺得商品實際上對未來,對人類生活的改變意義重大。
第五,我這里寫的是重塑新零售哪些落地場景,我會把我們現在的一些,已經落地的,不管是剛需還是軟需,這種已經落地的產品形態給大家介紹。因為,畢竟商品識別也好,新零售也好,其實時間還蠻短的,尤其是把人工智能這個技術應用到這個領域里面,時間也是蠻短的。
確實,我們發現有很多難以落地的地方,有很多客戶找來的時候,他提出的需求太特別了,太特別了很難規模化。但是,我愿意把這些成功和識別的,或者我們已經做完的一些事情跟大家分享,希望能激發大家的一些靈感。
將來大家在自己的行業中,去做一些更容易規模化的,可以很好的解決用戶需要的這么一些點。這里我其實一直有一個看法。很多人都說現在的世界是 AI+什么,比如說 AI+醫療、AI+教育,但是我覺得從一個技術出發,讓技術人去找每一個領域的痛點,去解決他們的問題,可能是一個麻煩事兒。
因為,這種關鍵太聚焦于技術了,他不知道行業的痛點,他總覺得行業的很多東西,我招幾個人就可以解決嗎?或者說這個事情值得解決嗎?他會問很多這樣的問題,我反而認為,這個詞我們要反過來看,我希望是咱們處于各個行業的行業專家,用行業來+我們的 AI,只有你們知道,真正的行業痛點是什么,只有你們知道什么地方才是最需要視覺的,我們才能更好的解決現在的一些問題。
什么是商品識別?
跟商品密切相關的幾點:
第一,我們來講一下什么是商品識別,其實這不是一個新的概念了,很早以前大家都接觸過它了。比如說最簡單的,商品的 Logo,每一家企業他做了一個產品以后它都會有 Logo,耐克、阿迪達斯都是這樣的,他們通過 Logo 讓別人認知自己的產品。
第二,就是我們傳統說說的一維碼和二維碼,UPC 和 EAN 實際上本身都是一維碼,我們通過一維碼來識別這款商品是什么。
第三和第四可能大家在日常生活中可能碰特到,好像商品識別僅僅限于前兩點,其實不是這樣的,在第三點,我們是對商品的質量是有一個基本的要求的,比如 ISO9000 的這種體系,然后去對這個商品質量去做定義。
在這個里面,其實有很多人工智能可以幫助提高商品質量這方面的一些想法。
第四,這個商品最終是要流通的,流通難免要進行跨界流通,我從中國到美國,從美國到中國,甚至是到日本,各個國家都會商品是什么有一個自己的定義,當然現在會稍微統計一點,這個叫 HSCode,會對商品有一個固定的定義,根據商品的流通環節會去考慮它的稅收問題、危險程度,各種各樣的相關問題。
所有這些其實都是商品識別所涵蓋的內容,這是一個傳統來看,我們這個商品識別是什么。
所以,用一句話來說,商品識別就是要識別商品及其相關屬性,這是很重要的一點,這也是跟人臉識別有很大不同的一點。你會發現人臉識別,它重要的一點是什么?確認人臉的身份,當然他也會確定一些相關的屬性,人的種族、年齡、性別,但是相關的屬性你可以想象就是這些,不會再多。
但是,對于商品來說,他的屬性多不多,會跟類別、質量、產地、規格、商標、外觀設計都相關,所以所有的這些也是我們看好商品識別領域一個重要的因素,這個市場很大,它永遠大于人臉市場,它有很多可做的事情,所以我們現在做的就是想用計算機視覺與 AI 的技術,來去做識別商品以及相關的屬性,所以剛才這一位朋友剛才問的是商品流通領域,我的庫存、數據怎樣流動,其實那個只是商品識別中流通環節的一小部分,其實還有這么多的東西都是我們關注的。
商品識別會用到哪些計算機技術?
下面就給大家講一講,商品識別里面會用到哪些計算機的技術,最傳統的技術其實大家都知道的,條形碼、二維碼、OCR,其實也蠻方便的。
OCR 跟前面兩個有一點區別,OCR 這個技術還是發展中,可以說會成熟一些,但是也沒有成熟到我隨便拿一個東西,我隨便一拍照、一掃,我就知道是什么的地步,離這個還有一些距離,但是條形碼、二維碼是相對來說比較成熟的,它不是一種視覺技術,它實際上是一種標準。
只不過我們把這個標準通過一些視覺的方法來展現出來了。
但是,可以想象一下,條形碼、二維碼最大的問題是什么呢?我要想使用這個東西,首先我要有一個標準化的體系,我可能要有一個組織、機構,跟大家達成共識,比如說像我說的 UPC 和 ENA,這樣的機制,全球所有的商品廠家都要認可這個機制,這個是積年累月可能持續了好幾十年才定下來的這么一套標準。
其次我所有做這個二維碼、條形碼的話,無形之中我要給每一個商品增加額外的開銷成本。然后更重要的是,我在使用的時候,我需要額外的設備去識別。
我忘了哪位朋友問的一個問題,既然商品我可以用二維碼、條形碼來識別,我為什么還要計算機視覺來識別?我先解釋一個這個問題,我這是這么看待的,不一定對。其實對于我們一個終端消費者,畢竟商品最終的 Consumer 是我們終端的消費者。
你無論是買帽子也好,買一個方便面也好,你最終是我們這樣的一個消費著,在我們的概念和意識中,我們會 Care 條形碼和二維碼嗎?我們不 Care 這個事情,這個條形碼、二維碼完全是商家為了自己的管理方便,或者是整個商品體系流通的方便強加給我們的概念,我們不得不接受。
包括你現在去盒馬鮮生他有自助結帳的地方,你要拿二維碼去這個屏幕上去掃,但是這個事情就強制我去了解這個東西,使用這個東西。但是,我們最終的理想是,我們希望像 Amazon go 那樣,用戶只要拿著就走。他本不該知道二維碼,那就不讓他知道二維碼,這是我們的一個理想。
現在我們都會說深度學習或者用計算機視覺來解決的商品識別里面的一些問題,其實本質上,我們有 5 大基礎的,計算機視覺的技術:圖像搜索、實體檢測、標注與分類、語義分割,最后是我們的視頻流的實體追蹤。
實際上這 5 個,毫無疑問是我們會在商品領域里通過互相組裝和定制來使用它們來完成我的一系列商品識別工作,但是這 5 個,我估計可能在座的人并不是圖像識別相關的專家,可能沒有概念,這都是什么?所以,我們先介紹一下是什么。
第一,圖像搜索,它做的是什么事兒呢?就是我幫助我的客戶,建立一個以圖像為基礎的數據庫,這是一個我們幫助我們家具的客戶建立了一個數據庫,里面有各種各樣的家具。他的客戶用戶會提交一個照片,照片里面包含了某一種東西,我們幫他判斷,是不是在數據庫中,以及數據庫中,哪些的圖片或者是商品,跟他所提交的需求是最心思的。
這個就是圖像搜索所完成的任務。
第二,圖像分類,這個說的簡單一點,你給我一張圖,我來根據預先定義好的一組的標簽、定義,來告訴你,這張圖符合哪一個標簽。這是我們給我們另外一個電商客戶做的一個案例,它想做什么呢?我就講講它最終落地的那個產品是怎么用到技術的。
他要做什么呢?
首先,他想知道這張圖里,你有他們的電商圖,我想知道這個圖里有沒有模特。所以,第一個計算機視覺圖像分類模型給出的結果,我告訴你這是一個模特圖,而且準確率是 99%,它一定是一個模特圖。
然后因為有很多的模特圖,有的是半身圖,有的是全身圖,還有的模特是背對著攝像頭拍的圖,他想知道,當天的這個模特到底是什么樣的姿勢,所以我們會給他一個新的模型,判斷這是一個上半身的圖,這也是準確度 100%,肯定是一個上半身的圖。
最后,他想判斷這個圖是正面還是背面的,畢竟都是上半身我也可以背對著大家,他需要一個算法來幫他判斷,這個圖里面的模特正對著大家還是背對著大家,我們依舊給他一個判斷,我們認為是前面。但是,這回的準確度只有 79%,這個準確度或者什么東西不重要,但是大家可以看到,我所謂的圖像分類就是一個概念。給一張圖,我幫你把它放到你定義的標簽中的某一個去。
第三,圖像檢測,我講的這個技術的順序你會發現是越來越難的,剛才你給我一張圖,我只要告訴你圖里面的東西是什么,但是我現在不但要告訴你圖里的東西是什么,我還要告訴你圖里面的東西在哪里?比如說,判斷圖片中的人、狗、桌子、刀子都在什么位置。
我們生活中很多的商品其實都是帶包裝的,我們怎么會利用這些包裝來識別這些商品?其實我們是學習著大量的數據,在學習數據的時候,會有很多的數據讓我們的標注員進行標注,就是指讓一些對這個商品會有一定了解的人去幫我們做標注,他會在整個圖片中去標出來整個物體的框。
有了標注,實際上我們在實際應用中:
首先,我們可以判斷這個物體在圖中的什么位置。
再一個,我們可以精確的判斷出,這個物體最能表達他特征的東西是哪一塊,這樣的話我可以結合我剛才說的搜索技術,或者是其它的一些相應技術,來去判斷這個物體是什么,這個就是所謂的圖像檢測。
第四,語義切割,這個就比剛才又難了一步,大家可以看到,我剛才是用一個方塊,來去標注圖中一個物體的位置。但是我通過語義切割的技術,我可以找到以類別為單位的,精確到像素級的這個物體的位置。
比如我可以找到這一組人他們的位置,這個就不是一個方塊的概念了,是真正的把他們都通過像素的方式來標出來了,包括車、沙發,這個要比剛才更難。
下面還有一些技術,一個是圖像標注技術,圖像標注技術其實很像圖像分類技術。剛才我說的半身的模特,19 個模式或者是不是上半身的那個技術叫圖像分類,這個叫圖像標注,圖像標注比圖像分類更難的是,它輸出的不是一個標簽,而是很多多的標簽,用來代表這幅圖中有一些什么內容,比如說像這幅圖,大家一看,這個是我們輸出的標簽,基本上還是比較吻合這個圖所包含的內容的,但是信息量很大。
這個是另外的一種圖像標注,這種圖像標注是指給特定的物品,剛才這個事情我們叫通用標注,就是你認為給我一張圖,包括我現在拍一張圖,它可以告訴我,圖片里面有什么。比如說,我現在拍一張圖,很有可能會告訴是會議室,然后有人群,然后這個就叫通用標注,但是有很多特定領域的客戶,比如說我們服務最多的是電商的服裝領域。
他們有很多的需求是判斷服裝的顏色、類別、以及圖中的風格、標簽,所以這個我們在標注的技術上會做一些跟行業相關定制的一些特點。比如說這個地方各我們會判斷她穿的是寬腿褲、T 恤衫,以及它們的顏色是多少,包括他們的標簽內容。
這個高跟鞋因為我截圖的時候,沒有截出來,下面是有一個高跟鞋,這個是屬于特定領域的圖像標注技術。所以,這幅圖我剛才多多少少已經給大家講解過了,這個就是相當于我用各種各樣的技術來去判斷這個物體的物質,以及他的類別,包括它的核心區域,我們可能會加入一些商標檢測,它是什么東西,肯定還會用到 OCR 這個技術,來去識別它的相關一些信息。
這樣我就基本上把一個商品做成一個畫像,我可以知道它是什么東西了。
總之我是通過這個技術來識別不同東西的,不同屬性,這一點要強調了什么呢?跟人臉不太一樣,你會發現,如果你去看人臉相關的一些技術的話,過去 10 幾年可能人臉的特征點,它是一個幾十、幾百這么一個維度,現在可能計算機的速度會更快了。他會說人臉不會取幾百上千這么一個特征(點位),所以你可以認為它的特征還是比較固定的,包括人的喜怒哀樂、歲數,這些信息其實蠻固定的,我只要是人都會具有這些信息。
商品最大的困難是什么呢?不同的商品有不同的特征。你會發現,我做服裝、家具,毫無疑問它的樣子很重要,完全能代表它。即使不能代表它的細節,也要代表它的類別。
但是,你會發現珠寶這個東西,你就不能說,完全看他的樣子了,你要看他的材質,甚至你要看一些成型珠寶的時候,要看見一些正面、反面、側面各個角度的細節。如果你不關注細節的話,你很有可能把兩個不同材質的珠寶的首飾認成一種珠寶首飾。
所以,不同的產品我們有不同的關注點,這個也是商品識別比較難的一點。
商品識別技術能解決什么問題?
下面我來給大家介紹一下,現在我們在解決各個領域中,能解決的一些問題。
快速消費品
這個是我給我們商超的一個客戶去做的一個技術。大家可以可以看到這里,當我們這位產品經理把東西放進去的時候,我們會實時的檢測都有什么東西。目前這個技術正在給一個美國比較大的超市客戶去做試用,他要解決的地方不是結帳。
因為,大家會問一個問題,假如說東西相互堆疊怎么辦?那肯定也是沒有辦法的,恰好這個客戶需要的不是一個結帳的概念,因為結帳的概念,如果你要是相互堆疊,沒有檢查出來,扣費沒有扣到的話,會有損購物體驗。他要解決的是什么呢?是重要貨品丟失的問題。
用戶會自助結帳,結帳以后他會再把車推到一個攝像頭下,我們會判斷,在車中的重要物體跟他結帳的時候,帳單是否一致。確保他不要有一些東西沒有結帳,蓋在下面拿走。我們發現,我們這個技術最大的一點是,如果發現有兩件商品是堆疊的話,我會報警,會讓他重新把堆疊的物體分散開,再次掃描。是做這么一件事情。無論商品是平坦還是豎起來,其實都是可以去做檢查的。
服裝、時尚商品
剛才是一個零售領域的一些技術的展示,我們現在看一看,服裝和時尚商品相關的一些展示。
現在我們有很多的電商,尤其是賣服裝類的客戶,用的技術基本都是這套技術,無論是什么樣的照片,如果他能拍一張給我們的話,我們會判斷,照片中有哪些東西,包括類別。然后幫他去在他的數據庫中去找相關匹配的衣服。
家具、建材
再有的話,是家居的領域,但是家居的領域,大家看到這個 Demo 會有一點像剛才的,但是是一個實際客戶的演示。也是在家居領域你給我任何一張圖片,我都能立刻識別出來這個圖片中的主要家具,比如說頂燈、吊燈、桌子、各種燈都可以拿到,這樣客戶可以允許他們的客戶在他們的系統中尋找類似的商品。
藝術品、玩具
這個是藝術品和玩具相關的,玩具我們相對于現在做得還少一些,其實玩具這個東西,很適合視覺的識別和檢測。這是我們給做陶瓷的一個客戶,定做的一款產品。也是我們有大量的數據,然后通過學習,然后把他所需要的,任何一個陶瓷工藝品上的數據都幫他識別出來。所有的這些屬性都由他們的專家來定這些屬性,我們是把專家他們以前分析的圖片數據拿過來了以后進行了學習。
五金工具
然后包括五金工具,雖然我這里沒有 Demo,但是我們跟很大的一家五金工具有一個很大的電商叫米思米,它是一個日本的企業,很大的一個電商,簽訂了一個戰略合作協議。去推進五金相關這些工具的識別的工作。
出版物
最后一塊就是出版物,出版物現在相對來說會簡單一點,因為封面和里面的圖,它本質上是一種不可變形的物體,它不像沙發、衣服,其實是一種柔性物體。它本真是可以變形的,所以它各種光照的影響和變形以后的效果,肯定跟你學習的時候不一樣,會造成一些難度,但是出版物相對來說會簡單一點。
這個方案其實就是通過報紙上的一些圖片,來觸發一些更豐富的媒體展示。
商品識別與人臉識別有何本質區別?
現在是談到了第三個議題,就剛剛跟大家談到的,很多人都會問人臉跟商品識別差異在哪里?我覺得主要是從兩個方面考慮這個事情。
第一,我已經談到了,對于技術來說,人臉的技術相對來說比較穩定、固定,可規模化,因為人臉的特征點,其實剛剛我說了,長年以來一直是一個點位,可能最近幾年會多一些,但是這個技術還是這樣的一個技術、思路。所有的人臉都是用這個技術來解決,可能會增加一些圖像增強,但是基本上技術的體系是這樣的。
包括我剛才說的人的喜怒哀樂這些信息,也相對來說是比較固定的,但是剛才給大家展示這么多的視頻以后,大家也可以理解到,商品領域其實分了很多不同的種類五金類、家具類、珠寶首飾類,每一種類別都有自己獨特的特征體系,這個是他最大的一個難點。
沒有統一的特征體系,意味著我做家具行業要把它做好,可能等同于我要把人臉這個領域做好,這個規模就很大了,就很復雜了。
第二,人臉檢測這個東西,雖然我可以判斷他的喜怒哀樂,做一些更豐富的人的檢測,比如說這個人他買了這個商品以后,他滿意不滿意、開心不開心,這樣的檢測我是可以做的。但是,總體來說,現在人臉識別最落地的還是用于判斷人的身份。是不是這個人?這個人是誰?解決這個事情。
但是,就像我剛才說了,識別商品,以及商品的屬性,屬性中的種類太多了。商品的身份只是他特有的屬性之一,我同時還要解決全環節各個方面的內容,比如說我要解決的是一個質量問題,我要解決的是一個管理問題。
比如說在這個作用領域,他的涵蓋程度復雜程度,以及他的商業價值,遠遠高于人臉識別。這個是一個壁壘。現在這里其實我沒有談技術壁壘,因為商品識別,包括你說人臉識別是不是一種技術壁壘,我覺得現在人臉識別技術太成熟,也沒有競爭壁壘。更多的可能是我們資源行業里面,比如說技術進入安防行業,他們硬件資源的積累已經很長時間了,這個壁壘已經形成了。人臉識別的一些獨角獸,我用什么辦法去突破這樣的壁壘,去賺取我們的一桶金或者兩桶金,這里面有很多的問題。
商品識別的壁壘是什么?
行業數據
其實商品識別也有類似的壁壘,我先講右邊的這個概念,其實有很多的商業數據是我們拿不到的,比如說我們要去做汽車質檢,這個數據以前是沒有人去采集的,以前是通過肉眼去看的,所以他們不會去拍照,所以就沒有采集這個環節。
這個時候我們怎么去挖這樣的一個行業數據,因為沒有圖片、沒有視頻,我的圖像識別就弄不起來,所以我怎么去幫助這個行業去建立這樣的采集機制,可能是這個行業要面臨的一個問題,所以這個是我說的行業的數據的壁壘,然后再就是規則的壁壘。
規則標準
比如說我們在服裝領域、時尚領域,有一個概念是色系。可能大家會聽說一點潘多色系或者 NCL 色系,這些色系都是世界聞名的一些色系,就是任何一家買賣,你要說這個布料是什么顏色,你要說我想把衣服做成顏色,你不談這個色系基本上是不行的。
所以,有很多人做這個生意,他都會把色系夠構成一個冊子,然后會把上面的解讀,以及每年新的色系,標注了相關的一些趨勢分析,然后把這個東西也作為一個咨詢類的一個產品去售賣。如果你想為我們做事情的話,那你就必須去遵循這樣一個行業的規則和標準,然后再比如說我們做的最多的是時尚標簽的。
比如說我們會做的,在我看來有什么樣的衣服,是長袖、段袖,是珍珠衫還是蝙蝠衫,都做了很多這樣的東西,但是我們如果仔細觀察的話,現在最大的天貓、淘寶,還有京東、唯品會這些,他們的標簽體系都是不一樣的。甚至就跟剛剛說的,天貓和淘寶他們的標準體系都是不一樣的,這個時候就意味著在這個行業里面,這個地方還沒有一家形成一個規范,我怎么定義服飾上面細節的標簽?
意味著我現在針對京東的標簽體系我做出一套系統,可能唯品會他就不會買單,可能一些其它的電商不會買單。到了國外以后,可能亞馬遜他們覺得我有自己的體系,我為什么要用你這個體系。所以,這就是屬于剛才我說的,整個這個行業里面的標準,會成為阻礙技術推動的一個因素。
識別能力
所以,這個是一些關于行業和標準的一些壁壘。其次從技術角度和產品的角度來說,我們這樣看。技術的壁壘,剛才我說了人臉識別最好的是什么呢?他識別了 30 年,而且相對比較標準,我的一套技術或者一套框架,我可以解決一批問題。
但是,我的商品種類太多了,我沒有一個方法、一個框架,可以解決一批問題,甚至都是家居領域,可能我針對地毯和我針對沙發這兩樣東西,我要解決的方案可能都會不一樣。除此之外一旦到了商品,比如說人臉的話,你可能會發現,除了安防的攝像頭以外,平時的時候我們最多的還是自拍。
或者說,滴滴司機我第一次我要去認證一下,會把手機要放在自己的臉前,所以這種情況下,其實光照和臉和攝像頭之間的距離其實新對來說是固定的。所以,它對模型的泛化要求會低一點,什么叫泛化要求?是說的這個模型,我在燈光很好的情況下,或者燈光不太好的情況下,或者是有背景比較復雜的情況下,或者背景跟我訓練時候不一樣情況下,在這些完全跟我一開始訓練和獲取知識的時候,不一樣的情況下,這種情況我還能不能識別他?一個泛化好的模型,其實它會對這種干擾因素,會有一定的冗余度,我不會受它的影響很大。
所以說,在商品識別里面,它不會存在一個用戶跟設定之間的關系是固定的,或者光照還是固定的情況下。很有可能是,我在這個地方拍一個沙發,但是明天很有可能發生的是,這個沙發被放在一個角落里面了,我再拍一個沙發,這個時候光照的影響會蠻大的。
所以,它會對模型的泛化要求會很高,這一塊也是我們不斷的再學習和加強的一個壁壘。我們希望把泛化的這件事情能解決的更好。再其次的話是說,現在大家都知道,我們所有的機器學習或者人工智能,我們都是叫監督學習。什么是監督學習呢?
首先我有大量的數據,很多很多的數據,成百萬上千萬的數據,為這些數據需要進行標注,可想知道,所有的標注都是由人來完成,所以有一句戲言說,有多少人工才有多少智能。到目前為止這是一個真實的事情,我需要大量的人工標注。
這個時候,經常會有客戶說,你們需要多少數據,我可以把數據給你,你需要多少數據,我幫你把數據給你,幫我訓練一個模型。我們說,需要 10 萬的數據集,客戶一聽那我做不成這個事兒了,因為客戶手上很有可能沒有這么多數據,即使有這么多數據,又讓誰來標注呢?
所以,這個是所有的人工智能公司現在面臨的一個問題,我們現實的數據沒有這么多,標注質量沒有這么好,噪音很大。這個時候有一個技術叫弱監督技術,或者是叫半監督技術,我們怎么樣通過更好的數據,噪音更大的數據,也能完全現在的精準度,這個也是一個會與以往的深度學習,機器學習不太一樣的地方,所以這個也是我們在商品識別領域比較獨到的一點,也是我們要加強的一點。
第三,像剛才的標簽這個體系,我說過了,我做一套標簽可能京東覺得是滿意的,但是唯品會覺得不滿意,這是因為我的標簽體系跟用戶的體系是不一樣的,這種情況太多了,不止是服飾標簽,很多的時候我做的東西,用戶說第二天我要增加幾個類別,你要給我重新訓練嗎?可以。多長時間?我標數據帶訓練可能需要一周的時間,這個太慢了。
怎么辦呢?我們現在的一個思路是跟傳統的機器學習不一樣,我提供的不再是一個簡單的模型了,我希望把我的后臺工具,機器學習的訓練工具,我的機器學習數據采集和標注工具,全部平臺化,提升它,讓它能夠適應我的客戶的環境。
實際上我把整套工具和解決方案,打包成一個解決方案,給我的客戶,有的時候我不再說,因為我自己的人力問題或者資源問題首先了,我自己來制造模型吞吐量的能力,我要把制造模型這個能力給我們的客戶,讓他也有能力,快速的用它自己的數據,來完成它自己的模型搭建,這樣我將來是一個平臺,我可以讓他使用我的平臺去完成他自己的任務,這樣會快很多。
這個是從技術角度來說的,我認為要加強的三點,可以形成一定的壁壘,誰要是能把這三點能解決的很好,它一定能成為一個,至少在這個領域里技術很強,能很落地能解決問題的一個公司。
應用能力
然后對于應用能力,其實剛才我也多少涉及到了,最重要還是收集行業數據的能力。
你到底有沒有辦法收集行業數據,用戶肯定是沒有數據的,你怎么去跟用戶合作去收集數據,你有沒有思路。其次的話,數據收集上來以后,比如說都是沙發,這種沙發和另外一種沙發到底有什么區別,這個是需要有行業知識的。
我客戶在買沙發的時候,它更關注哪些沙發的不同點,來幫助他進行選擇,這也是需要行業知識的。所以,這就是對行業數據的正確分析和解讀能力。
你會發現,我做一個技術的公司,如果我只提供 API 或者我只提供 SDK,其實用戶是不會買單的,他需要的東西和這個技術最終的交付方式,SDK 也好,模型也好,其實中間還有一公里,這個時候你需要去理解行業客戶他的系統,誰的落地能力強,誰和這個行業它自身系統的整合能力強,誰就越能把這個問題解決得更好。
所以,這一點醫療可能問題更嚴重一點,你就發現醫療體系里面,各種各樣的系統我都有,但是你怎么把你現有新的東西能整合進去,是一個很難的事情了。
所以,這個是從三個角度,政策、行業標準、技術壁壘和產品壁壘三方面來講的這個事情。下一個題目就是說,我們為什么會覺得商品識別這個技術至關重要。
為什么商品識別技術至關重要?
商品的全流通領域,從設計、生產、交易、使用、回收,我們要解決的問題太多,而且現在面臨的問題也太多。如果我能用我的圖像識別技術解決其中的這么一些點,那我對整個人類社會的效能的提升會極大,會有很高的提升。
這個就是我們認為我們能在商品流通的環節能做得一些事情,這里我不細說,但是有一點我想跟大家講,也是我們之前的一些經驗。你發展到現在有五個點,哪個點可以做,哪個點里有商業價值,這是一個問題。
我是一個創業公司,我可以五個點都做,我也可以像這些項目一樣,比如說回收站的用戶來找我了,我就幫他做。但是,我們做一個初創公司我們要考慮一個問題就是:我們該做哪個行業,做哪一點,我的收益是最高的?
我們其實之前也走了很多的彎路,包括現在有一些歷史遺留問題,我也不得不在這條路上繼續走下去,但是我們現在在轉變一個思維方式。估計在座有的朋友可能也了解這一點,越是接近 C 端用戶的這種產品、訴求,你會發現越零散,越難以通過規模化的方式去覆蓋。
所以,我們在選擇的時候,我們現在一個標準是,盡量往生產環節的上游去走。比如說剛才我記得有一位朋友是講,生產環節的一些事情。其實很遺憾,我們現在這一塊做的還是太少,但是我們后面希望也能去多多接觸這方面的一些內容,在生產環節里面去做一些事情,可能我們認為 margin 會大一點,會比在電商行業或者在零售行業做很多的事情 margin 會大一點,這個是我們目前來說的一些感受。
除了剛才我們說的,它會跟生產商品流通的全環節有關,還有一個,是對于商品流通的監管環節,這個平常大家可能關注的比較少一點,但是如果你是做這個買賣的話,你會發現各個地方砍得很嚴,你總是會被這個砍、那個砍。
比如說質檢,質監你通過某種認證,包括剛才我說的 UPC 的那個碼,你要去提交你的申請,才能申請下來那個碼,包括我國的知識產權保護,包括我的收稅的情況,包括我安檢的情況……我們商品識別的技術都會在其中有一些輔助型的作用,包括其實現在有一些內容我們也正在跟一些客戶去做。
商品識別如何重塑新零售?
最后一個題目就是說,我們的商品識別是如何重塑我們的零售?我也不說新零售,新零售這個詞真的很新,它到底是什么,我也不是專家很難解釋清楚。對于新零售,其實只有人、貨、場三者還不夠,其實更重要的是這個數據在人、貨、場三者之間的流通,流通起來之后可能才叫我們的新零售。因為,新零售包括我們視頻直播這個行業,其實現在都提一點,我需要千人千面。我覺得新零售這個概念,最終的一個終極的目標可能也是這樣的改革概念,我會針對不同的客戶會有不同的東西,不同的體驗。
我覺得這個到那個時候,可能才能算一個真的新零售,不是像現在的這種零售,我進去以后和旁邊這個人進去以后這個店里面的東西是一樣的,我們要自己去做選擇。然后一個企業他可能只能通過不斷擴大他賣的商品數量來實行覆蓋更多的客戶,可能只能通過這種方案來完成。
毫無疑問,新零售不管意味著什么,最終我們要做兩件事兒,一個是給消費者能省錢,同時有更好的消費體驗,對售賣者來說,肯定是要給他們賺錢,同時提高他們的整個管理的性能和流通的性能。然后在新零售或者說所謂線下這個行業的這個點,都在起步。
我覺得很值得一提的是,不止是對這個產業本身,其實對整個人類來說,包括技術,最大的好處是我們會獲得很多原本無法得到的數據,或者沒有思考過的數據。其實攝像頭的出現是一個很厲害的一件事情,它幫助我們收集了很,以前是我們沒有打算收集或者是收集不到的東西。
現在隨著攝像頭的普及越來越多,我們把我們這個方面的數據極大的收集起來了,所以你會發現整個科技的發展其實是一個數據收集能力和數據儲存能力的一個發展。從數據的角度來看,如果我們邁入新零售的領域來說,無論是便利店,無論說是我們的貨柜,還有我們的終端零售機,你會發現不可避免的,一定要加攝像頭。這就意味著又開辟一個新的線下數據收集的場所。
包括將來有一些體驗店,我可能會有一個智能貨鏡,所有的鏡子可能都會是攝像頭的一個概念。所有的這些東西,都將進一步來把我們人類所能搜集的數據,擴充到一個新的領域來。所以,我覺得這個商品在重塑新零售,但是新零售其實反過來其實也在促進我們的數據搜集和管理體系。
最終我們還是落點于這個數據,這個數據里面到底有什么,我能挖掘到什么?這個東西才是我認為新零售最終要解決和解答的一個問題。
這里有一些有 Demo。比如紅酒這個東西就屬于一個很特別的商品,因為酒的外形都是一樣的,不能通過用機器來識別酒瓶的外形來判斷它是什么酒,所以酒的技術其實我們談的更多是酒標的識別。我是怎么在圖片中找到酒標,然后對它進行分析、索引、搜索。
所以,國內現在幾家比較大的紅酒的廠商都是我們的客戶。而且紅酒這個產品典型的是一個多種技術綜合的一個產品,一開始我給大家講過了,我們有搜索、檢測、識別,紅酒里面包含了檢測(檢測酒標)、搜索,我找到相同的款式,其實我還包含了 OCR,我通過 OCR 識別,因為這個酒 2005 年和 2003 年其實是不一樣的酒,哪怕你的牌子是一樣的,也是不一樣的酒。
所以,我們要去識別里面的年份,來去做更精細的識別,所以它是一個綜合的一個東西。所以,看上去好像每一個東西都不是很大,其實背后還是積累了很多的技術。
這是另外一個電商客戶,他是幫助客戶去做比價和去重的,用的也是我們這個技術,所有的這些相似的圖,都是通過我們圖像識別技術來完成的。你會發現其實市面上有很多的比價的產品,但是他們比價更多的是圖像,比如說豆瓣讀書會比價這個圖書在各個電商網站上的價格。但是,一到小商品,一到衣服的時候,你發現你沒法比價了,因為它跟那些東西不一樣,它沒有型號的概念。一個是衣服另外一個就是批發市場的小商品,雖然你看批發市場的小商品,都是 5 塊錢、6 塊錢都很便宜有什么可比的,如果是批發市場,你買了一千個、一萬個的時候,這個價格的成本會有很大的差距。
所以,我們給很多家的這種 B2B 的電商,包括服裝電商會提供這種比價的這種系統。
下一個商品落地,真的是到了我們現在所謂的新零售,或者新的銷售體驗的一種概念了,訪客購物和商品挑選行為的追蹤,這一塊坦率的說,我現在還沒有發現特別真的需求,有很多的客戶找我們,想做什么呢?就是想做試衣鏡,然后他給試衣鏡里面可能會放一個攝像頭,然后去抓拍用戶都適用哪些衣服,通過這些衣服來去判斷,哪些衣服的銷量會更好,或者大家更感興趣。
但是,有幾個問題,我們在研究的過程中,沒有發現解決的方案。你想所有的試衣鏡大多數都在試衣間里面,你能裝攝像頭嗎?不能裝,這個是有隱私問題的。所以,后來客戶就來跟我們的說,那咱們做鞋吧。鞋倒是可以,但是問題一下就把這個事情就變得很小很小了。
然后其次是什么呢?大部分客戶的訴求,我就想通過大家試什么衣服來判斷,我哪個衣服的銷量可能會好,但是其實我是覺得,哪個衣服銷量好和不好的話,你通過這個禮拜的數據和下個禮拜的數據,你能判斷出來,有沒有必要非得去用這個人試哪件衣服試的多和試驗的少來判斷。
當然,也有一種可能,有一些衣服可能試的很多,但是賣的很少,有可能會有這樣的信號,這個有可能能解決的。這個信號意味著什么我不知道,但是有可能會有這樣的異常信號,也許能幫助客戶去做一些分析。所以,在這一塊其實有很多的客戶來找我們談這個事情。
但是,目前來說沒有特別好的,包括現在市面上有很多做 VIP 識別的,我這個客戶到店里面來以后,我的店員肯定不知道他是 VIP,除非買東西以后,我說您有沒有卡,卡能打折,他告訴是 VIP,但是這個時候客戶已經到了最后一個環節了,馬上就要離開了。
哪怕之前有什么不爽,服務沒到位的情況,都已經過去了,你來不及補了。所以,他們想做一個 VIP 的人臉識別系統,用戶一進來以后我馬上能夠識別出來這是一個 VIP,馬上不同的感受就上來了。但是,目前來說,人臉識別是這樣的,首先從技術來說,你不能說我這個 VIP 是單店 VIP,肯定是連鎖店才有意義。
但是,連鎖店你這個人臉一旦到幾萬這個級別,現在還沒有好的精準匹配,你要說搜索,我可能給你搜出來 20 個人很像這個人,這個是可以,但是這個不能解決你 VIP 的問題。
你要的是精準匹配,什么叫精準匹配?是不是這個人。一定要給我一個準確答案,但是現在這個可以坦率跟大家說,人臉這一塊,如果在普通攝像頭的條件下,到了幾萬這個級別的話,很難說能達到這么一個精準度。所以,你會發現,警察他們不會說你一個囚犯的照片,他馬上告訴你這個人是誰,其實他也是給出幾千個個,為了防止有落網,他和警察會二次篩查。
所以,這就是海量出片的人臉搜索和人臉精準匹配的一個差距。
然后再就是人、貨、場價值挖掘,這個商品的定向推薦,本質上就是這個商品推薦。但是,我是覺得是這樣,這個事兒只靠商品識別是解決不了的,它一定你還要具備很強的人臉識別能力。因為,你推薦一定是既有商品又有人,而且還有地點和時間。
你不能說,我夏天的時候推你冬天的東西,或者說這個人前兩天買了一個東西,今天他再來了,我再推薦他這個東西,這個是一個很大的題目。現在的話可能沒有一個很好的方案把這個方方面面到底是什么樣子能說清楚,我們只能說是在很多很具體的事情上一個個去解決。
而且這個一定不是一個公司兩個公司能做的,這個事情一定多個公司,最終還有集成公司大家一起合力去做這個事兒,才會把這個事兒做成的。
所以,這一塊因為我們確實沒有一個很好的去給大家講解,無論是成功的還是失敗的。所以,這一塊我也只能先暫時跳過,關于這個商品,尤其是線下的商品我怎么去做定向推薦。但是,有一個很好玩兒的事情,大家可能都聽說過友寶,是一個自助售貨機,主要是飲料類的。你如果看他們的財報的話,他們 2016 年的時候,他們通過靠飲料的售賣的營收占他們總營收的 94% 以上。
但是,到今年的時候,他們商品售賣的總營收只是到了 70%,剩下的 20% 是什么呢?是他們這一塊屏的廣告。所以,這也是我剛剛說的一點,有的時候新零售這個事兒是聽坑爹的,你光賣這個商品,因為這個范圍太小了,其實像友寶這個,全中國鋪了 7 萬臺柜子的,他也很難去營利,他最后要運用廣告帶營。
當然,這個也是一個方面,你這個友寶上面掛一個屏幕去做更多的推薦和廣告,目前來看至少它在這一塊的營利會逐漸的增多,包括線下的話,我相信你無論是做無人貨柜、無人便利店還有友寶這種售賣機的也好,最終怎么去把廣告植入?怎么去推薦客戶不同的廣告,可能是一個真正可以賺到錢的點。
這個就是無人結帳,其實 Amazon go 已經實現得很好了,雖然我沒有去,但是我們的 CTO(美國人)在回國時候他去試了試,他覺得效果很好。但是,現在最大的問題是成本問題,Amazon go 一個單店需要幾百萬的美金,你會發現整個屋子里各個地方都是攝像頭,這個貨架上有很多很多的攝像頭,除了攝像頭進場通信、RFID 這些東西也都有。
所以,這個東西現在至少只有 Amazon 這種級別做一個體驗店可以,現在真正想鋪開了去做很難很難。主要還是受限于技術的瓶頸,包括我知道,我們有一些合作伙伴之前都想做無人便利店也來找過我們,我們也聊過,后面我們一個判斷是,這個事情上還不是特別的成熟,他們也不太信,他們也找了別家去做。之前找過我們的兩家他們現在沒有了。
他們最后的一個反思,就是覺得自己步子邁得太大了,以為這個事兒我技術方面做到了就能解決,其實這是一個系統工程,這個技術單方面是解決不了的,一個是多方面的技術,以及還有一些其它的 Trick,包括運營,一起解決,但是太復雜了。
他們想做無人便利店就是因為覺得這個成本相對于真的便利店或者大商超成本會低一點。但是,實際上進來以后,發現無論是從技術角度、管理角度、系統應用角度來說,其實成本一點都不小。而且,貨損率也很高,所以最后這個事兒就沒做起來。
所以,目前我的一個判斷是,無人便利店可能步子邁的比較大,就是說無人貨柜或者說友寶這樣的機械要是想降成本是完全有可能做到的。現在一臺友寶的機器,大概是 2.7 萬(簡單一點的),稍微貴一點的是 3 萬,他們現在也在出那種便利架,就是把熟食放進去。
那個柜子稍微格多一點大概是 7 萬塊錢,其實成本還是蠻高的,因為它是一個全封閉的系統,它是靠機器跟這些設備來控制你選擇了什么,然后出貨這些東西。所以,這個成本很快高。
但是,如果用了圖像識別的話,我相信至少 2.7 萬的柜子能降到 1 萬以下是完全有可能的。
便利店的最大問題是什么呢?
店面和人員的運營費用太高了,現在人的工資不斷在漲,然后店面的費用也在漲。所以,為什么現在很多人去搞柜子,各種各樣的柜子或者是什么東西,就是因為這個柜子占地很小,尤其是當你放你辦公室了以后,這個地方實際上是不收錢的,是白給你的。
無人貨柜的好處是什么呢?你只要補貨,你補貨一個真可以負責一個區域,所以確實成本會更低一點,但是他的問題是什么呢?你會發現現在所有的無人貨柜、便利店都賣的是飲料、泡面這種成型的商品,他的毛利太低了,就幾毛錢。
你像友寶他一臺柜子一個月平均來說,可能 800 塊錢的毛利。然后流水就要達到 5000 塊錢,才有這個價格。其實毛利太低了,這個意味著什么呢?低的可能有一些成本可能也比較 Hold 住,然后貨損的成本你肯定 Hold 不住。你貨損如果像無人貨柜那么高,30% 的貨損率你肯定是賠。所以,他的痛點是什么呢?
第一,怎么降低貨損。
第二,能不能賣熟食,就是高附加性的這種商品。
這兩個問題如果他能解決的話,其實我們覺得無人貨柜這種新奇可能還是可以跟便利店可以 PK 的,畢竟的話,可以看到在日本,這是全民都比較認可的東西。全日本 40 多萬的這種機器到處都是,在中國還達不到這個量。
我估計現在一年 10 萬都是撐死了,可能還得死好多。其實我覺得還是有很大的發展的。但是,要解決兩個事情:
第一,你怎么去賣那些毛利高的東西?
第二,你怎么降低貨損?
這個我覺得人工智能、圖像識別都是有希望能解決的。
然后就是貨架管理,這個東西也是有人找我們做,后面我們沒有做。因為市面上有幾家做得還確實不錯的,它相當于是補完貨以后我拍一個照片……尤其是很多的加盟店補貨完了以后都是第三方去補貨,第三方補貨可能不負責任,可能有一些東西沒補,或者是補的地方不對,可能是需要拍一個照,然后傳到總部上,總部一確認這個貨沒補對,對這個員工可能會有一些懲罰機制,就大概是這么一個概念。
這個其實圖像視覺應該能解決的還不錯。但是問題是,基本解決的是第一層,可想而知后面的幾層是解決不了的。
最后一個,這個東西大家可能接觸少一點,完全是一個設計師群體的東西了,但是我們在這里因為有一些好的合作伙伴,確實也做了一些事情。比如說我們當時跟紡織信息中心,一個中國比較大的這樣一個時尚趨勢分析的一個機構,去分析每年到底現在有什么東西在流行。
這個產品已經落地了。現在紡織信息中心或者很多其它的時尚機構,包括制衣的廠商像 Zara 都有這樣的團隊,每年都有幾十個人滿世界各地飛,去各種秀場采風。采風回來以后拍很多的照片,然后再有一批人去分析,分析什么呢?分析顏色、分析新款趨勢,很多很多人在做這個事情,這也是一個很大的市場。
以前都是人去做,現在我們想想機器完全可以做到,為什么不讓機器做呢?
這個是一個已經落地的產品,也是給剛才我說的,這種形式的客戶去用,然后我們歸去各大秀場、街拍,不但是高大上的也有接地氣的,所有地方去抓圖,抓圖以后所有的色彩,包括裙裝的比例,然后這個圖案,什么格紋、人紋、波點,各種各樣的圖案、設計元素,什么中短流蘇袖口,這些東西全都是機器分析出來的,因為他是一款大數據的 BI 產品,所以好多事兒我不在乎于一張圖我分析的對不對,我主要看的是大部分圖是不是都分析對了?因為我看的是趨勢。
所以,這個現在已經是一款比較落地的一個產品了。
最后再談一下未來,未來的話,還是我剛才說的這個事情,沒有我們想象的那么樂觀。比如說去年大家火無人貨柜,就覺得無人貨柜已經就起來了,然后新零售現在持續在火,但是我是覺得技術還是在培育,未來是這個樣子,但是現在還有很多要克服的坎兒。
然后除了消費領域是這樣的一個情況以外,我們也覺得,就是像我剛才說的,你往上游走,去解決一些更本質的問題,尤其是采集這個問題,以及一些質量問題,可能對這個行業鏈,可能有更大的意義,包括我們自己的營收可能也會更好。再有就是很多的標準包括監管,跟政府去結合,毫無疑問,就是你會發現推很多的標準只有政府能推下去,你是自己沒法去做這個事情的。
包括我們跟紡織信息中心也是一樣,為什么跟他們合作呢?因為他們自己會有持牌體系,就像剛才我說的,NCS,但是其實中國有一個 CNCS,就是所有紡織廠商,包括制衣廠商他都要遵從 CNCS,這就是紡織信息中心做的一個標準,大概就是這樣的一個想法。
這是我今天要跟大家分享的,感謝各位!