機器學習文章閱讀筆記

為什么你需要改進訓練數據,如何改進?

熟悉標準的人來標注才最好

例如,在Jetpac中我們想要找到一張好的照片去展現在城市自動旅行指南中。我們開始時要求評價人給他們認為好的照片打一個標簽,但最后我們看到了很多微笑的人的照片,因為他們就是這樣解釋這個問題的。我們把這些放在產品的模型中,看看測試用戶是如何反應的。結果是他們沒有留下深刻的印象,也沒有被這些照片所鼓舞。

為了解決這個問題,我們重新定義了提問的問題:“這張照片會讓你想去它所展示的地方嗎?”。這使我們得到了更好的結果,但也反應出我們使用的工人是東南亞人,他們認為會議照片看起來令人很驚異,因為大飯店里充滿了穿西裝和拿紅酒杯的人。這種不匹配及時提醒了我們生活在“泡沫”里,但這也確實是一個現實的問題,因為我們美國的目標觀眾看到這些會議照片會感到沮喪和沒有理想。最后,我們在JETPAC團隊中的六個人手動評估了超過二百萬張照片,因為我們比我們可以訓練的任何人都要熟悉標準。

這是一個極端的例子,但是它證明了標記過程很大程度上取決于應用的需求。對大多數生產用例來說,存在一個要為模型找合適的問題去回答的過程,而且這才是關鍵所在。如果你用你的模型回答了錯誤的問題,你將永遠無法在這個糟糕的基礎上建立一個可靠的用戶體驗。

指定場景很重要,通用比較困難

例如,我經常會看到團隊在ImageNet上訓練一個模型,但當他們試圖在無人機或機器人中使用時就會碰到問題。原因ImageNet都是人拍攝的照片,這些照片有很多共同之處。它們是用手機或靜態相機拍攝的,使用中性透鏡,在大致的高度,白天或人工照明的條件下,把對象標記在中心突出的位置。

機器人和無人機使用的攝像機通常是高視野鏡頭。無論是從地面還是從上方,照明都很差,沒有任何對象的智能框架,因此它們通常被裁剪。這種差異意味著如果你只接受一個從ImageNet的照片中訓練出來的模型,并將其部署在這些設備上,那么你就會發現精確度不高。

聚類方法研究數據集

聚類通過讓你對訓練集進行深刻的了解,可以讓你得到與你探索數據相似的好處。但是,網絡實際上是按照它自己的學習理解將輸入數據排序分組,然后指導你探索數據。人類很擅長在視覺信息中發現異常,因此將我們的直覺和計算機處理大量數據的能力結合起來是一種非常靈活的追蹤數據集質量的解決方案。關于如何使用TensorBoard來做這件事超出了本文的范圍(文章已經足夠長了,我很感激你還在繼續讀下去)。但是如果你真的想提高你的結果,我強烈建議你熟悉這個工具。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容