心理學和機器學習中分類模型的比較

Zubek, J., & Kuncheva, L. (2018). Learning from Exemplars and Prototypes in Machine Learning and Psychology.arXiv preprint arXiv:1806.01130.


本文比較了心理學中的分類模型和機器學習中的近鄰分類器(1-NN),它們都是基于相似性的分類模型。在心理學領域中,范例模型和原型模型之間的爭論已經很久了,最近人們開始混合兩種模型。在機器學習中,對于一個給定的訓練集,機器學習通過一些方法生成參考集,最近鄰分類器使用這一參考集形成分類模型。比較這兩個領域的模型,機器學習和認知心理學都可以從中獲得靈感,豐富基于相似性的模型庫。


1兩個領域的對應術語和建模方法

1.1術語

下表介紹了在心理學、機器學習、模式識別、統計中對于同一個概念的不同術語表達

(PS:模式識別:人給機器提供各種特征描述,讓機器對未知事物進行判斷;機器學習:人給機器提供海量樣本,讓機器通過樣本來發現特征,然后對未知事物進行判斷,更具體來講,就是機器從已知的經驗數據中,通過某種特定的方法(也就是算法),訓練學習出一些規律(模型),根據提煉出的規律判斷未知事物。)

術語表

1.2 建模方法的比較

機器學習和認知心理學的建模方法之間有相同之處,也有不同之處。

都基于相同的假設:任意刺激x都有n個維度特征,有空間Rn可以表示這些刺激;空間中,用距離反映相似度;有一個訓練數據集(帶類別標簽),包含N個刺激以及各刺激對應的類別標簽y。

第一個不同點就是x代表什么以及怎么獲得。在機器學習中,x是從分類問題中隨機抽取的,由于各類的問題是呈概率分布的,所以對于任意的x∈Rn,有一組與類別(Ω={ω1,...,ωc})相關的概率,先驗概率P(ωi)指x來自類別ωi的可能性;P(ωi|x)指x的真實類別是ωi的概率。在心理學中,x則由主試設計或選擇,沒有概率分布的特點,所屬的類別固定。

第二個不同點是“擬合模型”指什么。在機器學習中,指用數據集x訓練分類器,經過訓練的分類器可以為空間Rn中的任意一點分配類別標簽,理想情況下可以很好地估計后驗概率。 在認知心理學中,用被試的分類結果擬合模型,將刺激x歸為類別ωi的概率計算如下:

M指總人數,mi指將x歸為ωi的人數。

第三個不同點是模型評估程序。在機器學習中,主要指標是泛化精度(或稱測試精度),給分類器新的測試數據集(帶類別標簽),測量正確分類的百分比。在心理學中,往往用模型來擬合數據集,比較擬合結果和實際結果,指標是擬合優度,目的是解釋實驗結果;不過,存在過擬合的風險,指該模型只對該數據集有效,無法推廣。


2從心理學角度看參考集S

(PS:到現在一共出現了三種數據集合,訓練集,測試集,參考集。訓練集就是用來學習訓練的數據;測試集只在機器學習中有,它是不同于訓練集的新的數據集合,目的是測試模型的泛化精度;參考集就是經過算法計算后,遺留的構成模型的數據。)

參考集S在心理學中的發展:原型模型假設參考集S只由原型組成,每個類別由一個原型來表示。范例模型假設參考集S由所有學過的范例組成。

原型模型和范例模型的支持者爭論了很久。范例模型的支持者認為,如果只記住原型,就無法學習分散/復雜的類別結構。對此,原型模型提出除了原型,記憶還存儲了一些額外的信息。

很多研究都表明范例模型比原型模型有更好的擬合度,但也有人認為,實驗中使用的人工類別與原型模型旨在解釋的自然類別非常不同,所得的結論在自然類別中不具推廣性。同時,范例模型也被認為是低效的、不合理的,首先,人們不可能記住所有實例,并在分類中應用,其次,范例模型不涉及抽象過程,可能會過擬合數據,泛化能力有缺陷。

不過,從數學的角度來講,這兩個模型非常相似,都是從例子中學習,唯一區別在于例子的數量。從這一角度看,兩種模型是可以統一的。神經心理學的研究支持這一觀點。給被試展示來自不同類別的圖像,發現看到同一類別的圖像時,不論圖片典型或是不典型,大腦的激活模式均相同。

Machery(2011)認為原型和范例是互補的,而不是相互排斥的。他建議研究在這兩種分類模式之間起中介作用的因素。Briscoe & Feldman(2011)論證了數據復雜性可能是一個中介因素。他們假設,人類會根據類別結構的復雜性,調整心理表征的復雜性,以此實現泛化精度,而不是一個完美的訓練精度。Smith(2014)也主張從泛化精度的角度分析類別表征,強調其對生存的進化重要性。不同的分類模型在不同的環境中是最優的。這就需要靈活和適應性強的方法來構造參考集S。

(PS:泛化精度和訓練精度是機器學習中的概念,泛化精度是模型應用于測試集的準確度,訓練精度是模型應用于訓練集的準確度。)

3從機器學習角度看參考集S

在機器學習中,參考集的內容被稱為原型(非原型模型的原型)。原型可以直接從訓練集中選擇;也可以新生成非訓練集的數據。不過,這些形成原型的方法,并不等同于人類的認知過程。

首先介紹兩種早期方法:壓縮和錯誤編輯,大致對應范例和原型模型。

3.1原型選擇:壓縮

Hart提出Condensed Nearest Neighbour(CNN) ,它的作用是,對于一個數據集x(帶類別標簽),CNN能夠找到最小的子集S,將S作為參考集,1-NN能正確分類x中所有對象,即達到100%訓練精度。

3.2原型選擇:錯誤編輯

錯誤編輯的目的與壓縮不同,不是找到能達到100%訓練精度的最小子集,而是清理潛在的“噪聲”對象,因為噪音的存在會影響1-NN的分類。Wilson提出算法Edited Nearest Neighbour(ENN),其步驟如下,在刺激集x中找到對象j的k個相似對象,如果j被這k個對象錯誤分類,那么刪去j,此步驟遍歷x中的所有對象,余下的就是參考集。

錯誤編輯這一算法傾向于保留各類別的中心對象,刪除易產生噪音的邊界對象。它是一種抽象學習,因為更“典型”的范例可能會被保留,但不是合并到一個原型中。后續,錯誤編輯算法被不斷完善,具有更好的泛化性能,能更好地消除參考集的冗余。

3.3原型選擇:混合策略和不可知策略

混合策略:混合策略融合了原型模型和范例模型。一種方法是先用錯誤編輯算法清理邊界區域,然后用壓縮算法縮小參考集。例如,Wilson的方法,先清理了邊界,然后再減少冗余。

不可知策略:不可知策略是指該算法是由函數驅動的,沒有實際上的意義,它不明確定義對象是邊界的或內部的,也不在這兩者之間尋求平衡。參考集的挑選通過一個標準函數進行,這個函數是

,其中E(S)指將S作為參考集時,1-NN分類器的錯誤,|S|是參考集S的基數,N是數據集x的基數,λ是常數,用來平衡數據冗余和準確性。隨機編輯就使用了這一策略,它適用于特征量少的小數據集,它生成T(T是固定常數)個基數為N的隨機子集,將這些子集作為參考集,計算J(S),返回最佳子集。

3.4原型生成:聚類

假如參考集的選擇范圍不再局限于訓練集x,而是可以指定Rn中的任意點,并選擇其類別。那么最簡單的方法是聚類,其原型就是聚類中心。具體方法有兩種,第一種是從類別入手,在每個類別中選擇原型,然后將這些原型集中到一個集合中(前監督方法);第二種是從集群入手,對這個數據集進行集群,根據集群中的主要類別,再為其分配類別標簽并選擇原型(后監督方法)。

(PS:監督學習:提供訓練數據,以及帶有標簽的事件結果;非監督學習:只提供數據訓練數據,算法自動發現數據的內部結構;集群是非監督學習算法的一種。沒有找到前監督學習和后監督學習的有關介紹)

3.5原型生成:學習向量量化(LVQ)

學習向量量化分類器(LVQ)在訓練數據的引導下,通過微小的增量移動來確定原型在空間中的位置。雖然這些原型傾向于將自己定位在概率分布模式中,但它們可能不是該類中最“原型化”的例子。(看完下文4.1RMC可以更好地理解“增量移動”的意思,以及為什么不是最“原型化”)

(PS:學習向量量化(LVQ)屬于原型聚類,即試圖找到一組原型向量來聚類,每個原型向量代表一個簇,將空間劃分為若干個簇,從而對于任意的樣本,可以將它劃入到它距離最近的簇中,不同的是LVQ假設數據樣本帶有類別標記,因此可以利用這些類別標記來輔助聚類。)


4心理模型與原型生成方法的比較

本節鏈接了機器學習和心理學中尋找參考集S的方法。

下圖是兩個領域的方法的對應關系

下面介紹與機器學習方法對應的心理學部分。

4.1RMC

分類的理性模型(RMC)是最古老的模型之一。該模型中,數據集群以增量的方式進行,新對象會被分配到最相似的集群,但若此對象與所有集群的相似度都低于閾值,就創建一個新的集群。耦合參數定義了能夠創建新集群的相似性閾值,故集群個數由該參數間接控制。

在RMC中,類別標簽被視為一個屬性,是空間中的一個維度,這使得RMC與LVQ、兩種聚類方法類似,但并不完全相同。RMC與LVQ的相似之處在于聚類過程,都是迭代進行的,結果取決于對象的呈現順序。

4.2MMC

混合分類模型(MMC)是聚類方法的直接實現,該方法通過高斯混合模型(GMM)進行模糊聚類。該模型中,聚類既可以獨立于類別(后監督),也可以獨立于特定類別(前監督)。聚類的數量事先確定。

4.3REX

分類的簡化范例模型(The Reduced EXemplar model of categorisation,REX) 假設只有一些范例被保留在記憶中,相似范例要么遺忘,要么合并。記憶和遺忘將REX與原型選擇方法組聯系起來;合并將REX與原型生成組聯系起來,K-means聚類可用樣本替換聚類中心,從這個意義上說,REX與后監督聚類有關。(這邊沒怎么看懂)

4.4SUSTAIN model

SUSTAIN model使用類似于RMC的迭代聚類過程。不同的是,在它的監督版本中,當對象被錯誤分類時,就會形成新的聚類。換言之,聚類的數量是動態的,取決于刺激的呈現順序。

與LVQ的相似點:過程是迭代的,在成功分類后轉移集群中心到同一集合;與LVQ的不同點:聚類個數不固定。與CNN相似點:聚類是動態形成的,在CNN算法的內部循環中,錯誤分類的對象被添加到參考集中。

4.5VAM

在可變抽象模型(Varying Abstraction Model,VAM)中,聚類的概念范圍被擴大到分區——即使例子彼此相距很遠,并且被其他的例子分開,也可以被分組在一起。每個類別單獨形成分區。

VAM的作用是作為一種工具來分析實驗結果,它在擬合過程中會徹底搜索所有可能分區,發現合理的表征,但不會模擬學習過程。從機器學習的角度來看,這使得它的泛化能力存在缺陷,因為它可能會傾向于過度擬合;而且,這種分析方法只適用于非常小的數據集。對于這些問題,有人提出新的版本,使用k-means來確定每個類別中的集群。這是聚類前監督方法的直接實現,聚類的個數事先確定。

4.6 Rex Leopold I(看不懂)


5總結:

本文對機器學習中的原型選擇技術與心理學中的分類模型作了匹配,這種匹配可以豐富雙方的內容。

對心理學來說,提出了兩個可能感興趣的問題。第一,1-NN(基于原型/實例選擇)的成功,為統一原型模型和范例模型的理論提供了依據,表明人類的分類模型中存在可變的抽象量。第二,分類模型的泛化能力非常重要,但經常被忽視。

對機器學習來說,機器學習和模式識別沒有給出足夠的理論解釋,經常被指責為“黑匣子”。將心理學的理論見解整合到方法和算法中,可能會在一定程度上改善這一情況。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。