Cross-project defect prediction using a connectivity-based unsupervised classifier

背景

  • 出處:2016 IEEE/ACM 38th IEEE International Conference on Software Engineering
  • 作者:Feng Zhang, Quan Zheng, Ying Zou, and Ahmed E. Hassan

概述

論文主要觀點

通過基于相似度的聚類解決軟件缺陷的問題,同時類比社交網絡進行合理化解釋,引入cross-project用于擴大樣本。

成果

  • 基于關系的非監督分類方法(聚類)在多項目樣本中表現良好
  • 將軟件群看做社交網絡,它將被聯通度分成兩個社區

方法模型

相關工作圖

主要步驟

  1. 利用z-score對矩陣進行歸一化(標準化處理),處理后的數據符合標準正態分布;


  2. 通過以上矩陣,產生權重鄰接矩陣W,此矩陣中保存的是實體之間的相似度;


  3. 求出W的拉普拉斯矩陣,此矩陣為對稱陣;


  4. 在L上進行特征分解,在所有的特征向量中選擇第二小的特征向量V1;
  5. 進行分類,V1中的V1i代表第i個,選擇0做為門檻值,V1i大于0則是有缺陷,小于0則是無缺陷;

實驗

對比常用的非監督和監督算法。

  • cross-project,對于監督算法,用本項目中的其他項目作為訓練數據;對于非監督算法,由于不需要訓練數據,直接在目標項目上做集群
  • within-project,two-fold cross validation,對于一個項目,將其分為兩半,一半用來訓練,一半用來測試,循環500次。

驗證

將軟件項目中的實體轉換為社交網絡,生成圖,計算聯通度尋找社區,驗證了以上算法。

創新點

  • Spectral Classifier,通過計算相似度分類
  • 將其比作社區,通過圖的聯通度來驗證

總結

優點

  • 按照他的實驗數據來看,效果確實不錯
  • 社交網絡的類比十分形象,極好的闡釋了聚類的合理性

不足

  • 創新點來自于別人,只是把它應用到了軟件缺陷檢測上
  • cross-project并不具備概念性,只是為了擴大樣本

我的想法

聚類是否可以和監督算法相配合?

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容

  • PMP第五版考點匯總沖刺版 第一章引論 P2:《PMI道德與專業行為規范》詳細描述從業者在責任、尊重、公正、誠實方...
    文小夢閱讀 21,098評論 5 102
  • 一、課程大綱1.1課程內容介紹1.1.1 Supervised Learning關于監督型學習方法,本課程涉及到的...
    xiaorun閱讀 1,301評論 0 1
  • 親子日記感悟:寫日記也有一段時間了,我的日記馬上也要過百歲了[憨笑]真所謂思緒萬千,作為媽媽,也是第一次用日記形式...
    王界程閱讀 189評論 0 0
  • 有一種痛,叫生育之痛。 因為擁有子宮,女人擔起生育之責。從懷孕開始,她被授予獨特的稱呼—母親。 懷孕初期,有妊娠反...
    阿歡_心悅閱讀 628評論 2 4
  • 第五百八十九章 活捉仙子 楚風和秦珞音大戰,諸多手段盡出,活捉秦珞音。楚風:無敵畫卷百強星體,“眾生平等”場域袈裟...
    魚欲遇雨閱讀 1,736評論 0 0