第一次看到對nominal, ordinal, interval 和ratio types解釋的這么簡單清楚的介紹:
https://www.mymarketresearchmethods.com/types-of-data-nominal-ordinal-interval-ratio/
2017-02-06
1)Exploring the Impact of Inter-smell Relations on
Software Maintainability: An Empirical Study (ICSE 2013):
PCA 主成分分析用在一篇論文里來分析collocated code smell
2)Analyzing the Impact of Antipatterns on Change-Proneness Using Fine-GrainedCliff's delta effect size (WCRE 2012)用來驗證一個分布比另一個分布值要大或者小(R中的orddom包),配合wilcoxon test驗證2個分部差異顯著,便能很好的支持自己的觀點。
Source Code Changes
前提是:這2個都具體原理是啥。
http://www.cnblogs.com/lafengdatascientist/p/5554167.html
感覺這個好像特別適合實驗。。
Fisher-score,可以用在監督方法中評估單個feature的discriminative effect。
poisson distribution可以來對一堆數據進行異常點的檢測,可以自動推測出一個閾值(在某個條件下)
Cohen's kappa,可以評估你的預測結果,與別人真實打分結果的inter-aggrement的程度。這個在評估工具,涉及到與人為評分比較時比較有用。https://en.wikipedia.org/wiki/Cohen%27s_kappa
觀察2 groups的數據是否存在difference。可以使用mann-whiteney test(wilcoxon test)(這個一般用p-value值表示差異顯著),然后輔助Cliffs delta effect size(表示差異有多大)。?
研究2組相關性的一般用spearman相關系數啥的。
要做多元素對目標元素的影響,一般用回歸模型的,當目標元素是bool類型時,一般用邏輯回歸。
1。直方圖的分類數一般來說大致等于樣本容量的平方根比較合適
2。簡單隨機抽樣一般抽的數目少于總體數目的5%時,才能保證樣本中個體的獨立性。
3。p-value的值在統計過程中應用了中心極限定理,所以為了使得這個方法有效,樣本容量
必須足夠大,通常應大于或等于30。有時假設檢驗對小樣本也是有效的。
4。當總體標準差不知,但樣本標準差知,且樣本容量足夠大,則假設檢驗的p-value則用正太
分布的z-分值來計算即z檢驗。當樣本容量比較小,則用t統計量來檢驗即t檢驗。但無論樣本容量大小,
只要總體標準差是已知的,均適合用z檢驗來檢驗原假設算出相應的p-value。
這里有一個前提,就是你認為的變量服從或者近似服從正太分布。
5。不要求樣本來自正太分布的假設檢驗叫任意分布假設檢驗,也叫非參數檢驗。
6. Testing the differences between the activities of future
committers and the activities of developers
We conducted a Wilcoxon signed-rank test. A nonparametric
tests which does not assume a normal distribution
as is the case in our data set.