提出問題
近來在繼續深化插件,打算做一些有趣的東西來。
然后,其中有一個問題,和統計學有點關系,正好今天在搞。
問題本身是這樣的:
倘若,人對事物的喜好是可以被量化的,喜好度為0到1之間的一個實數,記為p。
接著,假定一個物體本身具有一個特定的“好感度”,記為q。
如果q比p大,那么這個人就會喜歡這樣東西,從而給點贊。
那么,如果有N個人,面對一個物體,大概會有多少人為這個物體點贊?
這個問題當然可以推廣,比如將上述的“物體”推廣為文章,于是這就成了一篇文章會有多少人點贊的問題了。
為了解決這個問題,我們需要對這個情景做一個簡單的建模。
回答
一個社群有N個人,這N個人對某個事物的喜好程度會是怎么個分布?
有可能是隨機分布,不過個人認為更可能的是β分布。
如果是隨機分布,那么這N個人對特定事物的喜好或者說審美品位就是在0到1之間等概率密度的分布,從而平均下來是0.5——這也就是說,如果這個物體的萌度或者說格調為q,那么這N個人中任意一個人喜歡它的概率都將是q,因為隨機分布下,一個隨機數有q的概率小于q。
這樣,整個分布就是概率為q的二項式分布:
很顯然,現在這樣東西如果本身格調高,那么就會收到更多的點贊;如果本身格調低,那么收到的點贊就少。
這個現象很好。
可,如果是β分布,那這個情況就比較復雜了。
我們首先就要解決在β分布下,一個人喜歡這樣東西的概率有多少。
β分布密度是這樣的:
取這種形式,我們可以很簡單地證明,這個分布的平均值也就是這個群體的平均品位值,就是ρ0,而其方差則正好就是δ。
那么,在這種分布下一個人會喜歡一個格調值為q的東西的概率有多大呢?答案是這樣的:
其中
對這個公式,大概大家應該沒什么概念,我們來看一下它的分布圖吧:
這是ρ0=0.2,δ=0.01時的曲線,其中藍色的是概率密度分布,紅色的是概率分布。當q=0.8時,這個群體里的一個人會喜歡這樣東西的概率為接近100%,q=0.5時的概率為99.35%,q=0.3時的概率為83.92%,q=0.2時為55.19%。
反過來,當ρ0=0.8,δ=0.01時,曲線是這樣的:
此時,q=0.8時的概率為44.81%,q=0.5時的概率為0.65%,q=0.2時幾乎不可能喜歡這樣東西。
事實上,分析之后發現一件有趣的事情——
假定一樣東西的格調符合這個社群的平均品位,那么這個社群的平均品位越高,這里的東西被喜歡的概率越低。反之,社群品位越低,對同品位的東西送上贊的概率越高。
從這點來看,點贊多似乎真不說明什么。。。
而,有了上述概率后,接下來點贊的情況就是一個簡單的二項式分布,沒啥好說的了。
至于說,如何利用海量的N和n數據來還原出q和ρ0,這個就再議了。
耶,東西寫完,收工睡覺~~~
如果你覺得這篇東西寫得還行,愿意打賞我一口咖啡,請戳打賞頁~~
本文遵守創作共享CC BY-NC-SA 3.0協議**