最初看到這篇文章是在 @登州知府 的微博上看到的,他的微博上分享了很多好的技術(shù)博客,推薦。由于本人英語(yǔ)學(xué)的比較爛,翻譯的錯(cuò)漏之處請(qǐng)大家指正。原文在這里:How Dropbox securely stores your passwords
概述
眾所周知,存儲(chǔ)明文密碼是一件很糟糕的事情。一旦數(shù)據(jù)庫(kù)存儲(chǔ)了明文密碼,那么用戶賬號(hào)就危險(xiǎn)了。因?yàn)檫@個(gè)原因,早在1976年,工業(yè)界就提出了一套使用單向哈希機(jī)制來(lái)安全地存儲(chǔ)密碼的標(biāo)準(zhǔn)(從Unix Crypt開始)。很不幸的是,盡管這種方式可以阻止你直接讀取到密碼,但是所有的哈希機(jī)制都不能阻止攻擊者在離線環(huán)境下暴力破解它,攻擊者只需要遍歷一個(gè)可能包含正確密碼的列表,對(duì)每個(gè)可能的密碼進(jìn)行哈希然后跟獲取到的密碼(使用哈希機(jī)制存儲(chǔ)的密碼)比對(duì)即可。在這種環(huán)境下,安全哈希函數(shù)如SHA在用于密碼哈希的時(shí)候有一個(gè)致命的缺陷,那就是它們運(yùn)算起來(lái)太快了。一個(gè)現(xiàn)代的商用CPU一秒鐘可以生成數(shù)百萬(wàn)個(gè)SHA256哈希值。一些特殊的GPU集群的計(jì)算速度甚至可以達(dá)到每秒數(shù)十億次。
過去的這些年,為了應(yīng)對(duì)攻擊,我們對(duì)密碼哈希方法進(jìn)行了數(shù)次升級(jí)。在本文中,我們將會(huì)為各位分享我們關(guān)于密碼存儲(chǔ)機(jī)制的更多的細(xì)節(jié)以及我們?yōu)槭裁匆@么做的原因。我們的密碼存儲(chǔ)方案依賴三個(gè)不同層級(jí)的密碼保護(hù),如下圖所示。為了方便說(shuō)明,在下圖中以及接下來(lái)我們省略了字節(jié)編碼(base64)。
我們采用bcrypt作為我們的核心哈希算法,每個(gè)用戶都有一個(gè)獨(dú)立的salt以及一個(gè)加密的key(這個(gè)key也可以是一個(gè)全局的,通常也叫pepper),salt和key是分開存儲(chǔ)的。我們的方法與基礎(chǔ)的bcrypt算法在一些重要的方面是不同的。
首先,用戶的明文密碼通過SHA512算法轉(zhuǎn)換成了一個(gè)哈希值。這一步主要是針對(duì)bcrypt的兩個(gè)突出的問題。有些bcrypt的實(shí)現(xiàn)中會(huì)將用戶輸入截取為72個(gè)字節(jié)大小以降低密碼熵,而另外有一些實(shí)現(xiàn)并沒有截取用戶輸入導(dǎo)致其容易受到DoS攻擊,因?yàn)樗鼈冊(cè)试S任意長(zhǎng)度的密碼輸入。通過使用SHA,我們可以快速的將一些的確很長(zhǎng)的密碼轉(zhuǎn)換為一個(gè)512比特的固定長(zhǎng)度,解決了上述兩個(gè)問題-即避免降低密碼熵和預(yù)防DoS攻擊。[譯者注:關(guān)于第一點(diǎn),熵是信息學(xué)里面的一個(gè)概念,這里引入信息學(xué)中的信息熵(我們常聽人說(shuō)這個(gè)信息多、那個(gè)信息少,對(duì)信息“多少”的量化就是信息熵),用它來(lái)作為密碼強(qiáng)度的評(píng)估標(biāo)準(zhǔn)。信息熵計(jì)算公式為 H = L * log 2 N,其中,L表示密碼的長(zhǎng)度,N是字符種類,密碼強(qiáng)度 (H) 與密碼長(zhǎng)度 (L) 和密碼包含字符的種類 (N) 這兩個(gè)因素有關(guān)。也就是說(shuō)密碼包含的字符種類越多,密碼長(zhǎng)度越長(zhǎng),熵越大,更多細(xì)節(jié)參見這篇文章)。由于一些bcrypt算法截?cái)嗔擞脩裘艽a為72個(gè)字節(jié)長(zhǎng)度,從而導(dǎo)致超過72個(gè)字節(jié)的用戶輸入無(wú)效,一定程度降低了密碼熵。而第二點(diǎn)是有文章提到如果不限制用戶輸入的密碼長(zhǎng)度,很容易遭到DoS攻擊,比如django之前有個(gè)版本沒有限制密碼長(zhǎng)度,而它用的又是PBKDF2哈希算法(PBKDF2是是一個(gè)CPU計(jì)算密集型算法,但是對(duì)GPU效果不如bcrypt,這里有個(gè)比較),這樣如果攻擊者輸入的密碼長(zhǎng)度達(dá)到1M的話,對(duì)密碼進(jìn)行哈希需要幾分鐘的計(jì)算時(shí)間從而在大量這樣的請(qǐng)求下導(dǎo)致服務(wù)器無(wú)法正常服務(wù),這里使用SHA512先進(jìn)行一次哈希的優(yōu)缺點(diǎn)分析還可以參見這個(gè)帖子]
然后,對(duì)SHA512哈希后的值使用bcrypt算法再次哈希,使用的工作因子是10,每個(gè)用戶都有一個(gè)單獨(dú)的salt。不像其他的哈希算法比如SHA等,bcrypt算法很慢,它很難通過硬件和GPU加速。設(shè)置工作因子為10,在我們的服務(wù)器上執(zhí)行一次bcrypt大概需要100毫秒。[譯者注:使用python的bcrypt模塊,默認(rèn)的工作因子為12,在我的電腦上執(zhí)行一次大概是300毫秒左右,而如果工作因子設(shè)置為20,這個(gè)時(shí)間大概為89秒]
最后,使用bcrypt哈希過后的結(jié)果再次使用AES256算法進(jìn)行加密,使用的密鑰是所有用戶同意的,我們稱之為pepper。pepper是我們基于深度考量的一種防御措施,pepper以一種攻擊者難以發(fā)現(xiàn)的方式存儲(chǔ)起來(lái)(比如不要放在數(shù)據(jù)庫(kù)的表中)。由此,如果只是密碼被拖庫(kù)了,通過AES256加密過的哈希密碼對(duì)于攻擊者來(lái)說(shuō)毫無(wú)用處。
為什么不用{scrypt,argon2}
我們也曾考慮過使用scrypt,但是我們對(duì)bcrypt有更多的經(jīng)驗(yàn)。關(guān)于這幾種算法那種更好的討論一直都有,大部分的安全領(lǐng)域的專家都認(rèn)為scrypt和bcrypt的安全性上相差無(wú)幾。
我們考慮在下一次升級(jí)中使用argon2算法:因?yàn)樵谖覀儾捎卯?dāng)前的方案的時(shí)候,argon2還沒有贏得 Password Hashing Competition。此外,盡管我們認(rèn)為argon2是非常棒的密碼哈希函數(shù),我們更傾向于采用bcrypt,因?yàn)閺?999年以來(lái),bcrypt還沒有發(fā)現(xiàn)有任何重大的攻擊存在。
為什么使用一個(gè)全局的密鑰(pepper)替代哈希函數(shù)
如前面提到的,采用一個(gè)全局的密鑰是我們深度權(quán)衡后的一個(gè)防御措施,而且,pepper我們是單獨(dú)存儲(chǔ)的。但是,單獨(dú)存儲(chǔ)pepper也意味著我們要考慮pepper泄露的可能性。如果我們只是用pepper對(duì)密碼進(jìn)行哈希,那么一旦pepper泄露,我們無(wú)法從哈希后的結(jié)果反解得到之前bcrypt哈希過的密碼值。作為一個(gè)替代方案,我們使用了AES256加密算法。AES256算法提供了差不多的安全性,同時(shí)我們還可以反解回原來(lái)的值。盡管AES256這個(gè)加密函數(shù)的輸入是隨機(jī)的,我們還是額外加上了一個(gè)隨機(jī)的初始化向量(IV)來(lái)增強(qiáng)安全性。
下一步,我們考慮將pepper存儲(chǔ)到一個(gè)硬件安全模塊(HSM),對(duì)我們來(lái)說(shuō),這雖然是一個(gè)相當(dāng)復(fù)雜的任務(wù),但是它能極大的降低pepper泄露的風(fēng)險(xiǎn)。同時(shí),我們也計(jì)劃在下一次升級(jí)中增強(qiáng)bcrypt的強(qiáng)度。
展望
我們相信使用SHA512,加上bcrypt和AES256是當(dāng)前保護(hù)密碼最穩(wěn)妥和流行的方法之一。同時(shí),所謂道高一尺魔高一丈。我們的密碼哈希程序只是加固Dropbox的眾多舉措之一,我們還部署了額外的保護(hù)措施-比如針對(duì)暴力攻擊者密碼嘗試次數(shù)的速度限制,驗(yàn)證碼,以及其他一些方法等。如之前圖片中所示,我們積極的在各個(gè)層級(jí)進(jìn)行投入以確保安全。當(dāng)然,也很期待能夠聽到諸位的高見。
譯者注
總結(jié)一下這篇文章,說(shuō)道的Dropbox的加密方法大致就是三點(diǎn):其一,使用SHA512把明文密碼哈希,既避免降低密碼的熵,又能防止DoS攻擊。其二,使用bcrypt二次哈希,工作因子為10,每個(gè)用戶都有一個(gè)獨(dú)立的salt。最后,使用一個(gè)全局密鑰(pepper)通過AES256算法對(duì)二次哈希的值進(jìn)行加密存儲(chǔ)。