大數(shù)據(jù)時(shí)代下的隱私保護(hù)(轉(zhuǎn))

轉(zhuǎn)自:http://www.freebuf.com/articles/database/146652.html

本文介紹了學(xué)術(shù)界和工業(yè)界對于用戶隱私保護(hù)的努力成果,其中主要講到了k-anonymity(k-匿名化),l-diversity(l-多樣化),t-closeness 和 ε-differential privacy(差分隱私),并對它們的優(yōu)缺點(diǎn)進(jìn)行了分析。

數(shù)據(jù)?v.s.?隱私

在大數(shù)據(jù)的時(shí)代,數(shù)據(jù)成為了科學(xué)研究的基石。我們在享受著推薦算法、語音識(shí)別、圖像識(shí)別、無人車駕駛等智能的技術(shù)帶來的便利的同時(shí),數(shù)據(jù)在背后擔(dān)任著驅(qū)動(dòng)算法不斷優(yōu)化迭代的角色。在科學(xué)研究、產(chǎn)品開發(fā)、數(shù)據(jù)公開的過程中,算法需要收集、使用用戶數(shù)據(jù),在這過程中數(shù)據(jù)就不可避免的暴露在外。歷史上就有很多公開的數(shù)據(jù)暴露了用戶隱私的案例。

美國在線(AOL)是一家美國互聯(lián)網(wǎng)服務(wù)公司,也是美國最大的互聯(lián)網(wǎng)提供商之一。在 2006 ?年8月,為了學(xué)術(shù)研究,AOL 公開了匿名的搜索記錄,其中包括 ?65 萬個(gè)用戶的數(shù)據(jù),總共 20M 條查詢記錄。在這些數(shù)據(jù)中,用戶的姓名被替換成了一個(gè)個(gè)匿名的 ?ID,但是紐約時(shí)報(bào)通過這些搜索紀(jì)錄,找到了 ID 匿名為 4417749的用戶在真實(shí)世界中對應(yīng)的人。ID 4417749 的搜索記錄里有關(guān)于“60歲的老年人”的問題、“ Lilburn地方的風(fēng)景”、還有“Arnold” 的搜索字樣。通過上面幾條數(shù)據(jù),紐約時(shí)報(bào)發(fā)現(xiàn) ?Lilburn 只有14個(gè)人姓Arnold,最后經(jīng)過直接聯(lián)系這 14個(gè)人確認(rèn) ID 4417749 是一位62歲名字叫 ?Thelma Arnold的老奶奶。最后 AOL 緊急撤下數(shù)據(jù),發(fā)表聲明致歉,但是已經(jīng)太晚了。因?yàn)殡[私泄露事件,AOL遭到了起訴,最終賠償受影響用戶總額高達(dá)五百萬美元。

同樣是 2006年,美國最大的影視公司之一 Netflix,舉辦了一個(gè)預(yù)測算法的比賽( Netflix Prize),比賽要求在公開數(shù)據(jù)上推測用戶的電影評分 。Netflix ?把數(shù)據(jù)中唯一識(shí)別用戶的信息抹去,認(rèn)為這樣就能保證用戶的隱私。但是在 2007 年來自The University of Texas at Austin ?的兩位研究人員表示通過關(guān)聯(lián) Netflix 公開的數(shù)據(jù)和 IMDb(互聯(lián)網(wǎng)電影數(shù)據(jù)庫)網(wǎng)站上公開的紀(jì)錄就能夠識(shí)別出匿名后用戶的身份。三年后,在2010年,Netflix 最后因?yàn)殡[私原因宣布停止這項(xiàng)比賽,并因此受到高額罰款,賠償金額總計(jì)九百萬美元。

近幾年各大公司均持續(xù)關(guān)注用戶的隱私安全。例如蘋果 在2016 年 ?6 月份的WWDC 大會(huì)上就提出了一項(xiàng)名為 Differential Privacy 的差分隱私技術(shù)。蘋果聲稱他能通過數(shù)據(jù)計(jì)算出用戶群體的行為模式,但是卻無法獲得每個(gè)用戶個(gè)體的數(shù)據(jù)。那么差分隱私技術(shù)又是怎么做的呢?

在大數(shù)據(jù)時(shí)代,如何才能保證我們的隱私呢?要回答這個(gè)問題,我們首先要知道什么是隱私。

什么是隱私?

我們經(jīng)常談?wù)摰诫[私泄漏、隱私保護(hù),那么什么是隱私呢?舉個(gè)例子,居住在海淀區(qū)五道口的小明經(jīng)常在網(wǎng)上購買電子產(chǎn)品,那小明的姓名、購買偏好和居住地址 算不算是隱私呢?如果某購物網(wǎng)站統(tǒng)計(jì)了用戶的購物偏好并公開部分?jǐn)?shù)據(jù),公開的數(shù)據(jù)中顯示北京海淀區(qū)五道口的用戶更愛買電子產(chǎn)品,那么小明的隱私是否被泄漏了呢?要弄清楚隱私保護(hù),我們先要討論一下究竟什么是隱私。

對于隱私這個(gè)詞,科學(xué)研究上普遍接受的定義是“單個(gè)用戶的某一些屬性”,只要符合這一定義都可以被看做是隱私。我們在提“隱私”的時(shí)候,更加強(qiáng)調(diào)的是“單個(gè)用戶”。那么,一群用戶的某一些屬性,可以認(rèn)為不是隱私。我們拿剛才的例子來看,針對小明這個(gè)單個(gè)用戶,“購買偏好”和“居住地址”就是隱私。如果公開的數(shù)據(jù)說住在五道口的小明愛買電子產(chǎn)品,那么這顯然就是隱私泄漏了。但是如果數(shù)據(jù)中只包含一個(gè)區(qū)域的人的購買偏好,就沒有泄露用戶隱私。如果進(jìn)一步講,大家都知道小明住在海淀區(qū)五道口,那么是不是小明就愛買點(diǎn)此產(chǎn)品了呢?這種情況算不算事隱私泄漏呢?答案是不算,因?yàn)榇蠹抑皇峭ㄟ^這個(gè)趨勢推測,數(shù)據(jù)并不顯示小明一定愛買電子產(chǎn)品。

所以,從隱私保護(hù)的角度來說,隱私是針對單個(gè)用戶的概念,公開群體用戶的信息不算是隱私泄漏,但是如果能從數(shù)據(jù)中能準(zhǔn)確推測出個(gè)體的信息,那么就算是隱私泄漏。

隱私保護(hù)的方法

從信息時(shí)代開始,關(guān)于隱私保護(hù)的研究就開始了。隨著數(shù)據(jù)不斷地增長,人們對隱私越來越重視。我們在討論隱私保護(hù)的時(shí)候包括兩種情況。

第一種是公司為了學(xué)術(shù)研究和數(shù)據(jù)交流開放用戶數(shù)據(jù),學(xué)術(shù)機(jī)構(gòu)或者個(gè)人可以向數(shù)據(jù)庫發(fā)起查詢請求,公司返回對應(yīng)的數(shù)據(jù)時(shí)需要保證用戶的隱私。

第二種情況是公司作為服務(wù)提供商,為了提高服務(wù)質(zhì)量,主動(dòng)收集用戶的數(shù)據(jù),這些在客戶端上收集的數(shù)據(jù)也需要保證隱私性。學(xué)術(shù)界提出了多種保護(hù)隱私的方法和測量隱私是否泄露的工具,例如k-anonymity(k-匿名化)、l-diversity(l-多樣化)、t-closeness、 ε-differentialprivacy(差分隱私)、同態(tài)加密(homomorphic encryption)、零知識(shí)證明(zero-knowledge proof)等等。今天主要介紹k-anonymity(k-匿名化),l-diversity(l-多樣化),t-closeness 和 ε-differential privacy(差分隱私)。 這些方法先從直觀的角度去衡量一個(gè)公開數(shù)據(jù)的隱私性,再到使用密碼學(xué)、統(tǒng)計(jì)學(xué)等工具保證數(shù)據(jù)的隱私性。

下面我們一一解讀這四種隱私保護(hù)的方法:

k-anonymity(k-匿名化)

k-anonymity?是在?1998?年由?Latanya Sweeney?和?Pierangela Samarati?提出的一種數(shù)據(jù)匿名化方法。

我們先看一下下面的這個(gè)表格:

我們把要表格中的公開屬性分為以下三類:

-? ??Key attributes:?一般是個(gè)體的唯一標(biāo)示,比如說姓名、地址、電話等等,這些內(nèi)容需要在公開數(shù)據(jù)的時(shí)候刪掉。

-? ??Quasi-identifier:?類似郵編、年齡、生日、性別等不是唯一的,但是能幫助研究人員關(guān)聯(lián)相關(guān)數(shù)據(jù)的標(biāo)示。

-? ??Sensitive attributes:?敏感數(shù)據(jù),比如說購買偏好、薪水等等,這些數(shù)據(jù)是研究人員最關(guān)心的,所以一般都直接公開。

簡單來說,k-anonymity?的目的是保證公開的數(shù)據(jù)中包含的個(gè)人信息至少?k-1?條不能通過其他個(gè)人信息確定出來。也就是公開數(shù)據(jù)中的任意?quasi-identifier信息,相同的組合都需要出現(xiàn)至少?k?次。

舉個(gè)例子,假設(shè)一個(gè)公開的數(shù)據(jù)進(jìn)行了?2-anonymity?保護(hù)。如果攻擊者想確認(rèn)一個(gè)人(小明)的敏感信息(購買偏好),通過查詢他的年齡、郵編和性別,攻擊者會(huì)發(fā)現(xiàn)數(shù)據(jù)里至少有兩個(gè)人是有相同的年齡、郵編和性別。這樣攻擊者就沒辦法區(qū)分這兩條數(shù)據(jù)到底哪個(gè)是小明了,從而也就保證了小明的隱私不會(huì)被泄露。

下面這個(gè)表就是?2-anonymization?過的信息:

k-anonymity的方法主要有兩種,一種是刪除對應(yīng)的數(shù)據(jù)列,用星號(hào)(*)代替。另外一種方法是用概括的方法使之無法區(qū)分,比如把年齡這個(gè)數(shù)字概括成一個(gè)年齡段。對于郵編這樣的數(shù)據(jù),如果刪除所有郵編,研究人員會(huì)失去很多有意義的信息,所以可以選擇刪除最后一位數(shù)字。

從這個(gè)表中,即使我們知道小明是男性、24歲、郵編是100083,卻仍然無法知道小明的購買偏好。而研究人員依然可以根據(jù)這些數(shù)據(jù)統(tǒng)計(jì)出一些有意義的結(jié)果,這樣既兼顧了個(gè)人的隱私,又能為研究提供有效的數(shù)據(jù)。

k-anonymity能保證以下三點(diǎn):

1.????攻擊者無法知道某個(gè)人是否在公開的數(shù)據(jù)中

2.????給定一個(gè)人,攻擊者無法確認(rèn)他是否有某項(xiàng)敏感屬性

3.????攻擊者無法確認(rèn)某條數(shù)據(jù)對應(yīng)的是哪個(gè)人(這條假設(shè)攻擊者除了quasi-identifier信息之外對其他數(shù)據(jù)一無所知,舉個(gè)例子,如果所有用戶的偏好都是購買電子產(chǎn)品,那么k-anonymity也無法保證隱私?jīng)]有泄露

攻擊方法

未排序匹配攻擊?(unsorted matching attack)當(dāng)公開的數(shù)據(jù)記錄和原始記錄的順序一樣的時(shí)候,攻擊者可以猜出匿名化的記錄是屬于誰。例如如果攻擊者知道在數(shù)據(jù)中小明是排在小白前面,那么他就可以確認(rèn),小明的購買偏好是電子產(chǎn)品,小白是家用電器。解決方法也很簡單,在公開數(shù)據(jù)之前先打亂原始數(shù)據(jù)的順序就可以避免這類的攻擊。

補(bǔ)充數(shù)據(jù)攻擊?(complementary release attack)假如公開的數(shù)據(jù)有多種類型,如果它們的?k-anonymity?方法不同,那么攻擊者可以通過關(guān)聯(lián)多種數(shù)據(jù)推測用戶信息。

除此之外,如果敏感屬性在同一類?quasi-identifiers?中缺乏多樣性,或者攻擊者有其它的背景知識(shí),k-anonymity?也無法避免隱私泄露。

我們知道李雷的信息,表中有兩條對應(yīng)的數(shù)據(jù),但是他們的購買偏好都是電子產(chǎn)品。因?yàn)檫@個(gè)敏感屬性缺乏多樣性,所以盡管是?2-anonimity?匿名化的數(shù)據(jù),我們依然能夠獲得李雷的敏感信息。

如果我們知道小紫的信息,并且知道她不喜歡購買護(hù)膚品,那么從表中,我們?nèi)钥梢源_認(rèn)小紫的購買偏好是廚具。

l-diversity(l-多樣化)

通過上面的例子,我們引出了多樣化的概念。簡單來說,在公開的數(shù)據(jù)中,對于那些quasi-identifier?相同的數(shù)據(jù)中,敏感屬性必須具有多樣性,這樣才能保證用戶的隱私不能通過背景知識(shí)等方法推測出來。

l-diversity?保證了相同類型數(shù)據(jù)中至少有?l?種內(nèi)容不同的敏感屬性。

例如在上圖的例子中,有?10?條相同的類型的數(shù)據(jù),其中?8?條的購買偏好是電子產(chǎn)品,其他兩條分別是圖書和家用電器。那么在這個(gè)例子中,公開的數(shù)據(jù)就滿足3-diversity?的屬性。

除了以上介紹的簡單?l-diversity?的定義,還有其他版本的?l-diversity,引入了其他統(tǒng)計(jì)方法。比如說:

??????????基于概率的l-diversity (probabilistic l-diversity):?在一個(gè)類型中出現(xiàn)頻率最高的值的概率不大于1/l。

??????????基于墑的l-diversity (entropy l-diversity):?在一個(gè)類型中敏感數(shù)據(jù)分布的墑至少是?log(l)。

??????????遞歸?(c,l)-diversity (recursive (c, l)-diversity):?簡單來說就是保證最經(jīng)常出現(xiàn)的值的出現(xiàn)頻率不要太高。

l-diversity也有其局限性:

?敏感屬性的性質(zhì)決定即使保證了一定概率的?diversity?也很容易泄露隱私。例如,醫(yī)院公開的艾滋病數(shù)據(jù)中,敏感屬性是“艾滋病陽性”(出現(xiàn)概率是?1%)和“艾滋病陰性”(出現(xiàn)概率是?99%),這兩種值的敏感性不同,造成的結(jié)果也不同。

?有些情況下?l-diversity是沒有意義的:比如說艾滋病數(shù)據(jù)的例子中僅含有兩種不同的值,保證2-diversity?也是沒有意義的。

?l-diversity很難達(dá)成:例如,我們想在?10000?條數(shù)據(jù)中保證?2-diversity,那么可能最多需要10000* 0.01 = 100?個(gè)相同的類型。這時(shí)可能通過之前介紹的?k-anonymity的方法很難達(dá)到。

?偏斜性攻擊?(Skewness Attack)假如我們要保證在同一類型的數(shù)據(jù)中出現(xiàn)“艾滋病陽性”和出現(xiàn)“艾滋病陰性”的概率是相同的,我們雖然保證了?diversity,但是我們泄露隱私的可能性會(huì)變大。因?yàn)閘-diversity?并沒有考慮敏感屬性的總體的分布。

?l-diversity沒有考慮敏感屬性的語義,比如說下面的例子,我們通過李雷的信息從公開數(shù)據(jù)中關(guān)聯(lián)到了兩條信息,通過這兩條信息我們能得出兩個(gè)結(jié)論。第一,李雷的工資相對較低;第二,李雷喜歡買電子電器相關(guān)的產(chǎn)品。

t-closeness

上面最后一個(gè)問題就引出了?t-closeness?的概念,t-closeness?是為了保證在相同的quasi-identifier類型組中,敏感信息的分布情況與整個(gè)數(shù)據(jù)的敏感信息分布情況接近(close),不超過閾值?t。

如果剛才的那個(gè)數(shù)據(jù)保證了?t-closeness?屬性,那么通過李雷的信息查詢出來的結(jié)果中,工資的分布就和整體的分布類似,進(jìn)而很難推斷出李雷工資的高低。

最后,如果保證了?k-anonymity,l-diversity?和?t-closeness,隱私就不會(huì)泄露了么?答案并不是這樣,我們看下面的例子:

在這個(gè)例子中,我們保證了?2- anonymity , 2-diversity , t-closeness(分布近似),工資和購買偏好是敏感屬性。攻擊者通過李雷的個(gè)人信息找到了四條數(shù)據(jù),同時(shí)知道李雷有很多書,這樣就能很容易在四條數(shù)據(jù)中找到李雷的那一條,從而造成隱私泄露??赡苡行┳x者會(huì)有疑問,通過背景知識(shí)攻擊?k-anonymity 的前提是不是假設(shè)了解?quasi-identifier??并不是這樣,針對敏感屬性的背景攻擊對?k-anonymity 也適用,所以無論經(jīng)過哪些屬性保證,隱私泄露還是很難避免。

差分隱私(differential privacy)

除了之前我們介紹的針對?k-anonymity, l-diversity,t-closeness?三種隱私保護(hù)方法的攻擊之外,還有一種叫做差分攻擊?( differential attack )。舉個(gè)例子,購物公司發(fā)布了購物偏好的數(shù)據(jù),說我們有?100?個(gè)人的購物偏好數(shù)據(jù),其中有?10?個(gè)人偏愛購買汽車用品,其他?90?個(gè)偏愛購買電子產(chǎn)品。如果攻擊者知道其中?99?個(gè)人是偏愛汽車用品還是電子產(chǎn)品,就可以知道第?100?個(gè)人的購物偏好。這樣通過比較公開數(shù)據(jù)和既有的知識(shí)推測出個(gè)人隱私,就叫做差分攻擊。

在?2009?年,微軟研究院的Cynthia Dwork?提出差分隱私的概念,差分隱私就是為了防止差分攻擊,也就是說盡管攻擊者知道發(fā)布的100個(gè)人的個(gè)人以信息和其中?99個(gè)人的信息,他也沒辦法通過比對這兩個(gè)信息獲得第?100個(gè)人的信息

簡單來說,差分隱私就是用一種方法使得查詢?100?個(gè)信息和查詢其中?99?個(gè)的信息得到的結(jié)果是相對一致的,那么攻擊者就無法通過比較(差分)數(shù)據(jù)的不同找出第100?個(gè)人的信息。這種方法就是加入隨機(jī)性,如果查詢?100?個(gè)記錄和?99?個(gè)記錄,輸出同樣的值的概率是一樣的,攻擊者就無法進(jìn)行差分攻擊。進(jìn)一步說,對于差別只有一條記錄的兩個(gè)數(shù)據(jù)集?D?和?D’ (neighboring datasets),查詢他們獲得結(jié)果相同的概率非常接近。注意,這里并不能保證概率相同,如果一樣的話,數(shù)據(jù)就需要完全的隨機(jī)化,那樣公開數(shù)據(jù)也就沒有意義。所以,我們需要盡可能接近,保證在隱私和可用性之間找到一個(gè)平衡。

ε-差分隱私?(ε-differential privacy,?ε-DP)?可以用下面的定義來表示:

其中?M?是在?D?上做任意查詢操作,對查詢后的結(jié)果加入一定的隨機(jī)性,也就是給數(shù)據(jù)加噪音,兩個(gè)datasets加上同一隨機(jī)噪音之后查詢結(jié)果為?C?的概率比小于一個(gè)特定的數(shù)?。這樣就能保證用戶隱私泄露的概率有一個(gè)數(shù)學(xué)的上界,相比傳統(tǒng)的k-anonymity,差分隱私使隱私保護(hù)的模型更加清晰。

我們用一個(gè)例子解釋差分隱私的定義:

上圖中?D1?和D2是兩個(gè)neighboring datasets,他們只有一條記錄不一致,在攻擊者查詢“20-30歲之間有多少人偏好購買電子產(chǎn)品”的時(shí)候,對于這兩個(gè)數(shù)據(jù)庫得到的查詢結(jié)果是?100?的概率分別是?99%和?98%,他們的比值小于某個(gè)數(shù)。如果對于任意的查詢,都能滿足這樣的條件,我們就可以說這種隨機(jī)方法是滿足ε-差分隱私的。因?yàn)?D1?和?D2是可以互換的,所以更加嚴(yán)格的講,他們的比值也要大于。

無論查詢是什么,兩個(gè)相鄰的數(shù)據(jù)庫返回的結(jié)果總是近似的。

要達(dá)到數(shù)據(jù)的差分隱私有四種方法:

1.????輸出結(jié)果變換

2.????輸入查詢變換

3.????中間值變換

4.????抽樣和聚合數(shù)據(jù)

本文接下來主要介紹輸出結(jié)果變換的方法,這種方法主要針對查詢結(jié)果是數(shù)值或者數(shù)值向量的情況,通過加入噪聲使輸出結(jié)果達(dá)到?ε-DP。

輸出結(jié)果變換:加入噪聲

在差分隱私中,防止隱私泄露的重要因素是在查詢結(jié)果中加噪音,對于數(shù)值的查詢結(jié)果,一種常見的方法就是對結(jié)果進(jìn)行數(shù)值變換。要解釋如何加入噪音,我們先看一下下面的這個(gè)例子:

假如某公司公開了數(shù)據(jù),并且對外提供了查詢數(shù)據(jù)的接口?f(x),針對不同的查詢?x,服務(wù)器都會(huì)輸出一個(gè)查詢結(jié)果f(x) +?噪聲,加入噪聲就是為了保證?ε-差分隱私。

那么如何選擇噪聲呢?

差分隱私方法中,作者巧妙的利用了拉普拉斯分布的特性,找到了合適的噪聲方法。針對數(shù)值或向量的查詢輸出,M(x) = f(x) +?噪聲。我們能得出以下結(jié)論:

其中?Lap?是拉普拉斯分布,GS?表示?global sensitivity:

詳細(xì)的證明可以參考差分隱私的相關(guān)文章。

我們有了這個(gè)結(jié)論,想要對某個(gè)查詢接口?f(x)?保證?ε-DP?的話,只需要在查詢結(jié)果上加入?Lap(GS/e)?的噪聲就可以了。

拉普拉斯分布和其概率密度函數(shù)如下:

(ε,δ)-differential privacy, (ε, δ)-DP

ε-DP?是一種“嚴(yán)格”的隱私保護(hù)保證,當(dāng)在數(shù)據(jù)庫中添加和刪除一條數(shù)據(jù)時(shí)候,保證所有查詢的輸出都類似。但是(ε, δ)-DP?在?ε-DP?的保證中允許了一定概率的錯(cuò)誤發(fā)生,比如說,用戶在?(ε, δ)-DP?的保護(hù)下會(huì)有?δ?概率的隱私泄露。

基于這些的概念,差分隱私在機(jī)器學(xué)習(xí)算法中也能夠使用,常見的算法,比如說?PCA、logistic regression、SVM都有對應(yīng)的差分隱私化算法。

差分隱私在數(shù)據(jù)的實(shí)用性和隱私性之間達(dá)到了平衡,使用者可以通過設(shè)定自己的“隱私預(yù)算”(privacy budget)來調(diào)整數(shù)據(jù)的實(shí)用性和隱私性。但是差分隱私也不是萬能的,其中加入噪聲的很多算法需要在大量的數(shù)據(jù)集上才實(shí)用。除此之外,什么才是“隱私預(yù)算”的合理設(shè)定也是一個(gè)問題。這些都是差分隱私面臨的問題和挑戰(zhàn)。并且由于差分隱私對于“背景知識(shí)”的要求過于強(qiáng),所以需要在結(jié)果中加入大量隨機(jī)化,導(dǎo)致數(shù)據(jù)的可用性(utility)急劇下降。但是差分隱私作為一個(gè)非常優(yōu)雅的數(shù)學(xué)工具,是隱私保護(hù)的研究在未來的一個(gè)發(fā)展方向。差分隱私用嚴(yán)格的數(shù)學(xué)證明告訴人們一個(gè)匿名化的公開數(shù)據(jù)究竟能保護(hù)用戶多少的隱私。

k-匿名化與 ε-差分隱私的關(guān)系

我們前面分別單獨(dú)介紹了?k-匿名化和?ε-差分隱私,k-匿名化相對比較容易理解和實(shí)踐,差分隱私更像是從理論上證明了隱私保護(hù)的邊界。

雖然方法的分析角度完全不同,但是它們之間卻有著緊密的聯(lián)系。普渡大學(xué)的Ninghui Li教授在?Provably PrivateData Anonymization: Or, k-Anonymity Meets Differential Privacy?文章中詳細(xì)分析了?k-匿名化和?ε-差分隱私之間的關(guān)系。文章證明了在使用?k-匿名化“得當(dāng)”的情況下,可以滿足一定條件的?(ε, δ)-differentialprivacy。同時(shí)也提出了一種?k-anonymity?的變形:β-Sampling+ Data-independent _Generalization + k-Suppression (k, β)-SDGS,通過變形后的 k-anonymity 就可以使之滿足差分隱私。通過使用差分隱私這種工具,我們就能精確的衡量前人提出的 k-anonymity,在理論研究上具有重要意義。

實(shí)際案例

在實(shí)際應(yīng)用中使用差分隱私時(shí)需要考慮的問題還有很多,我們在介紹差分隱私的時(shí)候假設(shè)所有的查詢操作都由可信的數(shù)據(jù)庫處理,數(shù)據(jù)庫里存儲(chǔ)著用戶的原始數(shù)據(jù)。那么如果數(shù)據(jù)庫被攻擊了,包含用戶隱私的原始數(shù)據(jù)就泄露了。

如果不收集用戶的原始數(shù)據(jù),在客戶端上先做差分隱私,再上傳給服務(wù)器,這個(gè)問題就解決了。最近Google率先使用RAPPOR系統(tǒng)在?Chrome?瀏覽器上通過這種方法收集用戶的使用情況數(shù)據(jù)。RAPPOR?基于“隨機(jī)應(yīng)答”(randomized response)的方法保護(hù)用戶的原始數(shù)據(jù)不被泄露,隨機(jī)應(yīng)答的流程如下:

1.?????當(dāng)用戶需要上報(bào)個(gè)人數(shù)據(jù)的時(shí)候,首先“拋硬幣”決定是否上報(bào)真實(shí)數(shù)據(jù)。如果是正面,則上報(bào)真實(shí)數(shù)據(jù)。如果不是,就上報(bào)一個(gè)隨機(jī)的數(shù)據(jù),再“拋一次硬幣”決定隨機(jī)數(shù)據(jù)的內(nèi)容。

2.?????服務(wù)器收到所有的數(shù)據(jù)后,因?yàn)橹馈皰佊矌拧笔钦娴母怕?,服?wù)器就能夠判斷返回的數(shù)據(jù)是正確的概率。

這種“隨機(jī)應(yīng)答”的方法在理論上也被證明是服從ε-差分隱私的。對于用戶來說,隱私數(shù)據(jù)在上報(bào)給服務(wù)器之前就已經(jīng)加了噪聲,從而具有一定保證。對于公司來說,也能收集到有效的數(shù)據(jù)。

RAPPOR?使用“隨機(jī)應(yīng)答”的方法克服了之前只能回答簡單查詢語句的限制,現(xiàn)在可以上報(bào)包含字符串這類更加復(fù)雜的回答。RAPPOR?在上報(bào)字符串信息的時(shí)候首先使用“布隆過濾器”(bloom filter)算法把字符串哈希到一個(gè)數(shù)組中,然后再加入噪聲傳給服務(wù)器。布隆過濾器不需要存儲(chǔ)元素本身,并可以用于檢索一個(gè)元素是否在一個(gè)集合中。通過使用這種方法,就可以對字符串?dāng)?shù)據(jù)添加噪音,保護(hù)用戶的隱私。

蘋果在?2016?年的世界開發(fā)者大會(huì)(WWDC)上也宣布使用差分隱私的方法收集用戶數(shù)據(jù)。雖然蘋果沒有透露具體的細(xì)節(jié),我們從官方的描述中也可以推測出蘋果也使用了在客戶端上做匿名化再傳輸?shù)椒?wù)器的方法。

Differentialprivacy is a research topic in the areas of statistics and data analytics thatuseshashing, subsampling and noiseinjectionto enable…crowdsourced learning while keeping the data ofindividual users completely private. Apple has been doing some super-importantwork in this area to enable differential privacy to be deployed at scale.

我們剛才介紹的?Google?和?Apple?的模型都是先在本地做差分隱私,然后再上報(bào)給服務(wù)器,我們把這種方法叫做本地模式(local mode)。這種差分隱私的做法在上報(bào)數(shù)據(jù)可以相互關(guān)聯(lián)的情況下還是存在隱私泄漏。Google的RAPPOR雖然解決了對同一個(gè)數(shù)據(jù)的多次上報(bào)的隱私泄露問題,但并沒有解決多個(gè)相關(guān)數(shù)據(jù)上報(bào)后產(chǎn)生的隱私泄露問題。對于這一問題,Apple也沒有給出詳細(xì)的解釋。

除了Google?和蘋果在內(nèi)部產(chǎn)品中使用差分隱私方法,哈佛大學(xué)公開了一個(gè)名為PSI (Ψ)?的項(xiàng)目,提供了一個(gè)便捷的差分隱私工具。使用者通過上傳數(shù)據(jù),調(diào)整差分隱私的參數(shù),就可以獲得滿足差分隱私的數(shù)據(jù)集。

總結(jié)

本文介紹了學(xué)術(shù)界和工業(yè)界對于用戶隱私保護(hù)的努力成果。我們首先介紹了?k-anonymity,即通過變換隱私數(shù)據(jù),保證相同特性的用戶在數(shù)據(jù)庫出現(xiàn)的次數(shù)至少是?k?次。然后,為了防止攻擊者通過隱私數(shù)據(jù)的背景知識(shí)推測用戶身份,提出使用?l-diversity,保證相同特征的用戶中,隱私數(shù)據(jù)相同的個(gè)數(shù)大于?l。除此之外,我們也討論了?t-closeness。最后我們詳細(xì)介紹了差分隱私的概念,以及實(shí)際應(yīng)用中應(yīng)如何使用差分隱私。

從最開始的?k-anonymity, l-diversity , t-closeness?到現(xiàn)在的?ε-差分隱私,都是為了既保證用戶的個(gè)人隱私,也能對實(shí)際應(yīng)用和研究提供有價(jià)值的數(shù)據(jù)。在大數(shù)據(jù)的時(shí)代中,希望各公司在利用數(shù)據(jù)提供更好的服務(wù)的同時(shí),能保護(hù)好用戶的個(gè)人隱私。這是法律的要求,也是安全行業(yè)的追求。我們相信隱私保護(hù)技術(shù)會(huì)越來越受到重視,并從學(xué)術(shù)理論迅速投入工業(yè)界實(shí)戰(zhàn)應(yīng)用。

參考文章

https://www.cis.upenn.edu/~aaroth/Papers/privacybook.pdf

https://www.cs.cmu.edu/~yuxiangw/docs/Differential%20Privacy.pdf

https://blog.cryptographyengineering.com/2016/06/15/what-is-differential-privacy/

https://www.chromium.org/developers/design-documents/rappor

http://static.googleusercontent.com/media/research.google.com/en/us/pubs/archive/42852.pdf

Provably Private Data Anonymization: Or,k-Anonymity Meets Differential Privacy

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,619評論 6 539
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 99,155評論 3 425
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 177,635評論 0 382
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,539評論 1 316
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 72,255評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,646評論 1 326
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,655評論 3 444
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,838評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,399評論 1 335
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 41,146評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 43,338評論 1 372
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,893評論 5 363
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,565評論 3 348
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,983評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,257評論 1 292
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 52,059評論 3 397
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 48,296評論 2 376

推薦閱讀更多精彩內(nèi)容