知識(shí)圖譜在大數(shù)據(jù)反欺詐領(lǐng)域的應(yīng)用與實(shí)踐

1、為什么要用大數(shù)據(jù)來反欺詐?

近些年來互聯(lián)網(wǎng)金融蓬勃發(fā)展,特別是P2P的興起,顛覆了傳統(tǒng)的銀行貸款模式,給大眾帶來快速便捷的金融服務(wù);在P2P行業(yè)中,借款端的風(fēng)險(xiǎn)是P2P公司面臨的主要風(fēng)險(xiǎn),而借款端的風(fēng)控水平可以說決定了一家P2P公司的核心競(jìng)爭(zhēng)力。

借款端風(fēng)險(xiǎn)的一個(gè)主要來源是欺詐風(fēng)險(xiǎn),傳統(tǒng)的反欺詐手段主要依賴于信息的人工審核,而身份證、手機(jī)號(hào)碼、銀行流水等材料的偽造成本非常低,各類信貸服務(wù)機(jī)構(gòu)均不得不投入大量的人力用于核實(shí)信息主體的身份及其提供材料的真實(shí)性;在這種形式下大數(shù)據(jù)反欺詐成為了P2P平臺(tái)提高風(fēng)險(xiǎn)控制水平的新思路。

大數(shù)據(jù)反欺詐,即是通過對(duì)數(shù)據(jù)的采集和分析,找出欺詐者的蛛絲馬跡,挖掘其數(shù)據(jù)的矛盾點(diǎn)和可疑點(diǎn),識(shí)別和預(yù)防欺詐事件的發(fā)生。大數(shù)據(jù)收集了大量異構(gòu)、多樣化的信息,包括可交叉驗(yàn)證信息主體所提供的信息以及第三方信息來源的真實(shí)性,尤其是對(duì)于第三方信息來源,信息主體想要進(jìn)行長時(shí)間、全方位的偽造,非常困難,成本較高,并且事實(shí)上經(jīng)常不可行,因此大數(shù)據(jù)具有較強(qiáng)的反欺詐能力。

2、面對(duì)的挑戰(zhàn)

大數(shù)據(jù)反欺詐技術(shù)又可以分解為兩個(gè)子問題,第一個(gè)問題是在用戶的授權(quán)下如何收集用戶的相關(guān)數(shù)據(jù),包括去哪里收集和收集哪些數(shù)據(jù),為此我們對(duì)接了大量的第三方數(shù)據(jù)提供商的系統(tǒng),還在用戶的授權(quán)下,利用網(wǎng)絡(luò)爬蟲抓取公開的互聯(lián)網(wǎng)數(shù)據(jù),從而不斷完善和豐富數(shù)據(jù)集,增加覆蓋維度;第二個(gè)問題是如何整合和利用已收集的數(shù)據(jù)解決反欺詐問題,由于數(shù)據(jù)來源多,數(shù)據(jù)異構(gòu)碎片化,結(jié)構(gòu)(structure)、半結(jié)構(gòu)(semi-structure)和無結(jié)構(gòu)(adhoc)數(shù)據(jù)共存,并且規(guī)模龐大增長迅速,因此這一過程的挑戰(zhàn)在于如何整合異構(gòu)的數(shù)據(jù)源,如何有效的利用已有的數(shù)據(jù)進(jìn)行交叉驗(yàn)證。

為了應(yīng)對(duì)這個(gè)挑戰(zhàn),我們利用圖(Graph)的數(shù)據(jù)結(jié)構(gòu),將不同渠道的碎片化、異構(gòu)數(shù)據(jù)整合成為機(jī)器可以理解的知識(shí),構(gòu)建了知識(shí)圖譜(Knowledge Graph),借助規(guī)則引擎(Rule Engine),實(shí)現(xiàn)了欺詐的識(shí)別與防御。

3、知識(shí)圖譜的概念

知識(shí)圖譜是一種基于圖的數(shù)據(jù)結(jié)構(gòu),其目的是將真實(shí)世界所存在的實(shí)體,知識(shí)以及概念等描述成機(jī)器可以理解的數(shù)據(jù)結(jié)構(gòu),將數(shù)據(jù)轉(zhuǎn)化為知識(shí);圖的節(jié)點(diǎn)(Point)是真實(shí)世界所存在實(shí)體,由一個(gè)全劇唯一的ID來標(biāo)識(shí)和索引,每個(gè)實(shí)體可以帶有若干不同的屬性(Property),用來刻畫實(shí)體的特性,而圖的邊(Edge)則用來描述兩個(gè)實(shí)體的關(guān)系,例如is-a關(guān)系,表示一個(gè)實(shí)體是另一個(gè)實(shí)體的一種,或是has-a關(guān)系,表示一個(gè)實(shí)體具有另一個(gè)實(shí)體,這樣的關(guān)系都是用來刻畫實(shí)體之間的關(guān)聯(lián)關(guān)系。知識(shí)圖譜可以看作一個(gè)巨大的網(wǎng)絡(luò),是由數(shù)據(jù)繪制出來的一張知識(shí)圖。

知識(shí)圖譜最先由Google提出(http://googleblog.blogspot.sg/2012/05/introducing-knowledge-graph-things-not.html),用于提升搜索引擎質(zhì)量。舉一個(gè)簡(jiǎn)單的例子,當(dāng)我們用Google搜索“劉德華的老婆”時(shí),Google返回了朱麗倩的信息,說明Google是理解了搜索框中的內(nèi)容才進(jìn)行的搜索,而不是簡(jiǎn)單的字符串檢索,這就是一個(gè)知識(shí)圖譜的應(yīng)用場(chǎng)景。

4、知識(shí)圖譜在反欺詐場(chǎng)景的應(yīng)用

在反欺詐場(chǎng)景中,知識(shí)圖譜聚合各類數(shù)據(jù)源,逐步繪制出借款人的profile,從而針對(duì)性質(zhì)的識(shí)別欺詐風(fēng)險(xiǎn)。以一個(gè)借款人舉例,借款人可以有身份證號(hào),手機(jī)號(hào),學(xué)歷等個(gè)人信息,屬于個(gè)人的屬性信息;而借款人可以有擔(dān)保人或是親屬好友,借款人與擔(dān)保人之間的關(guān)系(也就是邊Edge)是被擔(dān)保與擔(dān)保的關(guān)系,借款人與其親屬好友之間的關(guān)系是父親、母親、同事、同學(xué)等關(guān)系;借款人也具有住址,銀行流水,工作單位等信息。這些信息可以來自于多個(gè)渠道,例如可以由借款人自己填寫,或是積累的歷史數(shù)據(jù),或是數(shù)據(jù)提供商提供,或是在互聯(lián)網(wǎng)上獲得,甚至通過推理得到,往往具有冗余性;信息通過圖的形式連結(jié),展示出了借款人的profile。

4.1、識(shí)別數(shù)據(jù)造假

當(dāng)融合來自不同數(shù)據(jù)源的信息構(gòu)成知識(shí)圖譜時(shí),有一些實(shí)體會(huì)同時(shí)屬于兩個(gè)互斥的類別(例如同時(shí)在兩個(gè)不同的城市工作),或某個(gè)實(shí)體所對(duì)應(yīng)的一個(gè)Property(同一個(gè)人的住址)對(duì)應(yīng)多個(gè)值,這樣就會(huì)出現(xiàn)不一致性,這個(gè)不一致性即可判定為潛在的可疑點(diǎn)。

通過這種不一致性檢測(cè),我們利用繪制出的知識(shí)圖譜可以識(shí)別潛在的欺詐風(fēng)險(xiǎn)。在P2P行業(yè),欺詐風(fēng)險(xiǎn)主要的騙術(shù)包括個(gè)人信息造假、工作單位虛假、代辦包裝、虛假聯(lián)系人、組團(tuán)騙貸等。以識(shí)別數(shù)據(jù)造假為例,利用知識(shí)圖譜我們可以通過借款人的身份信息PII(Personal Identify Information),例如手機(jī)號(hào)或是身份證號(hào),直接索引到個(gè)人的全部信息,并以此與借款人的填寫信息進(jìn)行不一致性檢測(cè);也可以通過借款人的其他信息進(jìn)行推理出其相關(guān)信息進(jìn)行驗(yàn)證,舉一個(gè)例子,我們可以通過借款人的身份證號(hào)和姓名可以獲得他的學(xué)歷信息和年齡,通過學(xué)歷信息和年齡可以推算出其工作年限,再根據(jù)其所在城市,行業(yè),職位,結(jié)合互聯(lián)網(wǎng)上的招聘網(wǎng)站數(shù)據(jù)推理出其薪水范圍,進(jìn)而驗(yàn)證他的收入水平;甚至可以通過不同借款人之間的同事關(guān)系,驗(yàn)證其工作單位的真假。

4.2、組團(tuán)欺詐和代辦包裝

除了對(duì)數(shù)據(jù)造假進(jìn)行驗(yàn)證外,由于圖結(jié)構(gòu)帶來的天然關(guān)聯(lián)檢索的特點(diǎn),知識(shí)圖譜可以識(shí)別潛在的代辦包裝或是組團(tuán)騙貸。我們利用征信公司提供的欺詐數(shù)據(jù),擁有的代辦包裝公司數(shù)據(jù),互聯(lián)網(wǎng)公開欺詐黑名單,行業(yè)黑名單聯(lián)盟等數(shù)據(jù)開發(fā)了大量的標(biāo)簽數(shù)據(jù),對(duì)實(shí)體(包括公司和人)貼上標(biāo)簽,例如逾期,虛假手機(jī)號(hào),代辦包裝或是組團(tuán)騙貸等標(biāo)簽,當(dāng)借款人進(jìn)行申請(qǐng)貸款時(shí),如果我們發(fā)現(xiàn)他和bad people/company/info具有較多的關(guān)聯(lián)關(guān)系,那么這個(gè)人有很大的可能是欺詐,從而識(shí)別出風(fēng)險(xiǎn)。

與搜索引擎的場(chǎng)景不同,知識(shí)圖譜在反欺詐場(chǎng)景中具有較低的應(yīng)用門檻,數(shù)據(jù)量較少時(shí)也可以進(jìn)行低程度的交叉驗(yàn)證,而隨著數(shù)據(jù)量的積累和增多,知識(shí)圖譜也會(huì)越來越完善,其反欺詐能力也會(huì)越來越強(qiáng)。我們建立了名為”Matrix”的大數(shù)據(jù)反欺詐系統(tǒng),在借款人提交借款申請(qǐng)開始即介入整個(gè)風(fēng)控流程,對(duì)接多個(gè)數(shù)據(jù)源以獲取借款人的數(shù)據(jù)信息,在各個(gè)環(huán)節(jié)建立checkpoint,通過可配置的規(guī)則引擎在各個(gè)checkpoint執(zhí)行預(yù)定的邏輯,識(shí)別和防御欺詐風(fēng)險(xiǎn)。

結(jié)語

這篇文章介紹了點(diǎn)融網(wǎng)在大數(shù)據(jù)反欺詐領(lǐng)域的嘗試與實(shí)踐,比較系統(tǒng)的介紹了知識(shí)圖譜技術(shù)在反欺詐領(lǐng)域的應(yīng)用。知識(shí)圖譜的構(gòu)建離不開數(shù)據(jù)的積累,也需要知識(shí)庫、自然語言理解、機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘等多方面知識(shí)的融合;知識(shí)圖譜使得機(jī)器能夠理解現(xiàn)實(shí)世界的實(shí)體和關(guān)系,正如Google所說,a “graph”—that understands real-world entities and their relationships to one another: things, not strings.

本文作者:程書欣(點(diǎn)融黑幫),現(xiàn)任點(diǎn)融網(wǎng)研發(fā)工程師,關(guān)注大數(shù)據(jù)風(fēng)控技術(shù),主導(dǎo)研發(fā)點(diǎn)融網(wǎng)反欺詐系統(tǒng)Matrix。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容